12.07.2013 Views

Algorithme d'optimisation par colonie de fourmis - Cercle ...

Algorithme d'optimisation par colonie de fourmis - Cercle ...

Algorithme d'optimisation par colonie de fourmis - Cercle ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Faculté <strong>de</strong>s Sciences<br />

Dé<strong>par</strong>tement d’Informatique<br />

<strong>Algorithme</strong> d’optimisation <strong>par</strong> <strong>colonie</strong><br />

<strong>de</strong> <strong>fourmis</strong> : développement et<br />

application à la prédiction ab initio <strong>de</strong><br />

la structure native <strong>de</strong>s protéines<br />

Fabian TEHEUX<br />

Mémoire présenté sous la direction du Prof. Marianne ROOMAN<br />

et du Prof. Esteban ZIMANYI<br />

en vue <strong>de</strong> l’obtention du gra<strong>de</strong> <strong>de</strong> Licencié en Informatique<br />

Année académique 2005–2006


Table <strong>de</strong>s matières<br />

Préface 7<br />

1 Introduction 9<br />

1.1 Les protéines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9<br />

1.1.1 Structure primaire . . . . . . . . . . . . . . . . . . . . . . . 10<br />

1.1.2 Structure secondaire . . . . . . . . . . . . . . . . . . . . . . 11<br />

1.1.3 Structure tertiaire . . . . . . . . . . . . . . . . . . . . . . . . 12<br />

1.2 Le repliement <strong>de</strong>s protéines . . . . . . . . . . . . . . . . . . . . . . 13<br />

1.3 La prédiction <strong>de</strong> la structure native <strong>de</strong>s protéines . . . . . . . . . . 17<br />

1.3.1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />

1.3.2 Aperçu général <strong>de</strong>s métho<strong>de</strong>s <strong>de</strong> prédiction . . . . . . . . 18<br />

1.3.3 Les impératifs <strong>de</strong> la prédiction <strong>de</strong> structures natives . . . . 19<br />

2 Présentation <strong>de</strong>s outils et métho<strong>de</strong>s existants 20<br />

2.1 Les modèles utilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />

2.1.1 Modélisation <strong>de</strong> la protéine . . . . . . . . . . . . . . . . . . 20<br />

2.1.2 Discrétisation <strong>de</strong> l’espace conformationnel . . . . . . . . . 23<br />

2.2 L’exploration <strong>de</strong> l’espace conformationnel . . . . . . . . . . . . . . 25<br />

2.2.1 Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />

2.2.2 Le Recuit Simulé . . . . . . . . . . . . . . . . . . . . . . . . 26<br />

2.2.3 Recherche Tabou . . . . . . . . . . . . . . . . . . . . . . . . 27<br />

2.2.4 <strong>Algorithme</strong>s évolutionnaires . . . . . . . . . . . . . . . . . 28<br />

2.2.5 Colonies <strong>de</strong> <strong>fourmis</strong> . . . . . . . . . . . . . . . . . . . . . . 32<br />

2.2.6 Métho<strong>de</strong>s hybri<strong>de</strong>s . . . . . . . . . . . . . . . . . . . . . . . 39<br />

2.3 Les fonctions énergétiques . . . . . . . . . . . . . . . . . . . . . . . 39<br />

2.4 L’évaluation <strong>de</strong>s résultats d’une prédiction . . . . . . . . . . . . . 40<br />

2.5 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41<br />

2


TABLE DES MATIÈRES 3<br />

3 Nos outils et métho<strong>de</strong>s 42<br />

3.1 Modélisation <strong>de</strong> nos protéines . . . . . . . . . . . . . . . . . . . . . 43<br />

3.2 Discrétisation <strong>de</strong> notre espace <strong>de</strong> recherche . . . . . . . . . . . . . 45<br />

3.3 Exploration <strong>de</strong> l’espace conformationnel . . . . . . . . . . . . . . . 46<br />

3.4 Fonction énergétique utilisée . . . . . . . . . . . . . . . . . . . . . 48<br />

3.4.1 Les potentiels <strong>de</strong> torsion . . . . . . . . . . . . . . . . . . . . 48<br />

3.4.2 Les potentiels <strong>de</strong> distance . . . . . . . . . . . . . . . . . . . 49<br />

3.4.3 Utilisation combinée <strong>de</strong>s potentiels . . . . . . . . . . . . . 50<br />

3.5 Evaluation <strong>de</strong> nos solutions . . . . . . . . . . . . . . . . . . . . . . 51<br />

3.6 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />

4 Notre algorithme : AC-ProPre 52<br />

4.1 L’espace conformationnel . . . . . . . . . . . . . . . . . . . . . . . 52<br />

4.2 Les potentiels énergétiques . . . . . . . . . . . . . . . . . . . . . . 53<br />

4.3 La structure et les calculs effectués sur les protéines . . . . . . . . 54<br />

4.3.1 La structure protéique tridimensionnelle . . . . . . . . . . 55<br />

4.3.2 Les métho<strong>de</strong>s <strong>de</strong> calcul . . . . . . . . . . . . . . . . . . . . 56<br />

4.4 La <strong>colonie</strong> <strong>de</strong> <strong>fourmis</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . 59<br />

4.5 Récapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60<br />

5 Tests et résultats 62<br />

5.1 Les configurations d’exécution <strong>de</strong> notre algorithme . . . . . . . . 62<br />

5.2 Résultats obtenus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />

5.2.1 Evaluation énergétique <strong>de</strong> notre algorithme . . . . . . . . 63<br />

5.2.2 Calcul du RMSD . . . . . . . . . . . . . . . . . . . . . . . . 64<br />

5.2.3 RMSD Vs énergie libre . . . . . . . . . . . . . . . . . . . . . 69<br />

5.3 Notre meilleure prédiction : une RMSD <strong>de</strong> 3,5222Å . . . . . . . . 72<br />

Conclusion 76<br />

Bibliographie 78


Table <strong>de</strong>s figures<br />

1.1 Représentation atomique d’un aci<strong>de</strong> aminé. . . . . . . . . . . . . . 10<br />

1.2 Représentation simplifiée d’un aci<strong>de</strong> aminé. . . . . . . . . . . . . . 11<br />

1.3 Illustration <strong>de</strong>s angles <strong>de</strong> torsion φ et ψ dûs aux liaisons chimiques. 12<br />

1.4 Exemples <strong>de</strong> structures secondaires : (a)hélice-α, (b)feuillet-β. . . 12<br />

1.5 Exemples <strong>de</strong> structure tertiaire : l’ubiquitine. . . . . . . . . . . . . 13<br />

1.6 Représentation tridimensionnelle du paysage énergétique d’une<br />

protéine : (a) un paysage énergétique idéal, (b) un paysage énergétique<br />

réel, (c) <strong>de</strong>ux chemins <strong>de</strong> repliement différents, (d) le<br />

<strong>par</strong>adoxe <strong>de</strong> Levinthal. [source : Gilquin Bernard : Exploration<br />

<strong>de</strong>s méchanismes <strong>de</strong> repliement <strong>de</strong>s protéines <strong>par</strong> dynamique<br />

moléculaire] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

2.1 Résultats d’une prédiction bidimensionelle basée sur le modèle<br />

HP pour une protéine <strong>de</strong> séquence ’HHHPPHPHPHPPHPHPHP-<br />

PH’ (le début <strong>de</strong> la séquence est symbolisée <strong>par</strong> ’1’ et les résidus<br />

’H’ sont en noir). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

2.2 Illustration <strong>de</strong> l’angle ω. La molécule entourée est un résidu quelconque<br />

venu s’attacher au résidu que nous étudions. . . . . . . . 22<br />

2.3 Exemple <strong>de</strong> modification conformationnelle locale : (a) l’état avant<br />

la modification conformationnelle, (b) l’état après la modification<br />

conformationnelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />

2.4 Fonctionnement d’un algorithme évolutionnaire ordinaire. . . . . 30<br />

2.5 Evolution du comportement <strong>de</strong>s <strong>fourmis</strong> en fonction d’une modification<br />

<strong>de</strong> l’environnement : (a) situation initiale, (b) un ostacle<br />

s’interpose et les <strong>fourmis</strong> choisissent d’aller d’un côté ou <strong>de</strong> l’autre<br />

avec la même probabilité, (c) l’axe BCD étant plus court, les <strong>fourmis</strong><br />

arrivent plus vite <strong>de</strong> l’autre côté <strong>de</strong> l’obstacle, (d) le nombre<br />

croissant <strong>de</strong> phéromones fait émerger le chemin BCD. . . . . . . . 33<br />

4


TABLE DES FIGURES 5<br />

3.1 Représentation simplifiée d’un aci<strong>de</strong> aminé, attention le cas <strong>par</strong>ticulier<br />

<strong>de</strong> la Glycine verra ses atomes Cβ et Cµ se trouver au même<br />

endroit que l’atome Cα. . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />

3.2 Exemple d’angle <strong>de</strong> valence : en pointillé, l’angle <strong>de</strong> valence associé<br />

à l’atome O. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />

4.1 AC-ProPre : déroulement schématique. . . . . . . . . . . . . . . . 61<br />

5.1 Graphiques <strong>de</strong> l’énergie moyenne <strong>de</strong>s prédictions effectuées avec<br />

une configuration <strong>de</strong> (α = 1, β = 1, ρ = 0.8, ds0 et ds1 ne sont pas<br />

pris en compte). Les graphique allignés se passent à un nombre<br />

d’itérations équivalent et les graphiques en colonne ont le même<br />

facteur d’élitisme. Les quatres courbes représentent chacune un<br />

nombre <strong>de</strong> <strong>fourmis</strong> d’élite différent. . . . . . . . . . . . . . . . . . 65<br />

5.2 Graphiques <strong>de</strong> l’énergie moyenne <strong>de</strong>s prédictions effectuées avec<br />

une configuration <strong>de</strong> (α = 1, β = 1, ρ = 0.6, ds0 et ds1 ne sont pas<br />

pris en compte). Dans ce cas-ci, les diverses courbe montrent un<br />

comportement tout à fait dis<strong>par</strong>ate. . . . . . . . . . . . . . . . . . . 66<br />

5.3 Graphiques <strong>de</strong> l’énergie moyenne <strong>de</strong>s prédictions effectuées avec<br />

une configuration <strong>de</strong> (α = 1, β = 2, ρ = 0.8, ds0 et ds1 sont<br />

pris en compte). Les graphique allignés se passent à un nombre<br />

d’itérations équivalent et les graphiques en colonne ont le même<br />

facteur d’élitisme. Les quatres courbes représentent chacune un<br />

nombre <strong>de</strong> <strong>fourmis</strong> d’élite différent. . . . . . . . . . . . . . . . . . 67<br />

5.4 Graphiques <strong>de</strong> l’énergie moyenne <strong>de</strong>s prédictions effectuées avec<br />

une configuration <strong>de</strong> (α = 1, β = 1, ρ = 0.6, ds0 et ds1 sont<br />

pris en compte). Dans ce cas-ci, les diverses courbe montrent un<br />

comportement tout à fait dis<strong>par</strong>ate. . . . . . . . . . . . . . . . . . . 68<br />

5.5 Graphiques du RMSD moyen <strong>de</strong>s prédictions effectuées avec une<br />

configuration <strong>de</strong> (α = 1, β = 5, ρ = 0.8, ds0 et ds1 sont pris en<br />

compte). L’allure <strong>de</strong> ces courbes n’évoque rien <strong>de</strong> <strong>par</strong>ticulier. . . . 70<br />

5.6 Graphiques <strong>de</strong> com<strong>par</strong>aison entre le RMSD et l’énergie libre d’une<br />

conformation prédite : (a) prise en compte <strong>de</strong> toute les prédictions<br />

effectuées sans considération <strong>de</strong>s potentiels <strong>de</strong> distance, (b) limitation<br />

aux prédictions présentant un RMSD inférieur à 7Å. . . . . 71<br />

5.7 Représentation <strong>de</strong> la structure tertiaire <strong>de</strong> la prédiction effectuée<br />

<strong>par</strong> AC-ProPre. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73<br />

5.8 Représentation <strong>de</strong> la structure tertiaire <strong>de</strong> l’ubiquitine (résidu 1-35). 74


TABLE DES FIGURES 6<br />

5.9 Supperposition <strong>de</strong> la conformation simulée <strong>par</strong> AC-ProPre avec<br />

la conformation native connue. . . . . . . . . . . . . . . . . . . . . 75


Préface<br />

Depuis ses origines, l’informatique a apporté <strong>de</strong>s solutions dans <strong>de</strong>s domaines<br />

aussi variés que complexes. Aujourd’hui, la science y fait une fois <strong>de</strong><br />

plus appel afin <strong>de</strong> prédire la structure tridimentionelle <strong>de</strong>s protéines.<br />

Dans la vie <strong>de</strong> tous les jours, les protéines jouent <strong>de</strong>s rôles importants sur<br />

notre Terre. Il est donc très intéressant <strong>de</strong> comprendre comment elles fonctionnent.<br />

Malheureusement, il nous faut pour ce faire déterminer la structure<br />

tridimentionnelle qu’une protéine adoptera afin <strong>de</strong> jouer son rôle biologique.<br />

Cela n’est évi<strong>de</strong>mment pas aisé !<br />

Les scientifiques se sont donc rués sur <strong>de</strong>s métho<strong>de</strong>s expérimentales ayant<br />

fait leurs preuves, mais ces métho<strong>de</strong>s sont d’une lenteur que le plus patient<br />

<strong>de</strong>s curieux ne saurait supporter. Ainsi, <strong>de</strong> nombreux chercheurs utilisent aujourd’hui<br />

les moyens informatiques afin <strong>de</strong> prédire ce que l’expérience pourra<br />

démontrer.<br />

Lorsqu’un jour <strong>de</strong>s métho<strong>de</strong>s <strong>de</strong> prédictions seront <strong>par</strong>faitement au point, il<br />

sera alors possible <strong>de</strong> créer les médicaments les plus adaptés aux défaillances<br />

diverses <strong>de</strong> l’organisme, d’utiliser au mieux les diverses caractéristiques <strong>de</strong> ces<br />

protéines afin d’embellir notre environnement, etc. Un jour peut-être sera-t-il<br />

même possible <strong>de</strong> créer une protéine en fonction <strong>de</strong> besoins du moment !<br />

Nous voicis donc <strong>de</strong>vant une frontière scientifique que l’exploration ne fera<br />

que repousser... En ce qui nous concerne, nous ferons un premier pas dans<br />

l’implémentation d’une métho<strong>de</strong> <strong>de</strong> prédiction (basée sur la métaheuristique<br />

d’optimisation <strong>par</strong> <strong>colonie</strong> <strong>de</strong> <strong>fourmis</strong>) appliquée à un espace discret mais proche<br />

<strong>de</strong> celui dans lequel évoluent les protéines réelles. En effet, la littérature actuelle<br />

propose quelques articles implémentant ce type <strong>de</strong> métho<strong>de</strong> mais elle n’a encore<br />

jamais été utilisée avec <strong>de</strong>s modèles <strong>de</strong> représentations proche <strong>de</strong> la réalité.<br />

Nous découvrirons donc pas à pas toutes les informations nécessaires à<br />

la bonne compréhension du fonctionement <strong>de</strong> cette métho<strong>de</strong> pour ensuite en<br />

découvrir les <strong>par</strong>ticularités.<br />

7


« Zooveel is zeker, dat ik het eerst heb aangetoond, dat het vleesch in het<br />

brood aanwezig is en <strong>de</strong> kaas in het gras. »<br />

(« Une chose est certaine, je suis le premier à avoir montré que la vian<strong>de</strong> est<br />

présente dans le pain et le fromage dans l’herbe. »)<br />

Gerhard MULDER


Chapitre 1<br />

Introduction<br />

1.1 Les protéines<br />

Nous sommes en 1835. Un chimiste hollandais, Gerhard Mul<strong>de</strong>r, effectue une<br />

analyse chimique sur le blanc d’œuf et déclare que c’est une substance constituée<br />

d’une base <strong>de</strong> carbone (symbole chimique C), hydrogène (H), oxygène (O) et<br />

azote (N), auxquels s’ajoutent un peu <strong>de</strong> phosphore et <strong>de</strong> souffre. Il montre<br />

également que <strong>de</strong>s substances d’une composition i<strong>de</strong>ntique sont présentes dans<br />

<strong>de</strong>s tissus animaux et végétaux. Les protéines venaient d’être découvertes.<br />

Le mot protéine vient du grec prôtos qui signifie premier, essentiel. En effet,<br />

les protéines interviennent dans la gran<strong>de</strong> majorité <strong>de</strong>s processus qui régissent<br />

le fonctionnement <strong>de</strong> tout être vivant [1]. Leurs rôles sont aussi variés que<br />

complexes :<br />

– l’insuline, <strong>par</strong> exemple, joue un rôle hormonal et transmet <strong>de</strong>s messages<br />

au travers <strong>de</strong> l’organisme ;<br />

– l’hémoglobine, protéine cinématographiquement célèbre, s’occupe du transport<br />

du dioxygène dans notre corps ;<br />

– d’autre protéines <strong>de</strong> transport existent et agissent dans <strong>de</strong>s processus tels<br />

que la photosynthèse ;<br />

– certaines protéines jouent un rôle majeur dans la conversion d’énergie<br />

chimique en énergie mécanique, dans les muscles <strong>par</strong> exemple ;<br />

– les anticorps dont nous avons tous entendu <strong>par</strong>lé et qui jouent un rôle<br />

prédominant dans le système immunitaire sont encore <strong>de</strong>s protéines. Ils<br />

savent faire la différence entre les corps connus et les corps intrus tels que<br />

les virus et autres bactéries.<br />

9


CHAPITRE 1. INTRODUCTION 10<br />

Une autre éthymologie, moins probable mais quelque peu plus séduisante,<br />

voudrait que le mot protéine fasse référence au dieu grec Protée, dieu qui possédait<br />

un pouvoir <strong>de</strong> polymorphisme infini sur son corps. Un fois <strong>de</strong> plus, force<br />

est <strong>de</strong> constater que s’il existe <strong>de</strong>s corps naturels présentant une multitu<strong>de</strong> <strong>de</strong><br />

formes différentes, ce sont bien les protéines !<br />

1.1.1 Structure primaire<br />

Toutes les protéines ont un point commun : ce sont <strong>de</strong>s polymères linéaires<br />

construits à <strong>par</strong>tir <strong>de</strong> différentes combinaisons <strong>de</strong>s 20 aci<strong>de</strong>s aminés <strong>de</strong> base.<br />

On peut représenter un aci<strong>de</strong> aminé comme à la figure 1.1. L’atome central<br />

est appelé carbone α (Cα). Trois structures chimiques s’y connectent : le<br />

groupement amine (−NH2), le groupement carboxyle (−COOH) et une chaîne<br />

latérale (habituellement symbolisée <strong>par</strong> R). Chaque aci<strong>de</strong> aminé diffère <strong>par</strong> cette<br />

chaîne latérale. De plus, cette <strong>de</strong>rnière confère à l’aci<strong>de</strong> aminé ses propriétés<br />

<strong>par</strong>ticulières.<br />

Fig. 1.1 – Représentation atomique d’un aci<strong>de</strong> aminé.<br />

Dans la suite <strong>de</strong> ce mémoire, nous simplifierons les aci<strong>de</strong>s aminés <strong>par</strong> la<br />

représentation suivante (cfr. figue 1.2) où N, Cα, C et O sont les atomes réels <strong>de</strong><br />

la chaîne principle <strong>de</strong> l’aci<strong>de</strong> aminé, Cβ est le premier atome <strong>de</strong> la chaîne latérale<br />

et Cµ est un atome fictif utilisé pour simuler la chaine latérale.<br />

Le Cµ correspond à la moyenne géométrique <strong>de</strong> tous les atomes <strong>de</strong> la<br />

chaîne latérale <strong>de</strong> l’aci<strong>de</strong> aminé (à l’exception <strong>de</strong>s atomes d’hydrogène H). Cette<br />

moyenne est calculée à <strong>par</strong>tir d’une base <strong>de</strong> donnée <strong>de</strong>s structures protéiques<br />

connues dont on a extrait les informations <strong>de</strong> l’aci<strong>de</strong> aminé concerné [2].<br />

Cette représentation simplifiée a (évi<strong>de</strong>mment) une exception : l’aci<strong>de</strong> aminé<br />

nommé glycine. En effet, cet aci<strong>de</strong> aminé ne possè<strong>de</strong> qu’un simple atome d’hy-


CHAPITRE 1. INTRODUCTION 11<br />

Fig. 1.2 – Représentation simplifiée d’un aci<strong>de</strong> aminé.<br />

drogène en guise <strong>de</strong> chaîne latérale. Il est donc commun d’établir une correspondance<br />

<strong>de</strong>s atomes Cβ et Cµ avec l’atome Cα.<br />

Lors <strong>de</strong> la formation d’une protéine, la liaison entre <strong>de</strong>ux aci<strong>de</strong>s aminés se<br />

fait au moyen d’une réaction <strong>de</strong> con<strong>de</strong>nsation. Ainsi, il est commun <strong>de</strong> <strong>par</strong>ler <strong>de</strong><br />

résidus au lieu d’aci<strong>de</strong>s aminés. Le nombre <strong>de</strong> résidus constituant une protéine<br />

varie d’une cinquantaine à plusieurs milliers.<br />

On appelle séquence d’une protéine la suite <strong>de</strong>s résidus qui la compose. C’est<br />

cette séquence qui constitue la structure primaire <strong>de</strong> la protéine. Il est remarquable<br />

<strong>de</strong> constater que la séquence contient toutes les informations nécessaires<br />

à l’adoption d’une structure spécifique et à l’éxcution <strong>de</strong> la fonction biologique<br />

<strong>de</strong> la protéine.<br />

1.1.2 Structure secondaire<br />

Les atomes sont liés entre eux <strong>par</strong> un lien chimique et le lien qui lie l’atome<br />

C d’un résidu à l’atome N d’un autre résidu est appelé lien peptidique. De <strong>par</strong><br />

leurs natures, ces liaisons offrent une certaine liberté <strong>de</strong> rotation aux atomes liés.<br />

Toutefois, le lien peptidique entre <strong>de</strong>ux résidus est <strong>par</strong>ticulier : il a un caractère<br />

<strong>par</strong>tiel <strong>de</strong> double liaison qui a pour conséquence <strong>de</strong> contraindre dans un même<br />

plan les atomes Cα <strong>de</strong> <strong>de</strong>ux résidus voisins et les atomes intermédiaires C, O, N.<br />

Cela dit, comme nous le montre la figure 1.3, il existe toujours <strong>de</strong>s libertés <strong>de</strong><br />

rotation autour <strong>de</strong>s liens N − Cα (appelé angle <strong>de</strong> torsion φ) et Cα − C (angle ψ).<br />

De plus, dans le cas d’une représentation <strong>de</strong> résidus plus détaillée, les chaines<br />

latérales jouissent également d’une certaine liberté <strong>de</strong> rotation. Il en résulte que le<br />

nombre <strong>de</strong> conformations potentiellement accessibles pour une protéine d’une


CHAPITRE 1. INTRODUCTION 12<br />

certaine longueur est astronomiquement grand. Et pourtant, certains motifs<br />

structuraux réguliers sont observés <strong>de</strong> manière récurente dans les protéines.<br />

Ce sont ces arrangements que l’on appelle structure secondaire. Parmi eux,<br />

<strong>de</strong>ux catgories se distinguent : les hélices-α (figure 1.4(a)) et les feuillets-β (figure<br />

1.4(b)). Le squelette (backbone) <strong>de</strong> ces structures est composé <strong>de</strong> la suite <strong>de</strong>s<br />

atomes Cα <strong>de</strong> chaque aci<strong>de</strong> aminé constituant la protéine.<br />

Fig. 1.3 – Illustration <strong>de</strong>s angles <strong>de</strong> torsion φ et ψ dûs aux liaisons chimiques.<br />

Fig. 1.4 – Exemples <strong>de</strong> structures secondaires : (a)hélice-α, (b)feuillet-β.<br />

1.1.3 Structure tertiaire<br />

Chaque protéine a la <strong>par</strong>ticularité <strong>de</strong> possé<strong>de</strong>r <strong>de</strong>s caractéristiques physiques<br />

et chimiques qui lui sont propres. Toutefois, ces caractéristiques sont spécifiques<br />

à la conformation spatiale adoptée <strong>par</strong> la protéine. La majorité <strong>de</strong>s protéines se<br />

replient donc pour adopter une conformation tridimensionnelle unique appelée


CHAPITRE 1. INTRODUCTION 13<br />

structure tertiaire dont la <strong>par</strong>ticularité est d’utiliser <strong>de</strong>s interactions entre résidus<br />

proches dans l’espace mais distants dans la séquence. Cette structure tertiaire,<br />

également appellée état natif, est stable grâce aux nombreuses interactions favorables<br />

qui s’établissent en son sein. Notons que l’on appelle interacions natives<br />

une interaction présente dans la structure native. La figure 1.5 nous montre en<br />

exemple la structure tertiaire <strong>de</strong> l’ubiquitine. Les diverses structures secondaires<br />

sont reliées <strong>par</strong> ce que l’on appelle <strong>de</strong>s cou<strong>de</strong>s.<br />

Fig. 1.5 – Exemples <strong>de</strong> structure tertiaire : l’ubiquitine.<br />

C’est grâce à l’adoption <strong>de</strong> cette structure tridimensionnelle <strong>par</strong>ticulière<br />

que les protéines peuvent réaliser leur fonction biologique. L’hémoglobine, <strong>par</strong><br />

exemple, transporte le dioxygène dans une cavité enfouie au sein <strong>de</strong> sa structure<br />

tertiaire.<br />

1.2 Le repliement <strong>de</strong>s protéines<br />

Une protéine peut adopter différentes conformations, celles <strong>de</strong> l’état dénaturé<br />

étant généralement les moins stables. A l’image d’un ressort trop tendu, une<br />

protéine en état instable cherche à atteindre son état le plus stable caractérisé<br />

<strong>par</strong> une énergie libre minimale. Une hypothèse largement admise est que la<br />

structure native d’une protéine correspond généralement à sa conformation<br />

d’énergie libre minimale.<br />

Le repliement d’une protéine est un processus extrêmement spécifique et<br />

<strong>par</strong>ticulièrement efficace. En effet, la rapidité avec laquelle une protéine trouve sa<br />

conformation <strong>de</strong> plus basse énergie est remarquable. Par exemple, une protéine


CHAPITRE 1. INTRODUCTION 14<br />

<strong>de</strong> 100 résidus peut adopter 2 100 (≈ 10 30 ) structures tridimensionnelles différentes<br />

en supposant que seulement 2 conformations soient accessibles à chaque résidu,<br />

ce qui est loin <strong>de</strong> la réalité. En admettant que le passage d’une conformation<br />

à une autre se fait en 10 −13 secon<strong>de</strong>s (ce qui correspond au temps necessaire<br />

pour une rotation autour d’une liaison peptidique), il faudrait 10 17 secon<strong>de</strong>s soit<br />

environ trois milliard d’années, pour tester toutes les conformations possibles.<br />

Très clairement, la totalité <strong>de</strong>s conformations accessibles à une véritable protéine,<br />

sans aucune simplification, dépasse <strong>de</strong> loin le <strong>de</strong>gré d’abstraction humain.<br />

Pourtant, les protéines arrivent à retrouver leur structure native en un temps<br />

allant <strong>de</strong> quelques millisecon<strong>de</strong>s à quelques secon<strong>de</strong>s ! Levinthal en 1969 [3], fut<br />

le premier à relever cette incompatibilité que l’on nomme aujourd’hui <strong>par</strong>adoxe<br />

<strong>de</strong> Levinthal. Il ajoutait que, <strong>de</strong> toute évi<strong>de</strong>nce, les protéines n’explorent pas la<br />

totalité <strong>de</strong> leur espace conformationnel. Actuellement, seuls <strong>de</strong>s modèles théoriques<br />

viennent expliquer la rapidité <strong>de</strong> ce processus. En effet, les mécanismes<br />

qui permettent à une séquence d’aci<strong>de</strong>s aminés <strong>de</strong> se replier en une structure<br />

tridiensionelle unique sont actuellement mal connus.<br />

Le modèle <strong>de</strong> diffusion-collision propose un mécanisme <strong>de</strong> repliement hiérarchique<br />

qui permet <strong>de</strong> réduire drastiquement l’espace conformationnel. La<br />

théorie soutient qu’il y aurait, dans un premier temps, un repliement <strong>de</strong>s sousdomaines<br />

<strong>de</strong> la protéines, ces sous-domaines étant d’une taille très limitée. Par<br />

la suite, <strong>de</strong>s interaction entre sous-domaines se créeraient, formant ainsi <strong>de</strong>s<br />

domaines plus important. Cela durerait jusqu’à la formation complète <strong>de</strong> la<br />

structure native <strong>de</strong> la protéine.<br />

Le modèle <strong>de</strong> l’effondrement hydrophobe quant à lui s’appuie sur la tendance<br />

<strong>de</strong>s résidus hydrophobes à se regrouper dans les premiers instants du processus<br />

afin d’éviter tout contact avec l’eau. Ce regroupement aurait lieu avant la<br />

formation <strong>de</strong> structures secondaires et aurait une influence prépondérante pour<br />

la suite du repliement. En effet, le noyau hydrophobe temporairement formé<br />

réduirait considérablement l’espace conformationnel accessible à la protéine.<br />

Enfin, le modèle <strong>de</strong> nucléation-con<strong>de</strong>nsation met en avant l’importance <strong>de</strong>s<br />

interactions tertiaires (c’est-à-dire entre résidus distants dans la séquence). Afin<br />

que ces interactions aient lieu, la formation d’un noyau <strong>de</strong> repliement est requise.<br />

Les fragments <strong>de</strong> protéine non repliés entrant en contact avec le noyau<br />

adopteraient ensuite leur structure native.<br />

D’autre modèles théoriques existent et le lecteur intéressé trouvera une brève<br />

présentation <strong>de</strong> la majorité d’entre-eux dans [4].<br />

Durant les années 90, un nouveau modèle <strong>de</strong> repliement protéique a été


CHAPITRE 1. INTRODUCTION 15<br />

développé [5] et fut revisité en 1998 [6]. Sa caractéristique principale est <strong>de</strong><br />

représenter le paysage énergétique d’une protéine. Il s’agit en fait d’une représentation<br />

multi-dimensionnelle <strong>de</strong> l’énergie libre d’une conformation <strong>de</strong> la protéine<br />

en fonction <strong>de</strong> sa similarité avec la structure native.<br />

Une interprétation tridimensionnelle du paysage énergétique produit un<br />

entonnoir communément appelé entonnoir <strong>de</strong> repliement. L’axe vertical <strong>de</strong> cet<br />

entonnoir représente l’énergie libre d’une conformation et les axes horizontaux<br />

représentent les conformations <strong>de</strong> la protéine accessibles à un certain niveau<br />

d’énergie. A la base <strong>de</strong> cet entonnoir, on trouve la structure native qui est donc<br />

d’une énergie libre minimale. Plus on monte dans l’entonnoir, plus le nombre <strong>de</strong><br />

conformations possibles à un même niveau d’énergie augmente. Le repliement<br />

serait donc un processus progressif <strong>de</strong> modifications conformationnelles entraînant<br />

la création d’interactions natives favorables et débouchant sur la structure<br />

native (cfr. figure 1.6).<br />

Dans une situation idéale, l’entonnoir serait <strong>par</strong>fait et chaque modification<br />

conformationnelle en direction <strong>de</strong> l’état natif stabiliserait la protéine (figure<br />

1.6(a)). Malheureusement, l’expérience montre que <strong>de</strong>s modifications conformationnelles<br />

nécessaires à la création d’interactions natives peuvent être défavorables<br />

d’un point <strong>de</strong> vue énergétique ! Cela introduit <strong>de</strong>s variations dans le<br />

paysage énergétique et laisse ap<strong>par</strong>aitre un concept bien connu dans le domaine<br />

<strong>de</strong> l’informatique : le problème <strong>de</strong>s minima locaux (figure 1.6(b)). Un paysage<br />

énergétique peut donc s’avérer plus ou moins complexe, ce qui induit qu’il existe<br />

différents chemins <strong>de</strong> repliement entre une conformation d’état dénaturé et une<br />

conformation d’état stable (figure 1.6(c)).<br />

Il est intéressant <strong>de</strong> com<strong>par</strong>er le <strong>par</strong>adoxe <strong>de</strong> Levinthal à un paysage énergétique<br />

plat [7]. L’idée à l’époque était qu’il existait une conformation native<br />

unique et que toute autre conformation était inintéressante. On se rend alors<br />

compte que le problème d’origine est mal posé : en effet, il est mathématiquement<br />

improbable <strong>de</strong> tomber dans le trou <strong>de</strong> l’entonnoir à <strong>par</strong>tir d’un paysage<br />

plat en un temps raisonnable (figure 1.6(d)).<br />

Ce modèle <strong>de</strong> paysage énergétique ne remet pas en question tous les modèles<br />

précé<strong>de</strong>nts, au contraire. Il permet d’expliquer plusieurs phénomènes observés<br />

tels que l’existence <strong>de</strong> chemins <strong>de</strong> repliement préférés. Cela appuierait certaines<br />

théories comme <strong>par</strong> exemple celles <strong>de</strong> la création d’un noyau hydrophobe ou<br />

d’intermédiaires <strong>de</strong> repliement. Concrètement, le paysage énergétique procure<br />

un cadre général dans lequel les cas <strong>par</strong>ticuliers peuvent être interprétés.


CHAPITRE 1. INTRODUCTION 16<br />

Fig. 1.6 – Représentation tridimensionnelle du paysage énergétique d’une protéine<br />

: (a) un paysage énergétique idéal, (b) un paysage énergétique réel, (c)<br />

<strong>de</strong>ux chemins <strong>de</strong> repliement différents, (d) le <strong>par</strong>adoxe <strong>de</strong> Levinthal. [source :<br />

Gilquin Bernard : Exploration <strong>de</strong>s méchanismes <strong>de</strong> repliement <strong>de</strong>s protéines <strong>par</strong><br />

dynamique moléculaire]


CHAPITRE 1. INTRODUCTION 17<br />

1.3 La prédiction <strong>de</strong> la structure native <strong>de</strong>s protéines<br />

1.3.1 Objectif<br />

La structure native d’une protéine est une richesse en soi. Elle est l’inconnue<br />

nécessaire à la résolution d’une foule <strong>de</strong> questions, dont la principale est :<br />

« Comment ça marche ? ». En effet, pour comprendre le fonctionnement d’une<br />

protéine il faut impérativement en connaître la structure native. Par exemple,<br />

les sites actifs <strong>de</strong>s protéines ne sont généralement fonctionnels qu’une fois la<br />

protéine complètement repliée.<br />

Outre cet aspect primordial, <strong>de</strong> multiples possibilités s’offrent à nous :<br />

– l’étu<strong>de</strong> <strong>de</strong>s interactions possibles entre une protéine et diverses molécules<br />

permet <strong>par</strong> exemple la création <strong>de</strong> médicaments qui agiront précisément<br />

là où c’est nécessaire ;<br />

– certaines protéines subissent <strong>de</strong>s mutations pour diverses raisons et la<br />

compréhension fine <strong>de</strong> l’effet <strong>de</strong> ces mutations passe <strong>par</strong> la connaissance<br />

<strong>de</strong> la structure native ;<br />

– la conception <strong>de</strong> protéines dont la séquence est modifiée permettrait d’obtenir<br />

<strong>de</strong> nouvelles propriétés comme <strong>par</strong> exemple une augmentation <strong>de</strong> la<br />

stabilité <strong>de</strong> la protéine ou encore l’amélioration <strong>de</strong> réactions enzymatiques<br />

dans le milieu industriel ;<br />

– la compréhension <strong>de</strong>s mécanismes <strong>de</strong> stabilisation <strong>de</strong> l’état d’une protéine<br />

pourrait conduire, dans un futur plus ou moins proche, à la création <strong>de</strong><br />

nouvelle protéines avec un rôle bien précis et défini à l’avance. Le besoin<br />

sera alors à l’origine <strong>de</strong> la protéine...<br />

Il existe une base <strong>de</strong> données accessible à tous, la Protein Data Bank (PDB)<br />

[8], qui répertorie toutes les connaissances actuelles concernant les structures<br />

<strong>de</strong>s protéines. On y retrouve <strong>de</strong> nombreuses structures natives établies expérimentalement<br />

<strong>par</strong> cristallographie aux rayons X ou <strong>par</strong> résonance magnétique<br />

nucléaire. Pour plus d’information dans ce domaine, le lecteur intéressé se dirigera<br />

vers [9, 10].<br />

Malheureusement, ces métho<strong>de</strong>s, en plus d’être lentes, sont plutôt coûteuses.<br />

De plus, le nombre <strong>de</strong> séquences protéiques connues est bien plus grand que le<br />

nombre <strong>de</strong> structures natives établies et l’écart entre les <strong>de</strong>ux ne cesse d’augmenter.<br />

Ces divers arguments ont poussé les chercheurs à se tourner vers d’autres<br />

métho<strong>de</strong>s.<br />

L’expérience ayant montré que la plu<strong>par</strong>t <strong>de</strong>s protéines adoptent <strong>de</strong>s confor-


CHAPITRE 1. INTRODUCTION 18<br />

mations spécifiques, l’étu<strong>de</strong> in silico <strong>de</strong>s protéines va bon train. De nombreux<br />

projets tels que l’étu<strong>de</strong> théorique du repliement <strong>de</strong>s protéines ou la simulation<br />

<strong>de</strong>s interactions protéine-protéine ont vu le jour. Parmi eux, on retrouve la<br />

prédiction <strong>de</strong> la structure native <strong>de</strong>s protéines.<br />

1.3.2 Aperçu général <strong>de</strong>s métho<strong>de</strong>s <strong>de</strong> prédiction<br />

Avant <strong>de</strong> découvrir ce qu’est la prédiction, une question se pose : pourquoi<br />

ne pas simuler intégralement un repliement protéique ? Après tout, les connaissances<br />

actuelles permettent d’envisager une simulation complète, picomètres<br />

<strong>par</strong> picomètres, <strong>de</strong>s mouvements atomiques d’une protéine...<br />

Actuellement, ce genre <strong>de</strong> technique existe mais il est calculatoirement impossible<br />

d’effectuer une simulation longue <strong>de</strong> plus <strong>de</strong> quelques nanosecon<strong>de</strong>s<br />

(au mieux une microsecon<strong>de</strong>). Or, nous le découvrions tout à l’heure, un repliement<br />

protéique nécessite quelques millisecon<strong>de</strong>s (au pire secon<strong>de</strong>s). L’échelle <strong>de</strong><br />

temps n’est donc tout simplement pas accessible et <strong>par</strong> ailleurs, l’informatique a<br />

ce défaut <strong>de</strong> toujours procé<strong>de</strong>r <strong>par</strong> approximation <strong>de</strong> valeurs, ce qui peut entrainer<br />

sur le long terme une dégradation fortement prononcée <strong>de</strong>s résultats. Il en<br />

va d’ailleurs <strong>de</strong> même pour les évaluations énergétiques qui sont certainement<br />

im<strong>par</strong>faites [11].<br />

L’intérêt <strong>de</strong> la prédiction est donc évi<strong>de</strong>nt : gagner du temps ! Deux gran<strong>de</strong>s<br />

catégories <strong>de</strong> prédictions existent : celle basée sur les connaissances actuelles et<br />

l’autre, plus pure, se basant uniquement sur la structure primaire <strong>de</strong> la protéine,<br />

c’est-à-dire sa séquence.<br />

La première catégorie repose sur l’utilisation <strong>de</strong> bases <strong>de</strong> données <strong>de</strong> structures<br />

protéiques. Il faudra donc qu’il existe un certain <strong>de</strong>gré <strong>de</strong> similitu<strong>de</strong> <strong>de</strong><br />

séquence ou <strong>de</strong> structure entre la protéine étudiée et une ou plusieurs protéines<br />

<strong>de</strong> la base <strong>de</strong> donnée. La modélisation <strong>par</strong> homologie, <strong>par</strong> exemple, com<strong>par</strong>e les<br />

séquences <strong>de</strong> la PDB avec la séquence protéique cible [12]. Si un <strong>de</strong>gré d’homologie<br />

suffisant est dégagé, alors on produit une structure dérivée <strong>de</strong>s structures<br />

homologues <strong>de</strong> la PDB. Ce procédé donne <strong>de</strong> bons résultats car les protéines <strong>de</strong><br />

séquence similaire ont généralement <strong>de</strong>s structures très semblables.<br />

Un autre exemple est la reconnaissance structurale [13, 14]. On l’utilise généralement<br />

quand la modélisation <strong>par</strong> homologie a échoué. En effet, un tel échec<br />

est clairement dû à un manque <strong>de</strong> similitu<strong>de</strong> entre la protéine cible et les protéines<br />

<strong>de</strong> la PDB. Cette métho<strong>de</strong> propose donc d’utiliser un squelette issu <strong>de</strong>s<br />

conformations structurales connues afin d’y enfiler la séquence d’aci<strong>de</strong>s aminés


CHAPITRE 1. INTRODUCTION 19<br />

<strong>de</strong> la protéine cible. A nouveau, il existe <strong>de</strong>s bases <strong>de</strong> données structurales. Par<br />

exemple, la Fold Classification based on Structure-Structure alignement of Proteins<br />

(FSSP) [15] regroupe les structures représentatives <strong>de</strong> la PDB. L’intérêt d’une<br />

telle banque provient du fait que la PDB contient <strong>de</strong>s structures redondantes.<br />

Dans le cadre <strong>de</strong> la reconnaissance structurale, l’utilisation <strong>de</strong> structures représentatives<br />

est un atout significatif.<br />

L’autre catégorie <strong>de</strong> prédiction se fait ab initio, c’est-à-dire sur base <strong>de</strong> la<br />

seule séquence <strong>de</strong> la protéine. Cette catégorie est beaucoup plus générale mais<br />

est bien évi<strong>de</strong>mment plus ardue à mettre en œuvre. L’hypothèse <strong>de</strong> base est<br />

celle selon laquelle la structure native correspond au minimum global d’énergie<br />

libre. Le but d’une prédiction ab initio est donc évi<strong>de</strong>nt : trouver une structure<br />

tridimensionnelle d’énergie libre minimale.<br />

1.3.3 Les impératifs <strong>de</strong> la prédiction <strong>de</strong> structures natives<br />

Afin <strong>de</strong> réaliser au mieux une prédiction, certains outils sont nécessaires :<br />

1. une modélisation <strong>de</strong> la protéine étudiée ;<br />

2. une métho<strong>de</strong> <strong>de</strong> discrétisation <strong>de</strong> l’espace dans lequel elle évolue ;<br />

3. une métho<strong>de</strong> <strong>de</strong> recherche qui permet l’exporation <strong>de</strong> l’espace conformationnel<br />

;<br />

4. une fonction énergétique permettant l’évaluation d’une structure <strong>par</strong> rapport<br />

à sa séquence ;<br />

5. dans certains cas, il sera intéressant <strong>de</strong> possé<strong>de</strong>r d’un moyen d’évaluation<br />

<strong>de</strong>s prédictions obtenues.<br />

Le chapitre suivant propose donc un tour d’horizon <strong>de</strong> ces divers impératifs.<br />

Nous y découvrirons plusieurs outils et métho<strong>de</strong>s permettant <strong>de</strong> procé<strong>de</strong>r à une<br />

prédiction digne <strong>de</strong> ce nom.


Chapitre 2<br />

Présentation <strong>de</strong>s outils et métho<strong>de</strong>s<br />

existants<br />

Ce chapitre propose au lecteur un aperçu <strong>de</strong>s quelques techniques utilisées<br />

dans le domaine <strong>de</strong> la prédiction <strong>de</strong> structures natives. Il permettra en outre <strong>de</strong><br />

mieux se rendre compte <strong>de</strong>s divers problèmes rencontrés dans ce domaine et <strong>de</strong><br />

découvrir les solutions qui y sont apportées.<br />

2.1 Les modèles utilisés<br />

Une difficulté récurrente en informatique est celle <strong>de</strong> la modélisation <strong>de</strong>s<br />

problèmes étudiés. Dans ce cas-ci comme dans beaucoup d’autres, il faut trouver<br />

un juste compromis entre simplification du problème et qualité <strong>de</strong>s résultats.<br />

Dans le cadre <strong>de</strong>s prédictions <strong>de</strong> la structure native <strong>de</strong>s protéines, il y a <strong>de</strong>ux<br />

entités à modéliser : la protéine elle même et l’espace <strong>de</strong> recherche.<br />

2.1.1 Modélisation <strong>de</strong> la protéine<br />

La modélisation d’une protéine peut se faire <strong>par</strong> une représentation complète<br />

au niveau atomique <strong>de</strong>s aci<strong>de</strong>s aminés la composant. Evi<strong>de</strong>mment, un<br />

tel modèle entraînerait un coût <strong>de</strong> calcul non négligeable. D’un autre côté, une<br />

représentation trop simpliste <strong>de</strong> la protéine entraînera une dégradation <strong>de</strong> la<br />

qualité <strong>de</strong>s résultats. Il faut donc trouver un compromis dont on pourra tirer le<br />

meilleur <strong>par</strong>ti dans les <strong>de</strong>ux cas.<br />

20


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 21<br />

Le modèle HP<br />

Le modèle HP [16] est simple : il propose <strong>de</strong> réduire les vingt aci<strong>de</strong>s aminés<br />

à seulement <strong>de</strong>ux groupes : les aci<strong>de</strong>s aminés hydrophiles (nommé P) et les<br />

aci<strong>de</strong>s aminés hydrophobes (nommé H). Dès lors, une protéine, plutôt que<br />

d’être représentée <strong>par</strong> une séquence composée <strong>de</strong> 20 aci<strong>de</strong>s aminés différents,<br />

sera simplement représentée <strong>par</strong> une suite d’aci<strong>de</strong>s aminé H ou P, ce qui simplifie<br />

vraiment les choses ! De plus, un résidu est réduit à un seul point dans l’espace,<br />

on ne tient donc absolument pas compte du détail atomique.<br />

Ce modèle étant basé sur la théorie <strong>de</strong> la création d’un noyau hydrophobe,<br />

il faudra, pour satisfaire aux conditions <strong>de</strong> repliement <strong>de</strong>s protéines, minimiser<br />

l’interaction <strong>de</strong>s résidus H avec l’environnement extérieur (généralement l’eau).<br />

Le résultat d’une prédiction effectuée à <strong>par</strong>tir d’un modèle <strong>de</strong> ce genre se trouve<br />

en figure 2.1.<br />

Fig. 2.1 – Résultats d’une prédiction bidimensionelle basée sur le modèle HP<br />

pour une protéine <strong>de</strong> séquence ’HHHPPHPHPHPPHPHPHPPH’ (le début <strong>de</strong><br />

la séquence est symbolisée <strong>par</strong> ’1’ et les résidus ’H’ sont en noir).<br />

Malheureusement, une représentation aussi simpliste fourni peu <strong>de</strong> résultats<br />

intéressants dans le cadre <strong>de</strong> la prédiction <strong>de</strong> structure native <strong>de</strong> protéine.<br />

En effet, réduire les propriétés <strong>de</strong>s aci<strong>de</strong>s àminés à un simple caractère<br />

d’hydrophobie-hydrophilie est assez limitatif. Par contre, au niveau <strong>de</strong>s étu<strong>de</strong>s<br />

théoriques, elle permet <strong>de</strong> mieux comprendre certaines étapes du repliement<br />

<strong>de</strong>s protéines.<br />

Le modèle (φ, ψ, ω)<br />

Comme nous l’avons vu dans l’introduction, les résidus peuvent adopter<br />

diverses conformations en fonction <strong>de</strong>s angles <strong>de</strong> torsion adoptés autour <strong>de</strong><br />

leurs liaisons chimiques. Bien que l’angle ω puisse sembler nouveau au lecteur,


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 22<br />

il s’agit en fait du nom donné à celui <strong>de</strong> la liaison inter-résidu C−N. Pour rappel,<br />

ce lien à un caractère <strong>par</strong>tiel <strong>de</strong> double liaison, ce qui limite à <strong>de</strong>ux les valeurs<br />

prises <strong>par</strong> l’angle ω : 0 ◦ et 180 ◦ .<br />

Fig. 2.2 – Illustration <strong>de</strong> l’angle ω. La molécule entourée est un résidu quelconque<br />

venu s’attacher au résidu que nous étudions.<br />

Ainsi, la conformation d’un résidu est donnée <strong>par</strong> un triplet (φ, ψ, ω) et<br />

le squelette d’une protéine peut être modélisé <strong>par</strong> une suite <strong>de</strong> triplets, <strong>de</strong><br />

taille équivalente au nombre <strong>de</strong> résidus <strong>de</strong> la protéine. Finalement, la structure<br />

tridimensionnelle d’une protéine sera calculée à <strong>par</strong>tir <strong>de</strong>s conformations (φ, ψ,<br />

ω) successives adoptées pas les résidus la composant.<br />

Les modèles intermédiaires<br />

On entends <strong>par</strong> modèle intermédiaire un modèle offrant une <strong>de</strong>scription <strong>de</strong><br />

la protéine plus détaillée que dans le modèle HP, mais moins détaillée qu’un<br />

modèle complet. Ainsi, il arrive <strong>de</strong> regrouper les aci<strong>de</strong>s aminés en plusieurs<br />

classes afin <strong>de</strong> permettre un niveau <strong>de</strong> détail plus élevé. Une fois cette classification<br />

effectuée, on peut encore se contenter <strong>de</strong> représenter le résidu <strong>par</strong> un seul<br />

point dans l’espace ou bien <strong>par</strong> quelques atomes.<br />

A ce sujet, il est important <strong>de</strong> se souvenir d’une simplification que nous<br />

avons effectuée lors <strong>de</strong> l’introduction : le remplacement <strong>de</strong> la chaîne latérale <strong>par</strong>


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 23<br />

un atome fictif, le Cµ. Dans le cas ou la chaîne latérale serait prise en compte<br />

dans le modèle, une représentation encore plus fine <strong>de</strong> la protéine aurait lieu.<br />

En effet, cette chaîne latérale possè<strong>de</strong> également <strong>de</strong>s libertés <strong>de</strong> rotation autour<br />

<strong>de</strong> certaines liaisons chimiques et il serait tout à fait envisageable <strong>de</strong> les prendre<br />

en compte.<br />

2.1.2 Discrétisation <strong>de</strong> l’espace conformationnel<br />

Nous l’avons déjà dit, l’espace conformationnel est immensément grand.<br />

Diverses techniques <strong>de</strong> discrétisation existent donc afin <strong>de</strong> permettre une diminution<br />

substanciellment importante <strong>de</strong>s conformations possibles. Bien entendu,<br />

il s’agit à nouveau <strong>de</strong> trouver un bon compromis entre <strong>de</strong>gré <strong>de</strong> simplification<br />

et qualité <strong>de</strong> résultat. Deux grands types <strong>de</strong> discrétisation existent :<br />

1. le modèle réseau propose une restriction <strong>de</strong> l’espace conformationnel en<br />

maille fixe ;<br />

2. le modèle hors réseau propose une restriction <strong>de</strong> l’espace conformationnel en<br />

limitant <strong>par</strong> exemple les rotations autour <strong>de</strong>s liaisons chimiques à certaines<br />

valeurs angulaire bien définies, ce qui a pour conséquence <strong>de</strong> créer un<br />

modèle réseau dynamique.<br />

Les modèles réseau<br />

Les premiers modèles réseaux étaient basiques et consistaient en une simple<br />

grille bidimensionnelle fixe. Le lecteur comprendra aisément qu’une telle représentation<br />

protéique est bien loin <strong>de</strong> la réalité. Grâce à l’amélioration <strong>de</strong>s<br />

techniques <strong>de</strong> recherche dans l’espace conformationnel, <strong>de</strong>s modèles réseaux<br />

plus fins commencèrent à être utilisés. L’utilisation <strong>de</strong> grille tridimensionnelle<br />

à maille étroite offre une nette amélioration <strong>de</strong> représentation mais le caractère<br />

statique <strong>de</strong> ces modèles représente un facteur limitatif important au niveau <strong>de</strong><br />

la qualité <strong>de</strong>s solutions obtenues.<br />

En effet, dans un modèle réseau, on travaille avec <strong>de</strong>s coordonnées fixes<br />

définies <strong>par</strong> la maille utilisée. Ainsi, dans le cas d’une représentation atomique<br />

<strong>de</strong> la protéine, les distances inter-atomiques seront fixes et les possibilités <strong>de</strong><br />

rotation angulaire seront également définies (<strong>par</strong> exemple, dans un modèle<br />

bidimensionnel carré où la maille représente la distance inter-atomique, ces<br />

rotations seront toujours multiples <strong>de</strong> 90 ◦ ).


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 24<br />

Toutefois, certains avantages existent <strong>de</strong> <strong>par</strong> la rigidité du modèle. Par<br />

exemple, il est tout à fait possible qu’un résidu passe d’une conformation à<br />

une autre sans que cela nous oblige à recalculer la position <strong>de</strong> tous les autres<br />

résidus (cfr. figure 2.3). C’est là l’avantage <strong>de</strong> travailler avec <strong>de</strong>s coordonnées<br />

externes au modèle <strong>de</strong> protéine utilisé.<br />

Fig. 2.3 – Exemple <strong>de</strong> modification conformationnelle locale : (a) l’état avant la<br />

modification conformationnelle, (b) l’état après la modification conformationnelle.<br />

Les modèles hors réseau<br />

Les modèles hors réseau sont généralement basés sur la limitation <strong>de</strong>s conformations<br />

accessibles pour un résidus, c’est-à-dire sur la limitation <strong>de</strong>s valeurs<br />

prises <strong>par</strong> les angles <strong>de</strong> rotation autour <strong>de</strong> leurs liaisons chimiques. Par exemple,<br />

la liaison N −Cα sera limitée à un ensemble <strong>de</strong> quelques angles φ accessibles. Par<br />

ailleurs, la distance <strong>de</strong>s liaisons inter-atomiques peut être définie pour chaque<br />

paire d’atome [17], ce qui accentue encore le réalisme <strong>de</strong> ce modèle.<br />

La discrétisation du modèle dépendra donc du nombre <strong>de</strong> valeurs disponibles<br />

pour chaque résidu. Ce système simple est facilement transposable dans<br />

le cas où la chaine latérale <strong>de</strong>s protéines est prise en compte.<br />

Son avantage est évi<strong>de</strong>nt : il est basé sur la nature même <strong>de</strong>s protéines et<br />

utilise donc un système <strong>de</strong> coordonnée internes pour la représentation <strong>de</strong> cellesci.<br />

De plus, il permet <strong>de</strong> travailler dans un espace conformationnel accessible à<br />

la prédiction tout en préservant une certaine qualité <strong>de</strong> résultat.<br />

Cependant, pour un même niveau <strong>de</strong> discrétisation, le modèle hors réseau<br />

<strong>de</strong>man<strong>de</strong> généralement plus <strong>de</strong> calculs que le modèle réseau. Pour reprendre<br />

l’exemple du modèle réseau, si nous modifions la conformation d’un seul résidu<br />

<strong>de</strong> la protéine dans le cadre du modèle hors réseau, il nous faudra recalculer


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 25<br />

toutes les coordonnées tridimensionnelles <strong>de</strong> la protéine à <strong>par</strong>tir <strong>de</strong>s triplets (φ,<br />

ψ, ω) <strong>de</strong> chaque résidu. Il s’agit en fait d’effectuer la traduction <strong>de</strong>s coordonnées<br />

internes en coordonnées réelles.<br />

2.2 L’exploration <strong>de</strong> l’espace conformationnel<br />

De <strong>par</strong> son paysage énergétique, une protéine ne peut <strong>par</strong>fois atteindre<br />

son minimum global d’énergie libre qu’en procédant à certaines modifications<br />

conformationnelles défavorables. Autrement dit, il arrive <strong>par</strong>fois que pour passer<br />

d’une état X à un état Y plus stable, la protéine se retrouve dans un état<br />

intermédiaire <strong>de</strong> stabilité moindre que son état d’origine X.<br />

C’est là le grand problème <strong>de</strong>s minima locaux. Précisément, le problème est<br />

<strong>de</strong> détecter que la protéine se trouve dans une conformation d’énergie libre<br />

minimale locale qui n’est pas native. Le problème sous-jacent est évi<strong>de</strong>mment<br />

<strong>de</strong> trouver un moyen <strong>de</strong> sortir <strong>de</strong> ce minimum local, c’est-à-dire d’accepter une<br />

modification conformationnelle défavorable.<br />

Diverses solutions ont été apportées à ce problème, mais aucune d’entre-elles<br />

n’est optimale. On <strong>par</strong>le donc couramment d’heuristiques et <strong>de</strong> métaheuristiques.<br />

Une heuristique est une métho<strong>de</strong> <strong>de</strong> production <strong>de</strong> solution adaptée à un problème<br />

<strong>par</strong>ticulier alors qu’une métaheuristique constiste en une stratégie <strong>de</strong><br />

choix pouvant piloter une heuristique.<br />

En résumé, un bon compromis entre l’exploration <strong>de</strong> l’espace conformationnel<br />

et l’intensification <strong>de</strong> la recherce d’une solution minimale doit être trouvé.<br />

Si la priorité est donnée à l’exploration, il est fort probable qu’on ne converge<br />

jamais vers une solution minimale (même locale) alors que si l’on privilégie l’intensification<br />

d’une solution, on aura <strong>de</strong> gran<strong>de</strong>s chances <strong>de</strong> rester bloqué dans<br />

un minimum local.<br />

2.2.1 Monte Carlo<br />

Monte Carlo est une métho<strong>de</strong> <strong>de</strong> prédiction probabiliste basée sur la modification<br />

aléatoire <strong>de</strong> la conformation <strong>de</strong> certains résidus <strong>de</strong> la protéine étudiée<br />

[18]. A chaque itération <strong>de</strong> la métho<strong>de</strong>, une nouvelle structure protéique peut<br />

donc être évaluée <strong>par</strong> la fonction énergétique. La suite <strong>de</strong> l’algorithme dépendra<br />

<strong>de</strong> l’énergie calculée. Dans les première versions <strong>de</strong> Monte Carlo, le choix était<br />

simple :


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 26<br />

– si l’énergie calculée est inférieure à l’énergie <strong>de</strong> la conformation précé<strong>de</strong>nte,<br />

alors c’est que la nouvelle conformation offre à la protéine un état plus<br />

stable. On conservera donc cette conformation qui servira <strong>de</strong> base à la<br />

prochaine itération ;<br />

– dans l’autre cas, on procè<strong>de</strong> simplement au rejet <strong>de</strong> la nouvelle conformation.<br />

Ce genre <strong>de</strong> rejet automatique entraîne fatalement la découverte <strong>de</strong> solutions<br />

locale, ce qui n’est pas vraiment l’objectif recherché. Ainsi, certains critères d’acceptation<br />

ont été développés. Le concept est commun : permettre l’acceptation<br />

<strong>de</strong> modifications conformationnelles défavorables afin <strong>de</strong> diminuer les chances<br />

<strong>de</strong> tomber dans un minimum local.<br />

Un critère régulièrement utilisé est celui dit <strong>de</strong> Metropolis [19] où ∆E représente<br />

la différence d’énergie entre la conformation évaluée et la <strong>de</strong>rnière<br />

conformation acceptée :<br />

ɛ ≤ e −(∆E)(kT)<br />

Le facteur kT représente la multiplication entre la constante <strong>de</strong> Boltzman et<br />

la température à laquelle s’effectue la prédiction et ɛ est un nombre aléatoire<br />

compris entre 0 et 1 [19].<br />

Ainsi, si le critère <strong>de</strong> Métropolis est vérifié, alors une modification conformationnelle<br />

défavorable sera acceptée et servira <strong>de</strong> base à la prochaine itération.<br />

On constate donc qu’une première approche d’exploration <strong>de</strong> l’espace conformationnel<br />

passe simplement <strong>par</strong> la considération d’un critère d’acceptation stochastique.<br />

En effet, plus la modification conformationnelle est défavorable, plus ∆E est<br />

grand, ce qui implique que l’exponentielle est plus petite que 1 et donc que les<br />

chances d’acceptations sont réduites. Par contre, dans le cas d’une modification<br />

conformationnelle favorable, ∆E sera négatif et l’exponentielle sera toujours plus<br />

gran<strong>de</strong> que 1. La conformation sera donc toujours acceptée.<br />

2.2.2 Le Recuit Simulé<br />

La métho<strong>de</strong> <strong>de</strong> Monte Carlo incluant un critère <strong>de</strong> Métropolis est attrayante<br />

mais peut encore être améliorée. En effet, il y a un <strong>par</strong>amètre intéressant sur<br />

lequel nous pouvons jouer : la température. C’est donc en 1983 qu’ap<strong>par</strong>aît<br />

le Recuit Simulé. Il propose simplement <strong>de</strong> commencer la prédiction à haute<br />

température et <strong>de</strong> la faire baisser progressivement [20]. Dans la vie courrante,<br />

on constate <strong>par</strong> exemple que la qualité d’un rail <strong>de</strong> chemin <strong>de</strong> fer est fortement


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 27<br />

dépendante <strong>de</strong> son refroidissement lors <strong>de</strong> sa confection. S’il est refroidi trop<br />

vite, la structure métallique sera im<strong>par</strong>faite et le rail présentera <strong>de</strong>s défauts.<br />

Il faut donc prendre le temps, ce qui rend généralement cette métho<strong>de</strong> moins<br />

rapi<strong>de</strong> que les autres.<br />

L’introduction d’une variation progressive <strong>de</strong> la température lors d’une prédiction<br />

<strong>de</strong> structure native introduit donc un facteur dynamique intéressant<br />

dans le critère d’acceptation. Celui-ci permettra un <strong>de</strong>gré d’acceptation <strong>de</strong> modification<br />

conformationnelle défavorable plus élevé au début <strong>de</strong> la prédiction<br />

et plus faible à la fin. Il favorise donc une phase d’exploration dans un premier<br />

temps pour permettre ensuite une intensification <strong>de</strong> la recherche.<br />

Il arrive <strong>par</strong>fois d’effectuer un Recuit Simulé sur une protéine déjà <strong>par</strong>tiellement<br />

repliée. Il est donc important <strong>de</strong> remarquer que le choix <strong>de</strong> la température<br />

initiale est un facteur très important : si une température trop élevée est choisie,<br />

on pourrait assister à un dépliement <strong>de</strong> la protéine, ce qui n’est pas du tout le<br />

but recherché !<br />

Enfin, signalons que sous certaines conditions (dont <strong>par</strong> exemple un schéma<br />

<strong>de</strong> décroissance <strong>par</strong>ticulier), <strong>de</strong>s preuves <strong>de</strong> convergence asymptotique existent<br />

pour le Recuit Simulé. Ceci constitue un avantage mathématique inexistant<br />

dans le cas <strong>de</strong>s métho<strong>de</strong>s heuristique [21, 22]. Malheureusement, il est très<br />

difficile d’appliquer au mieux la théorie sans consacrer beaucoup <strong>de</strong> temps au<br />

<strong>par</strong>amétrage <strong>de</strong> l’algorithme.<br />

2.2.3 Recherche Tabou<br />

En 1986, Fred Glover propose une nouvelle métho<strong>de</strong> concernant le problème<br />

<strong>de</strong>s minima locaux : l’utilisation d’une liste taboue simulant en fait le principe<br />

<strong>de</strong> mémoire [23]. L’application <strong>de</strong> cette métho<strong>de</strong> donne une heuristique en ce<br />

sens qu’elle ne converge pas spécialement vers le minimum global. Elle est <strong>par</strong><br />

contre un excellent gui<strong>de</strong> !<br />

L’idée <strong>de</strong> la recherche Tabou est <strong>de</strong> permettre la poursuite d’une recherche<br />

même quand un minimum local est trouvé. La mémoire sera utilisée pour éviter<br />

les retours en arrière et donc les cycles. Il est important <strong>de</strong> signaler qu’une<br />

mémoire élevée <strong>de</strong>viendra trop restrictive tout comme une mémoire trop petite<br />

sera probablement inutile. L’intérêt typique <strong>de</strong> cette mémoire est <strong>de</strong> forcer la<br />

recherche à explorer une autre zone que celle dans laquelle se trouve la solution<br />

la plus récente.<br />

Formellement, définissons s comme étant la solution actuelle, sG comme étant


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 28<br />

la solution golbale et V(s) comme étant l’espace <strong>de</strong> solutions voisines à s. Une fois<br />

qu’une solution s est trouvée, elle est mise en mémoire (dans la liste Tabou) pour<br />

un nombre d’itération i. Il sera dés lors impossible <strong>de</strong> revenir à cette solution tant<br />

que le nombre i d’itération ne sera pas dépassé. Toutefois, une exception existe :<br />

lorsqu’un mouvement tabou permet d’améliorer la solution s, il sera autorisé.<br />

C’est ce que l’on appelle le critère d’aspiration.<br />

Le grand avantage <strong>de</strong> la recherche Tabou est que lorsqu’elle <strong>de</strong>vra choisir<br />

un voisin dans V(s), elle choisira toujours le meilleur alors que pour le Recuit<br />

Simulé, on assistait à une modification aléatoire <strong>de</strong> la solution. On découvre<br />

ainsi une autre approche <strong>de</strong> résolution du problème <strong>de</strong>s minima locaux : plutôt<br />

que <strong>de</strong> les éviter, on les utilise<br />

Enfin, notons qu’il existe diverses variantes <strong>de</strong> la recherche Tabou utilisant<br />

<strong>de</strong>s modification sur la fonction d’évaluation <strong>de</strong>s voisins. L’idée générale est<br />

d’ajouter <strong>de</strong>s pénalités ou <strong>de</strong>s avantages sur base <strong>de</strong> certains critères remplis<br />

<strong>par</strong> le voisin évalué. Une autre variante <strong>de</strong> la recherche Tabou alterne volontairement<br />

les phases d’intensification <strong>de</strong> la recherche avec les phases d’exploration<br />

<strong>de</strong> l’espace en changeant dynamiquement le nombre <strong>de</strong> mouvements tabous<br />

stockés en mémoire.<br />

2.2.4 <strong>Algorithme</strong>s évolutionnaires<br />

Les diverses métho<strong>de</strong>s que nous venons d’explorer ont toutes un point commun<br />

: leurs itérations reposent sur l’amélioration d’une solution unique. En effet,<br />

on travaillera toujours à <strong>par</strong>tir d’une solution initiale en essayant <strong>de</strong> l’améliorer<br />

au maximum en fonction <strong>de</strong>s contraintes du problème étudié. Les métho<strong>de</strong>s que<br />

nous allons explorer à <strong>par</strong>tir <strong>de</strong> maintenant sont <strong>de</strong>s métho<strong>de</strong>s à population <strong>de</strong><br />

solutions.<br />

Le therme algorithme évolutionnaire regroupe en fait une multitu<strong>de</strong> <strong>de</strong> métaheuristique<br />

différentes. Cependant, toutes ont un point commun : elles utilisent<br />

le concept d’algorithme génétique, c’est-à-dire l’application informatique simplifiée<br />

<strong>de</strong> la théorie <strong>de</strong> l’évolution <strong>de</strong> Darwin. L’actuel succès <strong>de</strong>s algorithmes<br />

génétiques est évi<strong>de</strong>mment dû aux ouvrages <strong>de</strong> David Goldberg [24] mais leur<br />

date <strong>de</strong> naissance réelle provient <strong>de</strong> la publication en 1975 du livre <strong>de</strong> John<br />

Holland intitulé Adaptation in Natural and Artificial System.<br />

Les algorithmes évolutionnaires sont <strong>de</strong> <strong>par</strong> leur nature <strong>de</strong> métaheuristique<br />

extrèmement flexibles. Ils peuvent donc être appliqués à <strong>de</strong> nombreux problèmes.<br />

Toutefois, leur utilisation en tant que « magic box »est à proscrire ! En


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 29<br />

effet, certains mécanismes internes nécessitent un coût calculatoire important<br />

et les performances d’une implémentation irréfléchie <strong>de</strong> ce genre <strong>de</strong> métho<strong>de</strong><br />

seraient plus que médiocres.<br />

De manière générale, il est important <strong>de</strong> spécialiser l’algorithme en fonction<br />

du problème étudié. En effet, l’inclusion <strong>de</strong> connaissance au processus <strong>de</strong> recherche<br />

ne fera qu’améliorer la qualité <strong>de</strong>s résultats obtenus. Toutefois une chose<br />

est certaine, un algorithme évolutionnaire ne fournira jamais <strong>de</strong> meilleures performances<br />

qu’une métho<strong>de</strong> <strong>de</strong> recherche exacte (si elle existe).<br />

Avant d’examiner le fonctionnement <strong>de</strong> ce type <strong>de</strong> métho<strong>de</strong>, définissons-en<br />

le vocabulaire. L’espace <strong>de</strong> recherche sera appelé l’environnement et les solutions<br />

seront les individus regroupés en population.<br />

Le but <strong>de</strong> l’algorithme est d’évaluer la capacité d’une population à s’adapter<br />

à son environnement. Pour mesurer la qualité <strong>de</strong>s individus, l’algorithme utilise<br />

une fonction d’évaluation appellée fonction <strong>de</strong> fitness. Le but <strong>de</strong>vient donc la<br />

recherche d’un individu maximisant la fonction <strong>de</strong> fitness.<br />

Pour représenter un individu, les algorithmes génétiques utilisent <strong>de</strong>s chromosomes.<br />

On dira que le génotype d’un individu représente son codage quand son<br />

phénotype sera l’expression du co<strong>de</strong> génétique dans l’environnement. Les différent<br />

types d’algorithmes évolutionnaires sont en fait caractérisés <strong>par</strong> le moyen<br />

<strong>de</strong> codage <strong>de</strong>s individus utilisé.<br />

Maintenant que ce vocabulaire est acquis, penchons-nous sur le fonctionnement<br />

<strong>de</strong> l’algorithme avant d’approfondir les métho<strong>de</strong>s d’exploration <strong>de</strong> l’espace<br />

et d’intensification <strong>de</strong>s solutions. Comme le montre la figure 2.4, tout<br />

commence au dé<strong>par</strong>t d’une population initiale. L’idée <strong>de</strong>s algorithmes évolutionnaires<br />

est <strong>de</strong> fonctionner <strong>par</strong> génération <strong>de</strong> population. Il faut donc créer <strong>de</strong><br />

nouveaux individus sur base <strong>de</strong> la population courante.<br />

Pour ce faire, une <strong>par</strong>tie <strong>de</strong> la population sera sélectionnée pour donner<br />

naissance à <strong>de</strong> nouveaux individus. Ces individus enfants seront créés <strong>par</strong> croisement<br />

et/ou mutation afin former la nouvelle population. Par ailleurs, afin <strong>de</strong><br />

conserver une certaine mémoire <strong>de</strong>s individus visités, un facteur d’élitisme sera<br />

utilisé pour inclure certains <strong>par</strong>ents dans la nouvelle génération d’individus. On<br />

répetera ces opérations jusqu’à ce qu’un critère <strong>de</strong> terminaison soit atteint.<br />

Bien entendu, s’il existe <strong>de</strong> multiples algorithmes évolutionnaires, c’est non<br />

seulement <strong>par</strong>ce que le codage <strong>de</strong>s individus diffère <strong>de</strong> métho<strong>de</strong> en métho<strong>de</strong><br />

mais également <strong>par</strong>ce que les opérations <strong>de</strong> sélection, <strong>de</strong> croisement et <strong>de</strong><br />

mutations connaissent beaucoup <strong>de</strong> variantes. Une foule <strong>de</strong> possibilités existe<br />

mais nous ne les explorerons pas ici. Le lecteur intéressé en trouvera quelques


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 30<br />

Fig. 2.4 – Fonctionnement d’un algorithme évolutionnaire ordinaire.


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 31<br />

exemples <strong>par</strong>ticulièrements intéressants dans [25].<br />

C’est <strong>par</strong> contre le moment <strong>de</strong> pointer du doigt les mécanismes qui nous<br />

intéressent ! En effet, ce sont ces trois opérateurs (sélection, croisement et mutation)<br />

qui constituent la base du compromis entre exploration et intensification<br />

que le présent ouvrage s’attèle à déterminer ! Par ailleurs, la métho<strong>de</strong> <strong>de</strong> reproduction<br />

ainsi que le remplacement <strong>de</strong> la population sont <strong>de</strong>ux autres facteurs<br />

intéressants.<br />

On peut dire que l’opérateur <strong>de</strong> sélection a une influence sur la convergence<br />

<strong>de</strong> l’algorithme. Ainsi, afin <strong>de</strong> gar<strong>de</strong>r un <strong>de</strong>rgé d’exploration suffisant, une certaine<br />

diversité doit être conservée <strong>par</strong>mis les individus. Il faudra donc que la<br />

population <strong>de</strong> <strong>par</strong>ents sélectionnés ne soit pas trop restreinte. L’opérateur <strong>de</strong><br />

croisement quant à lui est le principal outil mettant en œuvre le compromis<br />

entre exploration et intensification. Cet opérateur plus que n’importe quel autre<br />

doit être spécifique au problère étudié ainsi qu’au codage utilisé dans la représentation<br />

<strong>de</strong>s individus. En ce qui concerne l’opérateur <strong>de</strong> mutation, on peut<br />

dire qu’il garanti une certaine exploration aléatoire <strong>de</strong> l’espace. Il faudra donc<br />

veiller à ne pas trop l’utiliser afin <strong>de</strong> ne pas entrer dans un état <strong>de</strong> stagnation dû<br />

à l’é<strong>par</strong>pillement constant <strong>de</strong>s individus.<br />

Vient ensuite la métho<strong>de</strong> <strong>de</strong> reproduction. On entend <strong>par</strong> là le nombre<br />

d’enfants généré <strong>par</strong> un couple d’individus <strong>par</strong>ents. De multiples possibilités<br />

existent, qui influe généralement sur la rapidité <strong>de</strong> concentration <strong>de</strong> la population<br />

autour <strong>de</strong>s bons individus.<br />

Pour finir, il reste le facteur <strong>de</strong> remplacement <strong>de</strong> la population. Si une population<br />

est entièrement renouvelée à chaque itération, les chances <strong>de</strong> convergence<br />

se verront réduites. Il faut adopter un certain niveau d’élitisme qui permet <strong>de</strong><br />

conserver une mémoire <strong>de</strong>s bons individus rencontrés.<br />

Comme le montrent les trois <strong>par</strong>araphes précé<strong>de</strong>nts, le nombre <strong>de</strong> choix<br />

<strong>par</strong>amétriques à faire est assez important. C’est là le grand problème <strong>de</strong>s algorithmes<br />

évolutionnaires : il faut du temps pour dégager une configuration<br />

<strong>par</strong>amétrique intéressante.<br />

On constate donc que la famille <strong>de</strong>s algorithmes évolutionnaires dispose<br />

<strong>de</strong> plusieurs outils intéressants jouant directement sur les individus <strong>de</strong> la population.<br />

Remarquons que la qualité <strong>de</strong> la population initiale n’est pas sans<br />

importance ! En effet, elle est un facteur déterminant pour le déroulement et la<br />

convergence <strong>de</strong> l’algorithme. Il est d’ailleurs fréquent d’utiliser comme population<br />

initiale les résultats <strong>de</strong> diverses recherches locales effectuée préalablement.<br />

Cela donne naissance à <strong>de</strong>s algorithmes hybri<strong>de</strong>s que nous aurons l’occasion <strong>de</strong>


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 32<br />

découvrir plus loin.<br />

Pour terminer cette section sur les algorithmes évolutionnaires, notons qu’ils<br />

offrent facilement la possibilité d’effectuer une exécution <strong>par</strong>allèle sur un cluster<br />

<strong>de</strong> machines ou sur une machine multi-processeur. En effet, dès lors que chaque<br />

individu doit être évalué individuellement, une évaluation simultanée <strong>de</strong> plusieurs<br />

individus est tout à fait envisageable ! Une autre possibilité facilement<br />

exploitable serait <strong>de</strong> conserver la population d’origine et <strong>de</strong> procé<strong>de</strong>r <strong>par</strong> sélection<br />

inverse : un individu fils viendrait remplacer le plus mauvais individu <strong>de</strong><br />

la population.<br />

2.2.5 Colonies <strong>de</strong> <strong>fourmis</strong><br />

Les <strong>fourmis</strong> dans la nature<br />

Tout comme les algorithmes évolutionnaires, la métho<strong>de</strong> <strong>de</strong>s <strong>colonie</strong>s <strong>de</strong><br />

<strong>fourmis</strong> est basée sur une observation naturelle : le comportement <strong>de</strong>s <strong>fourmis</strong><br />

dans leur cohabitation en <strong>colonie</strong>s. En 1983, <strong>de</strong>s chercheurs découvrent que les<br />

<strong>fourmis</strong> ont la capacité <strong>de</strong> toujours trouver le chemin le plus court entre leur nid<br />

et une source <strong>de</strong> nourriture (<strong>par</strong> exemple) [26], ce qui est assez surprenant car la<br />

gran<strong>de</strong> majorité <strong>de</strong>s <strong>fourmis</strong> est aveugle. Par ailleurs, les <strong>fourmis</strong> sont également<br />

aptes à réagir aux modifications <strong>de</strong> l’environnement. Ainsi, lorsqu’un ancien<br />

chemin est obstrué <strong>par</strong> un obstacle quelconque, les <strong>fourmis</strong> trouveront un autre<br />

chemin, toujours plus court que tous les autres possibles.<br />

Ces <strong>par</strong>ticularités surprenantes ont donc fait l’objet <strong>de</strong> nombreuses recherches<br />

et finalement, un moyen <strong>de</strong> communication chimique entre les <strong>fourmis</strong> fut découvert<br />

: la phéromone. Concrètement, les <strong>fourmis</strong> déposent régulièrement une<br />

certaine quantité <strong>de</strong> phéromone sur le chemin qu’elles <strong>par</strong>courent. Lorsqu’elles<br />

arrivent à un point où plusieurs chemins s’offrent à elles, elles font un choix<br />

probabiliste sur base <strong>de</strong> la quantité <strong>de</strong> phéromone présente sur chaque chemin.<br />

Ainsi, lorsque plusieurs <strong>fourmis</strong> sillonnent le même espace, on assiste à<br />

l’émergence du meilleur chemin entre le nid et la source <strong>de</strong> nourriture.<br />

Pour mieux comprendre cette <strong>par</strong>ticularité, examinons ce qu’il se passe dans<br />

le cas d’une modification environnementale. Initialement, les <strong>fourmis</strong> utilisent<br />

un chemin donné (cfr. figure 2.5(a)) entre le nid (A) et la source <strong>de</strong> nourriture<br />

(E). Subitement, une bûche bloque le chemin d’origine. Les foumis sont donc<br />

contraintes <strong>de</strong> trouver un autre chemin.<br />

Dans le sens A vers E, les premières <strong>fourmis</strong> à <strong>de</strong>voir faire ce choix auront


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 33<br />

la même probabilité <strong>de</strong> se diriger à gauche ou à droite <strong>de</strong> l’obstacle car aucune<br />

autre fourmi ne sera passée avant elles. Il n’y a donc aucune trace phéromonale<br />

(cfr. figure 2.5(b)). Toutefois, une fourmi ayant choisi d’aller à droite (chemin<br />

BCD) arrivera en D bien avant une fourmi ayant choisi la gauche. De plus la<br />

situation est i<strong>de</strong>ntique en ce qui concerne le sens E vers A (cfr. figure 2.5(c)).<br />

Finalement, la quantité <strong>de</strong> <strong>fourmis</strong> utilisant l’axe BCD est plus élevée que<br />

pour l’axe BHD ce qui entraîne une quantité <strong>de</strong> phéromone croissante sur l’axe<br />

BCD. Après un certain laps <strong>de</strong> temps, toutes les <strong>fourmis</strong> <strong>de</strong>vraient (statistiquement)<br />

utiliser l’axe BCD (cfr. figure 2.5(c)). C’est ce phénomène que l’on appelle<br />

la stigmergie.<br />

Fig. 2.5 – Evolution du comportement <strong>de</strong>s <strong>fourmis</strong> en fonction d’une modification<br />

<strong>de</strong> l’environnement : (a) situation initiale, (b) un ostacle s’interpose et<br />

les <strong>fourmis</strong> choisissent d’aller d’un côté ou <strong>de</strong> l’autre avec la même probabilité,<br />

(c) l’axe BCD étant plus court, les <strong>fourmis</strong> arrivent plus vite <strong>de</strong> l’autre côté <strong>de</strong><br />

l’obstacle, (d) le nombre croissant <strong>de</strong> phéromones fait émerger le chemin BCD.


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 34<br />

La transposition informatique <strong>de</strong>s <strong>fourmis</strong><br />

Comme nous venons <strong>de</strong> le voir, les <strong>fourmis</strong> possè<strong>de</strong>nt naturellement un<br />

outil leur permettant <strong>de</strong> communiquer <strong>de</strong> façon générale afin <strong>de</strong> faire ressortir<br />

un comportement global <strong>de</strong> la <strong>colonie</strong>. Les premières publications <strong>de</strong> cette idée<br />

datent <strong>de</strong> 1991 [27, 28] et la première application fut faite sur le problème du<br />

voyageur <strong>de</strong> commerce. Cette transposition était évi<strong>de</strong>nte vu que l’objectif <strong>de</strong><br />

ce problème est <strong>de</strong> trouver un chemin minimal répondant à certains critères. Il<br />

est toutefois possible d’utiliser un système <strong>de</strong> <strong>fourmis</strong> pour résoudre d’autres<br />

problèmes.<br />

Les métho<strong>de</strong>s <strong>de</strong> recherche <strong>par</strong> <strong>colonie</strong> <strong>de</strong> <strong>fourmis</strong> on une <strong>par</strong>ticularité :<br />

la recherche <strong>de</strong> solutions s’effectue sur base <strong>de</strong> la totalité <strong>de</strong> la population et<br />

non plus a <strong>par</strong>tir <strong>de</strong> quelques meilleurs individus (comme c’est le cas dans<br />

les algorithmes évolutionnaires). Cette <strong>par</strong>ticularité non négligeable a donné<br />

naissance la création <strong>de</strong> nombreux types d’algorithme <strong>de</strong> recherche, nous en<br />

découvrirons ici les gran<strong>de</strong>s lignes.<br />

Le concept général est <strong>de</strong> simuler le comportement <strong>de</strong> plusieurs agents collaborants<br />

dans la recherche d’une meilleure solution en utilisant un moyen <strong>de</strong><br />

communication simple : la phéromone. Dans le cadre <strong>de</strong> la métaheuristique<br />

d’optimisation <strong>par</strong> <strong>colonie</strong> <strong>de</strong> fourmi, les agents sont ... <strong>de</strong>s <strong>fourmis</strong>. Bien entendu,<br />

il y aura quelques différences entre les <strong>fourmis</strong> naturelles et celles utilisée<br />

dans le domaine informatique que nous nommerons désormais <strong>fourmis</strong> artificielles.<br />

Ainsi, une fourmi artificielle :<br />

1. n’est pas totalement aveugle et peut donc voir un peu plus loin que son<br />

entourage direct ;<br />

2. évolue dans un univers ou le temps est discret ;<br />

3. dispose d’une certaine mémoire lui permettant <strong>de</strong> retenir la solution qu’elle<br />

a construit ;<br />

4. gère la quantité <strong>de</strong> phéromone déposée en fonction <strong>de</strong> la qualité <strong>de</strong> la<br />

solution et peut procé<strong>de</strong>r à différents types <strong>de</strong> dépôts phéromonaux.<br />

Ces quelques améliorations ne sont pas sans conséquences, nous allons le découvrir<br />

ci-<strong>de</strong>ssous..<br />

Pour commencer, découvrons l’impact engendré <strong>par</strong> l’acuité visuelle <strong>de</strong> nos<br />

<strong>fourmis</strong> artificielles. Très clairement, cela permet à la fourmi <strong>de</strong> se gui<strong>de</strong>r autrement<br />

que <strong>par</strong> son seul environnement direct. Ce gui<strong>de</strong> est en fait une valeur que<br />

nous appellerons valeur heuristique, c’est-à-dire une valeur pouvant influencer le


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 35<br />

choix fait <strong>par</strong> notre fourmi. Par exemple, dans le cadre <strong>de</strong> la recherche d’un plus<br />

court chemin, lorsqu’une fourmi <strong>de</strong>vra faire un choix sur le chemin à suivre,<br />

une valeur heuristique pouvant lui simplifier la tâche serait, <strong>par</strong> exemple, la<br />

longueur <strong>de</strong>s chemins accessibles.<br />

Cette valeur heuristique est donc une donnée propre au problème qui permet<br />

<strong>de</strong> spécialiser la métaheuristique. Il s’agit là d’un atout important car, nous<br />

l’avons déjà vu, utiliser une métaheuristique comme métho<strong>de</strong> <strong>de</strong> recherche<br />

universelle n’est pas une bonne idée et conduirait certainement à <strong>de</strong> médiocres<br />

résultats. C’est <strong>par</strong> l’inclusion <strong>de</strong> connaissances propres au problème étudié que<br />

la métho<strong>de</strong> <strong>de</strong> recherche fournira les meilleurs résultats.<br />

Revenons en donc à nos <strong>fourmis</strong>. Chacune tente <strong>de</strong> trouver une solution<br />

minimisant la fonction d’évaluation utilisée. Cette solution est donc construite<br />

pas-à-pas en fonction <strong>de</strong> divers <strong>par</strong>amètres <strong>par</strong>mis lesquels nous retrouvons<br />

la valeur heuristique. Bien évi<strong>de</strong>mment, les phéromones sont toujours <strong>de</strong> la<br />

<strong>par</strong>tie. Pratiquement, le choix fait <strong>par</strong> une fourmi artificielle dépends <strong>de</strong> ces<br />

<strong>de</strong>ux données.<br />

De manière plus formelle, on dit qu’à chaque point nécessitant un choix, une<br />

table <strong>de</strong> décision, résultat d’une opération mathématique <strong>par</strong>ticulière, produit<br />

les règles probabilistes sur lesquelles sont basés les mouvements <strong>de</strong>s <strong>fourmis</strong>.<br />

Afin <strong>de</strong> découvrir cette opération mathématique, notons <strong>par</strong> τij la quantité <strong>de</strong><br />

phéromone présente sur un chemine reliant i à j et <strong>par</strong> ηij la valeur heuristique<br />

associée à ce même chemin. En considérant que la fourmi se trouve sur un point<br />

i, la probabilité pij qu’elle se dirige vers le point j sera donnée <strong>par</strong> :<br />

pij =<br />

[τij] α · [ηij] β<br />

k∈V(i)[τik] α · [ηik] β<br />

où V(i) représente le voisinage <strong>de</strong> i, c’est-à-dire tous les points accessibles à<br />

<strong>par</strong>tir <strong>de</strong> i et où α et β sont <strong>de</strong>s <strong>par</strong>amètres permettant <strong>de</strong> contrôler l’importance<br />

relative donnée aux phéromones et aux valeurs heuristiques. Pour être complet,<br />

rappelons nous que nos <strong>fourmis</strong> artificielles évoluent dans un univers ou le<br />

temps est discret. La formule <strong>de</strong>vient donc :<br />

pij =<br />

[τij(t)] α · [ηij(t)] β<br />

k∈V(i)[τik(t)] α · [ηik(t)] β<br />

De ces formules, nous retirons q’une fourmi procè<strong>de</strong> à la construction d’une<br />

solution étape <strong>par</strong> étape en effectuant un choix stochastique en fonction <strong>de</strong>s<br />

phéromones et <strong>de</strong>s valeurs heuristiques présentes sur son chemin. Nous venons


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 36<br />

donc <strong>de</strong> mettre le doigt sur <strong>de</strong>ux <strong>de</strong>s <strong>par</strong>amètres les plus fondamentaux <strong>de</strong> la<br />

métho<strong>de</strong> <strong>de</strong>s <strong>colonie</strong>s <strong>de</strong> <strong>fourmis</strong> : α et β. En effet, ces <strong>par</strong>amètres ont un <strong>de</strong>gré<br />

d’influence important <strong>par</strong> rapport à l’exploration <strong>de</strong> l’espace conformationnel et<br />

à l’intensification <strong>de</strong>s solutions. Nous aurons l’occasion d’y revenir au chapitre<br />

suivant lorsque nous décrirons la manière dont nous avons adapté la métho<strong>de</strong><br />

<strong>de</strong>s <strong>colonie</strong>s <strong>de</strong> <strong>fourmis</strong> au problème <strong>de</strong> la prédiction <strong>de</strong> structures natives.<br />

Maintenant que nous savons comment s’orientent les <strong>fourmis</strong>, nous allons<br />

découvrir comment se gère le dépôt <strong>de</strong> phéromones. En effet, c’est en déposant<br />

<strong>de</strong>s phéromones qu’une fourmi augmente la probabilité <strong>de</strong> fréquentation du<br />

chemin qu’elle utilise. Pour en revenir à notre petite énumération <strong>de</strong>s différences<br />

entre fourmi réelle et fourmi artificielle, nous allons découvrir simultanément<br />

l’intéret <strong>de</strong> la mémoire <strong>de</strong> la fourmi artificielle ainsi que les diverses façons dont<br />

elle dépose ses phéromones.<br />

Grâce à sa mémoire, une fourmi peut construire une solution valable répondant<br />

à certains critères dépendant du problème étudié. De plus, une fois la<br />

solution élaborée, elle peut l’évaluer dans sa totalité ! C’est grâce à ces capacités<br />

<strong>de</strong> souvenir et d’évaluation qu’une fourmi peut procé<strong>de</strong>r à différents types <strong>de</strong><br />

dépôts <strong>de</strong> phéromones :<br />

– lorsqu’une fourmi dépose <strong>de</strong>s phéromones tout au long <strong>de</strong> l’élaboration<br />

<strong>de</strong> sa solution, on <strong>par</strong>lera <strong>de</strong> dépôt en ligne, pas-à-pas (online step by step) ;<br />

– <strong>par</strong> contre, si une fourmi procè<strong>de</strong> à un dépôt phéromonal à la fin <strong>de</strong> la<br />

construction <strong>de</strong> sa solution, on <strong>par</strong>lera <strong>de</strong> dépôt en ligne, retardé (online<br />

<strong>de</strong>layed).<br />

De plus, la quantité <strong>de</strong> phéromone déposée sera directement proportionnelle<br />

à la qualité <strong>de</strong> la solution (<strong>par</strong>tielle) élaborée. Si cette solution est intéressante,<br />

la fourmi déposera une gran<strong>de</strong> quantité <strong>de</strong> phéromone afin <strong>de</strong> maximiser les<br />

chances <strong>de</strong> passage <strong>par</strong> les autres <strong>fourmis</strong>.<br />

Nous venons donc <strong>de</strong> découvrir que l’intensification d’une solution se fait<br />

suite à la quantité phéromonale présente sur un chemin. Bien entendu, la valeur<br />

donnée à α reste prépondérante. Dans le cas ou celle-ci serait <strong>de</strong> 0, les<br />

phéromones ne seraient tout simplement pas pirses en compte.<br />

Il est <strong>par</strong> ailleurs intéressant <strong>de</strong> constater qu’une réduction néfaste <strong>de</strong> l’espace<br />

<strong>de</strong> recherche aura lieu si la quantité phéromonale déposée est mal gérée.<br />

Dans ce cas, on pourrait assister à l’émergence rapi<strong>de</strong> d’un chemin minimal<br />

qui engendrerait un état <strong>de</strong> stagnation <strong>de</strong> la recherche. En effet, ce chemin étant<br />

utilisé <strong>par</strong> un nombre croissant <strong>de</strong> <strong>fourmis</strong>, la quantité phéromonale ne cesserait<br />

d’augmenter et plus aucune exploration <strong>de</strong> l’espace n’aurait lieu.


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 37<br />

Heureusement, une phéromone n’est pas éternelle ! En effet, dans la nature<br />

tout comme dans la transposition informatique, les phéromones s’évaporent.<br />

Nous introduisons donc un facteur <strong>de</strong> persistance qui sera appliqué à tout<br />

dépôt phéromonal. En nottant <strong>par</strong> ρ le facteur <strong>de</strong> persistance, nous pouvons<br />

dire que (1 − ρ) correspond à l’évaporation. Ainsi, un moyen <strong>de</strong> contrôle <strong>de</strong> la<br />

convergence <strong>de</strong> l’algorithme nous est donné. Ce facteur <strong>de</strong> persistance évoque<br />

d’une certaine manière la mémoire <strong>de</strong> la <strong>colonie</strong>. Pour faire la com<strong>par</strong>aison avec<br />

les algorithmes génétiques, la persistance est à la phéromone ce que l’élitisme<br />

était à la population.<br />

Attention toute fois à ne pas se méprendre, l’exemple d’émergence rapi<strong>de</strong><br />

d’un chemin minimal sera toujours possible ! La métaheuristique <strong>de</strong>s <strong>colonie</strong>s<br />

<strong>de</strong> <strong>fourmis</strong>, comme bien d’autres, <strong>de</strong>man<strong>de</strong> un temps considérable dans la<br />

recherche d’une <strong>par</strong>amétrisation satisfaisante. Une solution intéressante à ce<br />

problème consiste à modifier le <strong>par</strong>amètre α pour quelques tours, afin <strong>de</strong> relancer<br />

l’exploration <strong>de</strong> l’espace. Un autre problème potentiel résolu <strong>par</strong> le facteur<br />

<strong>de</strong> persistance est ce que l’on appelle en anglais le phénomène d’attrition. Ce<br />

problème provient <strong>de</strong> l’accumulation <strong>de</strong> phéromones due à un tronçon <strong>par</strong>tiel<br />

commun dans plusieurs solutions différentes. Toutefois, il faut remarquer que<br />

ce phénomène se produit plus facilement dans un espace bidimentionnel fortement<br />

discrétisé que dans un espace tridimentionel tel que ceux dont nous avons<br />

<strong>par</strong>lé ci-<strong>de</strong>ssus.<br />

Les cinq <strong>de</strong>rniers <strong>par</strong>agraphes nous ont donc appris que chaque fourmi fait<br />

un dépot <strong>de</strong> phéromone en fonction <strong>de</strong> la solution qu’elle a calculé et qu’un facteur<br />

<strong>de</strong> persistance ρ permet <strong>de</strong> gérer l’évaporation <strong>de</strong>s dépots <strong>de</strong> phéromones.<br />

Il est donc intéressant <strong>de</strong> formaliser cela. Ainsi, en notant <strong>par</strong> ∆τ k<br />

ij<br />

(t, t + n) la<br />

quantité <strong>de</strong> phéromone déposée <strong>par</strong> la fourmi k sur le chemin ij dans l’interalle<br />

<strong>de</strong> temps (t, t + n) nous obtenons que :<br />

τij(t + n) = ρτij(t) +<br />

m<br />

k=1<br />

∆τ k<br />

ij (t, t + n)<br />

où m représente le nombre total <strong>de</strong> <strong>fourmis</strong>, n est l’intervalle unitaire <strong>de</strong> temps<br />

discret et τij(t) est toujours la quantité <strong>de</strong> phéromone présente sur le chemin<br />

reliant i à j. On peut traduire cette formule en disant que la quantité <strong>de</strong> phéromones<br />

présentes sur le chemin ij à l’instant (t + n) est égale à la persistance <strong>de</strong><br />

la quantité <strong>de</strong> phéromone présente à l’instant précé<strong>de</strong>nt (t) à laquelle on ajoute<br />

les nouveaux dépots <strong>de</strong> toute les <strong>fourmis</strong> ayant <strong>par</strong>couru le chemin ij <strong>de</strong>puis<br />

l’instant précé<strong>de</strong>nt (t).


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 38<br />

Enfin, pour clôturer cette section, notons que lorsqu’une fourmi a procédé<br />

à l’élaboration d’une solution ainsi qu’à la mise à jour phéromonale correspondante,<br />

elle meurt. Cela nous permet <strong>de</strong> bien nous rendre compte <strong>de</strong> l’indépendance<br />

<strong>de</strong>s <strong>fourmis</strong> <strong>par</strong> rapport à la <strong>colonie</strong>. En effet, tout au long <strong>de</strong> sa vie,<br />

la fourmi n’aura utilisé que les informations locales qui se trouvaient sur son<br />

chemin, sans oublier la valeur heuristique.<br />

Les <strong>par</strong>ticularités offertes <strong>par</strong> la <strong>colonie</strong> artificielle<br />

Les avantages présentés <strong>par</strong> la métaheuristique <strong>de</strong>s <strong>colonie</strong>s <strong>de</strong> <strong>fourmis</strong> ne<br />

s’arrêtent pas là ! En effet, en plus <strong>de</strong>s améliorations effectuées sur les <strong>fourmis</strong>, il<br />

est possible d’effectuer <strong>de</strong>s actions centralisées qu’une fourmi réelle serait incapable<br />

<strong>de</strong> réaliser. Par exemple, il est possible <strong>de</strong> procé<strong>de</strong>r à un dépot phéromonal<br />

supplémentaire pour certaines solutions jugées <strong>par</strong>ticulièrement intéressantes.<br />

On <strong>par</strong>lera alors <strong>de</strong> dépôt hors-ligne (offline), ce qui correspond à une certaine<br />

forme d’élitisme anticipatif.<br />

Nous pouvons donc récapituler le fonctionnement d’une <strong>colonie</strong> <strong>de</strong> fourmi<br />

<strong>par</strong> le pseudoco<strong>de</strong> suivant :<br />

while ( c r i t e r e <strong>de</strong> terminaison non a t t e i n t ) {<br />

p l a n i f i c a t i o n {<br />

<strong>fourmis</strong>_en_action ( ) ;<br />

evaporation_<strong>de</strong>s_pheromones ( ) ;<br />

a c t i o n s _ g e n e r a l e s ( ) ;<br />

}<br />

}<br />

Il est important <strong>de</strong> remarquer que les opérations <strong>de</strong> planification ne sont pas<br />

définies, ce qui permet une multitu<strong>de</strong> d’implémentation <strong>de</strong> cette métho<strong>de</strong> [29].<br />

De plus, la métaheuristique, <strong>de</strong> <strong>par</strong> son fonctionnement, permet <strong>de</strong>s implémentations<br />

faciles pour <strong>de</strong>s systèmes informatiques en cluster [30, 29].<br />

Enfin, notons que d’autres métho<strong>de</strong>s heuristiques basées sur <strong>de</strong>s observations<br />

naturelles existent (comme <strong>par</strong> exemple les réseaux <strong>de</strong> neurones). Le lecteur<br />

intéressé sera certainement comblé <strong>par</strong> [22] qui propose un excellent tour<br />

d’horison en la matière.


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 39<br />

2.2.6 Métho<strong>de</strong>s hybri<strong>de</strong>s<br />

Il arrive fréquemment que <strong>de</strong>s solutions hybri<strong>de</strong>s soient apportées au problème<br />

d’exploration <strong>de</strong> l’espace. L’idée est <strong>de</strong> combiner <strong>de</strong>ux métho<strong>de</strong>s complémentaires<br />

: une <strong>de</strong> recherche globale et une <strong>de</strong> recherche locale. En effet, les<br />

effets combinés obtenus <strong>par</strong> ce genre d’hybridation sont souvent encourageants.<br />

A titre d’exemple, examinons l’hybridation d’un algoritme évolutionnaire<br />

[31] avec, comme métho<strong>de</strong> <strong>de</strong> recherche locale la métho<strong>de</strong> Tabou (mais nous<br />

aurions pu choisir n’importe quelle autre autre). Typiquement, la phase d’initialisation<br />

<strong>de</strong> l’algorithme évolutionnaire sera modifiée en ce sens qu’une recherche<br />

locale sera effectuée sur chaque individu <strong>de</strong> dé<strong>par</strong>t. Ensuite commencera seulement<br />

la reherche proprement dite. De plus, plutôt que <strong>de</strong> procé<strong>de</strong>r simplement<br />

à un croisement lors du renouvellement <strong>de</strong> la population, une intensification<br />

locale sera à nouveau effectuée sur les individus résultant du croisement.<br />

Ces modifications permettent <strong>de</strong> concentrer la recherche globale autour <strong>de</strong><br />

solutions à priori locales. Bien entendu, tout autre mélange est possible. Il faudra<br />

toutefois procé<strong>de</strong>r à l’hybridation <strong>de</strong> manière intelligente afin <strong>de</strong> ne pas<br />

engendrer <strong>de</strong> surcoût <strong>de</strong> calcul ni <strong>de</strong> dégradation <strong>de</strong> compromis entre exploration<br />

et intensification. D’autres exemples d’hybridation existent en masse, [32]<br />

propose <strong>par</strong> exemple l’hybridation d’un réseau <strong>de</strong> neurone (métaheuristique<br />

non explorée dans le cadre <strong>de</strong> cet ouvrage) avec la recherche Tabou.<br />

2.3 Les fonctions énergétiques<br />

Quelle que soit la recherche effectuée in silico, un besoin commun est la fonction<br />

énergétique capable d’évaluer la correspondance qualitative et quantitative<br />

entre une séquence d’aci<strong>de</strong>s aminés et une conformation spatiale donnée. En<br />

effet, la performance atteinte <strong>par</strong> le matériel et la qualité <strong>de</strong>s algorithmes utilisés<br />

ne servent à rien sans une fonction d’évaluation pertinente.<br />

Les fonctions énergétiques fournissent <strong>de</strong>s résultats sur base <strong>de</strong> potentiels qui<br />

sont représentatifs <strong>de</strong>s interactions présentes au sein d’une structure tridimensionnelle.<br />

Lorsqu’une interaction interne est native, son potentiel énergétique<br />

sera faible. Bien entendu, le nombre <strong>de</strong> types d’interactions dans une protéine<br />

est élevé, ce qui engendre une multitu<strong>de</strong> <strong>de</strong> potentiels calculables.<br />

A titre d’exemple, le potentiel d’hydrophobicité est calculé sur base <strong>de</strong>s différences<br />

entre résidus hydrophobes et résidus hydrophiles et est totalement<br />

indépendant <strong>de</strong> la conformation locale adoptée <strong>par</strong> la protéine. Son utilisation


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 40<br />

influencera la prédiction vers un arrangement spécifique <strong>de</strong>s résidus hydrophobes.<br />

Autre exemple, le potentiel <strong>de</strong> distance qui est calculé sur base <strong>de</strong> la<br />

propension d’un couple <strong>de</strong> résidus distants dans la séquence, à être sé<strong>par</strong>és dans<br />

l’espace <strong>par</strong> une certaine distance.<br />

Nous aurons l’occasion <strong>de</strong> revenir sur ces potentiels lors <strong>de</strong> l’explication<br />

détaillée du calcul <strong>de</strong> l’énergie libre <strong>de</strong> nos prédictions.<br />

2.4 L’évaluation <strong>de</strong>s résultats d’une prédiction<br />

Afin <strong>de</strong> développer <strong>de</strong>s algorithmes toujours plus performant, <strong>de</strong> nombreux<br />

tests sont effectués. Afin <strong>de</strong> procé<strong>de</strong>r à ces mesures, il est fréquent <strong>de</strong> faire<br />

<strong>de</strong> la prédiction <strong>de</strong> structure native sur <strong>de</strong>s protéines dont on connaît déjà la<br />

conformation d’énergie libre minimale. Pour procé<strong>de</strong>r à l’évaluation, on effectue<br />

généralement un calcul du RMSD (Root Mean square Deviation) entre la conformation<br />

native et celle obtenue <strong>par</strong> prédiction. Cette opération mesure simplement<br />

les différences <strong>de</strong> position entre les atomes <strong>de</strong> Cα représentatifs du squelette <strong>de</strong>s<br />

structures com<strong>par</strong>ées. Bien entendu, il serait tout à fait envisageable d’effectuer<br />

un calcul RMSD sur chaque atome constituant la protéine. Notons également<br />

qu’un calcul RMSD retourne le plus petit résultat possible. En effet, le calcul<br />

s’effectue sur le meilleur alignement <strong>de</strong>s <strong>de</strong>ux structures com<strong>par</strong>ées, ce qui a<br />

pour effet d’en minimiser le résultat.<br />

En notant <strong>par</strong> (x i n , yi n , zi n ) les coordonnées <strong>de</strong> l’atome Cα du résidu i <strong>de</strong> la<br />

structure native et <strong>par</strong> (x i p , yi p , zi p ) les coordonnées <strong>de</strong> l’atome Cα du résidu n <strong>de</strong><br />

la structure prédite, le calcul du RMSD s’effectue en calculant :<br />

⎛ <br />

1<br />

min ⎜⎝ r<br />

r<br />

i=1<br />

<br />

i (xn − xi p) 2 + (yi n − yi p) 2 + (zi n − zi p) 2<br />

⎞⎟ ⎠<br />

où r est le nombres <strong>de</strong> résidus <strong>de</strong> la protéine.<br />

Une secon<strong>de</strong> métho<strong>de</strong> d’évaluation serait <strong>de</strong> com<strong>par</strong>er les résultats énergétiques<br />

obtenus entre diverses métho<strong>de</strong>s <strong>de</strong> prédiction. Malheureusement, l’imperfection<br />

<strong>de</strong>s multiples fonctions énergétiques existantes nous oblige à regar<strong>de</strong>r<br />

ces résultats avec circonspection. Il n’est pas rare que l’évaluation énergétique<br />

d’une structure native connue offre un score supérieur à celle d’une prédiction !<br />

D’autres com<strong>par</strong>aisons peuvent avoir lieu entre la protéine à l’état natif et la<br />

protéine prédite. Citons <strong>par</strong> exemple l’étu<strong>de</strong> du pourcentage <strong>de</strong> contacts natifs,


CHAPITRE 2. PRÉSENTATION DES OUTILS ET MÉTHODES EXISTANTS 41<br />

c’est-à-dire <strong>de</strong> contact inter-résidus semblables entre la structure native connue<br />

et la structure prédite.<br />

Un autre facteur fréquemment évalué est celui du temps requis <strong>par</strong> une<br />

prédiction. Au vu <strong>de</strong> la gran<strong>de</strong> diversité <strong>de</strong> machines et <strong>de</strong> métho<strong>de</strong>s utilisées<br />

dans ce domaine, il va <strong>de</strong> soi qu’une unité d’évaluation temporelle simple serait<br />

un non sens. Il est donc fréquent d’utiliser comme source <strong>de</strong> prédiction une base<br />

<strong>de</strong> données contenant <strong>de</strong>s protéines-type présentant <strong>de</strong>s propriétés <strong>par</strong>ticulières<br />

(benchmarks). Ainsi, en spécifiant les caractéristiques <strong>de</strong> la machine utilisée, on<br />

peut se faire une idée <strong>de</strong> la qualité <strong>de</strong> la métho<strong>de</strong> <strong>de</strong> prédiction utilisée.<br />

2.5 Récapitulatif<br />

La prédiction <strong>de</strong> la structure native d’une protéine a un intérêt scientifique<br />

important. Outre le gain <strong>de</strong> temps et d’argent que procurent les métho<strong>de</strong>s in<br />

silico, une multitu<strong>de</strong> d’applications dérivées sont accessibles dès lors que la<br />

struture native d’une protéine est connue. Pour effectuer une prédiction <strong>de</strong> la<br />

structure native d’une protéine, certains outils sont indispensables, nous venons<br />

d’en faire le tour.<br />

Il est important <strong>de</strong> remarquer que quelles que soient les métho<strong>de</strong>s utilisées,<br />

la situation initiale <strong>de</strong> la recherche a une gran<strong>de</strong> importance. De plus, la qualité<br />

<strong>de</strong>s résultats obtenus est souvent suffisante pour <strong>de</strong>s problèmes basiques mais<br />

ce n’est pas toujours le cas lors <strong>de</strong> l’étu<strong>de</strong> <strong>de</strong> problèmes plus importants. La<br />

recherche du minimum global est un problème difficile pour lequel il n’existe<br />

actuellement aucun algorithme efficace garantissant un résultat optimal.<br />

Dans le chapitre suivant, nous présenterons la totalité <strong>de</strong>s choix effectués<br />

pour le développement <strong>de</strong> notre logiciel <strong>de</strong> prédiction <strong>de</strong> structure native <strong>de</strong><br />

protéine. Cela fait, nous nous lancerons dans la découverte <strong>de</strong> son fonctionnement<br />

pour ensuite en révéler les résultats.


Chapitre 3<br />

Nos outils et métho<strong>de</strong>s<br />

Le problème <strong>de</strong> prédiction <strong>de</strong> la structure native d’une protéine est en fait un<br />

problème d’optimisation combinatoire <strong>par</strong>ticulier. En effet, il existe <strong>de</strong> nombreux<br />

problèmes <strong>de</strong> ce type. Chacun peut être défini <strong>par</strong> une paire (S, f ) où S représente<br />

l’ensemble fini <strong>de</strong> toutes les solutions existantes et f est une fonction <strong>de</strong> type<br />

f : S → R permettant d’évaluer la qualité d’une solution i <strong>par</strong>ticulière [22]. La<br />

valeur optimale <strong>de</strong> f est :<br />

f0 = min{ f (i) : i ∈ S}<br />

et l’ensemble <strong>de</strong>s solutions optimales est :<br />

S0 = {i ∈ S : f (i) = f0}<br />

La résolution du problème se fait donc en trouvant certaine(s) solution(s) i0 ∈ S0.<br />

Afin <strong>de</strong> bien comprendre tout cela, transposons ces données mathématiques<br />

au cas qui nous intéresse. Pour cela, rappelons que nous nous basons sur l’hypothèse<br />

largement admise selon laquelle la structure native d’une protéine correspond<br />

à son minimum d’énergie libre. Dans notre cas, S est l’espace conformationnel<br />

accessible et f sera la fonction énergétique utilisée. Si nous appliquons<br />

ces formules à une protéine dont nous connaissons déjà la structure native (que<br />

nous noterons n) on aura que f (n) = f0. D’autre <strong>par</strong>t, on sait que n ∈ S et donc<br />

que n ∈ S0 car l’équation <strong>de</strong> S0 est bien vérifiée.<br />

Ces problèmes d’optimisation combinatoire sont difficiles à résoudre car<br />

pour la plu<strong>par</strong>t, une exploration exhaustive <strong>de</strong>s solutions possibles sera requise<br />

afin <strong>de</strong> déterminer la ou les meilleures solutions. Pour les problèmes <strong>de</strong> gran<strong>de</strong><br />

taille, une telle exploration n’est actuellement pas réalisable en un temps raisonnable.<br />

Il n’existe donc pas <strong>de</strong> métho<strong>de</strong> déterministe garantissant un résultat<br />

42


CHAPITRE 3. NOS OUTILS ET MÉTHODES 43<br />

optimum. Ainsi, <strong>de</strong>s métaheuristiques proposent <strong>de</strong>s stratégies générales d’exploration<br />

<strong>de</strong> l’espace qui peuvent être appliquées à un problème <strong>par</strong>ticulier.<br />

Dans notre cas, nous avons choisi <strong>de</strong> concevoir un algorithme <strong>de</strong> prédiction<br />

<strong>de</strong> la structure native <strong>de</strong> protéines à <strong>par</strong>tir <strong>de</strong> la métaheuristique <strong>de</strong>s <strong>colonie</strong>s<br />

<strong>de</strong> <strong>fourmis</strong> que nous avons explorée dans le chapitre précé<strong>de</strong>nt. Ce chapitre-ci<br />

propose donc <strong>de</strong> découvrir les divers choix que nous avons effectués quant aux<br />

diverses exigences requises <strong>par</strong> la prédiction <strong>de</strong> structure native.<br />

3.1 Modélisation <strong>de</strong> nos protéines<br />

Nous avons opté pour une représentation atomique simplifiée <strong>de</strong>s aci<strong>de</strong>s<br />

aminés (cfr. figure 3.1). Ainsi, comme nous le voyions dans l’introduction, nous<br />

ne prenons pas en compte la totalité <strong>de</strong> la chaîne latérale. Celle-ci sera simplifiée<br />

au moyen <strong>de</strong>s atomes Cβ et Cµ. Cette représentation offre l’avantage d’être assez<br />

réaliste tout en ne <strong>de</strong>mandant pas une quantité <strong>de</strong> calcul trop importante.<br />

Fig. 3.1 – Représentation simplifiée d’un aci<strong>de</strong> aminé, attention le cas <strong>par</strong>ticulier<br />

<strong>de</strong> la Glycine verra ses atomes Cβ et Cµ se trouver au même endroit que l’atome<br />

Cα.<br />

Une protéine sera donc représentée <strong>par</strong> sa chaîne principale (son squelette),<br />

ainsi que <strong>par</strong> les atomes Cbeta et Cµ <strong>de</strong> chaque résidu. Par ailleurs, nos protéines<br />

évolueront dans l’espace (φ, ψ, ω), c’est-à-dire que les angles <strong>de</strong> rotation autour<br />

<strong>de</strong>s liaisons chimiques N − Cα et Cα − C ainsi que la liaison C − N entre un<br />

résidu et son voisin, prendront respectivement les valeurs φ, ψ et ω. Rappelonsnous<br />

également que l’angle ω résulte d’un lien peptidique <strong>par</strong>ticulier ayant un<br />

caractère <strong>de</strong> double liaison, ce qui limite ses valeurs à 0 ◦ ou 180 ◦ . Le lecteur se


CHAPITRE 3. NOS OUTILS ET MÉTHODES 44<br />

posant <strong>de</strong>s questions sur les valeurs initiales <strong>de</strong>s angles φ et ψ vera sa curiosité<br />

assouvie en page 55.<br />

Il nous faut encore préciser que les distances <strong>de</strong> liaison inter-atomique auront<br />

<strong>de</strong>s valeurs fixes variant en fonction <strong>de</strong>s atomes liés. Cela n’entraîne aucune<br />

surcharge <strong>de</strong> calcul mais nous permet d’approcher encore un peu mieux la<br />

réalité. Enfin, dans notre cas <strong>de</strong> représentation simplifiée <strong>de</strong>s aci<strong>de</strong>s aminés, les<br />

angles <strong>de</strong> valences (cfr. figure 3.2 ) seront également fixés pour chaque atome.<br />

Fig. 3.2 – Exemple d’angle <strong>de</strong> valence : en pointillé, l’angle <strong>de</strong> valence associé à<br />

l’atome O.<br />

On dira qu’une prédiction <strong>de</strong> protéine sera valable si elle ne contient pas <strong>de</strong><br />

clash stériques. Cette appellation dénote en fait une collision entre <strong>de</strong>ux atomes.<br />

En effet, il est tout a fait possible <strong>de</strong> prédire <strong>de</strong>s protéines présentant une structure<br />

tridimensionnelle irréalisable dans la nature. Il <strong>de</strong>vra donc être possible<br />

d’évaluer la présence <strong>de</strong> telles collisions.<br />

Dans notre modèle, nous veillerons à l’absence <strong>de</strong> collisions entre chaînes<br />

latérales et donc uniquement entre les atomes Cµ. Pour effectuer ces vérifications,<br />

un rayon atomique est fixé pour l’atome Cµ <strong>de</strong> chaque résidu, on l’appelle le<br />

rayon <strong>de</strong> van <strong>de</strong>r Waals [17]. En notant <strong>par</strong> rVDW(Cµ) le rayon <strong>de</strong> Van<strong>de</strong>rwaals<br />

<strong>de</strong> l’atome Cµ, on dira qu’il y a collision si<br />

rVDW(C1 µ) + rVDW(C2 µ)<br />

· a > distanceSpatiale((C 1 µ), (C 2 µ))<br />

2<br />

où distanceSpatiale calcule la distance réelle sé<strong>par</strong>ant <strong>de</strong>ux atomes et a représente<br />

un facteur d’aération permettant donc d’éviter <strong>de</strong>s prédictions trop compactes.<br />

Il faudra donc évaluer l’absence <strong>de</strong> collision entre tous les atomes Cµ <strong>de</strong> la<br />

protéine prédite afin que celle-ci soit réalisable et puisse <strong>par</strong>ticiper à la recherche


CHAPITRE 3. NOS OUTILS ET MÉTHODES 45<br />

<strong>de</strong> la structure native.<br />

3.2 Discrétisation <strong>de</strong> notre espace <strong>de</strong> recherche<br />

Comme notre protéine évolue dans l’espace (φ, ψ, ω), il va <strong>de</strong> soi que la discrétisation<br />

<strong>de</strong> l’espace conformationnel passera <strong>par</strong> une limitation <strong>de</strong>s valeurs<br />

accessibles <strong>par</strong> chaque triplet angulaire. Au sein d’une protéine réelle, certaines<br />

valeurs <strong>de</strong> (φ, ψ, ω) ne sont pas accessibles aux résidus car elles correspondraient<br />

à <strong>de</strong>s collisions atomiques. Il a été observé que l’ensemble <strong>de</strong>s conformations<br />

possibles pour chaque résidu peut être réduit à sept domaines dans l’espace<br />

<strong>de</strong>s triplets (φ, ψ, ω) [33] : A, C, B, P, G, E et O. La discrétisation <strong>de</strong> l’espace<br />

conformationnel s’opère donc en dégageant un certain nombre <strong>de</strong> représentants<br />

<strong>par</strong> domaine, calculés à <strong>par</strong>tir <strong>de</strong> conformations natives réelles observées<br />

expérimentalement.<br />

Ces représentants peuvent être calculés <strong>par</strong> résidu car la conformation <strong>de</strong><br />

chacun d’entre eux est sensiblement différente dans la réalité. Néanmois, nous<br />

avons initialement décidé d’utiliser <strong>de</strong>s représentants généraux pouvant être appliqués<br />

sur n’importe quel résidu, cela facilitant les opérations à effectuer (nous<br />

verrons plus loins que finalement, il eut été aisé <strong>de</strong> prendre <strong>de</strong>s représentants<br />

<strong>par</strong>ticuliers pour chaque résidu).<br />

Dans le cas ou seulement un représentant est disponible, il n’y aura aucun<br />

choix stochastique à effectuer. Par contre, dès que plusieurs représentants sont<br />

accessibles, il faut permettre une sélection proche <strong>de</strong> la réalité. C’est pourquoi<br />

en plus <strong>de</strong>s trois données angulaires nécessaires, un représentant contient une<br />

quatrième donnée : son nombre d’occurences. En effet, diverses conformations<br />

sont observées dans la nature et certaines d’entre-elles sont plus fréquentes que<br />

d’autres. Recherchant un maximum <strong>de</strong> réalité lors <strong>de</strong> la conception <strong>de</strong> notre<br />

modèle, il nous a <strong>par</strong>u évi<strong>de</strong>nt d’opérer un choix stochastique dépendant du<br />

nombre d’occurence <strong>de</strong> chaque représentant.<br />

Cela se fait simplement en associant à chaque triplet angulaire <strong>de</strong> chaque<br />

domaine une probabilité d’ap<strong>par</strong>ition. Cette probabilité intra-domaine se calcule<br />

simplement en divisant le nombre d’occurences du représentant considéré<br />

<strong>par</strong> la somme du nombre d’occurences <strong>de</strong> chaque représentant. En effectuant<br />

ce calcul sur chaque domaine, on obtient donc une discrétisation <strong>de</strong> l’espace<br />

conformationnel accessible.<br />

Il est important <strong>de</strong> remarquer que cette discrétisation s’opère <strong>par</strong> un système


CHAPITRE 3. NOS OUTILS ET MÉTHODES 46<br />

<strong>de</strong> coordonnées interne à la protéine. Ainsi, la représentation tridimensionnelle<br />

d’une prédiction s’obtiendra en traduisant les coordonnées (φ, ψ, ω) en coordonnées<br />

(x, y, z). Pour effectuer cette traduction, les données propres <strong>de</strong> chaque<br />

atome seront nécessaires (angle <strong>de</strong> valence et distance inter-atomique).<br />

3.3 Exploration <strong>de</strong> l’espace conformationnel<br />

Comme nous l’écrivions en début <strong>de</strong> chapitre, nous avons opté pour une<br />

métho<strong>de</strong> <strong>de</strong> recherche dérivée <strong>de</strong> la métaheuristique <strong>de</strong>s <strong>colonie</strong>s <strong>de</strong> <strong>fourmis</strong>.<br />

Le chapitre précé<strong>de</strong>nt nous proposait un aperçu général du fonctionnement <strong>de</strong><br />

ces <strong>colonie</strong>s, examinons donc ensemble les spécificités <strong>de</strong> fonctionnement <strong>de</strong><br />

notre <strong>colonie</strong>.<br />

L’univers d’évolution <strong>de</strong> nos <strong>fourmis</strong> artificielles correspond concrètement<br />

à l’espace conformationnel accessible <strong>par</strong> la protéine, celui-ci étant discrétisé<br />

en sept domaines. La tâche <strong>de</strong> nos <strong>fourmis</strong> consistera donc à trouver une suite<br />

<strong>de</strong> domaines offrant une structure tridimensionnelle minimisant la fonction<br />

énergétique que nous découvrirons plus loin.<br />

Afin <strong>de</strong> réaliser au mieux sa tâche, une fourmi opérera une suite <strong>de</strong> choix<br />

probabilistes basés sur la quantité locale <strong>de</strong> phéromone τ ainsi que sur les valeurs<br />

heuristiques disponibles η. Une question se pose ici : à quoi faire correspondre<br />

cette valeur η ? L’idée est <strong>de</strong> trouver un indicateur permettant d’ai<strong>de</strong>r la fourmi<br />

dans son choix. Il faudrait donc disposer d’une valeur indiquant un domaine <strong>de</strong><br />

conformation à priori favorable pour un résidu donné.<br />

Heureusement, <strong>de</strong>puis quelques années, il existe à l’ULB certains projets<br />

<strong>de</strong> recherche et <strong>de</strong> prédiction correspondant exactement à nos besoins. Ces<br />

projets se nomment Prelu<strong>de</strong> et Fugue [14, 34]. Ainsi, il est possible d’obtenir, pour<br />

une séquence donnée, une séquence correspondante <strong>de</strong> domaines favorables<br />

ainsi qu’un facteur exprimant la valeur <strong>de</strong> cette correspondance. Ce facteur<br />

prend <strong>de</strong>s valeurs entières comprises entre 0 et 9 et lorsqu’il vaut 0, c’est qu’il<br />

n’y a pas <strong>de</strong> prédiction pour le résidu concerné (voir exemple ci-<strong>de</strong>ssous). Il<br />

est important <strong>de</strong> signaler que ces prédictions se basent exclusivement sur les<br />

interactions locales le long <strong>de</strong> la séquence et ne prennent pas en compte les<br />

interactions tertiaires ! La séquence <strong>de</strong> domaines fournie <strong>par</strong> ces programmes<br />

ne constitue donc généralement pas une solution convenable pour la structure<br />

tertiaire complète <strong>de</strong> la protéine mais elle est utile car elle permet <strong>de</strong> connaître<br />

les préférences individuelles <strong>de</strong> petites portions <strong>de</strong> la séquence.


CHAPITRE 3. NOS OUTILS ET MÉTHODES 47<br />

Séquence: QQRLIFAGKQLEDGRTLSDYNIQKESTLHLVLRLRGG<br />

Domaine favorable: CPBBBBGGBPPBACPBAAxCGPBPGPBBBBBBAxxxx<br />

Facteur <strong>de</strong> correspondance: 1145789996211222220467776412333320000<br />

Grâce à ces projets, nous disposons donc d’un biais inter-domaines en plus<br />

du biais intra-domaine (dû à la probabilité d’ap<strong>par</strong>ition <strong>de</strong> chaque représentant<br />

d’un domaine). Fort <strong>de</strong> cet avantage, nous avons donc décidé d’utiliser comme<br />

valeur heuristique pour un domaine, le facteur proposé <strong>par</strong> Prelu<strong>de</strong> et Fugue,<br />

quand il existe. Cela nous permet <strong>de</strong> procé<strong>de</strong>r au calcul que nous proposait<br />

l’équation du chapitre précé<strong>de</strong>nt :<br />

pij =<br />

[τij(t)] α · [ηij(t)] β<br />

k∈V(i)[τik(t)] α · [ηik(t)] β<br />

où pij représente donc la probabilité d’associer le domaine j au résidu i. Il sera<br />

donc très important <strong>de</strong> <strong>par</strong>amétrer au mieux les facteurs α et β.<br />

Maintenant que nous avons une stratégie <strong>de</strong> décision, il nous faut fixer les<br />

caractéristiques du dépôt phéromonal <strong>de</strong> nos <strong>fourmis</strong>. Cela signifie qu’il nous<br />

faut déci<strong>de</strong>r quand déposer <strong>de</strong>s phéromones et en quelle quantité.<br />

Avant d’expliquer nos choix, quelques définitions sont nécessaires. Appelons<br />

itération une recherche complète effectuée <strong>par</strong> une fourmi, c’est-à-dire qu’après<br />

une itération, une fourmi aura construit et évalué une prédiction complète et<br />

mourra. De plus, nommons cycle un nombre m d’itérations où m représente le<br />

nombre total <strong>de</strong> <strong>fourmis</strong> <strong>de</strong> la <strong>colonie</strong>. Ainsi, après un cycle, toutes les <strong>fourmis</strong><br />

auront procédé à l’élaboration et l’évaluation d’une prédiction complète. Le<br />

nombre <strong>de</strong> cycles sera une variable à définir lors <strong>de</strong> l’exécution <strong>de</strong> l’algorithme.<br />

Enfin, en se souvenant que nous travaillons dans un univers où le temps est<br />

discrétisé, nous pouvons également dire qu’un cycle se passera en une unité<br />

<strong>de</strong> temps. Cela signifie qu’un cycle commençant en (t) se terminera en (t + 1).<br />

Revenons maintenant au dépôt <strong>de</strong> phéromones.<br />

Nous avons décidé d’effectuer un dépôt offline dans le but <strong>de</strong> permettre à<br />

chaque fourmi <strong>de</strong> disposer <strong>de</strong> la même base phéromonale lors d’un cycle <strong>de</strong><br />

recherche. En effet, le dépôt offline s’effectue après un cycle entier, ce qui permet<br />

<strong>de</strong> ne pas modifier la situation initiale du cycle <strong>de</strong> recherche. Nous utilisons<br />

donc les propriétés <strong>de</strong> la discrétisation du temps, nous permettant d’effectuer<br />

une simulation d’activité simultanée <strong>de</strong> la <strong>colonie</strong> sans aucune interférence<br />

inter-fourmi. Bien entendu, certaines structures <strong>de</strong> données seront nécessaires<br />

à l’application <strong>de</strong> ce choix, nous aurons l’occasion <strong>de</strong> les découvrir au chapitre<br />

suivant.


CHAPITRE 3. NOS OUTILS ET MÉTHODES 48<br />

Outre ce dépôt phéromonal offline, nous avons également pensé à exécuter un<br />

dépôt phéromonal élitiste, c’est-à-dire <strong>de</strong> déposer <strong>de</strong>s phéromones supplémentaires<br />

pour les x meilleures conformations protéiques. Une fois <strong>de</strong> plus, x sera<br />

un <strong>par</strong>amètre à définir, <strong>de</strong> même que le facteur d’élitisme spécifiant la quantité<br />

<strong>de</strong> phéromone additionelle à déposer. Formellement, nous obtenons donc que :<br />

τij(t + 1) = ρτij(t) +<br />

m<br />

k=1<br />

∆τ k<br />

ij (t, t + 1) +<br />

e<br />

l=1<br />

∆τ l<br />

ij (t, t + 1)<br />

où e est le nombre <strong>de</strong> <strong>fourmis</strong> élitistes et m le nombre total <strong>de</strong> <strong>fourmis</strong>. Nous<br />

n’en avions pas encore <strong>par</strong>lé mais il est évi<strong>de</strong>nt qu’un taux <strong>de</strong> persistance ρ sera<br />

utilisé afin <strong>de</strong> permettre le renouvellement phéromonal et donc l’exporation <strong>de</strong><br />

l’espace conformationnel.<br />

En résumé, notre prédiction se fera au moyen d’une <strong>colonie</strong> <strong>de</strong> <strong>fourmis</strong><br />

contenant un certain pourcentage <strong>de</strong> <strong>fourmis</strong> élitistes et procédant d’une <strong>par</strong>t à<br />

un dépôt phéromonal offline et d’autre <strong>par</strong>t à un dépôt phéromonal élitiste. Les<br />

<strong>par</strong>ticularités d’implémentations seront explorées au prochain chapitre.<br />

3.4 Fonction énergétique utilisée<br />

Dans le cadre <strong>de</strong> ce mémoire, nous utiliserons une classe <strong>de</strong> fonctions énergétiques<br />

appelée potentiels statistiques. Ces potentiels sont dérivés <strong>de</strong> bases <strong>de</strong><br />

données <strong>de</strong> protéines dont les structures natives sont connues [35]. Dans notre<br />

étu<strong>de</strong>, nous avons décidé d’utiliser <strong>de</strong>ux types <strong>de</strong> potentiels : les potentiels <strong>de</strong><br />

torsion entre petits éléments <strong>de</strong> structure et les potentiels <strong>de</strong> distance entre petits<br />

éléments <strong>de</strong> séquence.<br />

3.4.1 Les potentiels <strong>de</strong> torsion<br />

Les potentiels <strong>de</strong> torsion décrivent exclusivement les interactions locales<br />

le long <strong>de</strong> la chaîne principale et sont donc lié à la prédiction <strong>de</strong> structures<br />

secondaires telles que <strong>de</strong>s hélices-α. Chaque potentiel porte un nom différent où<br />

s signifie résidu <strong>de</strong> la séquence et t signifie domaine <strong>de</strong> torsion. Ces potentiels<br />

mesurent l’adéquation <strong>de</strong>s données qui leurs sont fournies. Si cette adéquation<br />

est bonne, l’énergie correspondante sera basse.<br />

Par exemple, le potentiel st0 mesure l’adéquation entre la nature d’un résidu<br />

donné et le domaine prédit pour ce résidu ou pour un résidu voisin. Prenons le


CHAPITRE 3. NOS OUTILS ET MÉTHODES 49<br />

cas <strong>de</strong> l’aci<strong>de</strong> aminé nommé alanine. S’il se trouve en position 5 dans la séquence<br />

et qu’en position 7, le domaine prédit est P, alors l’énergie fournie <strong>par</strong> le potentiel<br />

st0 vaudra 0.114887. Par contre si le domaine prédit avait été A, l’énergie aurait<br />

été <strong>de</strong> -0.111486.<br />

Il faudra donc effectuer ces calculs le long <strong>de</strong> toute la séquence <strong>de</strong> la protéine.<br />

Toutefois, au vu du caractère local <strong>de</strong>s potentiels <strong>de</strong> torsion, la fenêtre d’exploration<br />

autour du résidu <strong>de</strong> base sera <strong>de</strong> 8 résidus dans la séquence. Dans le cas<br />

du potentiel st0, on évaluera donc l’adéquation entre un résidu en position i<br />

<strong>de</strong> la séquence et une prédiction <strong>de</strong> domaine en position j <strong>de</strong> la séquence, avec<br />

−8 ≤ (j − i) ≤ 8.<br />

Les potentiels <strong>de</strong> torsion que nous utiliserons sont les suivants :<br />

– st0, qui mesure l’adéquation entre le résidu positionné en i et le domaine<br />

prédit en position j ;<br />

– stt1, qui mesure l’adéquation entre le résidu positionné en i, le domaine<br />

prédit en position j et le domaine prédit en position k ;<br />

– tss1, qui mesure l’adéquation entre le domaine prédit en position i, le<br />

résidu positionné en j et le résidu positionné en k ;<br />

– tt0, qui mesure l’adéquation entre les domaines prédits en position i et j ;<br />

– ttt1, qui mesure l’adéquation entre les domaines prédits en position i, j et<br />

k.<br />

Le lecteur attentif aura remarqué une redondance <strong>de</strong> calcul dans les potentiels tt0<br />

et ttt1. En effet, pour le potentiel tt0 (mais cela est transposable pour le potentiel<br />

ttt1), qu’on aie les domaines P et B respectivement en position 2 et 4 ou l’inverse<br />

revient exactement au même calcul ! Ainsi, pour ces <strong>de</strong>ux potentiels, le calcul ne<br />

s’effectuera que sur une fenêtre positive, c’est-à-dire pour les 8 résidus voisins<br />

<strong>de</strong> droite dans le sens <strong>de</strong> lecture <strong>de</strong> la séquence <strong>de</strong> la protéine. Il sera encore<br />

temps <strong>de</strong> ré<strong>par</strong>tir ce potentiel énergétique intelligemment, nous y reviendrons<br />

au chapitre suivant .<br />

3.4.2 Les potentiels <strong>de</strong> distance<br />

Nous le découvrions dans l’introduction, la création <strong>de</strong> la structure tertiaire<br />

d’une protéine est principalement due aux interactions entre résidus distants<br />

dans la séquence mais proches dans l’espace. Les potentiels <strong>de</strong> distance sont<br />

donc un moyen <strong>de</strong> mesurer la contribution <strong>de</strong> telles interactions.<br />

Dans ce cas-ci, il est tout à fait possible que <strong>de</strong>s résidus espacés <strong>par</strong> plus <strong>de</strong><br />

8 autres résidus dans la séquence se retrouvent rapprochés dans l’espace. Nous


CHAPITRE 3. NOS OUTILS ET MÉTHODES 50<br />

effectuerons donc ce calcul pour chaque résidu <strong>par</strong> rapport à toute la séquence à<br />

l’exception <strong>de</strong> ses <strong>de</strong>ux voisins directs dans la séquence, qui lui seront forcément<br />

très proche dans l’espace. Par contre, si les résidus considérés sont distants dans<br />

l’espace <strong>de</strong> plus <strong>de</strong> 8Å, on considèrera qu’il n’y a tout simplement aucune<br />

interaction.<br />

L’énergie calculée dépend donc <strong>de</strong> la nature <strong>de</strong>s <strong>de</strong>ux résidus ainsi que <strong>de</strong><br />

leur distance spatiale, mais aussi <strong>de</strong> leurs positions relatives dans la séquence.<br />

Par exemple, si nous avons une alanine en position 5 et une proline en position 8,<br />

l’énergie ne sera pas la même que pour une alanine en position 5 et une proline<br />

en position 9 présentant la même distance spatiale.<br />

Remarquons tout <strong>de</strong> même que lorsque les <strong>de</strong>ux résidus considérés sont<br />

éloignés <strong>de</strong> plus <strong>de</strong> 8 résidus dans la séquence, le potentiel calculera une valeur<br />

énergétique dépendant uniquement du type <strong>de</strong> résidu considéré et <strong>de</strong> la distance<br />

spatiale. La distance dans la séquence ne sera donc plus prise en compte. Par<br />

exemple, admettons que le résidus 5 soit toujours une alanine et que les résidus 24<br />

et 65 soient <strong>de</strong>s leucine. Si l’on considère les résidus 8 et 24 spatialement distants<br />

<strong>de</strong> 3Å et les résidus 8 et 65 également distants <strong>de</strong> 3Å, le potentiel énergétique<br />

calculé sera le même.<br />

Nous utiliserons <strong>de</strong>ux potentiels <strong>de</strong> distance : ds0 et ds1. Le potentiel ds0<br />

mesure l’adéquation entre la présence d’un résidu <strong>par</strong>ticulier en position i <strong>de</strong> la<br />

séquence et un résidu quelconque en position j présentant une certaine distance<br />

spatiale avec le résidu i. D’un autre côté, le potentiel ds1 effectue le même calcul<br />

mais avec un résidu défini en position j.<br />

Par exemple, prenons le cas où le résidu 5 est une alanine et le résidu 8 une<br />

proline, ces <strong>de</strong>ux résidus étant sé<strong>par</strong>é <strong>par</strong> 4Å. Le potentiel ds1 calculerait une<br />

valeur énergétique <strong>de</strong> 0.031414 et le potentiel ds0 une valeur énergétique <strong>de</strong><br />

0.397226. Si <strong>par</strong> contre le résidu 8 était une valine, la valeur prise <strong>par</strong> le potentiel<br />

ds1 serait différente, mais pas celle prise <strong>par</strong> le potentiel ds0.<br />

A nouveau, comme pour les potentiels tt0 et ttt1 remarquons que le potentiel<br />

ds1 offre un certain niveau <strong>de</strong> redondance, ce qui permet <strong>de</strong> réduire les calculs.<br />

3.4.3 Utilisation combinée <strong>de</strong>s potentiels<br />

Notre espoir est que l’utilisation combinée <strong>de</strong> ces <strong>de</strong>ux types <strong>de</strong> potentiels<br />

permette la prédiction <strong>de</strong> structures secondaires tout en prenant en compte les<br />

interactions tertiaires. Ainsi, la protéine prédite <strong>de</strong>vrait avoir un <strong>de</strong>gré <strong>de</strong> similitu<strong>de</strong><br />

plus important avec la structure tidimensionnelle réelle d’une protéine


CHAPITRE 3. NOS OUTILS ET MÉTHODES 51<br />

que dans le cas ou seuls les potentiels <strong>de</strong> torsion seraient pris en compte.<br />

3.5 Evaluation <strong>de</strong> nos solutions<br />

Afin d’évaluer nos solutions, nous procé<strong>de</strong>rons au calcul du RMSD (Root<br />

Mean Square Deviation) sur les atomes Cα <strong>de</strong> nos protéines prédites. Pour rappel,<br />

ce calcul permet <strong>de</strong> mesurer les différences <strong>de</strong> position entre <strong>de</strong>ux structures<br />

données. Nous procè<strong>de</strong>rons donc à un jeu <strong>de</strong> test sur un fragment <strong>de</strong> protéine<br />

dont la structure native est déjà connue.<br />

Nous découvrirons également dans quelle mesure notre algorithme trouve<br />

<strong>de</strong>s conformations d’énergie libre minimale et profiterons <strong>de</strong> l’occasion pour<br />

faire une com<strong>par</strong>aison entre les énergies obtenues et les RMSD correspondants.<br />

3.6 Récapitulatif<br />

Nous venons <strong>de</strong> découvrir l’ensemble <strong>de</strong>s outils que nous utiliserons pour<br />

procé<strong>de</strong>r à la prédiction <strong>de</strong> la structure native <strong>de</strong> protéines. Dans le chapitre<br />

suivant, nous allons découvrir les spécificités <strong>de</strong> l’algorithme que nous avons<br />

développé avant d’en découvrir les tests et les résultats. Ce chapitre présentera<br />

les diverses <strong>par</strong>ticularités d’implémentation <strong>de</strong>s outils utilisés.


Chapitre 4<br />

Notre algorithme : AC-ProPre<br />

Dans ce chapitre, nous allons passer en revue les spécificités d’implémentation<br />

<strong>de</strong>s outils découverts au chapitre précé<strong>de</strong>nt. Notre algorithme, AC-ProPre<br />

(Ant Colony for Protein Prediction), ayant été réalisé en C++, nous structurerons<br />

ce chapitre à l’image du co<strong>de</strong> source, c’est-à-dire classe <strong>par</strong> classe. Nous commencerons<br />

donc <strong>par</strong> explorer l’implémentation <strong>de</strong> la discrétisation <strong>de</strong> l’espace<br />

conformationnel pour ensuite découvrir la manière dont les potentiels énergétiques<br />

sont codés et utilisés. Enfin, nous nous pencherons sur la représentation<br />

<strong>de</strong>s protéines ainsi que sur les divers calculs nécessaires à l’élaboration <strong>de</strong> la<br />

prédiction. Pour finir nous découvrirons évi<strong>de</strong>mment la manière <strong>de</strong> fonctionner<br />

<strong>de</strong> nos <strong>fourmis</strong> artificielles.<br />

4.1 L’espace conformationnel<br />

Le co<strong>de</strong> source <strong>de</strong> cette section se trouve dans les fichiers domaine.h et domaine.cc.<br />

Comme nous l’avons maintes fois signalé, nous travaillons dans l’espace<br />

(φ, ψ, ω) pouvant être représenté en sept domaines : A, C, B, P, G, E et O. Il<br />

y aura donc une instance <strong>de</strong> la classe domaine pour chaque domaine utilisé.<br />

Un domaine contient <strong>de</strong>s représentants. Comme nous l’expliquions au chapitre<br />

précé<strong>de</strong>nt, nous avons choisi <strong>de</strong> travailler avec <strong>de</strong>s représentants communs,<br />

c’est-à-dire appliquables à chaque résidu. Néanmoins, une amélioration relativement<br />

simple à implémenter serait <strong>de</strong> considérer <strong>de</strong>s représentants propres à<br />

la nature du résidu, cela pourra être fait dans une version ultérieure <strong>de</strong> notre<br />

algorithme.<br />

Les représentants proviennent <strong>de</strong> fichiers source nommés cah_rama_141_x<br />

52


CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 53<br />

où x représente le nombre <strong>de</strong> représentants effectifs <strong>par</strong> domaine. Il est donc<br />

possible <strong>de</strong> travailler avec un nombre <strong>de</strong> représentants variable. Il est évi<strong>de</strong>nt<br />

qu’un nombre <strong>de</strong> représentants élevé permettra une prédiction plus proche <strong>de</strong><br />

la réalité.<br />

Chaque représentant est caractérisé <strong>par</strong> un triplet angulaire et un nombre<br />

d’occurences. C’est au moyen <strong>de</strong> ce nombre d’occurence que nous calculons la<br />

probabilité <strong>de</strong> sélection d’un représentant <strong>par</strong>ticulier. Pour calculer cette probabilité,<br />

il nous suffit <strong>de</strong> diviser le nombre d’occurences <strong>de</strong> chaque représentant<br />

<strong>par</strong> le nombre d’occurences totale d’un domaine. Ainsi, nous obtenons un modèle<br />

probabiliste cohérent où la somme <strong>de</strong>s probabilités d’ap<strong>par</strong>ition <strong>de</strong> chaque<br />

représentant vaut 1.<br />

Afin <strong>de</strong> permettre un choix aléatoire rapi<strong>de</strong> pour la sélection <strong>de</strong> représentants,<br />

nous construisons un vecteur d’intervalle <strong>de</strong> probabilité proportionnel à<br />

la probabilité d’ap<strong>par</strong>ition <strong>de</strong> chaque représentant. Ainsi, à chaque fois qu’un<br />

représentant <strong>de</strong>vra être sélectionné, il suffira <strong>de</strong> tirer aléatoirement un nombre<br />

entre 0 et 1 et <strong>de</strong> choisir le représentant dont l’intervalle contient ce nombre<br />

aléatoire.<br />

Nous voilà donc avec un espace conformationnel discrétisé. Pour obtenir un<br />

représentant, il nous suffira d’appeler la fonction getRepresentant().<br />

4.2 Les potentiels énergétiques<br />

Chaque potentiel énergétique utilisé est fourni sur fichier texte. Sachant qu’il<br />

existe vingt types d’aci<strong>de</strong>s aminés et sept domaines, ce n’est pas une surprise<br />

d’apprendre que le fichier potentiel le plus lourd (tss1) fait 6,1 Mo. Au vu du<br />

nombre d’accès nécessaires au calcul <strong>de</strong> l’énergie libre d’une conformation, il<br />

est évi<strong>de</strong>nt qu’il faut trouver un moyen <strong>de</strong> stockage en mémoire vive pour ces<br />

données vitales.<br />

Malheureusement, les potentiels sont tels qu’un gaspillage significatif <strong>de</strong> la<br />

mémoire vive aurait lieu si nous utilisions simplement <strong>de</strong>s matrices multidimensionnelles<br />

pour le stockage <strong>de</strong> leurs données. De plus, chaque potentiel a<br />

<strong>de</strong>s caractéristiques propres qui empêchent la création d’une métho<strong>de</strong> générale<br />

automatique <strong>de</strong> stockage et d’accès. Toutefois, un concept commun peut-être dégagé<br />

: l’idée est <strong>de</strong> stocker les valeurs énergétiques d’un potentiel dans un simple<br />

vecteur <strong>de</strong> données et <strong>de</strong> développer <strong>par</strong>allèllement une métho<strong>de</strong> d’accès à ce<br />

vecteur basée sur les <strong>par</strong>amètres nécessaires au calcul du potentiel énergétique.


CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 54<br />

Nous avons donc développé, pour chaque potentiel, un calcul <strong>de</strong> l’espace nécessaire<br />

pour le stockage <strong>de</strong>s énergies ainsi que la métho<strong>de</strong> d’accès à cet espace.<br />

Le problème était simple : trouver l’in<strong>de</strong>x dans le vecteur correspondant aux<br />

<strong>par</strong>amètres <strong>de</strong> calcul du potentiel afin <strong>de</strong> retourner la bonne valeur énergétique.<br />

Il était donc nécessaire d’attribuer à chaque domaine ainsi qu’à chaque aci<strong>de</strong><br />

aminé un numéro d’i<strong>de</strong>ntification unique.<br />

Ainsi, afin d’éviter toute erreur <strong>de</strong> manipulation ou <strong>de</strong> conversion, les fonctions<br />

communes ddTOint() et aaTOint() sont un point <strong>de</strong> passage obligé convertissant<br />

un domaine (respectivement un aci<strong>de</strong> aminé) en nombre entier. Il est<br />

évi<strong>de</strong>nt que ces nombres sont une suite croissante commencant à 0. Dans le cas<br />

<strong>de</strong>s potentiels <strong>de</strong> distances, une fonction similaire a été prévue afin <strong>de</strong> convertir<br />

la distances spatiale entre <strong>de</strong>ux résidus.<br />

Par ailleurs, afin <strong>de</strong> généraliser l’utilisation <strong>de</strong> notre algorithme, nous avons<br />

tenu compte <strong>de</strong> l’éventuelle modification <strong>de</strong> la taille <strong>de</strong> la fenêtre. Pour rappel,<br />

cette fenêtre délimite l’espace possible entre <strong>de</strong>ux positions <strong>de</strong> la séquence pour<br />

le calcul d’un potentiel. Dans notre cas, comme présenté au chapitre précé<strong>de</strong>nt,<br />

cette fenêtre vaut 8.<br />

Finalement, nous avons obtenu <strong>de</strong>s vecteurs <strong>de</strong> taille optimale <strong>par</strong> rapport<br />

aux spécificités <strong>de</strong>s fonctions potentiels et ce pour un coût <strong>de</strong> calcul supplémentaire<br />

négligeable. En effet, si nous avions travaillé avec <strong>de</strong>s matrices multidimensionnelles,<br />

le calcul d’in<strong>de</strong>x automatique aurait été com<strong>par</strong>able, mais nous<br />

aurions gaspillé beaucoup d’espace mémoire.<br />

Nous pouvons donc conclure en nous réjouissant <strong>de</strong> disposer <strong>de</strong> fonctions <strong>de</strong><br />

calcul <strong>de</strong> potentiel simples. Par exemple, un simple appel à la fonction getDs0()<br />

avec les <strong>par</strong>amètres nécessaires nous retournera le potentiel énergétique associé.<br />

Bien entendu, cet exemple se transpose à chaque potentiel utilisé.<br />

4.3 La structure et les calculs effectués sur les protéines<br />

Maintenant que nous savons comment obtenir un représentant <strong>de</strong> domaine<br />

ainsi qu’un potentiel énergétique, nous pouvons nous attaquer à la structure <strong>de</strong><br />

la protéine proprement dite.


CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 55<br />

4.3.1 La structure protéique tridimensionnelle<br />

Avant toute chose, il est important <strong>de</strong> faire une petite précision en ce qui<br />

concerne les angles <strong>de</strong> torsion φ, ψ et ω. Comme nous le savons, ce sont eux qui<br />

détermineront la conformation d’un résidu. Plus précisément, la conformation<br />

du résidu sera calculée sur base <strong>de</strong> ces trois angles ! En effet, au repos, ces angles<br />

<strong>de</strong> torsion ne sont pas nuls. C’est pourquoi nous avons besoin <strong>de</strong>s données<br />

primaires sur ces angles afin d’en calculer la valeur réelle.<br />

Par exemple, considérons l’angle φ. La valeur prise <strong>par</strong> cet angle influe<br />

directement sur la position <strong>de</strong>s atomes C, Cβ et Cµ. Mais concrètement, l’angle φ<br />

proposé <strong>par</strong> les représentants nous donne la valeur <strong>de</strong> l’angle <strong>de</strong> rotation pour<br />

l’atome C. Il nous faudra donc ensuite mettre à jour les donnée <strong>de</strong>s atomes Cβ et<br />

Cµ. Cela se fait assez facilement grâce aux formules suivantes où T 0<br />

X représente<br />

l’angle <strong>de</strong> torsion initial <strong>de</strong> l’atome X du résidu et TX représente son angle réel :<br />

et donc :<br />

TC − T 0<br />

C = TCβ − T0<br />

Cβ<br />

(TC − T 0<br />

C ) + T0 = TCβ Cβ<br />

A <strong>par</strong>tir <strong>de</strong> l’angle φ, qui n’est autre que l’angle <strong>de</strong> torsion réel <strong>de</strong> C, nous<br />

obtenons donc un écart qu’il nous suffira d’ajouter à l’angle <strong>de</strong> torsion initial <strong>de</strong><br />

Cβ afin d’obtenir son angle <strong>de</strong> torsion réel .<br />

En ce qui concerne l’atome Cµ, le calcul est com<strong>par</strong>able à cette différence<br />

près que <strong>de</strong> <strong>par</strong> son statut <strong>par</strong>ticulier, le Cµ possè<strong>de</strong> un angle <strong>de</strong> torsion différent<br />

pour chaque résidu. C’est d’ailleurs le moment <strong>de</strong> rappeler l’exception du résidu<br />

glycine qui n’a pas <strong>de</strong> chaîne latérale conséquente et pour lequel l’angle <strong>de</strong><br />

rotation du Cµ vaut forcément 0 !<br />

En conclusion, certaines données extérieures seront nécessaires au calcul <strong>de</strong><br />

la structure tridimensionnelle <strong>de</strong> la protéine :<br />

– les angles <strong>de</strong> valence et <strong>de</strong> torsion <strong>de</strong> tous les atomes <strong>de</strong> la chaîne principale<br />

;<br />

– les distances inter-atomiques <strong>de</strong> chaque atome <strong>de</strong> la caîne principale ;<br />

– les données <strong>par</strong>ticulières concernant l’atome Cµ <strong>de</strong> chaque résidu.<br />

Nous aurons également besoin du fameux rayon <strong>de</strong> van <strong>de</strong>r Waals <strong>de</strong>s atomes<br />

Cµ afin <strong>de</strong> détecter la présence <strong>de</strong> collisions dans nos prédictions. Ces données<br />

se trouvent dans les fichiers levitt.in pour le Cµ et dans donneeAtome.h pour les<br />

autres atomes.


CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 56<br />

Maintenant que ces subtilités sont acquises, nous pouvons examiner la représentation<br />

<strong>de</strong> la structure d’une protéine utilisée <strong>par</strong> notre programme. Notre<br />

idée générale était <strong>de</strong> permettre un accès direct et rapi<strong>de</strong> aux divers éléments nécessaires<br />

à l’obtention d’une structure protéique <strong>par</strong>ticulière. Nous avons donc<br />

stocké toutes ces informations dans <strong>de</strong>s vecteurs similaires, basés sur le nombre<br />

<strong>de</strong> résidus composant la protéine. Ainsi, avec un numéro d’in<strong>de</strong>x unique <strong>par</strong><br />

résidu, nous avons la possiblité d’accè<strong>de</strong>r directement à l’information nous intéressant<br />

dans chaque structure <strong>de</strong> données concernant ce résidu.<br />

Ces vecteurs nous permettent donc <strong>de</strong> retrouver instantanément et pour<br />

chaque résidu, la nature du résidu, le domaine <strong>de</strong> conformation dans lequel il se<br />

trouve, le représentant choisis dans ce domaine et les angles φ, ψ et ω proposé<br />

<strong>par</strong> ce représentant. De plus, lorsque les calculs énergétiques et tridimensionnels<br />

auront eu lieu, nous pourrons accé<strong>de</strong>r à la valeur énergétique <strong>de</strong> la protéine<br />

prédite ainsi qu’à sa structure tridimensionelle en coordonnées x, y et z. La<br />

section suivante donnes quelques explications à propos <strong>de</strong> ces calculs.<br />

4.3.2 Les métho<strong>de</strong>s <strong>de</strong> calcul<br />

Afin <strong>de</strong> pouvoir procé<strong>de</strong>r à la com<strong>par</strong>aison <strong>de</strong>s diverses prédictions réalisées<br />

<strong>par</strong> nos <strong>fourmis</strong> artificielles, il sera nécessaire <strong>de</strong> connaître la structure tridimensionnelle<br />

prédite pour la protéine et l’énergie libre qui lui est associée. Il y aura<br />

donc principalement <strong>de</strong>ux calculs à effectuer :<br />

1. la construction <strong>de</strong> la structure tridimensionnelle prédite pour la protéine ;<br />

2. le calcul <strong>de</strong> l’énergie libre <strong>de</strong> cette conformation.<br />

D’autres calculs tels que la distance spatiale sé<strong>par</strong>ant <strong>de</strong>ux points ou la présence<br />

<strong>de</strong> collisions inter-atomiques dans la séquence seront à effectuer mais <strong>de</strong> <strong>par</strong><br />

leur simplicité, nous ne nous y étendrons pas.<br />

La construction <strong>de</strong> la structure tridimensionnelle<br />

Le but du calcul est très simple : construire la structure tridimensionnelle <strong>de</strong><br />

la protéine à <strong>par</strong>tir <strong>de</strong>s angles φ, ψ et ω <strong>de</strong> chacun <strong>de</strong> ses résidus. Ce calcul s’effectue<br />

au moyen <strong>de</strong> matrices <strong>de</strong> rotation permettant <strong>de</strong> calculer les coordonnées<br />

spatiales d’un point en fonction :<br />

– <strong>de</strong>s coordonnées du point le précédant ;<br />

– <strong>de</strong> la distance sé<strong>par</strong>ant ces <strong>de</strong>ux points ;


CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 57<br />

– <strong>de</strong> <strong>de</strong>ux angles caractérisant les mouvements à effectuer (dans notre cas,<br />

il s’agit <strong>de</strong>s angles <strong>de</strong> torsion et <strong>de</strong> valence <strong>de</strong> l’atome considéré que nous<br />

avons défini respectivement aux pages 11 et 44).<br />

Dans notre cas, nous fixerons toujours les coordonnées spatiales du premier<br />

atome du premier résidu à (0,0,0). De plus, nous supposerons que la structure<br />

évolue sur l’axe <strong>de</strong>s x pour le calcul du second point. Cette situation initiale<br />

étant définie, la suite <strong>de</strong>s calculs pourra se passer itérativement.<br />

Il est intéressant <strong>de</strong> remarquer qu’une fois les calculs effectués pour un<br />

atome, il est possible <strong>de</strong> dégager une matrice contenant toutes les informations<br />

géométriques nécessaires concernant cet atome. En sauvegardant cette matrice,<br />

il sera donc possible <strong>de</strong> recommencer le calcul à <strong>par</strong>tir d’un certain point <strong>de</strong> la<br />

structure, ce qui évitera <strong>de</strong> <strong>de</strong>voir recalculer toutes les coordonnées <strong>de</strong> tous les<br />

atomes dans le cas où un résidu viendrait à changer <strong>de</strong> conformation.<br />

Nous effectuerons donc une sauvegar<strong>de</strong> <strong>de</strong> cette matrice exclusivement pour<br />

les atomes C <strong>de</strong> chaque résidu. En effet, lorsqu’un résidu change <strong>de</strong> conformation,<br />

c’est chacun <strong>de</strong> ses angles <strong>de</strong> torsion qui prend une nouvelle valeur. Il est<br />

donc inutile <strong>de</strong> conserver les matrices internes d’un résidu.<br />

Nous avons donc ajouté un vecteur supplémentaire dans la représentation<br />

<strong>de</strong> nos protéines, permettant <strong>de</strong> recommencer une construction <strong>de</strong> structure<br />

tridimentionnelle au dé<strong>par</strong>t d’un point <strong>par</strong>ticulier.<br />

Cela sera <strong>par</strong>ticulièrement intéressant dans le cas où une collision interatomique<br />

sera découverte. En effet, lorsqu’une nouvelle conformation réaliste<br />

sera trouvée pour ce résidu, la reconstruction tridimentionnelle pourra recommencer<br />

non pas au début mais bien sur le résidu précédant directement celui<br />

nouvellement modifié ! Le gain <strong>de</strong> temps sera donc significatif, d’autant plus<br />

que l’espace mémoire supplémentaire requis <strong>par</strong> cette opération est minime !<br />

Le calcul <strong>de</strong> l’énergie libre d’une conformation prédite<br />

Ce calcul s’effectue sur base <strong>de</strong>s valeurs retournées <strong>par</strong> les potentiels énergétiques.<br />

Il nous faudra donc faire appel aux bonnes fonctions avec les bons<br />

<strong>par</strong>amètres, ce qui est aisé vu la structure <strong>de</strong> stockage <strong>de</strong>s données utilisée. Par<br />

contre, un calcul mons évi<strong>de</strong>nt est celui <strong>de</strong> la ré<strong>par</strong>tition <strong>de</strong>s énergies. En effet,<br />

lors du chapitre précé<strong>de</strong>nt, nous avons soulevé le point <strong>de</strong> la ré<strong>par</strong>tition <strong>de</strong>s<br />

énergies potentielles calculées lorsqu’un potentiel présente <strong>de</strong>s redondances.<br />

Pour reprendre l’exemple <strong>de</strong> la page 49 dans le cas du potentiel tt0 (mais cela est<br />

transposable pour le potentiel ttt1), qu’on aie les domaines P et B respectivement


CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 58<br />

en position 2 et 4 ou l’inverse revient exactement au même calcul !<br />

Dés lors, il suffira en fait <strong>de</strong> reporter ce potentiel sur chaque résidus concerné,<br />

dans notre exemple les résius 2 et 4. Ce type <strong>de</strong> redondance se présente concrètement<br />

pour les potentiels tt0, ttt1 et ds1. Toutefois, un autre type <strong>de</strong> ré<strong>par</strong>tition,<br />

quelque peu plus subtil, doit également être effectué ! Pour bien comprendre ce<br />

nouveau problème, quelques précisions sont nécessaires.<br />

Lors <strong>de</strong> la prédiction <strong>de</strong> structure native <strong>de</strong> protéine, la séquence source est<br />

bien évi<strong>de</strong>mment une donnée immuable. Par contre, la prédiction <strong>de</strong> la conformation<br />

adoptée <strong>par</strong> chaque résidu changera tout au long <strong>de</strong> la recherche. De<br />

plus, pour définir si une conformation est intéressante ou non, nous procédons<br />

à l’évaluation <strong>de</strong> celle-ci au travers <strong>de</strong>s potentiels <strong>de</strong> torsion, entre-autres. Ces<br />

potentiels expriment dans quelle mesure il est intéressant d’avoir une prédiction<br />

<strong>de</strong> domaine <strong>par</strong>ticulière pour un résidu <strong>par</strong>ticulier.<br />

Ainsi, lorsque nous procédons <strong>par</strong> exemple au calcul du potentiel st0 qui<br />

mesure l’adéquation entre le résidu positionné en i et le domaine prédit pour<br />

un résidu en position j, une question se pose : à quel résidu attribuer l’énergie<br />

calculée ? C’est <strong>de</strong> cette question que provient le nouveau type <strong>de</strong> ré<strong>par</strong>tition<br />

que nous venons <strong>de</strong> soulever. Toujours dans le cas du potentiel st0, l’énergie<br />

sera attribuée au résidu <strong>de</strong> position j car c’est bien le domaine prédit qui doit<br />

être évalué et non la nature du résidu en position i <strong>de</strong> la séquence, qui <strong>de</strong> toute<br />

façon ne changera jamais. Le même raisonnement est applicable dans le cas <strong>de</strong>s<br />

potentiels stt1 et tss1.<br />

Pour rappel, le potentiel stt1 mesure l’adéquation entre le résidu positionné<br />

en i, le domaine prédit en position j et le domaine prédit en position k. L’énergie<br />

calculée sera ré<strong>par</strong>tie sur les <strong>de</strong>ux résidus j et k qui présente une prédiction<br />

<strong>par</strong>ticulière. En ce qui concerne le potentiel tss1, qui mesure l’adéquation entre<br />

le domaine prédit en position i, le résidu positionné en j et le résidu positionné<br />

en k, l’entièreté <strong>de</strong> l’énergie calculée sera reportée sur le résidu positionné en i<br />

dans la séquence.<br />

Une <strong>de</strong>rnière remarque concerne la valeur <strong>de</strong>s énergies retournées <strong>par</strong> les<br />

différents potentiels. En effet, certains retourneront facilement <strong>de</strong>s valeurs fortement<br />

négative lors même que d’autres seront plus difficiles à minimiser. Nous<br />

avons donc décidé <strong>de</strong> sous pondérer les valeurs retournées <strong>par</strong> les potentiels<br />

tt0 et ttt1. En effet, ces <strong>de</strong>rniers sont facilement minimisables et la valeur énergétique<br />

qu’ils calculent pourrait être telle que l’impact <strong>de</strong>s autres calculs <strong>de</strong><br />

potentiels pourrait être négligeable. Nous nous retrouverions donc dans le cas<br />

d’une prédiction où seules les interactions locales seraient prise en compte, ce


CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 59<br />

que nous souhaitons éviter.<br />

4.4 La <strong>colonie</strong> <strong>de</strong> <strong>fourmis</strong><br />

Nous voici arrivé à la classe maîtresse <strong>de</strong> notre algorithme : la <strong>colonie</strong> <strong>de</strong><br />

<strong>fourmis</strong>. C’est en effet ici que les différentes pièces du puzzle s’assemblent afin<br />

<strong>de</strong> permettre la prédiction <strong>de</strong> la structure native <strong>de</strong> la protéine étudiée. Pour<br />

commencer, examinons les <strong>par</strong>amètres requis <strong>par</strong> la <strong>colonie</strong> :<br />

– le nombre d’itération maximale, critère <strong>de</strong> terminaison principal ;<br />

– le nombre <strong>de</strong> <strong>fourmis</strong> qui <strong>par</strong>ticiperont à la recherche ;<br />

– le nombre <strong>de</strong> <strong>fourmis</strong> d’élite et le facteur d’élitisme indiquant le <strong>de</strong>gré<br />

d’élitisme souhaité ;<br />

– les <strong>par</strong>amètres <strong>de</strong> calcul probabilistes fondamentaux α, β et ρ ;<br />

– enfin, le nombre maximum d’itérations acceptées sans modification substancielle<br />

<strong>de</strong> la meilleure solution et une valeur quantitative représentant<br />

cette amélioration minimale. Ces <strong>de</strong>ux <strong>par</strong>amètres constituent un critère<br />

<strong>de</strong> terminaison anticipée.<br />

Le lecteur s’en sera certainement rendu compte, le nombre <strong>de</strong> <strong>par</strong>amètres attendu<br />

est assez important. Par ailleurs, la question se pose <strong>de</strong> savoir quelle valeur<br />

donner à chacun <strong>de</strong> ces <strong>par</strong>amètres. Nous voici donc confronté au problème <strong>de</strong> la<br />

<strong>par</strong>amétrisation dont nous <strong>par</strong>lions au chapitre <strong>de</strong>ux. Concrètement, il n’existe<br />

aucune configuration prédéfine générale, il faut donc procé<strong>de</strong>r à une multitu<strong>de</strong>s<br />

<strong>de</strong> tests pour espérer dégager un comportement <strong>par</strong>ticulier <strong>de</strong> l’algorithme en<br />

fonction du problème à solutionner. Nous reviendrons sur ces tests au chapitre<br />

suivant.<br />

Examinons maintenant les structures <strong>de</strong> données internes. La mémoire <strong>de</strong><br />

la <strong>colonie</strong>, c’est à dire l’ensemble <strong>de</strong>s phéromones déposées <strong>par</strong> toutes les <strong>fourmis</strong><br />

<strong>de</strong> la <strong>colonie</strong>, se trouve stockée sous forme <strong>de</strong> matrice tridimensionnelle que<br />

nous appellerons matrice phéromonale globale. Ainsi, la mise à jour et l’évaporation<br />

phéromonale peuvent s’effectuer assez simplement. Par ailleurs, l’intégralité <strong>de</strong><br />

l’espace matriciel est potentiellement utilisé : chaque résidu peut adopter une<br />

conformation propre à un <strong>de</strong>s 7 domaines et chaque domaine aura le même<br />

nombre fixe <strong>de</strong> représentant. Nous obtenons donc une matrice <strong>de</strong> r ∗ 7 ∗ R où r<br />

représente le nombre <strong>de</strong> résidus <strong>de</strong> la séquence et R donne le nombre <strong>de</strong> représentant<br />

<strong>par</strong> domaine. Parallèlement à cette matrice, nous avons stocké les valeurs<br />

heuristiques dans un vecteur. Pour rappel, ces valeurs heuristiques permettront


CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 60<br />

aux <strong>fourmis</strong> <strong>de</strong> s’orienter préférablement vers un domaine en <strong>par</strong>ticulier.<br />

Dès lors, au dé<strong>par</strong>t <strong>de</strong> ces <strong>de</strong>ux sources <strong>de</strong> données, il nous est possible<br />

<strong>de</strong> calculer la matrice <strong>de</strong> probabilité générale qui sera utilisée <strong>par</strong> les fourmi.<br />

En effet, nous effectuerons ce calcul à chaque début <strong>de</strong> cycle (pour rappel, un<br />

cycle est constitué <strong>de</strong> m itérations où m représente le nombre total <strong>de</strong> fourmi<br />

<strong>de</strong> la <strong>colonie</strong> et où une itération consiste en la prédiction et l’évaluation d’une<br />

conformation complète <strong>par</strong> une fourmi).<br />

De plus, comme nous le disions précédament, nous avons décidé <strong>de</strong> procé<strong>de</strong>r<br />

à une mise à jour phéromonale offline. Nous auront donc besoin d’une matrice<br />

<strong>de</strong> stockage temporaire afin <strong>de</strong> simuler la simultanéité <strong>de</strong> recherche <strong>de</strong>s <strong>fourmis</strong>.<br />

Ainsi, à la fin d’un cycle, nous disposerons d’une matrice contenant la totalité<br />

<strong>de</strong>s phéromones déposées pas nos <strong>fourmis</strong>.<br />

Par ailleurs, afin <strong>de</strong> procé<strong>de</strong>r à la mise à jour phéromonale élitiste, les<br />

meilleurs solutions seront conservées jusqu’à la fin d’un cycle. Il sera ensuite<br />

temps d’effectuer un dépôt phéromonal additionnel dans la matrice phéromonale<br />

globale. Par la suite, seule la meilleure conformation prédite <strong>de</strong>puis la<br />

genèse <strong>de</strong> la <strong>colonie</strong> sera conservée. Il y aura donc <strong>de</strong> nouvelles conformations<br />

d’élite différentes à chaque fin <strong>de</strong> cycle.<br />

A la fin <strong>de</strong> l’algorithme, la <strong>colonie</strong> renverra tout simplement la meilleure<br />

conformation protéique prédite. Généralement, cette conformation sera aussi<br />

écrite sur fichier PDB [8] afin <strong>de</strong> pouvoir procé<strong>de</strong>r ensuite à une visualisation<br />

<strong>de</strong> la protéine prédite. On pourra également, dans le cas où la structure native<br />

<strong>de</strong> la protéine est connue, procé<strong>de</strong>r à un calcul RMSD <strong>de</strong> la prédiction avec la<br />

structure native réelle.<br />

Les différentes étapes <strong>de</strong> notre algorithme sont schématisées à la figure 4.1.<br />

4.5 Récapitulatif<br />

Ce chapitre nous a permis <strong>de</strong> passer en revue les diverses spécificités <strong>de</strong><br />

notre algorithme. Ainsi, au fil <strong>de</strong>s différents chapitres <strong>de</strong> cet ouvrage, nous<br />

avons découvert toujours plus en profon<strong>de</strong>ur l’application et le développement<br />

<strong>de</strong> la métaheuristique <strong>de</strong>s <strong>colonie</strong>s <strong>de</strong> <strong>fourmis</strong> au problème <strong>de</strong> la prédiction ab<br />

initio <strong>de</strong> la structure native d’une protéine.<br />

Le chapitre suivant propose donc <strong>de</strong> découvrir quelques réultats obtenus<br />

<strong>par</strong> AC-ProPre. Nous pourons ensuite tirer les conclusions <strong>de</strong> notre travail et<br />

développer quelques perspectives <strong>de</strong> développement futur.


CHAPITRE 4. NOTRE ALGORITHME : AC-PROPRE 61<br />

Fig. 4.1 – AC-ProPre : déroulement schématique.


Chapitre 5<br />

Tests et résultats<br />

Afin d’évaluer les performances <strong>de</strong> notre algorithme, nous avons effectué<br />

une batterie <strong>de</strong> tests sur les fragment 1 à 35 <strong>de</strong> la protéine 1UBQ, l’ubiquitine. La<br />

structure native <strong>de</strong> cette protéine étant connue, il nous est possible <strong>de</strong> calculer<br />

le RMSD entre notre prédiction et la conformation réelle <strong>de</strong>s fragments 1 à 35<br />

<strong>de</strong> l’ubiquitine.<br />

Afin d’obtenir un maximum d’informations intéressantes, nous avons évi<strong>de</strong>mment<br />

exécuté notre algorithme dans <strong>de</strong> multiples configurations <strong>par</strong>amétriques.<br />

Nous allons donc dans un premier temps découvrir ces configurations<br />

pour ensuite en étudier les résultats.<br />

5.1 Les configurations d’exécution <strong>de</strong> notre algorithme<br />

Nous avons découvert au chapitre précé<strong>de</strong>nt que notre algorithme possè<strong>de</strong><br />

beaucoup <strong>de</strong> <strong>par</strong>amètres pouvant chacun prendre <strong>de</strong> nombreuses valeurs différentes.<br />

Il a donc été nécessaire <strong>de</strong> faire quelques choix afin <strong>de</strong> procé<strong>de</strong>r à nos<br />

tests. Ainsi, nous avons décidé <strong>de</strong> dégager une douzaine <strong>de</strong> configurations <strong>par</strong>amétriques<br />

statiques permettant <strong>de</strong> tester dynamiquement d’autres <strong>par</strong>amètres.<br />

Le premier <strong>par</strong>amètre statique est α, indicateur <strong>de</strong> l’importance relative accordée<br />

aux phéromones locales lors <strong>de</strong> la prise <strong>de</strong> décision d’une fourmi. A<br />

l’instar <strong>de</strong> quelques étu<strong>de</strong>s <strong>par</strong>amétriques réalisées dans le cadre <strong>de</strong> l’application<br />

<strong>de</strong> la métaheuristique <strong>de</strong> type <strong>colonie</strong> <strong>de</strong> <strong>fourmis</strong> (comme <strong>par</strong> exemple dans<br />

[28]), ce <strong>par</strong>amètre sera toujours fixé à 1. Par contre, β, qui donne l’importance<br />

relative <strong>de</strong> la valeur heuristique, variera entre 1, 2 et 5. D’un autre côté, nous<br />

avons le facteur <strong>de</strong> persistance phéromonal, ρ, dont la valeur sera <strong>de</strong> 0,6 ou 0,8.<br />

62


CHAPITRE 5. TESTS ET RÉSULTATS 63<br />

Enfin, dans le but <strong>de</strong> tester l’impact <strong>de</strong>s potentiels <strong>de</strong> distances sur la prédiction,<br />

nous avons décidé <strong>de</strong> tantôt utiliser les potentiels ds0 et ds1, tantôt <strong>de</strong> ne pas le<br />

faire.<br />

Pratiquement, nous avons donc créé 12 fichiers exécutables différents proposant<br />

une première configuration <strong>par</strong>amétrique statique définie. En effet, les<br />

<strong>par</strong>amètres α, β et ρ seront invariable tout au long <strong>de</strong> l’exécution d’un <strong>de</strong>s fichiers<br />

exécutables, <strong>de</strong> même que les potentiels ds0 et ds1 seront ou non pris en<br />

compte.<br />

En ce qui concerne les autres <strong>par</strong>amètres, nous les avons fait varier dynamiquement<br />

et <strong>de</strong> la même manière dans chaque exécutable. Ainsi :<br />

– le nombre <strong>de</strong> <strong>fourmis</strong> varie <strong>de</strong> 50 à 500 <strong>par</strong> intervalle <strong>de</strong> 50 ;<br />

– le nombre <strong>de</strong> <strong>fourmis</strong> d’élite prends les valeurs <strong>de</strong> 0.00%, 0.01%, 0.10% et<br />

0.50% du nombre <strong>de</strong> <strong>fourmis</strong> <strong>de</strong> la <strong>colonie</strong> ;<br />

– le facteur d’élitisme prends les valeurs <strong>de</strong> 2, 5 et 10 ;<br />

– et le nombre d’itération est <strong>de</strong> 100, 200 ou 500.<br />

De plus, nous avons fixé le nombre autorisé d’itérations sans modifications à<br />

10% du nombre d’itérations total et à 0.10 l’amélioration énergétique minimale.<br />

Au final, nous obtenons donc 360 configurations dynamiques différentes.<br />

Dès lors, comme il y a 12 configurations statiques d’exécution, nous effectuerons<br />

4320 prédictions. De plus, afin d’avoir un minimum d’aspect statistique pour<br />

nos résultats, nous avons exécuté chaque configuration 5 fois. En résumé, nous<br />

avons effectués 21600 exécutions <strong>de</strong> notre algorithme. Cela dit, découvrons-en<br />

les résultats.<br />

5.2 Résultats obtenus<br />

5.2.1 Evaluation énergétique <strong>de</strong> notre algorithme<br />

Le but à atteindre <strong>par</strong> notre algorithme est, rappelons le, la minimisation <strong>de</strong><br />

la fonction énergétique utlisée. Cela signifie donc que si la configuration prédite<br />

présente une énergie libre minimale, l’objectif primaire sera atteint.<br />

Nous avons donc établi <strong>de</strong>s graphiques reprennant l’énergie libre moyenne<br />

calculée dans une configurations algorithmique bien définie. En ne considérant<br />

dans un premier temps que les configurations ne prenant pas en compte les potentiels<br />

<strong>de</strong> distance, les graphiques <strong>de</strong> la figure 5.1 nous montrent très clairement<br />

que l’énergie minimale est généralement trouvée avec un nombre important <strong>de</strong>


CHAPITRE 5. TESTS ET RÉSULTATS 64<br />

<strong>fourmis</strong>. Malheureusement, aucun <strong>de</strong> ces graphiques ne fait ressortir <strong>de</strong> configuration<br />

préférentielle. Notons toutefois que le nombre d’itérations influe <strong>de</strong><br />

manière générale sur la qualité <strong>de</strong>s conformations prédites. En effet, il ap<strong>par</strong>aît<br />

visiblement que pour tout autre <strong>par</strong>amètre équivalent, la moyenne d’énergie est<br />

plus basse quand le nombre d’itération est à 500.<br />

Ces observations sont valables pour toutes les configurations algorithmiques<br />

ne prenant pas en compte les potentiel <strong>de</strong> distance à l’exception toutefois <strong>de</strong> la<br />

configuration (α = 1, β = 1, ρ = 0.6) (cfr. figure 5.2). En effet, dans ce cas-ci,<br />

les courbes sont plutôt anarchiques et ne présentent aucune pente <strong>par</strong>ticulière.<br />

Cela pourrait s’expliquer <strong>par</strong> un comportement exploratoire trop poussé. En<br />

effet, dans cette configuration-ci, la valeur heuristique n’est pas mise en avant<br />

(β = 1) et la persistence phéromonale est faible.<br />

En ce qui concerne les prédictions effectuées avec la prise en compte <strong>de</strong>s<br />

potentiels <strong>de</strong> distance, un comportement similaire se dégage avec néanmoins<br />

quelques nuances (cfr. figur 5.3). Premièrement, il est flagrant que l’énergie libre<br />

globale moyenne <strong>de</strong>s prédictions effectuées dans ce cas-ci sont toutes suppérieures<br />

à celle calculée sans la prise en compte <strong>de</strong>s potentiels <strong>de</strong> distance. Cela<br />

s’explique simplement <strong>par</strong> le fait que les potentiels <strong>de</strong> distance prennent en<br />

compte les distances spatiales et sont donc difficiles à minimiser.<br />

A nouveau, certaines configurations (celles avec β = 1) présentent <strong>de</strong>s<br />

courbes plutôt anarchique (cfr. figure 5.4). A nouveau, cela s’explique <strong>par</strong> un<br />

comportement probablement trop exploratoire.<br />

5.2.2 Calcul du RMSD<br />

En ce qui concerne l’évaluation <strong>par</strong> RMSD <strong>de</strong> nos prédictions, les résultats<br />

ont fort probablement souffert suite au calcul <strong>de</strong> la moyenne <strong>de</strong>s résultats d’une<br />

configuration équivalente. En effet, lors <strong>de</strong>s cinq exécutions à configuration<br />

i<strong>de</strong>ntique, l’écart entre le RMSD le plus petit et le RMSD le plus élevé était<br />

généralement élevé. Ainsi, aucune moyenne intéressante ne ressort <strong>de</strong> notre<br />

analyse. Par exemple, nous constatons que la figure 5.5 offre <strong>de</strong>s RMSD moyen<br />

compris entre 8Å et 16Å, ce qui est assez élevé.<br />

Par ailleurs, on aurait pu s’attendre à ce que la prise en compte <strong>de</strong>s potentiels<br />

<strong>de</strong> distance améliore sensiblement le résultat du calcul RMSD. En effet, il serait<br />

logique que <strong>de</strong> <strong>par</strong> la prise en compte <strong>de</strong>s interactions spatiales, une structure<br />

prédite présente plus <strong>de</strong> similitu<strong>de</strong>s avec la structure réelle <strong>de</strong> la protéine étudiée.<br />

Malheureusement ce n’est pas du tout le cas, les courbes RMSD <strong>de</strong> toutes


CHAPITRE 5. TESTS ET RÉSULTATS 65<br />

Fig. 5.1 – Graphiques <strong>de</strong> l’énergie moyenne <strong>de</strong>s prédictions effectuées avec une<br />

configuration <strong>de</strong> (α = 1, β = 1, ρ = 0.8, ds0 et ds1 ne sont pas pris en compte).<br />

Les graphique allignés se passent à un nombre d’itérations équivalent et les<br />

graphiques en colonne ont le même facteur d’élitisme. Les quatres courbes<br />

représentent chacune un nombre <strong>de</strong> <strong>fourmis</strong> d’élite différent.


CHAPITRE 5. TESTS ET RÉSULTATS 66<br />

Fig. 5.2 – Graphiques <strong>de</strong> l’énergie moyenne <strong>de</strong>s prédictions effectuées avec une<br />

configuration <strong>de</strong> (α = 1, β = 1, ρ = 0.6, ds0 et ds1 ne sont pas pris en compte). Dans<br />

ce cas-ci, les diverses courbe montrent un comportement tout à fait dis<strong>par</strong>ate.


CHAPITRE 5. TESTS ET RÉSULTATS 67<br />

Fig. 5.3 – Graphiques <strong>de</strong> l’énergie moyenne <strong>de</strong>s prédictions effectuées avec<br />

une configuration <strong>de</strong> (α = 1, β = 2, ρ = 0.8, ds0 et ds1 sont pris en compte).<br />

Les graphique allignés se passent à un nombre d’itérations équivalent et les<br />

graphiques en colonne ont le même facteur d’élitisme. Les quatres courbes<br />

représentent chacune un nombre <strong>de</strong> <strong>fourmis</strong> d’élite différent.


CHAPITRE 5. TESTS ET RÉSULTATS 68<br />

Fig. 5.4 – Graphiques <strong>de</strong> l’énergie moyenne <strong>de</strong>s prédictions effectuées avec une<br />

configuration <strong>de</strong> (α = 1, β = 1, ρ = 0.6, ds0 et ds1 sont pris en compte). Dans ce<br />

cas-ci, les diverses courbe montrent un comportement tout à fait dis<strong>par</strong>ate.


CHAPITRE 5. TESTS ET RÉSULTATS 69<br />

les configurations utilisées présentent la même allure que celle montrée en figure<br />

5.5.<br />

Par contre, l’observation <strong>de</strong>s résultats obtenus individuellement montre que<br />

59% <strong>de</strong>s RMSD inférieurs à 6Å sont obtenus lors <strong>de</strong> la prise en considération <strong>de</strong>s<br />

potentiels <strong>de</strong> distance. Dès lors, au vu <strong>de</strong>s résultats <strong>de</strong> cette section et <strong>de</strong> la section<br />

précé<strong>de</strong>nte, il est légitime <strong>de</strong> se <strong>de</strong>man<strong>de</strong>r dans quelle mesure il ne faudrait pas<br />

accor<strong>de</strong>r un poids prépondérant aux potentiels <strong>de</strong> distance. En effet, il se pourrait<br />

que dans notre algorithme, les valeurs énergétiques calculées <strong>par</strong> les potentiels<br />

<strong>de</strong> distance n’aient qu’une toute petite influence sur l’énergie libre globale <strong>de</strong> la<br />

protéine. Rappelons nous d’ailleurs que l’impact <strong>de</strong>s potentiels <strong>de</strong> tortions tt0<br />

et ttt1 est volontairement déiminué dans notre algorithme, afin justement <strong>de</strong> ne<br />

pas favoriser les interactions locales au détriment <strong>de</strong>s interactions spatiales !<br />

Pour conclure cette section, il est tout <strong>de</strong> même important <strong>de</strong> relever le<br />

meilleur RMSD calculé sur une <strong>de</strong> nos prédiction. En effet, nous avons obtenus<br />

une conformation protéique présentant un RMSD <strong>de</strong> 3,52Å avec la structure<br />

native correspondante, ce qui est assez encourageant ! A titre com<strong>par</strong>atif, [18]<br />

obtient, pour le même fragment <strong>de</strong> protéine, un RMSD minimal <strong>de</strong> 3,1Å. Bien<br />

entendus, les outlis et métho<strong>de</strong>s utilisés sont différents mais le résultat est là.<br />

5.2.3 RMSD Vs énergie libre<br />

Une question intéressante serait <strong>de</strong> se <strong>de</strong>man<strong>de</strong>r quelle est la correspondance<br />

entre les meilleurs RMSD et les meilleurs énergies libre. Cette question permet<br />

en fait d’évaluer la qualité <strong>de</strong>s fonctions énergétiques utilisées. En effet, dans<br />

le cas ou ces fonctions sont <strong>par</strong>faites, obtenir une structure d’énergie minimale<br />

garantirait un RMSD faible.<br />

Les schémas ci-<strong>de</strong>ssous (cfr. figure 5.6) nous montrent ce que donne une<br />

telle com<strong>par</strong>aison. Le premier reprend l’intégralité <strong>de</strong>s résultats obtenus pour<br />

les 10800 exécutions ne prenant pas en compte les potentiels <strong>de</strong> distance. Néanmoins,<br />

le schéma correspondant dans le cas où ces potentiels serait actifs et tout<br />

à fait semblable.<br />

Afin d’y voir plus clair, nous avons isolé les RMSD inférieurs à 7Å ce qui<br />

donne le schéma <strong>de</strong> la figure 5.6(b). Nous constatons donc que pour une même<br />

énergie libre, les RMSD peuvent être différent ! Cela montre clairement l’imperfection<br />

<strong>de</strong>s fonctions énergétiques utilisées ainsi que l’impact <strong>de</strong> la limitation <strong>de</strong><br />

notre algorithme à 8 potentiels <strong>de</strong> <strong>de</strong>ux types différents. En effet, d’autres types<br />

<strong>de</strong> potentiels existent et pourraient peut-être améliorer ces résultats.


CHAPITRE 5. TESTS ET RÉSULTATS 70<br />

Fig. 5.5 – Graphiques du RMSD moyen <strong>de</strong>s prédictions effectuées avec une<br />

configuration <strong>de</strong> (α = 1, β = 5, ρ = 0.8, ds0 et ds1 sont pris en compte). L’allure<br />

<strong>de</strong> ces courbes n’évoque rien <strong>de</strong> <strong>par</strong>ticulier.


CHAPITRE 5. TESTS ET RÉSULTATS 71<br />

Les observations effectuées ci-<strong>de</strong>ssus nous permettent <strong>par</strong> contre <strong>de</strong> mieux<br />

comprendre la diversité <strong>de</strong>s résultats RMSD et donc les valeurs moyennes élevées<br />

obtenue pour ces résultats. A nouveau, la question d’une pondération<br />

<strong>par</strong>ticulière accordée à certains potentiel peut être soulevée.<br />

Fig. 5.6 – Graphiques <strong>de</strong> com<strong>par</strong>aison entre le RMSD et l’énergie libre d’une<br />

conformation prédite : (a) prise en compte <strong>de</strong> toute les prédictions effectuées<br />

sans considération <strong>de</strong>s potentiels <strong>de</strong> distance, (b) limitation aux prédictions<br />

présentant un RMSD inférieur à 7Å.<br />

A titre quantitatif, voici les cinq meilleurs scores énergétiques et leurs RMSD<br />

associé dans le cas où les potentiels <strong>de</strong> torsions ne sont pas pris en compte :<br />

Energie libre RMSD<br />

-34,8138 11,5475<br />

-34,5582 15,9341<br />

-34,3296 15,2262<br />

-33,8029 10,0224<br />

-33,6585 15,58<br />

et le meilleur RMSD (3,9989Å) possè<strong>de</strong> un score énergétique <strong>de</strong> -20,5775 !<br />

En considérant les potentiels <strong>de</strong> distances nous obtenons le tableau suivant :


CHAPITRE 5. TESTS ET RÉSULTATS 72<br />

Energie libre RMSD<br />

-26,0189 9,9723<br />

-25,5462 9,6658<br />

-24,7493 14,4044<br />

-24,0495 14,8154<br />

-23,8619 13,8676<br />

et le meilleur RMSD (3,5222Å) possè<strong>de</strong> un score énergétique <strong>de</strong> -10,6868 !<br />

5.3 Notre meilleure prédiction : une RMSD <strong>de</strong> 3,5222Å<br />

Pour terminer en beauté, découvrons les étapes intermédiaires <strong>de</strong> notre<br />

meilleure prédiction. Le tableaux ci-<strong>de</strong>ssous reprends l’évolution <strong>de</strong> notre prédiction<br />

en ce qui concerne les RMSD et le score énergétique. Notons que nous<br />

avons pu procé<strong>de</strong>r à la réexécution <strong>de</strong> cette simulation grâce à la sauvegar<strong>de</strong> du<br />

numéro aléatoire généré <strong>par</strong> une fonction interne au angage C++. La prédiction<br />

a donc fourni les résultats suivants :<br />

Cycle Energie libre RMSD<br />

1 29,182 9,51864<br />

11 7,71167 10,5208<br />

21 3,49845 9,18431<br />

31 3,49845 9,18431<br />

41 -9,41256 10,4728<br />

51 -9,41256 10,4728<br />

61 -9,41256 10,4728<br />

71 -9,41256 10,4728<br />

81 -9,41256 10,4728<br />

91 -10,6507 5,55853<br />

101 -10,6507 5,55853<br />

111 -10,6507 5,55853<br />

121 -10,6507 5,55853<br />

131 -10,6868 3,52219<br />

140 -10,6868 3,52219<br />

Pour remettre cette prédiction dans son contexte, signalons qu’elle a été obtenue<br />

<strong>par</strong> une <strong>colonie</strong> <strong>de</strong> 100 <strong>fourmis</strong> dont la moité étaient <strong>de</strong>s <strong>fourmis</strong> d’élite. Le<br />

facteur d’élitisme était <strong>de</strong> 5, ce qui implique une sérieuse prise en compte <strong>de</strong>s


CHAPITRE 5. TESTS ET RÉSULTATS 73<br />

meilleurs résultat <strong>de</strong> chaque cycle ! En ce qui concerne les autres <strong>par</strong>amètre, α<br />

et β étaient à 1, ρ à 0,6. Enfin, le nombre d’itération maximal était fixé à 500.<br />

En image, la figure 5.7 nous montre la prédiction effectuée <strong>par</strong> AC-ProPre<br />

et la figure 5.8 la structure native réelle <strong>de</strong> l’ubiquitine (résidu 1-35). Enfin, la<br />

figure 5.9 nous montre ce que donne la meilleure superposition <strong>de</strong> ces <strong>de</strong>ux<br />

conformations tridimentionnelles.<br />

Fig. 5.7 – Représentation <strong>de</strong> la structure tertiaire <strong>de</strong> la prédiction effectuée <strong>par</strong><br />

AC-ProPre.


CHAPITRE 5. TESTS ET RÉSULTATS 74<br />

Fig. 5.8 – Représentation <strong>de</strong> la structure tertiaire <strong>de</strong> l’ubiquitine (résidu 1-35).


CHAPITRE 5. TESTS ET RÉSULTATS 75<br />

Fig. 5.9 – Supperposition <strong>de</strong> la conformation simulée <strong>par</strong> AC-ProPre avec la<br />

conformation native connue.


Conclusion<br />

De nombreuses métho<strong>de</strong>s <strong>de</strong> prédiction <strong>de</strong> la structure native d’une protéine<br />

existent à ce jour. Parmi elles, la métaheuristique d’optimisation <strong>par</strong> <strong>colonie</strong> <strong>de</strong><br />

<strong>fourmis</strong> propose un moyen <strong>par</strong>ticulier pour résoudre ce problème. Basé sur la<br />

communication indirecte entre les agents <strong>de</strong> recheche (les <strong>fourmis</strong> artificielles),<br />

cette métho<strong>de</strong> a déjà connu diverses implémentations, les plus fréquentes ayant<br />

été réalisées sur un modèle réseau utilisant comme représentation <strong>de</strong> la protéine<br />

le modèle HP [16, 36].<br />

Cet ouvrage a présenté une nouvelle implémentation <strong>de</strong> cette métaheuristique<br />

faisant usage d’un modèle hors réseaux et d’une représentation détaillée<br />

<strong>de</strong> la protéines et <strong>de</strong>s aci<strong>de</strong>s aminés la composant. Le but recherché était d’appliquer<br />

une métho<strong>de</strong> <strong>de</strong> recherche performante sur une modélisation fine du<br />

problème.<br />

Malgrés ses nombreux avantages, la métaheuristique d’optimisation <strong>par</strong> <strong>colonie</strong><br />

<strong>de</strong> fourmi nécessite un temps considérable en tests afin d’en déterminer la<br />

configuration <strong>par</strong>amétrique. Nous avons donc effectué quelques choix afin <strong>de</strong><br />

procé<strong>de</strong>r à <strong>de</strong>s test qui nous semblaient intéressants. Les résultats <strong>de</strong> ces tests<br />

sont extrèmement encourageant pour un premier essai. En effet, <strong>de</strong>s prédictions<br />

tout à fait valables ont eu lieu.<br />

Malheureusement, nous n’imaginions pas l’étendue <strong>de</strong>s tests faisables ainsi<br />

que l’influence <strong>de</strong>s métho<strong>de</strong>s statistiques sur les résultats obtenus. Ainsi, <strong>de</strong><br />

nomreux essais et expériences sont encore à faire. Une perspective intéressante<br />

serait <strong>de</strong> permettre l’autoadaptativité <strong>de</strong> nos <strong>par</strong>amètres. Cette métho<strong>de</strong> propose<br />

<strong>de</strong> faire <strong>de</strong> la configuration <strong>par</strong>amétrique une série <strong>de</strong> variable directement<br />

modifiable <strong>par</strong> l’algorithme en cours, en fonction <strong>de</strong>s résultats obtenus.<br />

Une autre idée serait <strong>de</strong> procé<strong>de</strong>r à la <strong>par</strong>amétrisation <strong>de</strong> l’algorithme sur<br />

base <strong>de</strong>s résultats fournis <strong>par</strong> le calcul RMSD. Bien entendu, cela ne sera faisable<br />

que dans le cas d’une protéine dont la structure native est connue. Une fois<br />

que <strong>de</strong>s <strong>par</strong>amètres satisfaisants auront été dégagé, les performances atteintes<br />

76


Conclusion 77<br />

pour une protéine du même ordre <strong>de</strong> gran<strong>de</strong>ur que celle ayant servi à la <strong>par</strong>amétrisation<br />

seraient probablement élevées. Il sera ainsi intéressant d’étudier<br />

le comportement <strong>de</strong> AC-ProPre dans le cas <strong>de</strong> protéines plus importantes ou<br />

présentant <strong>de</strong>s caractéristiques <strong>par</strong>ticulières.<br />

Il serait également possible <strong>de</strong> modifier le fonctionement <strong>de</strong> notre algorithme<br />

en faisant <strong>de</strong>s choix stratégiques différents. En effet, il est certain que le comportement<br />

<strong>de</strong>s <strong>fourmis</strong> sera modifié en fonction <strong>de</strong> la stratégie <strong>de</strong> dépôt phéromonal<br />

utilisée. De plus, le calcul <strong>de</strong> la valeur heuristique pourrait se baser sur d’autres<br />

données permettant ainsi une exploration différente <strong>de</strong> l’espace conformationnel.<br />

Un <strong>de</strong>rnier point intéressant serait d’utiliser ce genre <strong>de</strong> métho<strong>de</strong> pour déterminer<br />

la robustesse <strong>de</strong>s fonctions énergétiques. En effet, comme nous le découvrions<br />

dans le chapitre précé<strong>de</strong>nt, une fonction énergétique idéale <strong>de</strong>vrait<br />

permettre d’obtenir, en fonction <strong>de</strong> sa minimisation, un RMSD également minimal.<br />

Notre travail constite donc une première étape fortement intéressante dans<br />

l’implémentation <strong>de</strong> métaheuristiques <strong>de</strong> recherche utilisant une représentation<br />

détaille <strong>de</strong> la protéine ainsi que <strong>de</strong> l’espace conformationnel dans lequel elle<br />

évolue.


Bibliographie<br />

[1] T.E. Creighton. Proteins : structure and molecular properties. W.H. Freeman<br />

and Company, New York, 1993.<br />

[2] J-PA. Kocher, MJ. Rooman, and SJ. Wodack. Factors influencing the ability of<br />

knowledge-based potentials to i<strong>de</strong>ntify native sequence-structure matches.<br />

J. Mol. Biol., 234 :1598–1613, 1994.<br />

[3] C. Levinthal. Mossbauer spectroscopy in biological systems. In How to fold<br />

graciously, pages 22–24. Debrunner, P. and Tsibris J. and Munk, E. editors,<br />

1969.<br />

[4] Nora Benhabilès, Annick Thomas, and Robert Brasseur. Les méchanismes<br />

<strong>de</strong> repliements <strong>de</strong>s protéines solubles. Biotechnol. Agron. Soc. Environ.,<br />

4(2) :71–81, March 2000.<br />

[5] J.N. Onuchic, H. Nymeyer, A.E. Garcia, J. Chahine, and N.D. Socci. The<br />

energy landscape theory of protein folding : insights into folding mechanisms<br />

and scenarios. Advances in protein Chemistry, 53 :87–152, 2000.<br />

[6] HS. Chan and KA. Dill. Protein folding in the landscape perspective :<br />

chevron plots and non-arrhenius kinetics. Proteins : Struct. Funct. Genet.,<br />

30 :2–33, 1998.<br />

[7] HS. Chan and KA. Dill. From levinthal to pathways to tunnels. Nat. Stru.<br />

Biol., 4 :1O–19, 1997.<br />

[8] H.M. Berman, J. Westbrook, Z. Freng, G Gililand, H. Bhat, T.N. ans Weissig,<br />

I.N. Shindyalov, and P.E. Bourne. The protein data bank. Nucleic Acids<br />

Research, 28 :235–242, 2000.<br />

[9] G. Wagner, S.G. Hyberts, and T.F. Havel. Nmr structure <strong>de</strong>termination in<br />

solution :a critique and com<strong>par</strong>ison with x-ray crystallography. Annual<br />

Review of Biophysics and Biomolecular Structure, 21 :167–198, 1992.<br />

78


BIBLIOGRAPHIE 79<br />

[10] G. Wi<strong>de</strong>r. Structure <strong>de</strong>termination of biological macromolecules in solution<br />

using nuclear magnetic resonance spectroscopy. Biotechniques, 29 :1278–<br />

1290, 2000.<br />

[11] J. Kubelka, J. Hofrichter, and WA. Easton. The protein folding speed limit.<br />

Current Opinion in Structural Biology, 14 :76–88, 2004.<br />

[12] AC. May and TL. Blun<strong>de</strong>ll. Automated com<strong>par</strong>ative mo<strong>de</strong>lling of protein<br />

structures. Current Opinion in Biotechnology, 5 :355–360, 1994.<br />

[13] A. Godzik. Fold recognition methods. Methods in Biochemical Analysis,<br />

44 :525–546, 2003.<br />

[14] MJ. Rooman, J-PA. Kocher, and SJ. Wodak. Prediction of protein backbone<br />

conformation based on 7 structure assignments : influence of local<br />

interaction. J. Mol. Biol., 221 :961–979, 1991.<br />

[15] L. Holm and C. San<strong>de</strong>r. Dali/fssp classification of three-dimensional protein<br />

folds. Nucleic Acids Res., 25(1) :231–234, 1997.<br />

[16] KA. Dill, S. Bornberg, K. Yue, Y. Fiebig, D. Yee, P. Thomas, and H. Chan.<br />

Principles of protein folding - a perspective from simple exact mo<strong>de</strong>ls.<br />

Protein Science, 4 :561–602, 1995.<br />

[17] M. Levitt. A simplified representation of protein conformation for rapid<br />

simulation of protein folding. J MOL Biol, 104 :59–107, 1976.<br />

[18] D. Gilis and M. Rooman. I<strong>de</strong>ntification and ab initio simlations of early<br />

folding units in protins. Proteins : Struct. Funct. Genet., 42 :164–176, 2001.<br />

[19] N. Metropolis, AW. Rosenbluth, MN. Rosenbluth, and AH. Teller. Equation<br />

of state calculation by fast computing machines. J. Chem. Phys., 21 :21087–<br />

1092, 1953.<br />

[20] S. Kirkpatrick, CD. Jr Gelatt, and MP. Vecchi. Optimization by simulated<br />

annealing. Science, 220 :671–680, 1983.<br />

[21] V. Granville, M. Krivanek, and J.P. Rasson. Simlated annealing : A proof of<br />

convergence. IEEE Transactions on Pattern Analysis and Machine Intelligence,<br />

16(6) :652–656, 1994.<br />

[22] A. Colorni, M. Dorigo, F. Maffioli, V. Maniezzo, G. Righini, and M. Trubian.<br />

Heuristics from nature for hard combinatorial optimization problems. International<br />

Transaction in Operational Research, 3(2) :1–21, 1996.<br />

[23] Glover F. Tabu search : a tutorial. Special Issue on the practice of Mathematical<br />

Programming - Interfaces, 20(1) :74–94, 1990.


BIBLIOGRAPHIE 80<br />

[24] DE. Goldberg. Genetic Algorithms in Search, Optimization, and Machine Learning.<br />

Addison Wesley, 1989.<br />

[25] S. Ben Hamida. <strong>Algorithme</strong>s évolutionnaires : prise en compte <strong>de</strong>s contraintes et<br />

applications réelles. Paris-Sud XI, 2001.<br />

[26] JL. Deneubourg, JM. Pasteels, and Verhaeghe JC. Probabilistic behaviour in<br />

ants : a strategy of errors ? Journal of Theoretical Biology, 105 :259–271, 1983.<br />

[27] A. Colorni, M. Dorigo, and V. Maniezzo. Distributed optimization by ant<br />

<strong>colonie</strong>s. In Proceedings of European Conference on Artificial Life, pages 134–<br />

142, 1991.<br />

[28] A. Colorni, M. Dorigo, and V. Maniezzo. An investigation of some properties<br />

of an ant algorithm. In Proceedings of the Parallel Problem Solving from<br />

Nature Conference, pages 509–520, 1992.<br />

[29] M. Dorigo, G. Di Caro, and LM. Gambar<strong>de</strong>lla. Ant algorithms for discrete<br />

optimization. Artificial Life, 5(3) :137–172, 1999.<br />

[30] M. Dorigo. Parallel ant system : An experimental study. Unpublished manuscript,<br />

1993.<br />

[31] MG. Norman and P. Moscato. A competitive-cooperative approach to complex<br />

combinatorial search. In Proceedings of the 20th Joint Conference on<br />

Information and O.R., pages 315–329, 1991.<br />

[32] D. Beyer and R. Ogier. Tabu learning : a neural network search method for<br />

solving nonconvex optimization problem. In Proceedings of the International<br />

Joint Conference on Neural Network, 1991.<br />

[33] G. Ramachandran and V. Sasilekharan. Conformation of pepti<strong>de</strong>s and<br />

proteins. Adv. Protein Chem., 23 :283–438, 1968.<br />

[34] MJ. Rooman, J-PA. Kocher, and SJ. Wodak. Extracting information on folding<br />

from the amino acid sequence : accurate prediction for protein regions<br />

with preferred conformation in the abscence of tertiary interactions. Biochemistry,<br />

31 :10226–10238, 1992.<br />

[35] Y. Dehouck, D. Gilis, and M. Rooman. A new generation of statistical<br />

potentials for proteins. Biophys J., 90(11) :4010–4017, June 2006.<br />

[36] A. Shmygelska and HH. Hoos. An ant colony optimisation algorithme for<br />

the 2d and 3d hydrophobic polar protein folding problem. BMC Bioinformatics,<br />

6 :30–51, 2005.<br />

[37] K. Bra<strong>de</strong>n. A simple approach to protein structure prediction using genetic<br />

algorithms. Stanford University, CS 426 :36–44, 2002.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!