un logiciel de scaffolding intÃ©grant diffÃ©rents sources d ... - Inra

10 avril 2013 – Colloque EPGV – Lusignan – Jerome.Gouzy@toulouse.inra.fr 

LYNX 

un logiciel de scaffolding intégrant 

différentes sources d’informations 

Jérôme Gouzy 

Plateforme Informatique & Bioinformatique du LIPM/SPE 

CATI BBRIC: Bioinformatique, Biodiversité, 

Représentation et Intégration des Connaissances

Un peu de jargon: processus d’assemblage, contigs 

et scaffolds, paired-end, mate-pairs 


paired-end 

longueur de 

l’insert 200-600bp 

Contig 1 Contig 2 

Scaffold 1 

Légende: Les flèches représentent les fragments de séquences fournis par les séquenceurs. Les 

traits en pointillés qui connectent les flèches représentent un lien de longueur connue entre les 

deux extrémités séquencées. Les couleurs représentent des tailles d’inserts différentes obtenues 

par différents protocoles expérimentaux. 

Dans un premier temps les chevauchements entre séquences sont détectées et utilisés pour 

construire des séquences continues plus longues que l’on nomme « contigs ». Dans un deuxième 

temps, les inserts « longs » sont utilisés pour ordonner les « contigs » en « scaffolds ». Les trous 

entre les contigs, essentiellement dus aux séquences répétées, sont représentés par la lettre ‘N’ 

dans l’assemblage. 

mate-pair 

longueur de 

l’insert 3,5,8,10kb, 

20kb, « 40kb »

Logithèque 

http://bbric.toulouse.inra.fr/dejavu 

10 avril 2013 – Colloque EPGV – Lusignan – Jerome.Gouzy@toulouse.inra.fr

Etape 1 « Contiguage » 

► données paired-ends illumina 2*100nt, 454 

► Lorsqu’il y a beaucoup de données illumina (genome/mRNA), 

nécessité d’une machine dédiée avec beaucoup de mémoire 

vive (1To) 

► Utiliser le logiciel et les paramètres qui correspondent aux 

données. 

• 454: Newbler/cabog; illumina: velvet/soapdenovo 

• nombreux essais de paramétrage pour maximiser le N50 sans pour 

autant introduire trop de chimères 

► Nettoyage préliminaire des données ? Ca dépend 

• Sur medicago: 

► 100x il vaut mieux nettoyer 

► 200x il vaut mieux ne pas nettoyer 

N50: taille de contig pour laquelle on a 50% des nucléotides de l’assemblage dans 

des contigs de longueur supérieure 


Parfois cela ne se « contigue » pas 

(lorsque cela ne vient pas des données) 

► En fait, si l’on pouvait appliquer les algorithmes/programmes classiques 

d’assemblage (cap3, phrap, Arachne) cela marcherait certainement 

► Hélas, les algorithmes « anciens » ne peuvent fonctionner sur de telles 

quantité de lectures on doit utiliser des programmes utilisant des 

structures de données particulières (Graphes de de Bruijn) L’analyse 

devient possible mais le résultat est moins bon. 

Biologiste lambda, 

cap3, phrap, ... moi 

>S1 

ATGCCGTAGTCAGTC 

>S2 

CCGTAGTCAGTCTTC 

Velvet 

1700 citations dans google 

scholar 


CCGTAGTCAGTCTTC 

k=3 

>NODE_1_len_7_cov_1.5 

ATGCCGTAG 

>NODE_2_len_4_cov_3.0 

AGTCAG 

k=5 

>NODE_1_len11_cov_1.7 


pas mal, il manque juste TTC 

k=7 

Pas de contig 

ATGCCGTAGTCAGTCTTC 

2 contigs chevauchant de k-1 nt 

il manque TCTTC à la fin 



Le contiguage marche bien 

= « gene space assemblé correctement 

► Quand le génome n’est pas polymorphe 

► >= 100x paired-end (50x on peut aussi avoir de bons résultats) 

► Lorsque les données de séquençage sont bonnes 

• Bonne qualité 

• Pas de bias 

• La profondeur théorique visée est atteinte (pas de 

contamination) 

« l’ assemblabilité » est un très bon indicateur de qualité 

des données

Etape 2 « Scaffolding » 


Prerequis pour un scaffolding correct 

► les contigs doivent être disjoints 

C1 

C2 

C3 

C4 

Si C3 et C2 chevauchent sur la région 

correspondant à l’extrémité de la paire 

qui fait le lien C2 et C3 (i) considérés comme repeats ? 

(ii) ordonnés incorrectement ? 

► les contigs doivent couvrir le maximum d’espace non repété 

C3 

C6 

C4 

Si C4 qui serait le meilleur hit n’est pas dans les contigs 

le meilleur hit n’est plus le bon 

► il faut des banques mate-pairs de différentes longueurs et de bonne qualité 

C3 

C4 C7 

C8 Entrelacement 

C3 C1 C4 

Problème d’ordre si dans une même banque la taille d’insert 

est très variable 

► Plus les contigs sont courts, plus il est difficile de gérer le « bruit » 

► Il faudrait un bon scaffolder, très paramétrable et utilisable sur beaucoup de 

données


Tests des logiciels existants 

► Velvet/Oases: contigs+scaffold 

• Trop long si beaucoup de données 

• Modularité accessible par recompilation 

► SOAPdenovo: contig+scaffold 

• Modularité accessible au niveau de la ligne de 

commande 

• Sous utilise les données inserts longs du type BAC-end 

► BAMBUS: scaffold données hétérogènes 

• Pas mal de bugs 

• Peu de paramétrage possible


Pas un problème de scaffolding mais des 

des problèmes (intimement liés) 

► Assemblage de novo 

► Utilisation d’une référence pour ordonner des 

contigs/assemblés par ailleurs 

► Utiliser un 2 e assemblage (ou des lectures longues) pour 

combler les trous d’un assemblage de référence 

► Assembler un chromosome ou un morceau de chromosome 

► « Finishing » 

• Positionner les contigs/repeats dans les trous 

► Ordonner des scaffolds 

• Sur une carte optique 

• Sur une carte génétique


► Pouvoir faire du diagnostic fin 

► Essayer de gérer les repeats 

LYNX 

dec 2011 - … 

► Intégrer tous les types de données au moment du scaffolding 

et non pas les unes après les autres guider et/ou éviter de 

faire des choix qui seraient remis en cause ultérieurement 

► Pouvoir facilement corriger/maintenir un outil stratégique pour 

l’équipe. 

► Implémentation d’heuristisques modulaires parfois lourdes 

plutôt que d’algorithmes efficaces 

► Traiter avec le même outil l’ensemble des classes de problèmes 

► Perl, multithreading, binding C++ (lib alnpack)

Plateforme bioinformatique du LIPM/SPE: bilan des 

outils et compétences sur l’assemblage 

Scaffolder 

LYNX 

supprimer 

redondance et 

chevauchements 

Bact. 

avec 

bcp 

IS 

x 

genot 

. 

mRNA 

diploide 

Champignon 

hapl. 25Mb 

(ref. partielle) 

x genot 

OOmycet 

e 

100Mb 

x genot 

Mt 

pe, mp, 

BES, OM 

(ref. 

partielle) 

N/A +++ OK OK En cours 

(très long) 

scaffoling pe+mp +++ En cours Attente 

data 

+ intégration 

OpticalMap 

+ intégration 

carte génétique 

dense 

Assemblage 

guidé par 

référence 

Ms 

Tournesol 

pe, mp, 

(BES?), 

carte génet 

GBS 

x genot 

En cours 

(très long) 

++ - + 

N/A En cours N/A ++ N/A N/A 

N/A N/A N/A N/A N/A prévu 

+++ Prévu Prévu N/A prévu prévu 

Combler les trous ++ N/A Prévu Prévu ++ prévu prévu 

Réinjection des 

repeats 

++ En cours Prévu ++/- prévu prévu


Stratégie 

►10% du temps humain pour traiter 90% des 

problèmes automatiser les problèmes 

simples (= les plus communs) 

►90% du temps humain pour (essayer de) 

traiter les problèmes compliqués


Pipelines automatiques pour traiter les 

problèmes les plus simples 

► Assemblage de transcriptomes 

+ Suppression de la redondance dans un assemblage de 

transcriptome 

► Assemblage paired-end de génomes 

+ Ordonnancement en fonction d’une référence 

Basés sur: 

LYNX 

SOAPdenovo 

Velvet 

cap3 

Interface CLI (ligne de commande unix), l’objectif est de les rendre 

disponibles à travers des interfaces web (moteur de workflow type 

galaxy, mobyle, etc.; sites web dédiés) 

Approches « brutales » lourd + heuristiques 

Les métriques usuelles ne suffisent pas à évaluer la qualité du résultat 

toujours imaginer un contrôle externe qui vérifie le sens biologique


LYNX « manuel » pour les problèmes les plus complexes 

► Beaucoup de données de différentes natures 

► Design du protocole de scaffolding Fichier de configuration 

• Modules de la recette 

►Scaffolding; Ajout des repeats; Construction d’une pseudomolécule (si 

GM/OP); Scaffolding/Microscaffolding; Détection/correction d’erreur 

• Paramètres des différentes étapes du scaffolding 

►Filtrages des hits selon les banques (suppression redondance, 

contamination paired-end dans les banques mate-pairs, etc.) 

►Contrôle des itérations 

►Contrôle de(s) algorithme(s) de scaffolding 

Dépend des données pas du tout générique 

Lourd et expérience dépendant 

En cours de développement (= la doc c’est le code!)


Oui mais 

►Peut être que le jour ou l’outil sera 

satisfaisant les technologies l’auront 

rendu obsolète !

Conclusions personnelles (et peut être temporaires) sur 

l’assemblage de génomes à partir de données NGS 


► Comprendre pourquoi cela ne marche pas et imaginer puis développer une 

solution prend du temps 

• « debugguer » sur des génomes complexes est extrêmement compliqué, 

nécessite un temps complet sur une période longue et un accès réservé à des 

ressources de calcul conséquentes il est souvent nécessaire de mettre au 

point des solutions sur des cas moins complexes 

► Mais penser que lorsque l’on a réglé un problème sur un cas « simple » cela 

va marcher pareil sur un cas plus complexe reste démesurément optimiste 

• effet programmes: multitude de versions, bugs, paramètres 

• effet données: type, qualité, quantité, bruit 

• effet espèce: haploide, diploide, haploide avec énormément de repeats, etc. 

• effet papillon: une erreur (ex: chimère) au contiguage peut créer un souci lors 

du scaffolding et donc au moment de la reconstitution de la pseudomolécule 

► Il faut absolument penser le projet comme une interaction 

bio/bioinfo sans les données rien n’est possible, sans les outils/compétences 

non plus.

Merci pour votre attention

un logiciel de scaffolding intÃ©grant diffÃ©rents sources d ... - Inra

Create successful ePaper yourself

Delete template?

Save as template?