Journée annuelle plateforme Bio-Informatique Jeudi 31 Mars 2011 ...
Journée annuelle plateforme Bio-Informatique Jeudi 31 Mars 2011 ...
Journée annuelle plateforme Bio-Informatique Jeudi 31 Mars 2011 ...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Journée <strong>annuelle</strong> <strong>plateforme</strong> <strong>Bio</strong>-<strong>Informatique</strong><br />
<strong>Jeudi</strong> <strong>31</strong> <strong>Mars</strong> <strong>2011</strong><br />
Programme et Résumés<br />
9h00- 9h20 Accueil<br />
9h20- 9h30 Présentation de la journée (Christine Gaspin)<br />
09h30 – 12h05 Session « Réseaux et Interactions » (chairman : Yves Quentin)<br />
09h30<br />
10h30<br />
10h55<br />
A mathematical and algorithmic exploration of the molecular landscape and evolution of<br />
symbiosis<br />
Marie France Sagot (INRIA Grenoble Rhône-Alpes and LBBE, Univ. Claude Bernard, Lyon 1)<br />
TrypanoCyc : a community effort towards the development of a metabolic pathway<br />
database for T. Brucei<br />
Ludovic Cottret, Flora Logan-Klumpler, Florence Vinson, Frederic Bringaud, Michael Boshart,<br />
Peter Bütikofer, Matt Berriman, Mark Carrington, Harry De Koning, Michael Ferguson, Michael<br />
Ginger, Pascal Maeser, Paul Michels, Derek Nolan, Fred Opperdoes, Marc Ouellette, Margaret<br />
Phillips, David Roos, Terry Smith, Aloysius Tielens, Martin C. Taylor, Jaap Van Hellemond,<br />
Michael Barrett and Fabien Jourdan<br />
Differential expression analysis on affymetrix exon arrays using R <strong>Bio</strong>conductor,<br />
cytoscape and network biology tools<br />
Matthias Macé, Yannick Allanore et Maria Martinez (INSERM U1043, CHU Purpan, Toulouse et<br />
Service de Rhumatologie A & INSERM U1016, Hôpital Cochin, Paris)<br />
11h20 - 11h40 Pause<br />
11h40<br />
Gene regulatory network reconstruction using Bayesian Networks, the Dantzig selector<br />
and the Lasso: a meta- analysis<br />
David Allouche, Christine Cierco-Ayrolles, Simon de Givry, Brigitte Mangin, Nidal Ramadan,<br />
Thomas Schiex, Jimmy Vandel et Matthieu Vignes (BIA, Toulouse)<br />
12h05 – 12h55 Session « Génomique 1 » (chairman : Yves Quentin)<br />
12h05<br />
12h30<br />
A genome-wide association study of Parkinson's disease<br />
Mohamad Saad et Maria Martinez (INSERM U563 CHU Purpan, Toulouse)<br />
Priorisation de gènes candidats chez les procaryotes par fusion de données multigénomiques<br />
pour l'étude des transporteurs ABC<br />
Roland Barriot, Yves Quentin, Gwenaëlle Fichant (IBCG-LMGM, Université Paul Sabatier,<br />
Toulouse)
12h55-14h15 Repas déjeunatoire servi dans le hall Génome<br />
14h15 – 15h55 Session « Génomique 2 » (chairman : Fabien Jourdan)<br />
14h15<br />
14h40<br />
15h05<br />
15h30<br />
Annotation et analyse de la famille multigénique des peroxydases<br />
Catherine Mathé, Marie Brette Bruno Savelli et Christophe Dunand (UMR 5546<br />
CNRS/Université P. Sabatier, Toulouse)<br />
GeneHuggers<br />
Sébastien Briois & Jason Iacovoni (LBCMCP, CNRS UMR 5088, UPS, Toulouse, PF <strong>Bio</strong>informatique<br />
I2MC, INSERM)<br />
Utilisation d'environnements Ensembl/<strong>Bio</strong>Mart/DAS pour l'expoitation de résultats issus<br />
des NGS<br />
Patrice Dehais (SIGENAE, LGC, INRA, Toulouse)<br />
RNAspace: a generator of web sites to support prediction, annotation and analysis of<br />
ncRNA<br />
Marie-Josée Cros, Antoine de Monte, Jérôme Mariette, Philippe Bardou, Daniel Gautheret,<br />
Hélène Touzet and Christine Gaspin<br />
15h55 - 16h15 Pause<br />
16h15 – 17h30 Session « Séquences et Haut débit » (chairwoman : Céline Noirot)<br />
16h15<br />
16h40<br />
17h05<br />
NG6 : Next Generation Sequence Information System<br />
Jérôme Mariette, Nicolas Allias, Céline Noirot, Gérald Salin, Sylvain Thomas, Christophe Klopp<br />
(PF GénoToul <strong>Bio</strong>info, INRA, Toulouse)<br />
A Comparative Study of Statistical Methods for Detecting Association with Rare Variants<br />
in Exome- Resequencing Data<br />
Nora Bohossian, Mohamad Saad, Aude Saint Pierre, Matthias Macé, Maria Martinez 1<br />
(INSERM U563 - Bât B, CHU Purpan, Toulouse)<br />
Chorégraphie des gènes dans le noyau de Levure : vers une analyse haut débit<br />
Olivier Gadal et Alain Kangoué (LBME, Université Paul Sabatier, Toulouse)<br />
17h30-17h45 Clôture de la journée (Nic. Lindley)
TrypanoCyc: a community effort towards the development of a metabolic pathway database for<br />
Trypanosoma brucei<br />
Ludovic Cottret 3 , Flora Logan-Klumpler 1,2 Florence Vinson 3 , Frederic Bringaud 4 , Michael Boshart 5 , Peter<br />
Bütikofer 6 , Matt Berriman 1 , Mark Carrington 2 , Harry De Koning 7 , Michael Ferguson 8 , Michael Ginger 9 , Pascal<br />
Maeser 10 , Paul Michels 11,12 , Derek Nolan 13 , Fred Opperdoes 12 , Marc Ouellette 14 , Margaret Phillips 15 , David<br />
Roos 16 , Terry Smith 17 , Aloysius Tielens 18 , Martin C. Taylor 19 , Jaap Van Hellemond 18 , Michael Barrett 7 and Fabien<br />
Jourdan 3<br />
1. The Wellcome Trust Sanger Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SA, UK.<br />
2. Department of <strong>Bio</strong>chemistry, Tennis Court Road, Cambridge CB2 1QW, UK<br />
3. IUMR 13<strong>31</strong> INRA/INP/UPS, TOXALIM (Research Centre in Food Toxicology), F-<strong>31</strong>000 Toulouse, France<br />
4. Centre de Résonance Magnétique des Systèmes <strong>Bio</strong>logiques (RMSB), UMR 5536 CNRS, Université Victor Segalen Bordeaux 2,<br />
Bordeaux, France<br />
5. University of Munich (LMU), Department <strong>Bio</strong>logy I, Genetics, Großhaderner Str. 2-4, 82152 Martinsried, Germany<br />
6. Institute of <strong>Bio</strong>chemistry & Molecular Medicine, University of Bern, Switzerland<br />
7. Faculty of <strong>Bio</strong>medical and Life Science and Wellcome Trust Centre for Molecular Parasitology, Glasgow <strong>Bio</strong>medical Research Centre,<br />
University of Glasgow, Glasgow, UK<br />
8. Division of <strong>Bio</strong>logical Chemistry and Molecular Microbiology, the School of Life Sciences, University of Dundee, Dundee DD1 5EH<br />
9. School of Health and Medicine, Division of <strong>Bio</strong>medical and Life Sciences, Lancaster University, Lancaster LA1 4YQ, UK<br />
10. Institute of Cell <strong>Bio</strong>logy, University of Bern, Switzerland.<br />
11. Research Unit for Tropical Diseases, de Duve Institute, TROP 74.39, Avenue Hippocrate 74, B-1200 Brussels, Belgium<br />
12. Laboratory of <strong>Bio</strong>chemistry, Université catholique de Louvain, Brussels, Belgium<br />
13. School of <strong>Bio</strong>chemistry and Immunology, Trinity College Dublin, Ireland<br />
14. Centre de Recherche en Infectiologie du CHUL, Université Laval, 2705 Boul, Laurier, Québec, Québec, G1V 4G2, Québec, Canada<br />
15. Departments of Pharmacology, University of Texas Southwestern Medical Center, Dallas, Texas 75390-9041<br />
16. Department of <strong>Bio</strong>logy, University of Pennsylvania, Philadelphia, PA 19104<br />
17. Centre for <strong>Bio</strong>molecular Sciences, St Andrews University, St Andrews, KY16 9ST<br />
18. Department of Medical Microbiology and Infectious Diseases, Erasmus MC University Medical Center, Gravendijkwal 230, 3015 CE<br />
Rotterdam, The Netherlands<br />
19. Pathogen Molecular <strong>Bio</strong>logy Unit, Department of Infectious and Tropical Diseases, London School of Hygiene and Tropical Medicine,<br />
Keppel Street, London WC1E 7HT, UK.<br />
Mots clés: metabolic networks, Trypanosoma brucei, network annotation<br />
Linking biochemical data to the reference genome for Trypanosoma brucei, the aetiological agent of<br />
Human African Trypanosomiasis, is important for comparative genomic and metabolomic studies and for<br />
investigating T. brucei biology and the disease it causes. TrypanoCyc is the metabolic pathway database for T.<br />
brucei, and will be an invaluable resource for detailed analyses of the metabolic network in this organism, as<br />
well as cross species comparisons with other kinetoplastids.<br />
The TrypanoCyc database was initially built from the genome sequence of Trypanosoma brucei, using a<br />
collaborative web platform (TrypAnnot), and based on an annotation published by GeneDB at the Wellcome<br />
Trust Sanger Institute. The pathway-tools software that generated the initial automatic genome-based<br />
reconstruction indicates the presence of a pathway if just a few enzymes associated with the classical pathway<br />
are noted. Furthermore, trypanosome-specific pathways could only be included if deposited in the Metacyc<br />
repository. Therefore, post-construction manual curation is essential to generate an accurate depiction of the<br />
trypanosome’s metabolome. This has been a collaborative effort, and involved removing errors, correcting<br />
automated predictions, and adding information from the literature. Initially, pathways were annotated<br />
according to their presence, sub-cellular localisation and stage-specific expression. Once this was completed, a<br />
second round of annotating focused on individual enzymes. The ongoing curation will be based on public<br />
sources, literature searches, and results of experimental and bioinformatics studies. These metadata on the<br />
network will allow users to generate tailor-made metabolic networks (e.g. metabolic network taking place in<br />
procyclic’s mitochondria).<br />
All genes in TrypanoCyc are linked to the corresponding entry in GeneDB (Wellcome Trust Sanger<br />
Institute) and TriTrypDB (EuPathDB).<br />
The current stage of the annotation process is available on the internet at www.metexplore.fr/trypnets.
Differential expression analysis on affymetrix exon arrays using R <strong>Bio</strong>conductor, cytoscape<br />
and network biology tools<br />
Matthias Macé 1 , Yannick Allanore 2 et Maria Martinez 1<br />
1 INSERM U1043, CHU Purpan, Toulouse<br />
2 Service de Rhumatologie A & INSERM U1016, Hôpital Cochin, Paris<br />
Mots clés: transcriptomics, affymetrix exon array, R bioconductor, cytoscape, network biology<br />
Microarrays expression assays are able to deliver huge amount of information at a whole-genome<br />
genomic scale. This is a challenge for the analyst both from statistics and informatics points of view. They also<br />
provide insights into network biology for the study of pathological and physiological systems. A collection of<br />
opensource tools are available. Those tools are characterised by their flexibility and evolvability as compared to<br />
commercial packages. Here, we present an analysis pipeline that can take advantage of all the data available<br />
using Affymetrix exon arrays.<br />
The general question we aim to answer is whether differences exist between two different systems.<br />
Such differences can be assessed at the gene level as well as at the exon level. This information can then be<br />
combined into interaction networks in order to decipher biological pathways.<br />
Affymetrix exon arrays are characterized by a high probe density, multiple-targeting known and<br />
predicted exons. This allows a better accuracy in expression inference and focusing on splicing events.<br />
The different steps, performed in the R environment, include data normalization/quality control,<br />
differential expression at the gene level, “differential regulation” (exon level) and network biology/annotation<br />
analyses. The normalization is performed using RMA algorithm, and quality control (mainly outlier removal) by<br />
PCA and clustering. The subsequent analyses were performed using R biocondutor functions and custom scripts.<br />
For the gene-level summarization and comparisons, we used linear-modelling (limma package). Exon-level<br />
comparisons were performed by computing Splicing Index and MiDAS. Probes were mapped to genes and exons<br />
using exonmap and a local ENSEMBL install. The gene lists obtained were then used for network biology<br />
analyses. First, interactions (edges) between the genes (nodes) were collected in a public interaction database<br />
(STRING) aggregating data/litterature mining and predictions. These graphs are visualized in Cytoscape, also<br />
allowing a versatile analysis given its plug-in architecture. The graphs obtained are then compared between<br />
conditions (union/intersection) or decomposed into subnetworks (MCL clustering) before annotation<br />
enrichment (BINGO plug-in).<br />
We previously applied this pipeline to real dataset in human pathology on patient tissues (corneas from<br />
keratoconus patients) [1] . Here, we present the results of another study on progenitor cells extracted from<br />
Systemic Sclerosis patients and cultured under two different conditions.<br />
The perspectives opened by these analyses are to go further in deciphering interactions in complex<br />
systems. They can be used to draw hypothesis further validated by functional genomics (qPCR/proteome)<br />
possibly after e.g. transgenesis.<br />
Publications<br />
[1] Macé M., et al. Comparative transcriptome and network biology analyses demonstrate antiproliferative and<br />
hyperapoptotic phenotypes in human keratoconus corneas. IOVS, accepted for publication.
Gene regulatory network reconstruction using Bayesian Networks, the<br />
Dantzig selector and the Lasso: a meta-analysis<br />
David Allouche 1 , Christine Cierco-Ayrolles 1 , Simonde Givry 1 , Brigitte Mangin 1 , Nidal Ramadan 1 ,<br />
Thomas Schiex 1 , Jimmy Vandel 1 et Matthieu Vignes 1<br />
1 BIA Unit, SaAB team, INRA Toulouse, chemin de Borderouge, <strong>31</strong>326 Castanet Tolosan<br />
Cedex, France. Contact: {firstname.lastname}@toulouse.inra.fr.<br />
Keywords : gene regulatory network inference, reverse engineering, Bayesian Network, penalized regression,<br />
genomical genomics<br />
The goal was to reconstruct gene regulatory networks from genetic and genomic data simulated<br />
according to the DREAM5 Challenge 3A (Systems Genetics) protocol. Our team implemented several tools to do<br />
so: Bayesian Networks and multiple linear regressions. The former was solved by a specific extended Bayesian<br />
score whilst two penalization techniques (Dantzig and Lasso) were considered for the latter.<br />
These approaches were combined into a meta-analysis using a Fisher's Inverse Chi-Square meta-test.<br />
We present and comment here the results we obtained.
A genome-wide association study of Parkinson’s disease<br />
Mohamad Saad 1,2 , Maria Martinez 1,2<br />
1<br />
INSERM U563, CHU Purpan, Toulouse, France<br />
2 Université Paul Sabatier, Toulouse, France<br />
Keywords: Parkinson’s disease, Genome Wide Association Study<br />
Abstract<br />
We performed a three-stage genome-wide association study to identify common PD risk variants in the European<br />
population. The initial genome-wide scan was conducted in a French sample of 1,039 cases and 1,984 controls,<br />
using almost 500K SNPs (Illumina 610Quad chip). Two SNPs at SNCA were found associated with PD at the<br />
genome-wide significance level (P < 3 x 10 -8 ). An additional set of promising and new association signals was<br />
identified and submitted for immediate replication in two independent case control studies of subjects of European<br />
descent. We first carried-out an in-silico replication study using GWAS data from the WTCCC2 PD study sample<br />
(1,705 cases, 5,200 WTCCC controls).<br />
Nominally replicated SNPs were further genotyped in a third sample of 1,527 cases and 1,864 controls from<br />
France and Australia. We found converging evidence of association with PD on 12q24<br />
(rs4964469, combined P = 2.4x10 -7 ) and confirmed the association on 4p15/BST1 (rs4698412, combined P =<br />
1.8x10 -6 ), previously reported in Japanese data. The 12q24 locus includes RFX4, an<br />
isoform of which, named RFX4_v3, encodes a brain specific transcription factors that regulates many genes<br />
involved in brain morphogenesis and intracellular calcium homeostasis.<br />
References<br />
1. Saad, M., S. Lesage, et al. (<strong>2011</strong>). "Genome-wide association study confirms BST1 and suggests a locus on<br />
12q24 as the risk loci for Parkinson's disease in the European population." Hum Mol Genet 20(3): 615-627.
Priorisation de gènes candidats chez les procaryotes par fusion de données multi-génomiques<br />
pour l'étude des transporteurs ABC<br />
Roland Barriot, Yves Quentin, Gwenaëlle Fichant 1,2<br />
1. Centre National de la Recherche Scientifique; LMGM; F-<strong>31</strong>000 Toulouse; France<br />
2. Université de Toulouse; UPS; Laboratoire de Microbiologie et Génétique Moléculaires; F-<strong>31</strong>000 Toulouse ; France<br />
Mots clés: données hétérogènes, priorisation, inférence, orthologie, transporteurs ABC, génomique<br />
L'abondance actuelle des données omiques devrait permettre une meilleure identification des partenaires<br />
d'un système ou des différents acteurs dans un processus biologique. Conjointement, cette tâche d'identification<br />
devient plus complexe à mesure que les données sont hétérogènes (génome, transcriptome, interactome, ...) et<br />
massives. Il apparait donc crucial de développer des méthodes capable de tirer meilleur parti de toutes ces<br />
informations, en les intégrant et en les confrontant, afin de prioriser, de manière objective et exhaustive, les<br />
meilleurs candidats associés à un processus biologique.<br />
Nous présentons l'extension d'une méthode générique qui, en confrontant des données hétérogènes issues d'un<br />
ensemble d'organismes, permet d'améliorer la qualité des méthodes de priorisation de gènes candidats par<br />
fusion de données génomiques. Le principe général de cette approche est le suivant. La première étape consiste<br />
à sélectionner un ensemble de gènes d’intérêt, par exemple les gènes codant pour un transporteur ABC. La<br />
deuxième étape consiste à sélectionner les gènes candidats (par exemple le reste du génome). Ensuite, la<br />
proximité de chaque gène candidat par rapport aux gènes d’intérêt est évaluée afin de réordonner la liste de<br />
gènes candidats du plus similaire au moins similaire (priorisation). Cette étape est effectuée en parallèle sur<br />
chaque source de données disponibles (transcriptomes, interactomes, …) car elle fait intervenir des mesures de<br />
similarité spécifiques à chaque type de données. Par exemple, un coefficient de corrélation est utilisé pour des<br />
données d’expression alors que pour un réseau d'interactions, la distance dans le réseau est directement utilisée.<br />
A l’issue de cette étape, les gènes candidats se retrouvent triés, potentiellement dans des ordres différents, en<br />
plusieurs listes (une par source de données). La dernière étape consiste à fusionner ces différentes listes afin<br />
d’obtenir la priorisation globale des gènes candidats. Cette méthode a déjà été mise en œuvre [1], mais elle est<br />
actuellement limitée à l’exploitation de données disponibles pour un seul génome. Afin d'exploiter les données<br />
disponibles sur les autres génomes, nous avons étendu l'approche par l'utilisation des relations d'homologie<br />
(orthologie, paralogie) entre les gènes de génomes différents. De manière générale, cela permet de favoriser un<br />
candidat lorsque ses orthologues dans d’autres génomes sont également proches des orthologues des gènes<br />
d’intérêt. Par exemple sur les données d’expression, un candidat sera d’autant plus intéressant que ses<br />
orthologues sont co-exprimés avec les orthologues des gènes d’intérêt. L’utilisation de plusieurs sources de<br />
données sur un seul génome fournit un faisceau d’indices et produit une priorisation meilleure que celles<br />
obtenues sur chaque source de données prise séparément. L’ajout de sources de données provenant d’autres<br />
génomes vient accentuer ce phénomène, soit en renforçant la pertinence de certains candidats (par exemple :<br />
conservation de la co-expression au cours de l’évolution pour les données d’expression), soit en enrichissant les<br />
données (transfert d’annotation, par exemple lorsqu’un système a été étudié dans un autre organisme).<br />
Afin de valider la méthode, nous avons choisi de l’appliquer aux transporteurs ABC pour lesquels les<br />
composés transportés sont parfois connus dans certains organismes. Une base de données dédiée, ABCdb [2],<br />
est maintenue au sein notre équipe. Il arrive que lors de l'idenfitication et de la reconstruction des systèmes ABC<br />
par la stratégie développée au sein du laboratoire, certains partenaires soient manquants. Dans ce contexte, par<br />
priorisation de gènes, notre approche devrait permettre d’identifier le(s) partenaire(s) d’un système sur des<br />
critères plus génériques. Ensuite, la priorisation à partir de tous les partenaires devrait permettre d’identifier des<br />
gènes associés aux systèmes ABC pouvant traduire une relation fonctionnelle et ainsi proposer un processus<br />
biologique associé au système. Nous présentons des résultats sur les performances obtenues pour la<br />
reconstruction des transporteurs ABC ainsi que des résultats encourageant quant à la possibilité d'inférer un<br />
processus biologique associé ou un substrat spécifique.<br />
Publications<br />
[1] Tranchevent, L.-C., Barriot, R., Shi, Y., Van Loo, P., De Moor, B., Aerts, S., Moreau, Y. (2008) Endeavour<br />
update: a web resource for gene prioritization in multiple species, Nuc. Acids Res. WebServer Issue, Vol. 36, No.<br />
suppl_2, W377-384.<br />
[2] Fichant, G., Basse, M.-J., and Quentin, Y. (2006) ABCdb: an online resource for ABC transporter repertories<br />
from sequenced archaeal and bacterial genomes. FEMS Microbiol Lett . 256(2), 333-9.
Annotation et analyse de la famille multigénique des peroxydases<br />
Catherine Mathé 1 , Marie Brette 1 Bruno Savelli 1 et Christophe Dunand 1<br />
1 Laboratoire de Recherche en Sciences Végétales, UMR 5546, Castanet-Tolosan<br />
Mots clés: peroxydases, annotation, évolution, structure des gènes<br />
L’équipe s’intéresse aux peroxydases, enzymes présentes dans tous les règnes. Ces protéines<br />
catalysent des réactions durant lesquelles le peroxyde d’hydrogène est réduit en eau et un substrat est oxydé.<br />
Chez les plantes, elles ont des rôles fondamentaux dans différents processus physiologiques comme la<br />
détoxification de l’excès d’espèces actives de l’oxygène, la défense contre les pathogènes ou la formation de<br />
paroi cellulaire.<br />
La PeroxiBase (http://peroxibase.toulouse.inra.fr/) regroupe actuellement plus de 7500 séquences<br />
réparties en plusieurs sous-familles. Les séquences rentrées dans la base dérivent soit de recherches sur les<br />
génomes ou sur les banques d’EST, soit des prédictions protéiques disponibles, mais chaque fois après<br />
expertise et souvent ré-annotation manuelle. Cette démarche rigoureuse, garantie de la qualité de la banque,<br />
mais nécessite aujourd’hui d’être davantage automatisée afin de suivre le flux de séquences nouvelles.<br />
Dans cette optique, et aussi pour ajouter des informations quant à la structure des gènes, une procédure<br />
a été récemment mise en place pour localiser sur les génomes la structure des gènes de protéines de<br />
peroxydases connues. Elle est basée sur l’utilisation du programme Scipio [1]. Les résultats obtenus sont filtrés<br />
afin de mettre à jour et éventuellement de corriger les séquences, et aussi identifier de potentielles nouvelles<br />
peroxydases. Scipio permet aussi de prédire des séquences sur un nouveau génome, si l’on dispose des<br />
séquences d’un organisme suffisamment proche. Grâce à cette procédure, la PeroxiBase contient donc<br />
aujourd’hui des informations sur la structure des gènes, Ces nouvelles données ont permis l’installation sur la<br />
base d’un logiciel dédié à l’étude de la conservation des introns, Ciwog [2].<br />
Actuellement, une stratégie pour identifier efficacement et correctement l’ensemble des peroxydases<br />
présentes dans des banques d’EST est en développement, intégrant notamment les profiles HMM spécifiques<br />
aux différentes classes des peroxydases. Une deuxième base de données, la Peroxibase B, non publique a été<br />
créée pour permettre de stocker les nouvelles séquences issues de procédures d’annotation automatique, dans<br />
l’attente d’une expertise. Des routines pour faciliter cette expertise doivent être mises en place.<br />
En parallèle avec l’annotation exhaustive et experte de cette superfamille de protéine, des analyses sont<br />
menées pour comprendre leur histoire évolutive. En particulier, les peroxydases de classes III, propres aux<br />
plantes présentent un nombre élevé et variable d’isoformes (73 chez Arabidopsis, 138 chez le riz…). Cette<br />
grande variation évolutive propre à une classe de protéine, amène des questions sur les mécanismes et les dates<br />
des événements de duplication ou de perte des gènes associés et l’hypothèse d’un lien avec une adaptation à<br />
des conditions, qui apporterait aussi des informations sur la fonction biologique des peroxydases.<br />
Publications<br />
[1] Guillou V., Plourde-Owobi L., Goma G., Parrou J.L., François. J. Role of glycogen and trehalose in the growth<br />
dynamic of the yeast Saccharomyces cerevisiae. FEMS Yeast Res. 4:773-787, 2004.<br />
[2] Keller O, Odronitz F, Stanke M, Kollmar M, Waack S. Scipio: using protein sequences to determine the<br />
precise exon/intron structures of genes and their orthologs in closely related species. BMC<br />
<strong>Bio</strong>informatics. 2008 Jun 13;9:278.
GeneHuggers<br />
Sébastien Briois 1 et Jason Iacovoni 2<br />
1 Laboratoire de <strong>Bio</strong>logie Cellulaire et Moléculaire du Contrôle de la Prolifération, UMR5088 CNRS, Université Paul<br />
Sabatier, Toulouse<br />
2 Plateforme <strong>Bio</strong>-informatique I2MC, INSERM, Toulouse<br />
Mots clés: génomique, bio-informatique, Qt/C++ Framework, CHiP-chip/seq,<br />
<strong>Bio</strong>informatics application development traditionally results in either a command-line or graphical user interface.<br />
When faced with developing a series of applications for analysis of high-throughput sequencing data, we found<br />
that many programs required both a GUI, so that they could be used by the biologist, and a command-line<br />
interface, so that they could be employed in batch scripts. GeneHuggers is a library built on top of the Qt<br />
framework that aims to greatly facilitate program development. As much as possible of the routine coding<br />
associated with passing parameters in and out of graphical widgets has been encapsulated by the library. This<br />
results in a single application that can function both through the command-line and with a GUI. Even though<br />
GeneHuggers is still under development as a framework, a series of applications are available and have been<br />
used to analyze genome-wide gH2AX ChIP-chip/seq data. These programs were the motivation behind the GUI<br />
components of GeneHuggers and exemplify the way it can be used by programmers to focus their time on coding<br />
the computational task and not the interface.<br />
Description du projet :<br />
Le projet consiste à créer un framework permettant d’une part de gérer les données issues de CHiPchip/seq<br />
et d’autre part de créer facilement des applications ayant une interface graphique pour les biologistes et<br />
une interface en ligne de commande pour l’exécution en batch.<br />
Publications<br />
[1] Iacovoni JS, Caron P, Lassadi I, Nicolas E, Massip L, Trouche D, Legube G. High-resolution profiling of<br />
gammaH2AX around DNA double strand breaks in the mammalian genome. EMBO J. 2010 Apr 21;29(8):1446-<br />
57. Epub 2010 Apr 1.<br />
[2] Massip L, Caron P, Iacovoni JS, Trouche D, Legube G. Deciphering the chromatin landscape induced around<br />
DNA double strand breaks. Cell Cycle. 2010 Aug 1;9(15):2963-72.<br />
[3] Iacovoni JS. GeneHuggers: database mining and application connectivity tools for subsequence analyses of<br />
the human genome. <strong>Bio</strong>informatics. 2003 Nov 22;19(17):2<strong>31</strong>6-8.
Utilisation d'environnements Ensembl/<strong>Bio</strong>Mart/DAS pour l'expoitation de<br />
résultats issus des NGS<br />
Patrice Déhais (SIGENAE, LGC, INRA, Toulouse)<br />
Mots clés: NGS, base de données, browser de génome.<br />
Sigenae (http://www.sigenae.org) est une équipe de service en bio-informatique créée en 2002 dans la<br />
mouvance du programme AGENAE (http://www.agenae.fr) sur l'Analyse du GENomes des Animaux d'Elevage.<br />
L'assemblage de séquences d'étiquettes (EST), l'annotation des contigs obtenus, et la mise à disposition des<br />
données ainsi générées via des sites Web a été, et est encore le fond de commerce de l'équipe.<br />
Très tôt un environnement Ensembl/<strong>Bio</strong>Mart a été installé localement et adapté pour la présentation de données<br />
d'assemblage d'EST, en reprenant la structure des bases de données d'Ensembl et en y insérant nos données<br />
propres.<br />
Avec l'amélioration des techniques de séquençage, nous sommes passés de quelques dizaines de milliers de<br />
séquences par lot à nos début, à quelques centaines de milliers avec les derniers séquenceurs de type Sanger,<br />
puis à près d'un million avec les machines 454 de Roche, et enfin à plusieurs centaines de millions voire un<br />
milliard avec le HiSeq d'Illumina.<br />
Les analyses, qui autrefois se faisaient de façon exploratoire « à l'œil » sur des petits jeux de données,<br />
nécessitent aujourd’hui la mise en place (i) de traitements permettant d’obtenir une synthèse plus ou moins<br />
statistique des données, et (ii) d'outils de filtrage souples et adaptés pour sélectionner une zone d'intérêt ; zone<br />
qu'il convient ensuite (iii) de visualiser avec son environnement sur le génome, ce avec le maximum<br />
d'annotations, si possible à jour.<br />
La solution Ensembl/<strong>Bio</strong>Mart/DAS retenue par l'équipe permet de répondre à ces exigences. La recherche de<br />
SNP lignée spéficique chez la caille servira ici de cas d'exemple et permettra d'illustrer la mise en place d'un tel<br />
environnement.
RNAspace: web sites buider<br />
to support prediction, annotation and analysis of non-coding RNA<br />
Marie-Josée CROS 1 , Antoine de MONTE 2 , Jérôme MARIETTE 3 , Philippe BARDOU 4 , Daniel<br />
GAUTHERET 5 , Hélène TOUZET 2 and Christine GASPIN 1,3<br />
1<br />
INRA, Unité de <strong>Bio</strong>métrie et Intelligence Artificielle, UR 875, F-<strong>31</strong>320 Castanet, France<br />
2 LIFL, UMR CNRS 8022 Université Lille 1 and INRIA Lille Nord Europe, Franc<br />
3<br />
INRA, Plateforme bioinformatique, F-<strong>31</strong>320 Castanet, France<br />
4<br />
INRA, SIGENAE, UMR 444, F-<strong>31</strong>320 Castanet France<br />
5<br />
IGM UMR 8621 CNRS-U Paris sud, France<br />
contact@rnaspace.org<br />
Mots clés : non-protein-coding RNA, genome annotation, ncRNA gene finder<br />
RNAspace is an environment that allows to create web sites dedicated to non-coding RNA (ncRNA) prediction,<br />
annotation and analysis. The web sites allow users to run a variety of tools in an integrated and flexible way.<br />
RNAspace is focused on the integration of complementary ncRNA gene finders. It also offers a set of tools for<br />
the comparison, visualization, edition and export of ncRNAs candidates. Predictions can be filtered according to<br />
a large set of characteristics.<br />
A public web site http://rnaspace.org has been created that allows for on line annotation of a complete<br />
bacterial genome or a small eukaryotic chromosome.<br />
Publications<br />
[1] Cros M.J., de Monte A., Mariette J., Bardou P., Gautheret D., Touzet H, Gaspin C. rnaspace.org: a rich web<br />
application for ncRNA identification. Poster in JOBIM, 2010.<br />
[2] Cros M.J., de Monte A., Mariette J., Bardou P., Gautheret D., Touzet H, Gaspin C. RNAspace: an integrated<br />
environment for the prediction, annotation and analysis of non-coding RNA. Submitted, <strong>2011</strong>.
ng6 : Next Generation Sequencing Information System<br />
Jérôme Mariette 1, Nicolas Allias 2 , Céline Noirot 1 , Gérald Salin 2 , Sylvain Thomas 1 , Christophe Klopp 1<br />
1 Plate-forme bio-informatique Genotoul, INRA, <strong>Bio</strong>métrie et Intelligence Artificielle, BP 52627, <strong>31</strong>326 Castanet-Tolosan<br />
Cedex, France.<br />
2 Plateforme GET-PlaGe Genotoul, INRA, Laboratoire de Génétique Cellulaire, BP 52627, <strong>31</strong>326 Castanet-Tolosan<br />
Cedex, France.<br />
Keywords : Next Generation Sequencing, workflow, bio-informatique<br />
NGS platforms are now well implanted in sequencing centres and some laboratories. Upcoming small scale<br />
technological platforms such as 454 junior from Roche and MySeq from Illumina will increase the number of<br />
laboratories hosting a sequencer. In such a context, it is important to provide these teams with an easily<br />
manageable environment to store and process the produced data.<br />
We present in this abstract a global information system able to manage NGS data. It include, on one hand, a set<br />
of pipelines adapted to the input data format (fasta, fastq), the sequencer used (454, Illumina) and the kind of<br />
analysis to perform (gDNA, cDNA, RNAseq, 16S, and so on …) and, on the other hand, a secured web site giving<br />
access to the results. The user will be able to download raw data and browse several basic analysis such as reads<br />
quality statistics [2], contamination search, or even reads cleaning [3, 4]. The system has three levels : projects,<br />
runs and analysis. A project can include several runs. A run can have been used as input in several analysis.<br />
Ng6 has been initiated through a collaboration between the bioinformatic and the genomic platforms of<br />
Genotoul. The tool is based upon ergatis [5] workflow management system which was chosen because of its<br />
ability to iterate through multiple files permitting to run the calculation on the local cluster. In addition, using<br />
such a system allows to add as many pipelines as the imagination can design.<br />
Publications<br />
[1] http://typo3.org/<br />
[2] http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/<br />
[3] https://mulcyber.toulouse.inra.fr/projects/pyrocleaner/<br />
[4] -Alvarez V., Teal T. and Shmidt T: Systematic artifacts in metagenomes from complex microbial<br />
communities.The ISME Journal2009<br />
[5] Orvis J, Crabtree J, Galens K, Gussman A, Inman JM, Lee E, Nampally S, Riley D, Sundaram JP, Felix V, Whitty<br />
B, Mahurkar A, Wortman J, White O, Angiuoli SV. Ergatis: A web interface and scalable software system for<br />
bioinformatics workflows. <strong>Bio</strong>informatics. 2010 Jun 15;26(12).
A Comparative Study of Statistical Methods for Detecting Association with<br />
Rare Variants in Exome-Resequencing Data<br />
Nora Bohossian 1,2 , Mohamad Saad 1,2 , Aude Saint Pierre 1,2 , Matthias Macé 1 , Maria Martinez 1,2 .<br />
1<br />
INSERM U563, CHU Purpan, Toulouse, France<br />
2 Université Paul Sabatier, Toulouse, France<br />
Keywords: Next generation sequencing, Common disease, rare variants<br />
Abstract<br />
Genome-wide association studies for complex traits are based on the common disease-common variant (CDCV)<br />
and common disease-rare variant (CDRV) assumptions. Under the CDCV hypothesis, classical genome wide<br />
association studies using single marker test are powerful in detecting common susceptibility variants, but they<br />
are not as powerful under the CDRV hypothesis. Several methods have been recently proposed aiming to detect<br />
association with multiple rare variants collectively [1-4] in a functional unit such as a gene.<br />
In this study, we compared the relative performance of several of these methods in the GAW17 data.<br />
This is a sequencing data of 697 subjects provided from the 1000 Genomes Project [5] and their genotypes in<br />
exonic regions of only 3205 genes. In the GAW17 data, three quantitative and one binary traits were simulated<br />
and the genotypes were held fixed for all simulation replicates. The functional variants influencing the traits,<br />
include both rare and common alleles and a range of effect sizes, most having small effects but a few having<br />
large effects that should be reliably detectable in most replicates. Some genes contain a single functional variant<br />
and others contain many.<br />
The association methods we compared are all based on the collapsing (CA) of multiple variants within a gene.<br />
They differ according to: (i) filtering out or not the variants (SNPs) according to their Minor Allele Frequency<br />
(MAF) values; (ii) collapsing SNPs weighted or not by their allelic frequency variances; (iii) collapsing SNPs into a<br />
single versus multiple groups/variables.<br />
In these data, we found that the collapsing methods, which include all SNPs, showed greater power, even for<br />
genes where all causative variants are rare (MAF
Chorégraphie des gènes dans le noyau de Levure : vers une analyse haut débit<br />
Olivier GADAL 1,2 et Alain Kamgoue 1,2<br />
1 Laboratoire de <strong>Bio</strong>logie Moléculaire des Eucaryotes du CNRS<br />
2 Université de Toulouse, F-<strong>31</strong>000 Toulouse, France<br />
Mots clés: Imagerie confocale, analyse d’image, analyse haut-débit en image, bio-informatique<br />
Bien que de nombreux génome eucaryote soit maintenant séquencé, on ne sait toujours pas comment<br />
s’organise l’information génétique dans le volume du noyau. Ce niveau d’organisation est souvent décris comme<br />
une boîte noire, inaccessible à nos approches expérimentales. En particulier, les approches de microscopie à<br />
fluorescence sont limitées par la résolution optique du microscope (