12.02.2015 Views

Journée annuelle plateforme Bio-Informatique Jeudi 31 Mars 2011 ...

Journée annuelle plateforme Bio-Informatique Jeudi 31 Mars 2011 ...

Journée annuelle plateforme Bio-Informatique Jeudi 31 Mars 2011 ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Journée <strong>annuelle</strong> <strong>plateforme</strong> <strong>Bio</strong>-<strong>Informatique</strong><br />

<strong>Jeudi</strong> <strong>31</strong> <strong>Mars</strong> <strong>2011</strong><br />

Programme et Résumés<br />

9h00- 9h20 Accueil<br />

9h20- 9h30 Présentation de la journée (Christine Gaspin)<br />

09h30 – 12h05 Session « Réseaux et Interactions » (chairman : Yves Quentin)<br />

09h30<br />

10h30<br />

10h55<br />

A mathematical and algorithmic exploration of the molecular landscape and evolution of<br />

symbiosis<br />

Marie France Sagot (INRIA Grenoble Rhône-Alpes and LBBE, Univ. Claude Bernard, Lyon 1)<br />

TrypanoCyc : a community effort towards the development of a metabolic pathway<br />

database for T. Brucei<br />

Ludovic Cottret, Flora Logan-Klumpler, Florence Vinson, Frederic Bringaud, Michael Boshart,<br />

Peter Bütikofer, Matt Berriman, Mark Carrington, Harry De Koning, Michael Ferguson, Michael<br />

Ginger, Pascal Maeser, Paul Michels, Derek Nolan, Fred Opperdoes, Marc Ouellette, Margaret<br />

Phillips, David Roos, Terry Smith, Aloysius Tielens, Martin C. Taylor, Jaap Van Hellemond,<br />

Michael Barrett and Fabien Jourdan<br />

Differential expression analysis on affymetrix exon arrays using R <strong>Bio</strong>conductor,<br />

cytoscape and network biology tools<br />

Matthias Macé, Yannick Allanore et Maria Martinez (INSERM U1043, CHU Purpan, Toulouse et<br />

Service de Rhumatologie A & INSERM U1016, Hôpital Cochin, Paris)<br />

11h20 - 11h40 Pause<br />

11h40<br />

Gene regulatory network reconstruction using Bayesian Networks, the Dantzig selector<br />

and the Lasso: a meta- analysis<br />

David Allouche, Christine Cierco-Ayrolles, Simon de Givry, Brigitte Mangin, Nidal Ramadan,<br />

Thomas Schiex, Jimmy Vandel et Matthieu Vignes (BIA, Toulouse)<br />

12h05 – 12h55 Session « Génomique 1 » (chairman : Yves Quentin)<br />

12h05<br />

12h30<br />

A genome-wide association study of Parkinson's disease<br />

Mohamad Saad et Maria Martinez (INSERM U563 CHU Purpan, Toulouse)<br />

Priorisation de gènes candidats chez les procaryotes par fusion de données multigénomiques<br />

pour l'étude des transporteurs ABC<br />

Roland Barriot, Yves Quentin, Gwenaëlle Fichant (IBCG-LMGM, Université Paul Sabatier,<br />

Toulouse)


12h55-14h15 Repas déjeunatoire servi dans le hall Génome<br />

14h15 – 15h55 Session « Génomique 2 » (chairman : Fabien Jourdan)<br />

14h15<br />

14h40<br />

15h05<br />

15h30<br />

Annotation et analyse de la famille multigénique des peroxydases<br />

Catherine Mathé, Marie Brette Bruno Savelli et Christophe Dunand (UMR 5546<br />

CNRS/Université P. Sabatier, Toulouse)<br />

GeneHuggers<br />

Sébastien Briois & Jason Iacovoni (LBCMCP, CNRS UMR 5088, UPS, Toulouse, PF <strong>Bio</strong>informatique<br />

I2MC, INSERM)<br />

Utilisation d'environnements Ensembl/<strong>Bio</strong>Mart/DAS pour l'expoitation de résultats issus<br />

des NGS<br />

Patrice Dehais (SIGENAE, LGC, INRA, Toulouse)<br />

RNAspace: a generator of web sites to support prediction, annotation and analysis of<br />

ncRNA<br />

Marie-Josée Cros, Antoine de Monte, Jérôme Mariette, Philippe Bardou, Daniel Gautheret,<br />

Hélène Touzet and Christine Gaspin<br />

15h55 - 16h15 Pause<br />

16h15 – 17h30 Session « Séquences et Haut débit » (chairwoman : Céline Noirot)<br />

16h15<br />

16h40<br />

17h05<br />

NG6 : Next Generation Sequence Information System<br />

Jérôme Mariette, Nicolas Allias, Céline Noirot, Gérald Salin, Sylvain Thomas, Christophe Klopp<br />

(PF GénoToul <strong>Bio</strong>info, INRA, Toulouse)<br />

A Comparative Study of Statistical Methods for Detecting Association with Rare Variants<br />

in Exome- Resequencing Data<br />

Nora Bohossian, Mohamad Saad, Aude Saint Pierre, Matthias Macé, Maria Martinez 1<br />

(INSERM U563 - Bât B, CHU Purpan, Toulouse)<br />

Chorégraphie des gènes dans le noyau de Levure : vers une analyse haut débit<br />

Olivier Gadal et Alain Kangoué (LBME, Université Paul Sabatier, Toulouse)<br />

17h30-17h45 Clôture de la journée (Nic. Lindley)


TrypanoCyc: a community effort towards the development of a metabolic pathway database for<br />

Trypanosoma brucei<br />

Ludovic Cottret 3 , Flora Logan-Klumpler 1,2 Florence Vinson 3 , Frederic Bringaud 4 , Michael Boshart 5 , Peter<br />

Bütikofer 6 , Matt Berriman 1 , Mark Carrington 2 , Harry De Koning 7 , Michael Ferguson 8 , Michael Ginger 9 , Pascal<br />

Maeser 10 , Paul Michels 11,12 , Derek Nolan 13 , Fred Opperdoes 12 , Marc Ouellette 14 , Margaret Phillips 15 , David<br />

Roos 16 , Terry Smith 17 , Aloysius Tielens 18 , Martin C. Taylor 19 , Jaap Van Hellemond 18 , Michael Barrett 7 and Fabien<br />

Jourdan 3<br />

1. The Wellcome Trust Sanger Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SA, UK.<br />

2. Department of <strong>Bio</strong>chemistry, Tennis Court Road, Cambridge CB2 1QW, UK<br />

3. IUMR 13<strong>31</strong> INRA/INP/UPS, TOXALIM (Research Centre in Food Toxicology), F-<strong>31</strong>000 Toulouse, France<br />

4. Centre de Résonance Magnétique des Systèmes <strong>Bio</strong>logiques (RMSB), UMR 5536 CNRS, Université Victor Segalen Bordeaux 2,<br />

Bordeaux, France<br />

5. University of Munich (LMU), Department <strong>Bio</strong>logy I, Genetics, Großhaderner Str. 2-4, 82152 Martinsried, Germany<br />

6. Institute of <strong>Bio</strong>chemistry & Molecular Medicine, University of Bern, Switzerland<br />

7. Faculty of <strong>Bio</strong>medical and Life Science and Wellcome Trust Centre for Molecular Parasitology, Glasgow <strong>Bio</strong>medical Research Centre,<br />

University of Glasgow, Glasgow, UK<br />

8. Division of <strong>Bio</strong>logical Chemistry and Molecular Microbiology, the School of Life Sciences, University of Dundee, Dundee DD1 5EH<br />

9. School of Health and Medicine, Division of <strong>Bio</strong>medical and Life Sciences, Lancaster University, Lancaster LA1 4YQ, UK<br />

10. Institute of Cell <strong>Bio</strong>logy, University of Bern, Switzerland.<br />

11. Research Unit for Tropical Diseases, de Duve Institute, TROP 74.39, Avenue Hippocrate 74, B-1200 Brussels, Belgium<br />

12. Laboratory of <strong>Bio</strong>chemistry, Université catholique de Louvain, Brussels, Belgium<br />

13. School of <strong>Bio</strong>chemistry and Immunology, Trinity College Dublin, Ireland<br />

14. Centre de Recherche en Infectiologie du CHUL, Université Laval, 2705 Boul, Laurier, Québec, Québec, G1V 4G2, Québec, Canada<br />

15. Departments of Pharmacology, University of Texas Southwestern Medical Center, Dallas, Texas 75390-9041<br />

16. Department of <strong>Bio</strong>logy, University of Pennsylvania, Philadelphia, PA 19104<br />

17. Centre for <strong>Bio</strong>molecular Sciences, St Andrews University, St Andrews, KY16 9ST<br />

18. Department of Medical Microbiology and Infectious Diseases, Erasmus MC University Medical Center, Gravendijkwal 230, 3015 CE<br />

Rotterdam, The Netherlands<br />

19. Pathogen Molecular <strong>Bio</strong>logy Unit, Department of Infectious and Tropical Diseases, London School of Hygiene and Tropical Medicine,<br />

Keppel Street, London WC1E 7HT, UK.<br />

Mots clés: metabolic networks, Trypanosoma brucei, network annotation<br />

Linking biochemical data to the reference genome for Trypanosoma brucei, the aetiological agent of<br />

Human African Trypanosomiasis, is important for comparative genomic and metabolomic studies and for<br />

investigating T. brucei biology and the disease it causes. TrypanoCyc is the metabolic pathway database for T.<br />

brucei, and will be an invaluable resource for detailed analyses of the metabolic network in this organism, as<br />

well as cross species comparisons with other kinetoplastids.<br />

The TrypanoCyc database was initially built from the genome sequence of Trypanosoma brucei, using a<br />

collaborative web platform (TrypAnnot), and based on an annotation published by GeneDB at the Wellcome<br />

Trust Sanger Institute. The pathway-tools software that generated the initial automatic genome-based<br />

reconstruction indicates the presence of a pathway if just a few enzymes associated with the classical pathway<br />

are noted. Furthermore, trypanosome-specific pathways could only be included if deposited in the Metacyc<br />

repository. Therefore, post-construction manual curation is essential to generate an accurate depiction of the<br />

trypanosome’s metabolome. This has been a collaborative effort, and involved removing errors, correcting<br />

automated predictions, and adding information from the literature. Initially, pathways were annotated<br />

according to their presence, sub-cellular localisation and stage-specific expression. Once this was completed, a<br />

second round of annotating focused on individual enzymes. The ongoing curation will be based on public<br />

sources, literature searches, and results of experimental and bioinformatics studies. These metadata on the<br />

network will allow users to generate tailor-made metabolic networks (e.g. metabolic network taking place in<br />

procyclic’s mitochondria).<br />

All genes in TrypanoCyc are linked to the corresponding entry in GeneDB (Wellcome Trust Sanger<br />

Institute) and TriTrypDB (EuPathDB).<br />

The current stage of the annotation process is available on the internet at www.metexplore.fr/trypnets.


Differential expression analysis on affymetrix exon arrays using R <strong>Bio</strong>conductor, cytoscape<br />

and network biology tools<br />

Matthias Macé 1 , Yannick Allanore 2 et Maria Martinez 1<br />

1 INSERM U1043, CHU Purpan, Toulouse<br />

2 Service de Rhumatologie A & INSERM U1016, Hôpital Cochin, Paris<br />

Mots clés: transcriptomics, affymetrix exon array, R bioconductor, cytoscape, network biology<br />

Microarrays expression assays are able to deliver huge amount of information at a whole-genome<br />

genomic scale. This is a challenge for the analyst both from statistics and informatics points of view. They also<br />

provide insights into network biology for the study of pathological and physiological systems. A collection of<br />

opensource tools are available. Those tools are characterised by their flexibility and evolvability as compared to<br />

commercial packages. Here, we present an analysis pipeline that can take advantage of all the data available<br />

using Affymetrix exon arrays.<br />

The general question we aim to answer is whether differences exist between two different systems.<br />

Such differences can be assessed at the gene level as well as at the exon level. This information can then be<br />

combined into interaction networks in order to decipher biological pathways.<br />

Affymetrix exon arrays are characterized by a high probe density, multiple-targeting known and<br />

predicted exons. This allows a better accuracy in expression inference and focusing on splicing events.<br />

The different steps, performed in the R environment, include data normalization/quality control,<br />

differential expression at the gene level, “differential regulation” (exon level) and network biology/annotation<br />

analyses. The normalization is performed using RMA algorithm, and quality control (mainly outlier removal) by<br />

PCA and clustering. The subsequent analyses were performed using R biocondutor functions and custom scripts.<br />

For the gene-level summarization and comparisons, we used linear-modelling (limma package). Exon-level<br />

comparisons were performed by computing Splicing Index and MiDAS. Probes were mapped to genes and exons<br />

using exonmap and a local ENSEMBL install. The gene lists obtained were then used for network biology<br />

analyses. First, interactions (edges) between the genes (nodes) were collected in a public interaction database<br />

(STRING) aggregating data/litterature mining and predictions. These graphs are visualized in Cytoscape, also<br />

allowing a versatile analysis given its plug-in architecture. The graphs obtained are then compared between<br />

conditions (union/intersection) or decomposed into subnetworks (MCL clustering) before annotation<br />

enrichment (BINGO plug-in).<br />

We previously applied this pipeline to real dataset in human pathology on patient tissues (corneas from<br />

keratoconus patients) [1] . Here, we present the results of another study on progenitor cells extracted from<br />

Systemic Sclerosis patients and cultured under two different conditions.<br />

The perspectives opened by these analyses are to go further in deciphering interactions in complex<br />

systems. They can be used to draw hypothesis further validated by functional genomics (qPCR/proteome)<br />

possibly after e.g. transgenesis.<br />

Publications<br />

[1] Macé M., et al. Comparative transcriptome and network biology analyses demonstrate antiproliferative and<br />

hyperapoptotic phenotypes in human keratoconus corneas. IOVS, accepted for publication.


Gene regulatory network reconstruction using Bayesian Networks, the<br />

Dantzig selector and the Lasso: a meta-analysis<br />

David Allouche 1 , Christine Cierco-Ayrolles 1 , Simonde Givry 1 , Brigitte Mangin 1 , Nidal Ramadan 1 ,<br />

Thomas Schiex 1 , Jimmy Vandel 1 et Matthieu Vignes 1<br />

1 BIA Unit, SaAB team, INRA Toulouse, chemin de Borderouge, <strong>31</strong>326 Castanet Tolosan<br />

Cedex, France. Contact: {firstname.lastname}@toulouse.inra.fr.<br />

Keywords : gene regulatory network inference, reverse engineering, Bayesian Network, penalized regression,<br />

genomical genomics<br />

The goal was to reconstruct gene regulatory networks from genetic and genomic data simulated<br />

according to the DREAM5 Challenge 3A (Systems Genetics) protocol. Our team implemented several tools to do<br />

so: Bayesian Networks and multiple linear regressions. The former was solved by a specific extended Bayesian<br />

score whilst two penalization techniques (Dantzig and Lasso) were considered for the latter.<br />

These approaches were combined into a meta-analysis using a Fisher's Inverse Chi-Square meta-test.<br />

We present and comment here the results we obtained.


A genome-wide association study of Parkinson’s disease<br />

Mohamad Saad 1,2 , Maria Martinez 1,2<br />

1<br />

INSERM U563, CHU Purpan, Toulouse, France<br />

2 Université Paul Sabatier, Toulouse, France<br />

Keywords: Parkinson’s disease, Genome Wide Association Study<br />

Abstract<br />

We performed a three-stage genome-wide association study to identify common PD risk variants in the European<br />

population. The initial genome-wide scan was conducted in a French sample of 1,039 cases and 1,984 controls,<br />

using almost 500K SNPs (Illumina 610Quad chip). Two SNPs at SNCA were found associated with PD at the<br />

genome-wide significance level (P < 3 x 10 -8 ). An additional set of promising and new association signals was<br />

identified and submitted for immediate replication in two independent case control studies of subjects of European<br />

descent. We first carried-out an in-silico replication study using GWAS data from the WTCCC2 PD study sample<br />

(1,705 cases, 5,200 WTCCC controls).<br />

Nominally replicated SNPs were further genotyped in a third sample of 1,527 cases and 1,864 controls from<br />

France and Australia. We found converging evidence of association with PD on 12q24<br />

(rs4964469, combined P = 2.4x10 -7 ) and confirmed the association on 4p15/BST1 (rs4698412, combined P =<br />

1.8x10 -6 ), previously reported in Japanese data. The 12q24 locus includes RFX4, an<br />

isoform of which, named RFX4_v3, encodes a brain specific transcription factors that regulates many genes<br />

involved in brain morphogenesis and intracellular calcium homeostasis.<br />

References<br />

1. Saad, M., S. Lesage, et al. (<strong>2011</strong>). "Genome-wide association study confirms BST1 and suggests a locus on<br />

12q24 as the risk loci for Parkinson's disease in the European population." Hum Mol Genet 20(3): 615-627.


Priorisation de gènes candidats chez les procaryotes par fusion de données multi-génomiques<br />

pour l'étude des transporteurs ABC<br />

Roland Barriot, Yves Quentin, Gwenaëlle Fichant 1,2<br />

1. Centre National de la Recherche Scientifique; LMGM; F-<strong>31</strong>000 Toulouse; France<br />

2. Université de Toulouse; UPS; Laboratoire de Microbiologie et Génétique Moléculaires; F-<strong>31</strong>000 Toulouse ; France<br />

Mots clés: données hétérogènes, priorisation, inférence, orthologie, transporteurs ABC, génomique<br />

L'abondance actuelle des données omiques devrait permettre une meilleure identification des partenaires<br />

d'un système ou des différents acteurs dans un processus biologique. Conjointement, cette tâche d'identification<br />

devient plus complexe à mesure que les données sont hétérogènes (génome, transcriptome, interactome, ...) et<br />

massives. Il apparait donc crucial de développer des méthodes capable de tirer meilleur parti de toutes ces<br />

informations, en les intégrant et en les confrontant, afin de prioriser, de manière objective et exhaustive, les<br />

meilleurs candidats associés à un processus biologique.<br />

Nous présentons l'extension d'une méthode générique qui, en confrontant des données hétérogènes issues d'un<br />

ensemble d'organismes, permet d'améliorer la qualité des méthodes de priorisation de gènes candidats par<br />

fusion de données génomiques. Le principe général de cette approche est le suivant. La première étape consiste<br />

à sélectionner un ensemble de gènes d’intérêt, par exemple les gènes codant pour un transporteur ABC. La<br />

deuxième étape consiste à sélectionner les gènes candidats (par exemple le reste du génome). Ensuite, la<br />

proximité de chaque gène candidat par rapport aux gènes d’intérêt est évaluée afin de réordonner la liste de<br />

gènes candidats du plus similaire au moins similaire (priorisation). Cette étape est effectuée en parallèle sur<br />

chaque source de données disponibles (transcriptomes, interactomes, …) car elle fait intervenir des mesures de<br />

similarité spécifiques à chaque type de données. Par exemple, un coefficient de corrélation est utilisé pour des<br />

données d’expression alors que pour un réseau d'interactions, la distance dans le réseau est directement utilisée.<br />

A l’issue de cette étape, les gènes candidats se retrouvent triés, potentiellement dans des ordres différents, en<br />

plusieurs listes (une par source de données). La dernière étape consiste à fusionner ces différentes listes afin<br />

d’obtenir la priorisation globale des gènes candidats. Cette méthode a déjà été mise en œuvre [1], mais elle est<br />

actuellement limitée à l’exploitation de données disponibles pour un seul génome. Afin d'exploiter les données<br />

disponibles sur les autres génomes, nous avons étendu l'approche par l'utilisation des relations d'homologie<br />

(orthologie, paralogie) entre les gènes de génomes différents. De manière générale, cela permet de favoriser un<br />

candidat lorsque ses orthologues dans d’autres génomes sont également proches des orthologues des gènes<br />

d’intérêt. Par exemple sur les données d’expression, un candidat sera d’autant plus intéressant que ses<br />

orthologues sont co-exprimés avec les orthologues des gènes d’intérêt. L’utilisation de plusieurs sources de<br />

données sur un seul génome fournit un faisceau d’indices et produit une priorisation meilleure que celles<br />

obtenues sur chaque source de données prise séparément. L’ajout de sources de données provenant d’autres<br />

génomes vient accentuer ce phénomène, soit en renforçant la pertinence de certains candidats (par exemple :<br />

conservation de la co-expression au cours de l’évolution pour les données d’expression), soit en enrichissant les<br />

données (transfert d’annotation, par exemple lorsqu’un système a été étudié dans un autre organisme).<br />

Afin de valider la méthode, nous avons choisi de l’appliquer aux transporteurs ABC pour lesquels les<br />

composés transportés sont parfois connus dans certains organismes. Une base de données dédiée, ABCdb [2],<br />

est maintenue au sein notre équipe. Il arrive que lors de l'idenfitication et de la reconstruction des systèmes ABC<br />

par la stratégie développée au sein du laboratoire, certains partenaires soient manquants. Dans ce contexte, par<br />

priorisation de gènes, notre approche devrait permettre d’identifier le(s) partenaire(s) d’un système sur des<br />

critères plus génériques. Ensuite, la priorisation à partir de tous les partenaires devrait permettre d’identifier des<br />

gènes associés aux systèmes ABC pouvant traduire une relation fonctionnelle et ainsi proposer un processus<br />

biologique associé au système. Nous présentons des résultats sur les performances obtenues pour la<br />

reconstruction des transporteurs ABC ainsi que des résultats encourageant quant à la possibilité d'inférer un<br />

processus biologique associé ou un substrat spécifique.<br />

Publications<br />

[1] Tranchevent, L.-C., Barriot, R., Shi, Y., Van Loo, P., De Moor, B., Aerts, S., Moreau, Y. (2008) Endeavour<br />

update: a web resource for gene prioritization in multiple species, Nuc. Acids Res. WebServer Issue, Vol. 36, No.<br />

suppl_2, W377-384.<br />

[2] Fichant, G., Basse, M.-J., and Quentin, Y. (2006) ABCdb: an online resource for ABC transporter repertories<br />

from sequenced archaeal and bacterial genomes. FEMS Microbiol Lett . 256(2), 333-9.


Annotation et analyse de la famille multigénique des peroxydases<br />

Catherine Mathé 1 , Marie Brette 1 Bruno Savelli 1 et Christophe Dunand 1<br />

1 Laboratoire de Recherche en Sciences Végétales, UMR 5546, Castanet-Tolosan<br />

Mots clés: peroxydases, annotation, évolution, structure des gènes<br />

L’équipe s’intéresse aux peroxydases, enzymes présentes dans tous les règnes. Ces protéines<br />

catalysent des réactions durant lesquelles le peroxyde d’hydrogène est réduit en eau et un substrat est oxydé.<br />

Chez les plantes, elles ont des rôles fondamentaux dans différents processus physiologiques comme la<br />

détoxification de l’excès d’espèces actives de l’oxygène, la défense contre les pathogènes ou la formation de<br />

paroi cellulaire.<br />

La PeroxiBase (http://peroxibase.toulouse.inra.fr/) regroupe actuellement plus de 7500 séquences<br />

réparties en plusieurs sous-familles. Les séquences rentrées dans la base dérivent soit de recherches sur les<br />

génomes ou sur les banques d’EST, soit des prédictions protéiques disponibles, mais chaque fois après<br />

expertise et souvent ré-annotation manuelle. Cette démarche rigoureuse, garantie de la qualité de la banque,<br />

mais nécessite aujourd’hui d’être davantage automatisée afin de suivre le flux de séquences nouvelles.<br />

Dans cette optique, et aussi pour ajouter des informations quant à la structure des gènes, une procédure<br />

a été récemment mise en place pour localiser sur les génomes la structure des gènes de protéines de<br />

peroxydases connues. Elle est basée sur l’utilisation du programme Scipio [1]. Les résultats obtenus sont filtrés<br />

afin de mettre à jour et éventuellement de corriger les séquences, et aussi identifier de potentielles nouvelles<br />

peroxydases. Scipio permet aussi de prédire des séquences sur un nouveau génome, si l’on dispose des<br />

séquences d’un organisme suffisamment proche. Grâce à cette procédure, la PeroxiBase contient donc<br />

aujourd’hui des informations sur la structure des gènes, Ces nouvelles données ont permis l’installation sur la<br />

base d’un logiciel dédié à l’étude de la conservation des introns, Ciwog [2].<br />

Actuellement, une stratégie pour identifier efficacement et correctement l’ensemble des peroxydases<br />

présentes dans des banques d’EST est en développement, intégrant notamment les profiles HMM spécifiques<br />

aux différentes classes des peroxydases. Une deuxième base de données, la Peroxibase B, non publique a été<br />

créée pour permettre de stocker les nouvelles séquences issues de procédures d’annotation automatique, dans<br />

l’attente d’une expertise. Des routines pour faciliter cette expertise doivent être mises en place.<br />

En parallèle avec l’annotation exhaustive et experte de cette superfamille de protéine, des analyses sont<br />

menées pour comprendre leur histoire évolutive. En particulier, les peroxydases de classes III, propres aux<br />

plantes présentent un nombre élevé et variable d’isoformes (73 chez Arabidopsis, 138 chez le riz…). Cette<br />

grande variation évolutive propre à une classe de protéine, amène des questions sur les mécanismes et les dates<br />

des événements de duplication ou de perte des gènes associés et l’hypothèse d’un lien avec une adaptation à<br />

des conditions, qui apporterait aussi des informations sur la fonction biologique des peroxydases.<br />

Publications<br />

[1] Guillou V., Plourde-Owobi L., Goma G., Parrou J.L., François. J. Role of glycogen and trehalose in the growth<br />

dynamic of the yeast Saccharomyces cerevisiae. FEMS Yeast Res. 4:773-787, 2004.<br />

[2] Keller O, Odronitz F, Stanke M, Kollmar M, Waack S. Scipio: using protein sequences to determine the<br />

precise exon/intron structures of genes and their orthologs in closely related species. BMC<br />

<strong>Bio</strong>informatics. 2008 Jun 13;9:278.


GeneHuggers<br />

Sébastien Briois 1 et Jason Iacovoni 2<br />

1 Laboratoire de <strong>Bio</strong>logie Cellulaire et Moléculaire du Contrôle de la Prolifération, UMR5088 CNRS, Université Paul<br />

Sabatier, Toulouse<br />

2 Plateforme <strong>Bio</strong>-informatique I2MC, INSERM, Toulouse<br />

Mots clés: génomique, bio-informatique, Qt/C++ Framework, CHiP-chip/seq,<br />

<strong>Bio</strong>informatics application development traditionally results in either a command-line or graphical user interface.<br />

When faced with developing a series of applications for analysis of high-throughput sequencing data, we found<br />

that many programs required both a GUI, so that they could be used by the biologist, and a command-line<br />

interface, so that they could be employed in batch scripts. GeneHuggers is a library built on top of the Qt<br />

framework that aims to greatly facilitate program development. As much as possible of the routine coding<br />

associated with passing parameters in and out of graphical widgets has been encapsulated by the library. This<br />

results in a single application that can function both through the command-line and with a GUI. Even though<br />

GeneHuggers is still under development as a framework, a series of applications are available and have been<br />

used to analyze genome-wide gH2AX ChIP-chip/seq data. These programs were the motivation behind the GUI<br />

components of GeneHuggers and exemplify the way it can be used by programmers to focus their time on coding<br />

the computational task and not the interface.<br />

Description du projet :<br />

Le projet consiste à créer un framework permettant d’une part de gérer les données issues de CHiPchip/seq<br />

et d’autre part de créer facilement des applications ayant une interface graphique pour les biologistes et<br />

une interface en ligne de commande pour l’exécution en batch.<br />

Publications<br />

[1] Iacovoni JS, Caron P, Lassadi I, Nicolas E, Massip L, Trouche D, Legube G. High-resolution profiling of<br />

gammaH2AX around DNA double strand breaks in the mammalian genome. EMBO J. 2010 Apr 21;29(8):1446-<br />

57. Epub 2010 Apr 1.<br />

[2] Massip L, Caron P, Iacovoni JS, Trouche D, Legube G. Deciphering the chromatin landscape induced around<br />

DNA double strand breaks. Cell Cycle. 2010 Aug 1;9(15):2963-72.<br />

[3] Iacovoni JS. GeneHuggers: database mining and application connectivity tools for subsequence analyses of<br />

the human genome. <strong>Bio</strong>informatics. 2003 Nov 22;19(17):2<strong>31</strong>6-8.


Utilisation d'environnements Ensembl/<strong>Bio</strong>Mart/DAS pour l'expoitation de<br />

résultats issus des NGS<br />

Patrice Déhais (SIGENAE, LGC, INRA, Toulouse)<br />

Mots clés: NGS, base de données, browser de génome.<br />

Sigenae (http://www.sigenae.org) est une équipe de service en bio-informatique créée en 2002 dans la<br />

mouvance du programme AGENAE (http://www.agenae.fr) sur l'Analyse du GENomes des Animaux d'Elevage.<br />

L'assemblage de séquences d'étiquettes (EST), l'annotation des contigs obtenus, et la mise à disposition des<br />

données ainsi générées via des sites Web a été, et est encore le fond de commerce de l'équipe.<br />

Très tôt un environnement Ensembl/<strong>Bio</strong>Mart a été installé localement et adapté pour la présentation de données<br />

d'assemblage d'EST, en reprenant la structure des bases de données d'Ensembl et en y insérant nos données<br />

propres.<br />

Avec l'amélioration des techniques de séquençage, nous sommes passés de quelques dizaines de milliers de<br />

séquences par lot à nos début, à quelques centaines de milliers avec les derniers séquenceurs de type Sanger,<br />

puis à près d'un million avec les machines 454 de Roche, et enfin à plusieurs centaines de millions voire un<br />

milliard avec le HiSeq d'Illumina.<br />

Les analyses, qui autrefois se faisaient de façon exploratoire « à l'œil » sur des petits jeux de données,<br />

nécessitent aujourd’hui la mise en place (i) de traitements permettant d’obtenir une synthèse plus ou moins<br />

statistique des données, et (ii) d'outils de filtrage souples et adaptés pour sélectionner une zone d'intérêt ; zone<br />

qu'il convient ensuite (iii) de visualiser avec son environnement sur le génome, ce avec le maximum<br />

d'annotations, si possible à jour.<br />

La solution Ensembl/<strong>Bio</strong>Mart/DAS retenue par l'équipe permet de répondre à ces exigences. La recherche de<br />

SNP lignée spéficique chez la caille servira ici de cas d'exemple et permettra d'illustrer la mise en place d'un tel<br />

environnement.


RNAspace: web sites buider<br />

to support prediction, annotation and analysis of non-coding RNA<br />

Marie-Josée CROS 1 , Antoine de MONTE 2 , Jérôme MARIETTE 3 , Philippe BARDOU 4 , Daniel<br />

GAUTHERET 5 , Hélène TOUZET 2 and Christine GASPIN 1,3<br />

1<br />

INRA, Unité de <strong>Bio</strong>métrie et Intelligence Artificielle, UR 875, F-<strong>31</strong>320 Castanet, France<br />

2 LIFL, UMR CNRS 8022 Université Lille 1 and INRIA Lille Nord Europe, Franc<br />

3<br />

INRA, Plateforme bioinformatique, F-<strong>31</strong>320 Castanet, France<br />

4<br />

INRA, SIGENAE, UMR 444, F-<strong>31</strong>320 Castanet France<br />

5<br />

IGM UMR 8621 CNRS-U Paris sud, France<br />

contact@rnaspace.org<br />

Mots clés : non-protein-coding RNA, genome annotation, ncRNA gene finder<br />

RNAspace is an environment that allows to create web sites dedicated to non-coding RNA (ncRNA) prediction,<br />

annotation and analysis. The web sites allow users to run a variety of tools in an integrated and flexible way.<br />

RNAspace is focused on the integration of complementary ncRNA gene finders. It also offers a set of tools for<br />

the comparison, visualization, edition and export of ncRNAs candidates. Predictions can be filtered according to<br />

a large set of characteristics.<br />

A public web site http://rnaspace.org has been created that allows for on line annotation of a complete<br />

bacterial genome or a small eukaryotic chromosome.<br />

Publications<br />

[1] Cros M.J., de Monte A., Mariette J., Bardou P., Gautheret D., Touzet H, Gaspin C. rnaspace.org: a rich web<br />

application for ncRNA identification. Poster in JOBIM, 2010.<br />

[2] Cros M.J., de Monte A., Mariette J., Bardou P., Gautheret D., Touzet H, Gaspin C. RNAspace: an integrated<br />

environment for the prediction, annotation and analysis of non-coding RNA. Submitted, <strong>2011</strong>.


ng6 : Next Generation Sequencing Information System<br />

Jérôme Mariette 1, Nicolas Allias 2 , Céline Noirot 1 , Gérald Salin 2 , Sylvain Thomas 1 , Christophe Klopp 1<br />

1 Plate-forme bio-informatique Genotoul, INRA, <strong>Bio</strong>métrie et Intelligence Artificielle, BP 52627, <strong>31</strong>326 Castanet-Tolosan<br />

Cedex, France.<br />

2 Plateforme GET-PlaGe Genotoul, INRA, Laboratoire de Génétique Cellulaire, BP 52627, <strong>31</strong>326 Castanet-Tolosan<br />

Cedex, France.<br />

Keywords : Next Generation Sequencing, workflow, bio-informatique<br />

NGS platforms are now well implanted in sequencing centres and some laboratories. Upcoming small scale<br />

technological platforms such as 454 junior from Roche and MySeq from Illumina will increase the number of<br />

laboratories hosting a sequencer. In such a context, it is important to provide these teams with an easily<br />

manageable environment to store and process the produced data.<br />

We present in this abstract a global information system able to manage NGS data. It include, on one hand, a set<br />

of pipelines adapted to the input data format (fasta, fastq), the sequencer used (454, Illumina) and the kind of<br />

analysis to perform (gDNA, cDNA, RNAseq, 16S, and so on …) and, on the other hand, a secured web site giving<br />

access to the results. The user will be able to download raw data and browse several basic analysis such as reads<br />

quality statistics [2], contamination search, or even reads cleaning [3, 4]. The system has three levels : projects,<br />

runs and analysis. A project can include several runs. A run can have been used as input in several analysis.<br />

Ng6 has been initiated through a collaboration between the bioinformatic and the genomic platforms of<br />

Genotoul. The tool is based upon ergatis [5] workflow management system which was chosen because of its<br />

ability to iterate through multiple files permitting to run the calculation on the local cluster. In addition, using<br />

such a system allows to add as many pipelines as the imagination can design.<br />

Publications<br />

[1] http://typo3.org/<br />

[2] http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/<br />

[3] https://mulcyber.toulouse.inra.fr/projects/pyrocleaner/<br />

[4] -Alvarez V., Teal T. and Shmidt T: Systematic artifacts in metagenomes from complex microbial<br />

communities.The ISME Journal2009<br />

[5] Orvis J, Crabtree J, Galens K, Gussman A, Inman JM, Lee E, Nampally S, Riley D, Sundaram JP, Felix V, Whitty<br />

B, Mahurkar A, Wortman J, White O, Angiuoli SV. Ergatis: A web interface and scalable software system for<br />

bioinformatics workflows. <strong>Bio</strong>informatics. 2010 Jun 15;26(12).


A Comparative Study of Statistical Methods for Detecting Association with<br />

Rare Variants in Exome-Resequencing Data<br />

Nora Bohossian 1,2 , Mohamad Saad 1,2 , Aude Saint Pierre 1,2 , Matthias Macé 1 , Maria Martinez 1,2 .<br />

1<br />

INSERM U563, CHU Purpan, Toulouse, France<br />

2 Université Paul Sabatier, Toulouse, France<br />

Keywords: Next generation sequencing, Common disease, rare variants<br />

Abstract<br />

Genome-wide association studies for complex traits are based on the common disease-common variant (CDCV)<br />

and common disease-rare variant (CDRV) assumptions. Under the CDCV hypothesis, classical genome wide<br />

association studies using single marker test are powerful in detecting common susceptibility variants, but they<br />

are not as powerful under the CDRV hypothesis. Several methods have been recently proposed aiming to detect<br />

association with multiple rare variants collectively [1-4] in a functional unit such as a gene.<br />

In this study, we compared the relative performance of several of these methods in the GAW17 data.<br />

This is a sequencing data of 697 subjects provided from the 1000 Genomes Project [5] and their genotypes in<br />

exonic regions of only 3205 genes. In the GAW17 data, three quantitative and one binary traits were simulated<br />

and the genotypes were held fixed for all simulation replicates. The functional variants influencing the traits,<br />

include both rare and common alleles and a range of effect sizes, most having small effects but a few having<br />

large effects that should be reliably detectable in most replicates. Some genes contain a single functional variant<br />

and others contain many.<br />

The association methods we compared are all based on the collapsing (CA) of multiple variants within a gene.<br />

They differ according to: (i) filtering out or not the variants (SNPs) according to their Minor Allele Frequency<br />

(MAF) values; (ii) collapsing SNPs weighted or not by their allelic frequency variances; (iii) collapsing SNPs into a<br />

single versus multiple groups/variables.<br />

In these data, we found that the collapsing methods, which include all SNPs, showed greater power, even for<br />

genes where all causative variants are rare (MAF


Chorégraphie des gènes dans le noyau de Levure : vers une analyse haut débit<br />

Olivier GADAL 1,2 et Alain Kamgoue 1,2<br />

1 Laboratoire de <strong>Bio</strong>logie Moléculaire des Eucaryotes du CNRS<br />

2 Université de Toulouse, F-<strong>31</strong>000 Toulouse, France<br />

Mots clés: Imagerie confocale, analyse d’image, analyse haut-débit en image, bio-informatique<br />

Bien que de nombreux génome eucaryote soit maintenant séquencé, on ne sait toujours pas comment<br />

s’organise l’information génétique dans le volume du noyau. Ce niveau d’organisation est souvent décris comme<br />

une boîte noire, inaccessible à nos approches expérimentales. En particulier, les approches de microscopie à<br />

fluorescence sont limitées par la résolution optique du microscope (

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!