13.07.2015 Views

Analyse de données GBS - Inra

Analyse de données GBS - Inra

Analyse de données GBS - Inra

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Pipeline d’analyse <strong>de</strong> donnée <strong>GBS</strong>Exemple <strong>de</strong> la méthodologie CornellPierre MournetLusignan - Mardi 9 avril 2013


Le projet BFFMiscanthusSorghumMaize (Mo<strong>de</strong>l)• Perennial grass (>15 y)• High yield: 10-30 tdw/ha• Sustainable: Low input, C storage in soil Can be grown on marginal orpolluted soils. Late harvest: low water content• Almost wild species• Lack of agronomic know-how• Only one clone commercialized• Expensive vegetative multiplication• Cell wallun<strong>de</strong>rstanding• High resolutionmappingpopulations• Transformation• Mutants• Annual grass• High yield: > 30 tdw/ha• Heat and drought tolerant• Low inputs (NUE, WUE)• Susceptibility to lowtemperature• Domesticated crop but notoptimized for ligno-cellulosicbiomass production2


Le projet BFFThe Targets•Thermal energy•Anaerobic digestion (CH4)•Biomaterials (light weight concrete)•Bioplastics (Fiber-reinforced composites)• (Biofuels : in partnership with othernational projects)3


BCNAM : Pool BPopulation BCNAM Sorgho•2 recurrent elite B parents•10 donor B parents with contrastingbiomass qualityAE3•Development of 20 populations•Target of 100 BC1F4 per population•2000 genotypesBF003•Interest for breeding and genetics (highmapping resolution populations4


Genotyping by Sequencing (<strong>GBS</strong>)Echantillon1Site <strong>de</strong> restriction> 450 bpXTagMutation du site <strong>de</strong> restriction< 450 bpEchantillon 2• sequencage <strong>de</strong> part et d’autre <strong>de</strong> sites <strong>de</strong> restriction.• I<strong>de</strong>ntification <strong>de</strong> marqueur SNP et <strong>de</strong> marqueur <strong>de</strong> typepresence/absence.• Les petites <strong>de</strong>letions peuvent etre i<strong>de</strong>ntifé.


Pipeline <strong>GBS</strong> "Discovery "TagsReadsAligned TagsTags by TaxaSNP/INDELHapMapFiltering


Pipeline <strong>GBS</strong> "Discovery "TagsReadsAligned TagsTags by TaxaSNP/INDELHapMapFiltering


Sequence: Raw Sequence (Qseq)Production <strong>de</strong> séquence <strong>de</strong> 64 pb en Single Read.Séquencage du co<strong>de</strong> barre et du site <strong>de</strong> coupureHWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST3970000000000000000000033333333333333333333686868686868686868686868686868686868686815896159601583115867159431581215888159691578615830158631576215903159211598415788158421587615937159582000392000432000532000492000482000622000672000672000782000722000732000882000852000822000852000962000992001052000972001020000000000000000000011111111111111111111GTCGATTCTGCTGACTTCATGGCTTCTGTTGACGGAGAATCAGCTTTTCCAACACCTTGAGTTTGAGTATGTACTGCACCGTTGCAAGCGAGCACCACCAACCAGCTCAGCCTGCATTCTTTCAAAAACTTCCAAGATTTTACTGCACATCGGTCTTGTCACACCAGCTTCACCCAGCATCACGCCCCTTCACATCCAGTAAACTTGACTGCCACCATGAATATGTGTTCCAAGTGCCCACAACTGCTCCATCTTTTCCATGAGACATTGCGTATTCTGCACACGAATCAGCTGAGACACCAATTAATATGCCAGCAGTTAAGAGAGTTCAAGATCCAGCTCCCTGCGGGTGCGCGCGACCCATCTTCAGTTTGGTACGTCTGCGGAATGGCGTTTTTTATGCCTTGGACCTACTGCCCAAGAACGGCTCACCCATCATGAGAATCAGCGTGTACGGGGCACGGGGTGACTTTCTCCAGCCGCATGGGCCGGAGACCAGAGAGGCGTCAGCAAATGCCCCAACAGCCAAGTCAGCATAGGCCATCAGCTGACTTCCCGGGTGTGGAGAAGGACCTACTGCCGGCGGGACGAAAGCGGTTGTCTCCCTGTTGAAGCATGTGCAAAAGAGCTTGTTCCGCCTTATCTGCCCTCGCCGGTCATGGGGAGTG


Sequence:Trie <strong>de</strong>s readsReads OKAdapt_barco<strong>de</strong>Site <strong>de</strong>Site <strong>de</strong>coupureINSERTcoupureAdapt_communAdapt_barco<strong>de</strong>Site <strong>de</strong>coupureINSERTReads rejetéSite <strong>de</strong>coupureAdapt_barco<strong>de</strong>Adapt_barco<strong>de</strong>INSERTSite <strong>de</strong>coupureReads trimmedINSERTAdapt_communPas <strong>de</strong> co<strong>de</strong> barrePas <strong>de</strong> site <strong>de</strong> coupureDimer d’adaptateurAdapt_barco<strong>de</strong>Site <strong>de</strong>coupureINSERTSite <strong>de</strong>coupure2 nd INSERTSéquence chimériqueAdapt_barco<strong>de</strong>Site <strong>de</strong>coupureINSERTSite <strong>de</strong>coupureAdapt_communSéquence courte


Sequence:Trie <strong>de</strong>s readsReads OKAdapt_barco<strong>de</strong>Site <strong>de</strong>Site <strong>de</strong>coupureINSERTcoupureAdapt_communAdapt_barco<strong>de</strong>Site <strong>de</strong>coupureINSERTReads rejetéSite <strong>de</strong>coupureAdapt_barco<strong>de</strong>Adapt_barco<strong>de</strong>INSERTSite <strong>de</strong>coupureReads trimmedINSERTAdapt_communPas <strong>de</strong> co<strong>de</strong> barrePas <strong>de</strong> site <strong>de</strong> coupureDimer d’adaptateurAdapt_barco<strong>de</strong>Site <strong>de</strong>coupureINSERTSite <strong>de</strong>coupure2 nd INSERTSéquence chimériqueAdapt_barco<strong>de</strong>Site <strong>de</strong>coupureINSERTSite <strong>de</strong>coupureAdapt_communSéquence courte


Pipeline <strong>GBS</strong> "Discovery "TagsReadsAligned TagsTags by TaxaSNP/INDELHapMapFiltering


Reads -> Tags -> Aligned Tags-> SNPs/INDELs•I<strong>de</strong>ntification et comptages <strong>de</strong>s Tags à partir <strong>de</strong>s readsCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCATGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGC


Reads -> Tags -> Aligned Tags-> SNPs/INDELs•I<strong>de</strong>ntification et comptages <strong>de</strong>s Tags à partir <strong>de</strong>s reads.•Regroupements <strong>de</strong>s tags dans un seul fichier « tag count».•A cet étape il est possible d’exclure les tags avec <strong>de</strong> faible effectifs… erreur<strong>de</strong> séquencage.Tag 1n=5Tag 2n=3Tag 3n=1CAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCATGTAGACGGGC…………………………………


Reads -> Tags -> Aligned Tags-> SNPs/INDELs•I<strong>de</strong>ntification et comptages <strong>de</strong>s Tags à partir <strong>de</strong>s reads.•Regroupements <strong>de</strong>s tags et du comptage dans un seul fichier « tag count».•A cet étape il est possible d’exclure les tags avec <strong>de</strong> faible effectifs… erreur<strong>de</strong> séquencage.Tag 1n=5Tag 2n=3Tag 3n=1CAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCATGTAGACGGGC…………………………………


Reads -> Tags -> Aligned Tags-> SNPs/INDELsTagsReadsAligned TagsTags by TaxaSNP/INDELHapMapFiltering


Reads -> Tags -> Aligned Tags-> SNPs/INDELs•Conversion du fichier « tag count » en FastQ compatible avec l’étaped’alignement.•Alignement <strong>de</strong>s tags sur la séquence du génome <strong>de</strong> référence avec unlogiciel d’alignement externe, au format SAM.•Conversion du fichier d’alignement SAM au format TOPM (Physical MapFormat)


Tags by TaxaReadsTagsAligned TagsTags by TaxaSNP/INDELHapMapFiltering


Tags by Taxa•Assignation <strong>de</strong>s Tags par individus, à l’ai<strong>de</strong> du fichier original <strong>de</strong>sséquences; <strong>de</strong>s co<strong>de</strong>s barres (Key file), et du fichier <strong>de</strong> comptage <strong>de</strong>sTags (Tag count)•Les individus génotypés en duplicat sont fusionner (autre moyend’estimer les erreurs <strong>de</strong> séquençage).Tag 1 Tag 2 Tag 3 Tag 4 Tag 5 …Taxa 1 X - X X - …Taxa 2 X X X - - …Taxa 3 - X X X X …… … … … … … …


Reads -> Tags -> Aligned Tags ->SNPs/INDELsTagsReadsAligned TagsTags by TaxaSNP/INDELHapMapFiltering


Reads -> Tags -> Aligned Tags ->SNPs/INDELsGénome <strong>de</strong> RéferenceLocuscommunTag 1 CAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCTag 2 CAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCSNP


Creation du fichier HapMapTagsReadsAligned TagsTags by TaxaSNP/INDELHapMapFiltering


Création d’un fichier HapMap•Création d’un fichier Hapmap à partir <strong>de</strong>s informations <strong>de</strong>s fichiersd’alignement <strong>de</strong>s Tags (TOPM) et du fichier d’assignation <strong>de</strong>s tags parindivis (Taqs by Taxa)rs# alleles chrom pos strand SgSBRIL067:633Y5AAXX:2:C9 SgSBRIL019:633Y5AAXX:2:C3S1_2100 A/G 1 2100 + N N N N N N N R N A NS1_2163 T/C 1 2163 + N N N N N N T C T T NS1_13837S1_14606S1_2061S1_68332S1_68596S1_69309S1_79955S1_79961S1_80584S1_80647S1_81274S1_108834S1_112345S1_115359S1_115362S1_115405S1_115516S1_116694S1_119016T/G 1C/T 1T/A 1C/T 1A/T 1G/A 1T/G 1T/G 1G 1C/T 1T/G 1G/A 1T/G 1C/T 1T/C 1G/A 1T/G 1A/G 1C/T 113837 +14606 +20601 +68332 +68596 +69309 +79955 +79961 +80584 +80647 +81274 +108834 +112345 +115359 +115362 +115405 +115516 +116694 +119016 +N N NN N CT N NN N NA N NN G NN T GN T TN N NN N NN N NN N NN N NN N NN N NG G AN N TN A GN N NNNNNNNTTNNNNNNNNNNNN N NN N TN N NN N NN N NN N NT N TT N TN N NN N NN N TN N NN N KN N TN N NN G GN N TN N GC N NS1_155366 T/C 1 155366 + N T N N N NGTANNATTNCGNTCCGTACNTNNNNNNNNNNNNNGNNNNTNNANNNNNNNNTNNNNNTCNNNNNNGCNNNNTNN


Creation du fichier HapMapTagsReadsAligned TagsTags by TaxaSNP/INDELHapMapFiltering


Outils permettant <strong>de</strong> filtrer lepolymorphisme détecté… et imputer…•On estime à ~1% le taux d’erreur en séquençage illumina.•La proportion <strong>de</strong> séquence correcte est donc <strong>de</strong> 0,99 64 = 52,5% pour <strong>de</strong>sséquences <strong>de</strong> 64 pb.•Plusieurs Plugins pour filtrer ces erreurs:MergeDuplicateSNPsPlugin, <strong>GBS</strong>HapMapFiltersPlugin,BiParentalErrorCorrectionPlugin, MergeI<strong>de</strong>nticalTaxaPluginFiltre sur la couverture/Locus, la couverture/individus, séquençage <strong>de</strong>sSNPs dans les 2 sens pour un même tag, sur les individus en duplicat.Filtre sur les fréquences alléliques (ex: population biparentale), sur le DL,sur le coefficient d’inbreading, sur le niveau d’heterozygotie•Imputation « <strong>de</strong>s donnés manquantes » sous Tassel….Très dépendant du type <strong>de</strong> population


Les données manquantesLes données manquantes sont <strong>de</strong> 2 origines:•Liée à l’échantillonnage (en partie résolu par l’imputation):•faible couverture du séquençage•Une couverture différentiel liée à un biais sur la taille <strong>de</strong>s fragments• d’origine Biologique:•Mutation sur le site <strong>de</strong> restriction•Région du génome différentiellement présent ente individu


Merci


Protocole <strong>GBS</strong> Cornell en 48-, 96‐ou 384‐plex(http://www.maizegenetics.net/gbs‐overview)1. Plaque d’ADN & adaptateurs2. Digestion <strong>de</strong>s ADNs avec uneenzyme <strong>de</strong> restriction3. Ligation <strong>de</strong>s adaptateurs


Adaptateurs <strong>GBS</strong> et Enzymes <strong>de</strong>restrictionAdaptateur avecco<strong>de</strong> barreP1“extrémitéscohésives”AdaptateurcommunP2Illumina SequencingPrimer 2Illumina SequencingPrimer 1Co<strong>de</strong> barre(4-8 pb)Enzymes <strong>de</strong> restrictionsApeKIPstIEcoT22I5’G CWGC3’CTGCA GATGCA T


Protocole <strong>GBS</strong> Cornell en 48- ,96‐ou 384‐plex(http://www.maizegenetics.net/gbs‐overview)4. Pool <strong>de</strong>s échantillons et purifcation1. Plaque d’ADN & adaptateurs2. Digestion <strong>de</strong>s ADNs avec uneenzyme <strong>de</strong> restriction3. Ligation <strong>de</strong>s adaptateurs.........AmorcesPCR5. PCR .................. .......


Etape 5: PCR sur le pool <strong>de</strong>fragmentPool <strong>de</strong> larestriction/digestionBanque <strong>GBS</strong>..... .. .........Amorces PCR:........ ........... ...................... .. 5. PCR.............. ......... .......P1InsertP2O1P1InsertP2O2


Protocole <strong>GBS</strong> Cornell en 48- ,96‐ou384‐plex(http://www.maizegenetics.net/gbs‐overview)4. Pool <strong>de</strong>s échantillons et purifcation1. Plaque d’ADN & adaptateurs2. Digestion <strong>de</strong>s ADNs avec uneenzyme <strong>de</strong> restriction3. Ligation <strong>de</strong>s adaptateurs.........AmorcesPCR5. PCR .................. .......6. Evaluation <strong>de</strong> la banque:Taille et proportion <strong>de</strong>sfragments


Validation <strong>GBS</strong> au CIRAD surséquenceur Illumina MiseqConditions:•Enzyme <strong>de</strong> Restriction ApekI•Définition <strong>de</strong> 25 co<strong>de</strong>s barre•Choix <strong>de</strong> 24 accessions représentative <strong>de</strong> la diversité Sorgho•Séquencage en single read•Génotypages en parallèle <strong>de</strong> ces mêmes accessions à Cornellpour vali<strong>de</strong>r la technologie au CIRAD.IS20727IS23644IS12169IS14317IS16186IS21124IS23178IS27164IS29407IS29876IS30436IS4027IS6193SSM1123SSM276SSM29IS12179IS12542IS20864IS22332IS24887IS26554IS28645SSM973


Vérification <strong>de</strong>s banques <strong>GBS</strong>- Gel d’agarose- Bioanalyseur (Qualitatif)- Vérification quantitative: Dosage par qPCRavec le Kit <strong>de</strong> Kapa <strong>de</strong> la banque- Séquencage


1815222936435057647178859299Depth of CoverageWhole Genome Shotgun<strong>GBS</strong>Sites1200000010000000800000060000004000000200000001 4 7 10131619222528313437404346495255DepthsTags 40003500300025002000150010005000Depths#Depth

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!