Analyse de donnÃ©es GBS - Inra

Pipeline d’analyse de donnée GBSExemple de la méthodologie CornellPierre MournetLusignan - Mardi 9 avril 2013

Le projet BFFMiscanthusSorghumMaize (Model)• Perennial grass (>15 y)• High yield: 10-30 tdw/ha• Sustainable: Low input, C storage in soil Can be grown on marginal orpolluted soils. Late harvest: low water content• Almost wild species• Lack of agronomic know-how• Only one clone commercialized• Expensive vegetative multiplication• Cell wallunderstanding• High resolutionmappingpopulations• Transformation• Mutants• Annual grass• High yield: > 30 tdw/ha• Heat and drought tolerant• Low inputs (NUE, WUE)• Susceptibility to lowtemperature• Domesticated crop but notoptimized for ligno-cellulosicbiomass production2

Le projet BFFThe Targets•Thermal energy•Anaerobic digestion (CH4)•Biomaterials (light weight concrete)•Bioplastics (Fiber-reinforced composites)• (Biofuels : in partnership with othernational projects)3

BCNAM : Pool BPopulation BCNAM Sorgho•2 recurrent elite B parents•10 donor B parents with contrastingbiomass qualityAE3•Development of 20 populations•Target of 100 BC1F4 per population•2000 genotypesBF003•Interest for breeding and genetics (highmapping resolution populations4

Genotyping by Sequencing (GBS)Echantillon1Site de restriction> 450 bpXTagMutation du site de restriction< 450 bpEchantillon 2• sequencage de part et d’autre de sites de restriction.• Identification de marqueur SNP et de marqueur de typepresence/absence.• Les petites deletions peuvent etre identifé.

Pipeline GBS "Discovery "TagsReadsAligned TagsTags by TaxaSNP/INDELHapMapFiltering


Sequence: Raw Sequence (Qseq)Production de séquence de 64 pb en Single Read.Séquencage du code barre et du site de coupureHWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST397HWI-ST3970000000000000000000033333333333333333333686868686868686868686868686868686868686815896159601583115867159431581215888159691578615830158631576215903159211598415788158421587615937159582000392000432000532000492000482000622000672000672000782000722000732000882000852000822000852000962000992001052000972001020000000000000000000011111111111111111111GTCGATTCTGCTGACTTCATGGCTTCTGTTGACGGAGAATCAGCTTTTCCAACACCTTGAGTTTGAGTATGTACTGCACCGTTGCAAGCGAGCACCACCAACCAGCTCAGCCTGCATTCTTTCAAAAACTTCCAAGATTTTACTGCACATCGGTCTTGTCACACCAGCTTCACCCAGCATCACGCCCCTTCACATCCAGTAAACTTGACTGCCACCATGAATATGTGTTCCAAGTGCCCACAACTGCTCCATCTTTTCCATGAGACATTGCGTATTCTGCACACGAATCAGCTGAGACACCAATTAATATGCCAGCAGTTAAGAGAGTTCAAGATCCAGCTCCCTGCGGGTGCGCGCGACCCATCTTCAGTTTGGTACGTCTGCGGAATGGCGTTTTTTATGCCTTGGACCTACTGCCCAAGAACGGCTCACCCATCATGAGAATCAGCGTGTACGGGGCACGGGGTGACTTTCTCCAGCCGCATGGGCCGGAGACCAGAGAGGCGTCAGCAAATGCCCCAACAGCCAAGTCAGCATAGGCCATCAGCTGACTTCCCGGGTGTGGAGAAGGACCTACTGCCGGCGGGACGAAAGCGGTTGTCTCCCTGTTGAAGCATGTGCAAAAGAGCTTGTTCCGCCTTATCTGCCCTCGCCGGTCATGGGGAGTG

Sequence:Trie des readsReads OKAdapt_barcodeSite deSite decoupureINSERTcoupureAdapt_communAdapt_barcodeSite decoupureINSERTReads rejetéSite decoupureAdapt_barcodeAdapt_barcodeINSERTSite decoupureReads trimmedINSERTAdapt_communPas de code barrePas de site de coupureDimer d’adaptateurAdapt_barcodeSite decoupureINSERTSite decoupure2 nd INSERTSéquence chimériqueAdapt_barcodeSite decoupureINSERTSite decoupureAdapt_communSéquence courte

Sequence:Trie des readsReads OKAdapt_barcodeSite deSite decoupureINSERTcoupureAdapt_communAdapt_barcodeSite decoupureINSERTReads rejetéSite decoupureAdapt_barcodeAdapt_barcodeINSERTSite decoupureReads trimmedINSERTAdapt_communPas de code barrePas de site de coupureDimer d’adaptateurAdapt_barcodeSite decoupureINSERTSite decoupure2 nd INSERTSéquence chimériqueAdapt_barcodeSite decoupureINSERTSite decoupureAdapt_communSéquence courte


Reads -> Tags -> Aligned Tags-> SNPs/INDELs•Identification et comptages des Tags à partir des readsCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCATGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGC

Reads -> Tags -> Aligned Tags-> SNPs/INDELs•Identification et comptages des Tags à partir des reads.•Regroupements des tags dans un seul fichier « tag count».•A cet étape il est possible d’exclure les tags avec de faible effectifs… erreurde séquencage.Tag 1n=5Tag 2n=3Tag 3n=1CAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCATGTAGACGGGC…………………………………

Reads -> Tags -> Aligned Tags-> SNPs/INDELs•Identification et comptages des Tags à partir des reads.•Regroupements des tags et du comptage dans un seul fichier « tag count».•A cet étape il est possible d’exclure les tags avec de faible effectifs… erreurde séquencage.Tag 1n=5Tag 2n=3Tag 3n=1CAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCCAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCATGTAGACGGGC…………………………………

Reads -> Tags -> Aligned Tags-> SNPs/INDELsTagsReadsAligned TagsTags by TaxaSNP/INDELHapMapFiltering

Reads -> Tags -> Aligned Tags-> SNPs/INDELs•Conversion du fichier « tag count » en FastQ compatible avec l’étaped’alignement.•Alignement des tags sur la séquence du génome de référence avec unlogiciel d’alignement externe, au format SAM.•Conversion du fichier d’alignement SAM au format TOPM (Physical MapFormat)

Tags by TaxaReadsTagsAligned TagsTags by TaxaSNP/INDELHapMapFiltering

Tags by Taxa•Assignation des Tags par individus, à l’aide du fichier original desséquences; des codes barres (Key file), et du fichier de comptage desTags (Tag count)•Les individus génotypés en duplicat sont fusionner (autre moyend’estimer les erreurs de séquençage).Tag 1 Tag 2 Tag 3 Tag 4 Tag 5 …Taxa 1 X - X X - …Taxa 2 X X X - - …Taxa 3 - X X X X …… … … … … … …

Reads -> Tags -> Aligned Tags ->SNPs/INDELsTagsReadsAligned TagsTags by TaxaSNP/INDELHapMapFiltering

Reads -> Tags -> Aligned Tags ->SNPs/INDELsGénome de RéferenceLocuscommunTag 1 CAGCAAAAAAAAAAAAGAGGGATGCGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCTag 2 CAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCSNP

Creation du fichier HapMapTagsReadsAligned TagsTags by TaxaSNP/INDELHapMapFiltering

Création d’un fichier HapMap•Création d’un fichier Hapmap à partir des informations des fichiersd’alignement des Tags (TOPM) et du fichier d’assignation des tags parindivis (Taqs by Taxa)rs# alleles chrom pos strand SgSBRIL067:633Y5AAXX:2:C9 SgSBRIL019:633Y5AAXX:2:C3S1_2100 A/G 1 2100 + N N N N N N N R N A NS1_2163 T/C 1 2163 + N N N N N N T C T T NS1_13837S1_14606S1_2061S1_68332S1_68596S1_69309S1_79955S1_79961S1_80584S1_80647S1_81274S1_108834S1_112345S1_115359S1_115362S1_115405S1_115516S1_116694S1_119016T/G 1C/T 1T/A 1C/T 1A/T 1G/A 1T/G 1T/G 1G 1C/T 1T/G 1G/A 1T/G 1C/T 1T/C 1G/A 1T/G 1A/G 1C/T 113837 +14606 +20601 +68332 +68596 +69309 +79955 +79961 +80584 +80647 +81274 +108834 +112345 +115359 +115362 +115405 +115516 +116694 +119016 +N N NN N CT N NN N NA N NN G NN T GN T TN N NN N NN N NN N NN N NN N NN N NG G AN N TN A GN N NNNNNNNTTNNNNNNNNNNNN N NN N TN N NN N NN N NN N NT N TT N TN N NN N NN N TN N NN N KN N TN N NN G GN N TN N GC N NS1_155366 T/C 1 155366 + N T N N N NGTANNATTNCGNTCCGTACNTNNNNNNNNNNNNNGNNNNTNNANNNNNNNNTNNNNNTCNNNNNNGCNNNNTNN

Creation du fichier HapMapTagsReadsAligned TagsTags by TaxaSNP/INDELHapMapFiltering

Outils permettant de filtrer lepolymorphisme détecté… et imputer…•On estime à ~1% le taux d’erreur en séquençage illumina.•La proportion de séquence correcte est donc de 0,99 64 = 52,5% pour desséquences de 64 pb.•Plusieurs Plugins pour filtrer ces erreurs:MergeDuplicateSNPsPlugin, GBSHapMapFiltersPlugin,BiParentalErrorCorrectionPlugin, MergeIdenticalTaxaPluginFiltre sur la couverture/Locus, la couverture/individus, séquençage desSNPs dans les 2 sens pour un même tag, sur les individus en duplicat.Filtre sur les fréquences alléliques (ex: population biparentale), sur le DL,sur le coefficient d’inbreading, sur le niveau d’heterozygotie•Imputation « des donnés manquantes » sous Tassel….Très dépendant du type de population

Les données manquantesLes données manquantes sont de 2 origines:•Liée à l’échantillonnage (en partie résolu par l’imputation):•faible couverture du séquençage•Une couverture différentiel liée à un biais sur la taille des fragments• d’origine Biologique:•Mutation sur le site de restriction•Région du génome différentiellement présent ente individu

Merci

Protocole GBS Cornell en 48-, 96‐ou 384‐plex(http://www.maizegenetics.net/gbs‐overview)1. Plaque d’ADN & adaptateurs2. Digestion des ADNs avec uneenzyme de restriction3. Ligation des adaptateurs

Adaptateurs GBS et Enzymes derestrictionAdaptateur aveccode barreP1“extrémitéscohésives”AdaptateurcommunP2Illumina SequencingPrimer 2Illumina SequencingPrimer 1Code barre(4-8 pb)Enzymes de restrictionsApeKIPstIEcoT22I5’G CWGC3’CTGCA GATGCA T

Protocole GBS Cornell en 48- ,96‐ou 384‐plex(http://www.maizegenetics.net/gbs‐overview)4. Pool des échantillons et purifcation1. Plaque d’ADN & adaptateurs2. Digestion des ADNs avec uneenzyme de restriction3. Ligation des adaptateurs.........AmorcesPCR5. PCR .................. .......

Etape 5: PCR sur le pool defragmentPool de larestriction/digestionBanque GBS..... .. .........Amorces PCR:........ ........... ...................... .. 5. PCR.............. ......... .......P1InsertP2O1P1InsertP2O2

Protocole GBS Cornell en 48- ,96‐ou384‐plex(http://www.maizegenetics.net/gbs‐overview)4. Pool des échantillons et purifcation1. Plaque d’ADN & adaptateurs2. Digestion des ADNs avec uneenzyme de restriction3. Ligation des adaptateurs.........AmorcesPCR5. PCR .................. .......6. Evaluation de la banque:Taille et proportion desfragments

Validation GBS au CIRAD surséquenceur Illumina MiseqConditions:•Enzyme de Restriction ApekI•Définition de 25 codes barre•Choix de 24 accessions représentative de la diversité Sorgho•Séquencage en single read•Génotypages en parallèle de ces mêmes accessions à Cornellpour valider la technologie au CIRAD.IS20727IS23644IS12169IS14317IS16186IS21124IS23178IS27164IS29407IS29876IS30436IS4027IS6193SSM1123SSM276SSM29IS12179IS12542IS20864IS22332IS24887IS26554IS28645SSM973

Vérification des banques GBS- Gel d’agarose- Bioanalyseur (Qualitatif)- Vérification quantitative: Dosage par qPCRavec le Kit de Kapa de la banque- Séquencage

1815222936435057647178859299Depth of CoverageWhole Genome ShotgunGBSSites1200000010000000800000060000004000000200000001 4 7 10131619222528313437404346495255DepthsTags 40003500300025002000150010005000Depths#Depth

Analyse de donnÃ©es GBS - Inra

Create successful ePaper yourself

Delete template?

Save as template?