06.05.2015 Views

EPGV Unité 1279_GAP - Inra

EPGV Unité 1279_GAP - Inra

EPGV Unité 1279_GAP - Inra

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Organisation, Gestion et Analyses<br />

des données de séquençage NGS<br />

<strong>EPGV</strong> Unité <strong>1279</strong>_<strong>GAP</strong><br />

1


Problématique<br />

• Beaucoup de données à gérer.<br />

• Besoin d’assurer un suivi de données :<br />

- de l’échantillon biologique –> au séquences nettoyées.<br />

• Automatiser au maximum pour éviter les erreurs<br />

• Accélérer le processus de traitement<br />

<strong>EPGV</strong> Unité <strong>1279</strong>_<strong>GAP</strong><br />

2


Suivi des données<br />

avant….<br />

• Nombreux fichiers excel<br />

• Gestion manuelle des données<br />

• Problème de recherche des informations dans des différents<br />

fichiers.<br />

• Risque d’erreur important.<br />

=> des Problèmes de suivi<br />

=> Mise en place d’un nouveau système.<br />

<strong>EPGV</strong> Unité <strong>1279</strong>_<strong>GAP</strong><br />

3


Schéma général de gestion de données<br />

Données<br />

provenant du<br />

CNG<br />

Stockage<br />

Traitement des<br />

séquences<br />

Quality cleaning<br />

Trimming<br />

Transfert client<br />

<strong>EPGV</strong> Unité <strong>1279</strong>_<strong>GAP</strong><br />

4


Suivi des données : informations<br />

importantes<br />

• Informations sur l’échantillon provenant du collaborateur<br />

• Informations sur les librairies préparées.<br />

• Suivi de la procédure de séquençage de l’échantillon.<br />

• Informations sur les séquences reçues.<br />

• Informations sur les paramètres du traitement de séquences.<br />

=> Stockage dans la base de données<br />

Information<br />

échantillons<br />

Etat de<br />

production<br />

Information<br />

séquences<br />

Opérations sur<br />

les séquences<br />

<strong>EPGV</strong> Unité <strong>1279</strong>_<strong>GAP</strong><br />

5


Stockage de l’information: base de données<br />

Paramètres et<br />

résultats des<br />

processus <strong>EPGV</strong><br />

Base de données<br />

<strong>EPGV</strong><br />

Suivi des données<br />

• Interaction entre LIMS CNG et base de données <strong>EPGV</strong><br />

Interrogation :<br />

suivi des<br />

données.<br />

<strong>EPGV</strong> Unité <strong>1279</strong>_<strong>GAP</strong><br />

6


Stockage de l’information:<br />

interface base de données<br />

<strong>EPGV</strong> Unité <strong>1279</strong>_<strong>GAP</strong><br />

7


Stockage de données:<br />

structure de l’espace de stockage<br />

Espace de<br />

Stockage <strong>EPGV</strong><br />

scripts<br />

Divers<br />

Versions<br />

Production<br />

Versions<br />

Développement<br />

data<br />

Projets<br />

454<br />

Espace jobs<br />

temporaire<br />

Génomes<br />

Divers<br />

Solexa<br />

analyses<br />

Projets<br />

Flowcell<br />

<strong>EPGV</strong> Unité <strong>1279</strong>_<strong>GAP</strong><br />

8


Traitement : Quality Cleaning<br />

• Calcul des stats ATGCN,<br />

Contrôle du format des<br />

séquences fastq<br />

• Génération des graphs<br />

de qualité.<br />

• Redondances:<br />

Séquences en single -> élimination des doublons du fichier<br />

Séquences en PE-> élimination des couples de doublons dans les<br />

fichiers read1 read2<br />

garde un couple par type de redondances avec le meilleur<br />

score phred dans les fichiers uniq_read1 uniq_read2<br />

garde les couples éliminés et le nombre de répétitions dans<br />

un fichier séparé<br />

<strong>EPGV</strong> Unité <strong>1279</strong>_<strong>GAP</strong><br />

9


Traitement : Trimming<br />

• Paramétres de trimming: valeurs utilisées<br />

• Score minimal autorisé par base 30<br />

• Score moyen autorisé du read sans la base étudiée 30<br />

• Taille minimale autorisée des reads après le nettoyage 30<br />

• Nombre de N maximum autorisé par read 0<br />

• Processus:<br />

• On coupe en 3’ , tant que le score Phred de base soit inférieur à la<br />

valeur paramétrée ou que la moyenne des scores du reste du read<br />

soit inférieure à la valeur paramétrée<br />

• Les reads trop courts sont éliminés en PE<br />

• On élimine les reads en PE contenant le nombre de N au-dessus de<br />

la limite autorisée<br />

• Conclusion : avec nos critères entre 5 et 20 % des séquences<br />

sont éliminées<br />

<strong>EPGV</strong> Unité <strong>1279</strong>_<strong>GAP</strong><br />

10


Transfert collaborateurs<br />

• Génération des reports<br />

• Transfert:<br />

- des données brutes<br />

- fichiers de redondances<br />

- fichiers de séquences uniques<br />

- fichiers de séquences trimmées<br />

- graphs de qualité<br />

- rapport général<br />

- résumé de processing<br />

<strong>EPGV</strong> Unité <strong>1279</strong>_<strong>GAP</strong><br />

11


Automatisation des étapes<br />

Stockage de données<br />

Processus automatisés<br />

Traçabilité, information<br />

Espace<br />

Réception<br />

séquences<br />

Espace de<br />

Stockage<br />

Espace<br />

d’Analyse<br />

Espace de<br />

Transfert client<br />

control<br />

renommage<br />

transfert<br />

QC/Cleaning<br />

transfert<br />

Database<br />

Logs<br />

<strong>EPGV</strong> Unité <strong>1279</strong>_<strong>GAP</strong><br />

12


Perspectives<br />

• Trimming : couper les premières bases en 5’ (souvent mauvaise<br />

qualité)<br />

• Trimming: garder les reads de bonne qualité actuellement<br />

éliminés dans les couples<br />

• Parallélisation des processus couteux en ressource.<br />

• Terminer l’automatisation des étapes de manipulation des<br />

données<br />

• Implantation d’une base de stockage des SNP (URGI) pour<br />

faciliter l’analyse des résultats<br />

<strong>EPGV</strong> Unité <strong>1279</strong>_<strong>GAP</strong><br />

13


Remerciements<br />

Toute l’équipe <strong>EPGV</strong>:<br />

Dominique Brunel, Marie-Christine LePaslier, Aurelie Berard, Aurelie<br />

Chauveau, Remi Bounon, Mathieu Charles, Philippe Millasseau,<br />

Maha Ponnaiah, Elodie Marquand (Bienvenue!!)<br />

Jean-Paul Hofmann<br />

équipe informatique CNG - Naira Naouar, Olivier Ardouin, Benoit<br />

Robert , Fernando Dos Santos<br />

<strong>EPGV</strong> Unité <strong>1279</strong>_<strong>GAP</strong><br />

14


<strong>EPGV</strong> Unité <strong>1279</strong>_<strong>GAP</strong><br />

15


Stockage de l’information:<br />

Base de Données <strong>EPGV</strong><br />

<strong>EPGV</strong> Unité <strong>1279</strong>_<strong>GAP</strong><br />

16


Réception et renommage des séquences<br />

• A la réception contrôle général de présence de fichiers<br />

dans répertoire de flowcell.<br />

• Séquence Illumina ont toutes le même nom donc pour<br />

éviter les erreurs : renommmage<br />

• Ex:<br />

- 70JFNAAXX/001/s_4_1_sequence.txt<br />

-> 70JFNAAXX_001_s_4_1_sequence.txt<br />

<strong>EPGV</strong> Unité <strong>1279</strong>_<strong>GAP</strong><br />

17

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!