Obtenir des informations sur les banques : SRS : recherche d ...
Obtenir des informations sur les banques : SRS : recherche d ...
Obtenir des informations sur les banques : SRS : recherche d ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Résumé <strong>des</strong> comman<strong>des</strong> de la formation F07b<strong>Obtenir</strong> <strong>des</strong> <strong>informations</strong> <strong>sur</strong> <strong>les</strong> <strong>banques</strong> :Site de web de la plateforme : Biomaji : http://bioinfo.genopole-toulouse.prd.fr/biomaji/En ligne de commande :$ biomaj.sh statusou$ biomaj.sh SDétail d'une banque :$biomaj.sh status nomBanque<strong>SRS</strong> : <strong>recherche</strong> d'information dans <strong>les</strong> <strong>banques</strong>Site de web de la plateforme : <strong>SRS</strong> : http://bioinfo.genopole-toulouse.prd.fr/srs/La commande d'interrogation : getzSi la commande getz ne fonctionne pas initialiser votre environnement$ source /data/srs/srs/etc/prep_srs<strong>Obtenir</strong> l'aideLister <strong>les</strong> <strong>banques</strong>Informations <strong>sur</strong> une banqueSavoir si l'accession ipr000085 existeAffiche toutes <strong>les</strong> fiches d'arabidopsis$ getz help$ getz libs$ getz info INTERPRO$ getz '[interproacc:ipr000085]'$ getz e '[interproorg:"Arabidopsis*"]'Extraire la séquence fasta AC011625 $ getz '[GENBANKRELEASE:AC011625]' view FastaSeqs >AC011625.fastaPour avoir de nombreux exemp<strong>les</strong> aller : http://www.ebi.ac.uk/~srs/wiki/doku.php?id=gui<strong>des</strong>:srscommandlineLanguage d'interrogation :Recherche d'une valeur :[libName-fieldName:searchTerm]Recherche dans un intervalle[libName-fieldName#startVal:stopVal]Opérateur : ou |, et &, not !ex : [SWISSPROT<strong>des</strong>cription:protease]ex : [SWISSPROTSeqLength#7000:8000]ex : [SWISSPROT<strong>des</strong>:kinase*]&[SWISSPROT<strong>des</strong>:inhibit*]Pour avoir de nombreux exemp<strong>les</strong> aller : http://www.ebi.ac.uk/~srs/wiki/doku.php?id=gui<strong>des</strong>:srsquerylanguageBlast : alignement de séquencesSite de web de la plateforme : Blast : http://bioinfo.genopole-toulouse.prd.fr/apps/blast/blast.htmlEn ligne de commande :Liste <strong>des</strong> <strong>banques</strong> interrogeab<strong>les</strong> par blast$ ls /bank/blastdb/Séquence requête Banqueblastp Protéique Protéiqueblastn Nucléique NucléiqueblastxNucléique traduite en6 phasesProtéiquetblastn ProtéiqueNucléique traduite en 6phasestblastxNucléique traduite en Nucléique traduite en 66 phasesphasesLa syntaxe du blast : blastall p NomProgram i Sequence d Banque o ResultatEx: $blastall p blastx i ma_sequence.fasta d swissprot o ma_sequence.blastPlateforme bioinformatique Toulouse 1
Résumé <strong>des</strong> comman<strong>des</strong> de la formation F07bParamètres importants :W : taille <strong>des</strong> motse : E-value, nombre d'alignements attendus par hasard ayant un score supérieur au score obtenu dansla banque considérée. Dépend de la taille de la banque utilisée !m : format de sortie-m9 = tabulé avec entête <strong>des</strong> champs-m8 = tabulé sans entête <strong>des</strong> champsM : matrice de substitutionPAM (Percent Accepted Mutation)BLOSSUM (Blocks Substitution Matrix) BLOSUM62 est un bon point de départ (= PAM120)Création de sa propre banque de données :Banque nucléique :$ formatdb p F i mes_est.fastaBanque protéique :$ formatdb p T i mes_proteines.fastaUtilisation de la banque :$ blastall p blastn i AC011626.fasta d mes_est.fastaPBS : utilisation du clusterPBS permet de soumettre l'exécution de programme (jobs) <strong>sur</strong> le cluster. Ces jobs sont placer dans une file d'attente, selon<strong>les</strong> priorités et le temps d'exécution le jobs sera exécuté plus ou moins rapidement.Attention lorsque l'on va envoyer <strong>des</strong> jobs <strong>sur</strong> le cluster <strong>les</strong> noms de fichiers doivent être en absolu.Nom de la queue (*) Priorité Temps maximummacroq => atomicq01, atomicq02 40 2hworkq (défaut) 30 8hlongq 20 24hunlimitq 10 illimitéComman<strong>des</strong> généra<strong>les</strong> <strong>sur</strong> <strong>les</strong> queues : qstatqstat Q : affiche la listes <strong>des</strong> queuesqstat Qf queue_name : donne le détail d'une queueSoumission d'un job (ex blast ) : qsub– créer un fichier qui contient la commande blast avec <strong>les</strong> paramètres et <strong>les</strong> noms de fichier en absolus.– soumettre le job : qsub nom_fichier– récupérer vos résultats dans <strong>les</strong> fichiers :erreur : nom_fichier.eXXXXouptut : nom_fichier.oXXXXLes options de qsub :-N job_name pour donner un nom à son job-l walltime=1:00:00 pour dire à l'ordonnanceur que la durée du job ne dépassera pas 1 heure. Intéressant carl'ordonnanceur peut faire passer ce job en priorité.-q queue_name spécifier le nom de la queue-o output_filename redirection de la sortie standard-e error_filename redirection de la sortie d'erreur-M mon_adresse@mail si un problème <strong>sur</strong>vient pendant l'exécution, un mail est envoyé à cette adresseEx : $qsub q longq l walltime=00:15:00 mon_script.shPlateforme bioinformatique Toulouse 2
Résumé <strong>des</strong> comman<strong>des</strong> de la formation F07bToutes <strong>les</strong> options précédemment décrites peuvent être intégrées directement dans le script (fichier) soumis à PBS avec qsubCréer un fichier mon_script.sh et saisir :#!/bin/sh#PBS o /home/riri/testpbs/tmp/sortie_standard.txt#PBS e /home/riri/testpbs/tmp/sortie_erreur.txt#PBS l walltime=00:00:30#PBS q workq#PBS M riri@mon.mail# Mon programme commence icils#Fin de mon programmeLes lignes précédées d'un- « #PBS » : sont interprétées par l'ordonnanceur pbs- « # » : sont <strong>des</strong> lignes de commentaireUne ligne correspond à une commande.Un blast doit être <strong>sur</strong> la même ligne.Astuce : parfois nedit insère <strong>des</strong> retours à la ligne.Pour éviter cela aller dans le menu Preferences ->Default Settings -> Wrap -> NoneContrôle <strong>des</strong> jobs dans <strong>les</strong> queuesAide qstatjob de l'utilisateurman qstatjobs avec le status R (exécution) qstat rjobs qui n'ont pas le status R (exécution) qstat inom <strong>des</strong> noeuds du cluster alloués aux jobs en exécution qstat naffiche le résultat <strong>sur</strong> une ligne qstat 1Supprimer un jobqstat u nom_utilisateurqdel mon_job_id$qstatJob id Name User Time Use S Queue 740065.nodeadm2 STDIN mickey 295:27:4 R workq43311.nodeadm2 run_srs_refseqr donald 04:26:35 R srsq743381.nodeadm2 run_srs_genbank gontran 0 Q srsqDétail <strong>des</strong> colonnes :1. Job id : identifiant unique du job assigné par l'ordonnanceur2. Name : nom du job, la valeur par défaut est le nom du programme3. User : nom de l'utilisateur propriétaire du job4. Time use : le temps CPU utilisé5. S : l'état du job en abréviation :E : le job se termineH : le job est gelé, et doit être débloqué manuellementQ : le job est en attente d'exécution, il n'y a pas de ressource disponible pour l'exécuterR : le job est en cours d'exécutionB : c'est un Job Array en cours d'exécution6. Queue : nom de la queue <strong>sur</strong> laquelle le job est présentPlateforme bioinformatique Toulouse 3
Résumé <strong>des</strong> comman<strong>des</strong> de la formation F07bJobArrayPermet à partir d'un fichier contenant un ensemble de commande de lancer n job <strong>sur</strong> le cluster.Exécuter un Job Array : Jobarray.plComman<strong>des</strong> PBS spécifiques :liste uniquement <strong>les</strong> Job Array qstat Jliste la totalité <strong>des</strong> jobs et sous-jobs qstat tliste la totalité <strong>des</strong> jobs et pour <strong>les</strong> Job Array précise le pourcentagede sous-jobs déjà exécutéssupprime le Job Array de la queueqstat pqdel jobArray_id[]Les options à qstat sont cumulab<strong>les</strong>.Le status B indique que le Job Array a démarré.Les JobArray s'identifient et se différencient <strong>des</strong> jobs traditionnels par <strong>des</strong> crochets [][] : un double crochet vide indique le Job Array[n] : un double crochet avec un numéro indique l'un <strong>des</strong> sous-jobsLes résultats seront dans le répertoire outputAstuces pour créer un fichier contenant la liste <strong>des</strong> comman<strong>des</strong> :Créer un fichier qui contient la liste <strong>des</strong> comman<strong>des</strong> blast à lancer <strong>sur</strong> le cluster :Dans le terminal taper la commande suivante :[loulou@cat ~/]$ foreach a ( `ls /home/loulou/*.fasta` )foreach? echo "blastall e 0.0001 p blastx i $a d swissprot">>blast_listforeach? end[loulou@cat ~/]$Cette commande va ajouter <strong>des</strong> lignes dans le fichier blast_list, pour tous <strong>les</strong> fichiers fasta du repertoire /home/loulou/.Attention le ls est entre cote ` qui correspondent au chiffre 7 du clavier, cela permet l'exécution du ls.Autre solution :Créer un fichier nommer script_blast.sh contenant <strong>les</strong> lignes suivantes :#!/bin/shforeach a ( `ls /home/loulou/*.fasta` )echo "blastall e 0.0001 p blastx i $a d swissprot">>blast_listendDonner <strong>les</strong> droits d'exécution :$chmod +x script_blast.shPuis dans votre terminal exécuter le script:$./script_blast.shUn fois le script exécuté, vous aurez un fichier blast_list qui aura été créé.$Jobarray.pl file blast_listLes résultats seront créé dans le répertoire output.Concaténer tous vos résultats :$cat ./output/* > tous_mes_résultats.blastPlateforme bioinformatique Toulouse 4