Reacción en cadena de la polimerasa (PCR) - FBMC

Reacción en cadena de la polimerasa (PCR) - FBMC Reacción en cadena de la polimerasa (PCR) - FBMC

fbmc.fcen.uba.ar
from fbmc.fcen.uba.ar More from this publisher
13.05.2013 Views

programas como el T-Coffee (Notredame y col. 2000) combinan alineamientos múltiples globales y locales, realizando primero una comparación de a pares global utilizando el algoritmo CLUSTAL W y luego una comparación local utilizando FASTA. Mas recientemente se desarrollaron programas como el COBALT (Papadopoulos y Agarwala 2007) que realizan una comparación basada en dominios conservados en una primera etapa y un alineamiento múltiple, en una segunda etapa. Bases de dominios y motivos proteicos Aparte de las bases generales de datos de secuencias nucleotidicas y proteicas accesibles a través de distintos portales bioinformáticos (por ejemplo NCBI, EBI, DDBJ) y de bases especificas por organismos, existe otro conjunto de bases de datos denominadas secundarias porque derivan de las bases de datos generales, entre ellas las bases de motivos estructurales y funcionales. Estas bases de datos introducen el concepto de patrones y perfiles de secuencias. Los patrones definen secuencias cortas de amino ácidos conservados que corresponden a sitios activos, sitios de unión, etc. Al ser regiones acotadas, no dan cuenta del resto de la secuencia adyacente y son muy poco sensibles al momento de encontrar secuencias relacionadas que presenten una divergencia mínima en la región definida por el patrón. Los perfiles compensan esta debilidad, dado que cubren áreas más largas de la secuencia a través de la representación numérica de los posiciones conservadas en un alineamiento múltiple. En otras palabras, los perfiles representan las posiciones comunes y características de aminoácidos de una colección particular de secuencias, frecuentemente de una familia de proteínas. Usando perfiles es posible encontrar miembros muy divergentes de familias de proteínas que presenten muy baja identidad de secuencia (Mudler y Apweiler 2001) Dentro de este grupo de bases de datos que proveen información para la búsqueda de secuencias con similitud remota utilizadas para la predicción de función se incluyen Prosite, PRINT-S, Pfam, SMART , TIGRfam y Blocks, entre otras. Existen asimismo programas que permiten identificar motivos conservados para un conjunto de secuencias proteicas. Un ejemplo es el programa MEME (http://meme.nbcr.net/meme4/cgibin/meme.cgi) Buscadores de bases integradas El buscador Entrez del portal NCBI (http://www.ncbi.nlm.nih.gov/sites/ ) permite realizar búsquedas avanzadas ya que incorpora relaciones lógicas o nexos entre las entradas individuales de datos en distintas bases de datos públicas. De esta forma es posible relacionar información de secuencias nucelotidicas, proteicas, genómicas, alineamientos de a pares y múltiples, localización génica, variantes alélicas, dominios, motivos conservados, secuencias homologas, expresión génica, estructura proteica, etc. DESARROLLO DEL TRABAJO PRÁCTICO Los alumnos trabajarán en grupos de dos o tres personas y cada grupo dispondrá de una computadora con conexión a INTERNET. Los alumnos analizarán 6 secuencias proteicas correspondientes a genes de resistencia (R) a patógenos, tres del grupo TIR y 3 del grupo No TIR o CC, aislados de A. thaliana y una secuencia proteica deducida de la misma especie con similitud a proteínas R. Las secuencias están disponibles en la carpeta de la materia, en el TP de alineamiento múltiple. Las mismas están organizadas en tres archivos de texto en formato FASTA, con los nombres: Secuencias Grupo A (No TIR o CC) Secuencias Grupo B (TIR) Secuencia incógnita Alineamiento múltiple y búsqueda de motivos conservados a. Realizar el alineamiento múltiple de todas las secuencias utilizando el programa CLUSTAL W (http://www.ebi.ac.uk/Tools/clustalw2/index.html) b. Analizar la similitud entre las secuencias evaluadas, en base a las identidad y similitud de aminoácidos conservados Figura 2 (adaptada de Meyers et al 2003) Lista de motivos conservados identificados utilizando el programa MEME, para cada dominio de proteínas R analizadas para Arabidopsis. c. Identificar motivos conservados entre todas las secuencias analizas, resaltando los mismos con distintos colores d. Identificar con que secuencias, la secuencia incógnita, presenta mayor similitud Página 10 de 40

e. Comparar los motivos conservados identificados, con los motivos listados en la Figura 2, correspondientes a un análisis basado en la comparación de secuencias proteicas de proteínas R f. Realizar ahora los alineamientos múltiples utilizando el programa CLUSTAL para los grupo A y B por separados, incluyendo la secuencia incógnita en el grupo para el cual presentó mayor similitud g. Realizar la búsqueda de motivos conservados utilizando el programa MEME http://meme.nbcr.net/meme4/cgibin/meme.cgi para todas las secuencias juntas y para los dos grupos A y B en forma separada. Cuestionario: 1. A que grupo de proteínas R pertenece la secuencia incógnita? 2. Que diferencias observa entre el análisis múltiple realizado para todas las secuencias y el análisis múltiple realizado por grupo de secuencias. A que atribuiría esta diferencias? 3. Pudo identificar todos los motivos conservados listados en la Figura 2 4. Cuantos motivos conservados pudo identificar utilizando el programa MEME para todas las secuencias?.Y para el análisis de los dos grupos individuales? 5. Identificó los mismos motivos utilizando exprograma MEME y el alineamiento múltiple? Identificación de dominios funcionales en la secuencia proteica incógnita Para la determinación de la presencia de dominios proteicos en la secuencia incógnita, comparar la misma contra la base de datos de proteínas Pfam http://pfam.sanger.ac.uk/search, integrada por familias proteicas derivadas de alineamiento mutile. Se determinara presencia y número de dominios funcionales en la secuencia incógnita Cuestionario 6. Cuantos dominios integran la proteína incógnita? 7. Coincide esta información con la deducción que Ud. realizó en base al alineamiento múltiple? Exploración del portal NCBI utilizando el buscador Entrez Utilizando el sitio de inicio del buscador (http://www.ncbi.nlm.nih.gov/sites/ ) explore la infracción disponible para la secuencia incógnita a. Entre el número de acceso de la secuencia incógnita (at5g66900) en la búsqueda de bases integrada (entrez crossdata base search) b. Entre en la base protein y seleccione la secuencia correspondiente c. Explore la información desplegada para esa secuencias d. Identifique conecciones o links a otras bases de datos como X ref, TAIR, UniGene, ArrayExpress, InterPro, términos GO asociados, conserved domains, genes e. Explore que información brindan esas bases f. Regrese a la pagina original (entrez cross-data base search) y entre en la base Genome. Seleccione la secuencia disponible y explore la herramienta map view que se despliega. g. Identifique en que cromosoma está localizado el gen que codifica a la proteína incógnita. Explore las conexiones a las que puede acceder desde este sitio, especialmente TIGR, TAIR, SIGnsl, hm h. Regrese a la pagina original (entrez cross-data base search) y explore la base GEO. i. Entre ahora al programa COBALT accesible a través del sitio BLAST de NCBI http://www.ncbi.nlm.nih.gov/ tools/cobalt/cobalt.cgi?link_loc=BlastHomeAd, y explore esta herramienta de alineamiento múltiple, comparándola con los alineamientos que realizara con el programa CLUSTAL W Cuestionario 8. Compare la información obtenida de la exploración de bases de datos interconectas con la información obtenida previamente. Que información adicional obtuvo? 9. Respecto al análisis múltiple utilizando el programa CLUSTAL W y el programa COBALT, les brindan ambos la misma información? Al final del práctico se discutirá en forma conjunta los resultados, interpretación, limitaciones y posibles aplicaciones de las estrategias bioinformáticas utilizadas. Referencias bibliográficas Corpet F 1988 Multiple sequence alignments with hierarchical clustering.Nucleic Acids Res. 16:10881-10890 Dangl, J.L., and Jones, J.D. 2001. Plant pathogens and integrated defence responses to infection. Nature 411, 826–833. Morgenstern B 1999 DIALIGN 2: improvement of the segment-to-segment approach to multiple sequence alignment Bioinformatics 15: 211-218. Meyers B, Kozik A, Griego A, Kuang H. Michelmore R. 2003. Genome-wide análisis of NBS-LRR-encoding genes in Arabidopsis. The Plant Cell: 15, 809-834 Mudler NJ, y Apweiler R 2001. Tools and resources for identifying protein families, domains and motifs. Genome Biology 3: 2001.1-2001-8 Notredame C, Higgins D, y Jeringa J 2000. T-Coffee: a novel method for fastand accurate multiple sequence alignment. J. Mol. Biol. 302: 205-217 Corpet F 1988 Multiple sequence alignments with hierarchical clustering.Nucleic Acids Res. 16:10881-10890 Página 11 de 40

e. Comparar los motivos conservados id<strong>en</strong>tificados, con los motivos listados <strong>en</strong> <strong>la</strong> Figura 2, correspondi<strong>en</strong>tes a un<br />

análisis basado <strong>en</strong> <strong>la</strong> comparación <strong>de</strong> secu<strong>en</strong>cias proteicas <strong>de</strong> proteínas R<br />

f. Realizar ahora los alineami<strong>en</strong>tos múltiples utilizando el programa CLUSTAL para los grupo A y B por separados,<br />

incluy<strong>en</strong>do <strong>la</strong> secu<strong>en</strong>cia incógnita <strong>en</strong> el grupo para el cual pres<strong>en</strong>tó mayor similitud<br />

g. Realizar <strong>la</strong> búsqueda <strong>de</strong> motivos conservados utilizando el programa MEME http://meme.nbcr.net/meme4/cgibin/meme.cgi<br />

para todas <strong>la</strong>s secu<strong>en</strong>cias juntas y para los dos grupos A y B <strong>en</strong> forma separada.<br />

Cuestionario:<br />

1. A que grupo <strong>de</strong> proteínas R pert<strong>en</strong>ece <strong>la</strong> secu<strong>en</strong>cia incógnita?<br />

2. Que difer<strong>en</strong>cias observa <strong>en</strong>tre el análisis múltiple realizado para todas <strong>la</strong>s secu<strong>en</strong>cias y el análisis múltiple realizado<br />

por grupo <strong>de</strong> secu<strong>en</strong>cias. A que atribuiría esta difer<strong>en</strong>cias?<br />

3. Pudo id<strong>en</strong>tificar todos los motivos conservados listados <strong>en</strong> <strong>la</strong> Figura 2<br />

4. Cuantos motivos conservados pudo id<strong>en</strong>tificar utilizando el programa MEME para todas <strong>la</strong>s secu<strong>en</strong>cias?.Y para el<br />

análisis <strong>de</strong> los dos grupos individuales?<br />

5. Id<strong>en</strong>tificó los mismos motivos utilizando exprograma MEME y el alineami<strong>en</strong>to múltiple?<br />

Id<strong>en</strong>tificación <strong>de</strong> dominios funcionales <strong>en</strong> <strong>la</strong> secu<strong>en</strong>cia proteica incógnita<br />

Para <strong>la</strong> <strong>de</strong>terminación <strong>de</strong> <strong>la</strong> pres<strong>en</strong>cia <strong>de</strong> dominios proteicos <strong>en</strong> <strong>la</strong> secu<strong>en</strong>cia incógnita, comparar <strong>la</strong> misma contra <strong>la</strong><br />

base <strong>de</strong> datos <strong>de</strong> proteínas Pfam http://pfam.sanger.ac.uk/search, integrada por familias proteicas <strong>de</strong>rivadas <strong>de</strong> alineami<strong>en</strong>to<br />

mutile. Se <strong>de</strong>terminara pres<strong>en</strong>cia y número <strong>de</strong> dominios funcionales <strong>en</strong> <strong>la</strong> secu<strong>en</strong>cia incógnita<br />

Cuestionario<br />

6. Cuantos dominios integran <strong>la</strong> proteína incógnita?<br />

7. Coinci<strong>de</strong> esta información con <strong>la</strong> <strong>de</strong>ducción que Ud. realizó <strong>en</strong> base al alineami<strong>en</strong>to múltiple?<br />

Exploración <strong>de</strong>l portal NCBI utilizando el buscador Entrez<br />

Utilizando el sitio <strong>de</strong> inicio <strong>de</strong>l buscador (http://www.ncbi.nlm.nih.gov/sites/ ) explore <strong>la</strong> infracción disponible para <strong>la</strong><br />

secu<strong>en</strong>cia incógnita<br />

a. Entre el número <strong>de</strong> acceso <strong>de</strong> <strong>la</strong> secu<strong>en</strong>cia incógnita (at5g66900) <strong>en</strong> <strong>la</strong> búsqueda <strong>de</strong> bases integrada (<strong>en</strong>trez crossdata<br />

base search)<br />

b. Entre <strong>en</strong> <strong>la</strong> base protein y seleccione <strong>la</strong> secu<strong>en</strong>cia correspondi<strong>en</strong>te<br />

c. Explore <strong>la</strong> información <strong>de</strong>splegada para esa secu<strong>en</strong>cias<br />

d. Id<strong>en</strong>tifique conecciones o links a otras bases <strong>de</strong> datos como X ref, TAIR, UniG<strong>en</strong>e, ArrayExpress, InterPro, términos<br />

GO asociados, conserved domains, g<strong>en</strong>es<br />

e. Explore que información brindan esas bases<br />

f. Regrese a <strong>la</strong> pagina original (<strong>en</strong>trez cross-data base search) y <strong>en</strong>tre <strong>en</strong> <strong>la</strong> base G<strong>en</strong>ome. Seleccione <strong>la</strong> secu<strong>en</strong>cia<br />

disponible y explore <strong>la</strong> herrami<strong>en</strong>ta map view<br />

que se <strong>de</strong>spliega.<br />

g. Id<strong>en</strong>tifique <strong>en</strong> que cromosoma está localizado el g<strong>en</strong> que codifica a <strong>la</strong> proteína incógnita. Explore <strong>la</strong>s conexiones<br />

a <strong>la</strong>s que pue<strong>de</strong> acce<strong>de</strong>r <strong>de</strong>s<strong>de</strong> este sitio, especialm<strong>en</strong>te TIGR, TAIR, SIGnsl, hm<br />

h. Regrese a <strong>la</strong> pagina original (<strong>en</strong>trez cross-data base search) y explore <strong>la</strong> base GEO.<br />

i. Entre ahora al programa COBALT accesible a través <strong>de</strong>l sitio BLAST <strong>de</strong> NCBI http://www.ncbi.nlm.nih.gov/<br />

tools/cobalt/cobalt.cgi?link_loc=B<strong>la</strong>stHomeAd, y explore esta herrami<strong>en</strong>ta <strong>de</strong> alineami<strong>en</strong>to múltiple, comparándo<strong>la</strong><br />

con los alineami<strong>en</strong>tos que realizara con el programa CLUSTAL W<br />

Cuestionario<br />

8. Compare <strong>la</strong> información obt<strong>en</strong>ida <strong>de</strong> <strong>la</strong> exploración <strong>de</strong> bases <strong>de</strong> datos interconectas con <strong>la</strong> información obt<strong>en</strong>ida<br />

previam<strong>en</strong>te. Que información adicional obtuvo?<br />

9. Respecto al análisis múltiple utilizando el programa CLUSTAL W y el programa COBALT, les brindan ambos <strong>la</strong><br />

misma información?<br />

Al final <strong>de</strong>l práctico se discutirá <strong>en</strong> forma conjunta los resultados, interpretación, limitaciones y posibles aplicaciones<br />

<strong>de</strong> <strong>la</strong>s estrategias bioinformáticas utilizadas.<br />

Refer<strong>en</strong>cias bibliográficas<br />

Corpet F 1988 Multiple sequ<strong>en</strong>ce alignm<strong>en</strong>ts with hierarchical clustering.Nucleic Acids Res. 16:10881-10890<br />

Dangl, J.L., and Jones, J.D. 2001. P<strong>la</strong>nt pathog<strong>en</strong>s and integrated <strong>de</strong>f<strong>en</strong>ce responses to infection. Nature 411, 826–833.<br />

Morg<strong>en</strong>stern B 1999 DIALIGN 2: improvem<strong>en</strong>t of the segm<strong>en</strong>t-to-segm<strong>en</strong>t approach to multiple sequ<strong>en</strong>ce alignm<strong>en</strong>t Bioinformatics<br />

15: 211-218.<br />

Meyers B, Kozik A, Griego A, Kuang H. Michelmore R. 2003. G<strong>en</strong>ome-wi<strong>de</strong> análisis of NBS-LRR-<strong>en</strong>coding g<strong>en</strong>es in Arabidopsis.<br />

The P<strong>la</strong>nt Cell: 15, 809-834<br />

Mudler NJ, y Apweiler R 2001. Tools and resources for id<strong>en</strong>tifying protein families, domains and motifs. G<strong>en</strong>ome Biology 3:<br />

2001.1-2001-8<br />

Notredame C, Higgins D, y Jeringa J 2000. T-Coffee: a novel method for fastand accurate multiple sequ<strong>en</strong>ce alignm<strong>en</strong>t. J. Mol.<br />

Biol. 302: 205-217<br />

Corpet F 1988 Multiple sequ<strong>en</strong>ce alignm<strong>en</strong>ts with hierarchical clustering.Nucleic Acids Res. 16:10881-10890<br />

Página 11 <strong>de</strong> 40

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!