Reacción en cadena de la polimerasa (PCR) - FBMC

Reacción en cadena de la polimerasa (PCR) - FBMC Reacción en cadena de la polimerasa (PCR) - FBMC

fbmc.fcen.uba.ar
from fbmc.fcen.uba.ar More from this publisher
13.05.2013 Views

2. Setear Analysis Protocol para este proyecto: a. General: Nombre Seq File Format: Write Standard Chromatogram Format File b. Basecalling: a. KB.bcp b. POP7.BDTv3.mob c. True Profile d. Ending base: After 1000bp e. Quality Threshold: Do not assign N’s to Basecalls. c. Mixed Bases: Desactivado d. Clear Range: Desactivado 3. Apply to all Samples Done 4. Indicar analisis de Base Calling (BC) 5. Revisar: Raw EPT Annotation: o Sample Name o Capillary o Bases detected o Average Signal Intensity o Simple Store ANALIZAR Sequence View: Barras de Calidad e Indice de Phred Electropherogram View: editar bases GUARDAR PROYECTO 2 Y 3: Cambiar seteo: Base calling: Quality Threshold: Assign N’s to Basecalls. Mixed Bases Clear Range Reanalizar los datos y discutir diferencias TP N o 3: Bioinformática: búsqueda de motivos y dominios proteicos Docentes: Paula Fernández, Guido König y Ana Distéfano Diseño: Paula Fernández- Ruth Heinz OBJETIVOS: Familiarizarse con el uso de programas de alineamiento múltiple de secuencias, sus bondades y limitaciones en la identificación de regiones consenso. Entrenarse en la búsqueda e identificación de motivos proteicos utilizando bases de datos públicas de motivos y perfiles. Entrenarse en sistemas de búsquedas integrales de bases de datos INTRODUCCION Genes de resistencia especifica en plantas Los genes de resistencia específica (R) en plantas, involucrados en la respuesta de tipo gen-por-gen, han sido identificados en numerosas especies vegetales (Dangl y Jones 2001) y codifican proteínas que presentan dominios comunes. La mayoría de las proteínas R caracterizadas hasta el momento presentan dos dominios característicos: uno de unión a nucleótidos (NBS) en posición N terminal y un dominio rico en leucinas (LLR) en el extremo C terminal. Pero estas proteínas R presentan variantes que permiten clasificarlas en dos grandes subgrupos: uno con un domino N terminal con similitud al domino Toll/interlekin-1 receptor (TIR) y uno que carece de este domino (No TIR) en el N terminal, presentando usualmente un dominio Coiled-coil (CC). A su vez estos dominios presentan distintos motivos, algunos compartidos por ambos subgrupos y otros característicos de los TIR o No TIR. Por ejemplo el dominio NBS presenta diferentes motivos, algunos de ellos han sido caracterizados por similitud a motivos descriptos en otras proteínas: P loop, kinase 2, RNBS-B, GLPL, MHDV (Meyers y col. 2003). En la especie modelo Arabidopsis thaliana, se han identificado 150 secuencias génicas que codifican dominios característicos de las proteínas R, tanto de tipo TIR como No TIR Meyers y col. 2003). La Figura 1 muestra un esquema de la estructura génica de genes R de esta especie, correspondiente a los dos subgrupos. En ella están representados los dominios y motivos proteicos codificados por estas secuencias. Figura 1 (adaptada de Meyers et al 2003). Organización génica de genes R y motivos proteicos codificados por ellos en Arabidopsis. A: genes de tipo TIR, B: genes de tipo No TIR o CC El cuadro lateralr muestra las referencias de representación de dominios y motivos codificados por los distintos genes. La tercer columna (# in Col-0) indica cuantos miembros de cada secuencia génica han sido identificados en un cultivar de esta especie y la cuarta columna indica el numero de identificación de la secuencia en bases de datos. En los casos de genes de función confirmada, se indica el nombre del mismo. Página 8 de 40

Identificación y caracterización bioinformática de secuencias desconocidas Alineamiento múltiple Una de las maneras más frecuentes de obtener información sobre una secuencia o un grupo de secuencias incógnitas, es mediante la búsqueda comparativa utilizando la información depositada en distintas bases de datos. La búsqueda comparativa puede realizarse comparando secuencias de a pares o comparando secuencias múltiples. El alineamiento múltiple de secuencias juega un papel importante a partir de la necesidad de procesamiento de la información proveniente de los proyectos genómicos de secuenciación masiva. Tanto la anotación funcional de dichas secuencias como las herramientas de análisis dependen de alineamientos múltiples adecuados. El análisis de familias proteicas, la identificación de dominios y motivos, la predicción de su estructura secundaria, la estimación de los diferentes tipos de plegamientos así como la detección de homólogos entre especies distantes como pasos intermedios en la construcción de árboles filogenéticos, se han constituido en principales objetivos de este tipo de alineamiento. El alineamiento múltiple de secuencias puede ser visto como una generalización del alineamiento de pares de secuencias, donde la complejidad de esta aproximación crece exponencialmente con el número de secuencias que intervienen. El alineamiento múltiple puede dividirse en dos categorías principales: aquellos métodos de alineamiento de secuencias en toda su extensión (globales) y aquellos métodos que alinean regiones con alta similitud (locales). Tradicionalmente, se ha focalizado en los métodos globales, que son aplicables a casos en los que las secuencias comparadas tienen extensiones similares. Sin embargo más recientemente se ha puesto mayor interés en los métodos de alineamiento múltiple local para el alineamientos de secuencias derivadas de proyectos geonómicos que sólo alinean secuencias parcialmente (Paniego y col. 2004). En los métodos de alineamiento global, la solución clásica se basa en la formación de agrupamientos (“clusters”) de secuencias, los cuales se resuelven progresivamente. Para ello, dada una medida de similitud entre dos secuencias, se elige aquel par correspondiente al valor más alto y se alinean y agrupan entre sí para formar un único grupo o cluster de secuencias. A partir de este momento este cluster será tratado como una sola secuencia, y el proceso se repetirá hasta tener un solo cluster con todas las secuencias que intervenían en el alineamiento múltiple. El programa más difundido de este tipo es el CLUSTALW en su última versión (Thompson y col.994). La calidad de los alineamientos es aceptable, y permite alinear algunos pocos cientos de secuencias. En contraste, los algoritmos de comparación múltiple local, alinean segmentos completos en vez de residuos simples, como el DIALIGN (Morgenstern B 1999). Otros Página 9 de 40

2. Setear Analysis Protocol para este proyecto:<br />

a. G<strong>en</strong>eral:<br />

Nombre<br />

Seq File Format: Write Standard Chromatogram Format File<br />

b. Basecalling:<br />

a. KB.bcp<br />

b. POP7.BDTv3.mob<br />

c. True Profile<br />

d. Ending base: After 1000bp<br />

e. Quality Threshold: Do not assign N’s to Basecalls.<br />

c. Mixed Bases: Desactivado<br />

d. Clear Range: Desactivado<br />

3. Apply to all Samples Done<br />

4. Indicar analisis <strong>de</strong> Base Calling (BC)<br />

5. Revisar:<br />

Raw<br />

EPT<br />

Annotation:<br />

o Sample Name<br />

o Capil<strong>la</strong>ry<br />

o Bases <strong>de</strong>tected<br />

o Average Signal Int<strong>en</strong>sity<br />

o Simple Store<br />

ANALIZAR<br />

Sequ<strong>en</strong>ce View: Barras <strong>de</strong> Calidad e Indice <strong>de</strong> Phred<br />

Electropherogram View: editar bases<br />

GUARDAR<br />

PROYECTO 2 Y 3:<br />

Cambiar seteo:<br />

Base calling: Quality Threshold: Assign N’s to Basecalls.<br />

Mixed Bases<br />

Clear Range<br />

<br />

Reanalizar los datos y discutir difer<strong>en</strong>cias<br />

TP N o 3: Bioinformática: búsqueda <strong>de</strong> motivos y dominios proteicos<br />

Doc<strong>en</strong>tes: Pau<strong>la</strong> Fernán<strong>de</strong>z, Guido König y Ana Distéfano Diseño: Pau<strong>la</strong> Fernán<strong>de</strong>z- Ruth Heinz<br />

OBJETIVOS:<br />

Familiarizarse con el uso <strong>de</strong> programas <strong>de</strong> alineami<strong>en</strong>to múltiple <strong>de</strong> secu<strong>en</strong>cias, sus bonda<strong>de</strong>s y limitaciones <strong>en</strong> <strong>la</strong> id<strong>en</strong>tificación<br />

<strong>de</strong> regiones cons<strong>en</strong>so.<br />

Entr<strong>en</strong>arse <strong>en</strong> <strong>la</strong> búsqueda e id<strong>en</strong>tificación <strong>de</strong> motivos proteicos utilizando bases <strong>de</strong> datos públicas <strong>de</strong> motivos y perfiles.<br />

Entr<strong>en</strong>arse <strong>en</strong> sistemas <strong>de</strong> búsquedas integrales <strong>de</strong> bases <strong>de</strong> datos<br />

INTRODUCCION<br />

G<strong>en</strong>es <strong>de</strong> resist<strong>en</strong>cia especifica <strong>en</strong> p<strong>la</strong>ntas<br />

Los g<strong>en</strong>es <strong>de</strong> resist<strong>en</strong>cia específica (R) <strong>en</strong> p<strong>la</strong>ntas, involucrados <strong>en</strong> <strong>la</strong> respuesta <strong>de</strong> tipo g<strong>en</strong>-por-g<strong>en</strong>, han sido id<strong>en</strong>tificados<br />

<strong>en</strong> numerosas especies vegetales (Dangl y Jones 2001) y codifican proteínas que pres<strong>en</strong>tan dominios comunes. La mayoría<br />

<strong>de</strong> <strong>la</strong>s proteínas R caracterizadas hasta el mom<strong>en</strong>to pres<strong>en</strong>tan dos dominios característicos: uno <strong>de</strong> unión a nucleótidos<br />

(NBS) <strong>en</strong> posición N terminal y un dominio rico <strong>en</strong> leucinas (LLR) <strong>en</strong> el extremo C terminal. Pero estas proteínas R pres<strong>en</strong>tan<br />

variantes que permit<strong>en</strong> c<strong>la</strong>sificar<strong>la</strong>s <strong>en</strong> dos gran<strong>de</strong>s subgrupos: uno con un domino N terminal con similitud al domino<br />

Toll/interlekin-1 receptor (TIR) y uno que carece <strong>de</strong> este domino (No TIR) <strong>en</strong> el N terminal, pres<strong>en</strong>tando usualm<strong>en</strong>te un<br />

dominio Coiled-coil (CC). A su vez estos dominios pres<strong>en</strong>tan distintos motivos, algunos compartidos por ambos subgrupos<br />

y otros característicos <strong>de</strong> los TIR o No TIR. Por ejemplo el dominio NBS pres<strong>en</strong>ta difer<strong>en</strong>tes motivos, algunos <strong>de</strong> ellos han<br />

sido caracterizados por similitud a motivos <strong>de</strong>scriptos <strong>en</strong> otras proteínas: P loop, kinase 2, RNBS-B, GLPL, MHDV (Meyers<br />

y col. 2003).<br />

En <strong>la</strong> especie mo<strong>de</strong>lo Arabidopsis thaliana, se han id<strong>en</strong>tificado 150 secu<strong>en</strong>cias génicas que codifican dominios característicos<br />

<strong>de</strong> <strong>la</strong>s proteínas R, tanto <strong>de</strong> tipo TIR como No TIR Meyers y col. 2003). La Figura 1 muestra un esquema <strong>de</strong> <strong>la</strong> estructura<br />

génica <strong>de</strong> g<strong>en</strong>es R <strong>de</strong> esta especie, correspondi<strong>en</strong>te a los dos subgrupos. En el<strong>la</strong> están repres<strong>en</strong>tados los dominios y<br />

motivos proteicos codificados por estas secu<strong>en</strong>cias.<br />

Figura 1 (adaptada <strong>de</strong> Meyers et al 2003). Organización génica <strong>de</strong> g<strong>en</strong>es R y motivos proteicos codificados por ellos <strong>en</strong> Arabidopsis.<br />

A: g<strong>en</strong>es <strong>de</strong> tipo TIR, B: g<strong>en</strong>es <strong>de</strong> tipo No TIR o CC<br />

El cuadro <strong>la</strong>teralr muestra <strong>la</strong>s refer<strong>en</strong>cias <strong>de</strong> repres<strong>en</strong>tación<br />

<strong>de</strong> dominios y motivos codificados por los distintos<br />

g<strong>en</strong>es. La tercer columna (# in Col-0) indica cuantos<br />

miembros <strong>de</strong> cada secu<strong>en</strong>cia génica han sido id<strong>en</strong>tificados<br />

<strong>en</strong> un cultivar <strong>de</strong> esta especie y <strong>la</strong> cuarta columna<br />

indica el numero <strong>de</strong> id<strong>en</strong>tificación <strong>de</strong> <strong>la</strong> secu<strong>en</strong>cia <strong>en</strong><br />

bases <strong>de</strong> datos. En los casos <strong>de</strong> g<strong>en</strong>es <strong>de</strong> función confirmada, se indica el nombre <strong>de</strong>l mismo.<br />

Página 8 <strong>de</strong> 40

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!