12.07.2015 Views

Tema 2: Alineamientos pareados y búsqueda de ... - CCG-UNAM

Tema 2: Alineamientos pareados y búsqueda de ... - CCG-UNAM

Tema 2: Alineamientos pareados y búsqueda de ... - CCG-UNAM

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Tema</strong> 2: <strong>Alineamientos</strong> <strong>pareados</strong> y búsqueda <strong>de</strong>homólogos en bases <strong>de</strong> datos mediante BLASTCurso fundamenteal <strong>de</strong> Inferencia Filogenética MolecularPablo Vinuesa (vinuesa@ccg.unam.mx)Progama <strong>de</strong> Ingeniería Genómica, <strong>CCG</strong>, <strong>UNAM</strong>http://www.ccg.unam.mx/~vinuesa/Tutor: PDCBM, Ciencias Biológicas, PDCBioq. yProfesor <strong>de</strong> la Lic. Ciencias Genómicas y posgrado• <strong>Tema</strong> 2: alineamientos <strong>pareados</strong> y búsqueda <strong>de</strong> homólogos enbases <strong>de</strong> datos• evolución <strong>de</strong> secuencias y clasificación <strong>de</strong> mutaciones• in<strong>de</strong>les y gaps• alineamientos globales (Needleman-Wunsch) vs. locales (Smith-Waterman);• matrices <strong>de</strong> costo <strong>de</strong> sustitución, penalización <strong>de</strong> gaps y cuantificación <strong>de</strong> la similitud;• evaluación estadística <strong>de</strong> la similitud entre pares <strong>de</strong> secuencias;• escrutinio <strong>de</strong> bases <strong>de</strong> datos mediante BLAST; Búsquedas a nivel <strong>de</strong> DNA vs. AA;•la familia BLAST e interpretación <strong>de</strong> resultados <strong>de</strong> búsqueda <strong>de</strong> secuencias homólogas• prácticas: uso <strong>de</strong> NCBI BLAST en línea<strong>Tema</strong> 2:alineamientos<strong>pareados</strong>, búsquedas<strong>de</strong> homólogos enbases <strong>de</strong> datosCurso Fundamental <strong>de</strong> Inferencia FilogenéticaMolecular. Junio 2007, Cuernavaca Mor. México,http://www.ccg.unam.mx/~vinuesa/Cursos2RMBFProtocolo básico para un análisis filogenético <strong>de</strong>secuencias molecularesColección <strong>de</strong> secuencias homólogas• BLAST y FASTAAlineamiento múltiple <strong>de</strong> secuencias• Clustal, T-Coffee, muscle...Análisis evolutivo <strong>de</strong>l alineamiento y selección <strong>de</strong>l mo<strong>de</strong>lo <strong>de</strong> sustitución más ajustadoEstima filogenética• tests <strong>de</strong> saturación, mo<strong>de</strong>ltest, ...• NJ, ME, MP, ML, Bayes ...Pruebas <strong>de</strong> confiabilidad <strong>de</strong> la topología inferida• proporciones <strong>de</strong> bootstrapprobabilidad posterior ...Interpretación evolutiva y aplicación <strong>de</strong> las filogenias<strong>Alineamientos</strong> <strong>pareados</strong> y búsqueda <strong>de</strong> homólogos en bases <strong>de</strong> datosLos alineamientos <strong>pareados</strong> son la base <strong>de</strong> lo métodos <strong>de</strong> búqueda <strong>de</strong>secuencias homólogas en bases <strong>de</strong> datos• Si dos proteínas o genes se parecen mucho a lo largo <strong>de</strong> toda su longitud asumimosque se trata <strong>de</strong> proteínas o genes homólogos, es <strong>de</strong>cir, <strong>de</strong>scendientes <strong>de</strong> un mismoancestro común (cenancestro).• Por ello una <strong>de</strong> las técnicas más utilizadas para <strong>de</strong>tectar potenciales homólogos enbases <strong>de</strong> datos <strong>de</strong> secuencias se basa en la cuantificación <strong>de</strong> la similitud entre pares<strong>de</strong> secuencias y la <strong>de</strong>terminación <strong>de</strong> la significancia estadística <strong>de</strong> dicho parecido.Estas magnitu<strong>de</strong>s son las que reportan los estadísticos <strong>de</strong> BLAST.Homología entre secuencias <strong>de</strong> DNA y proteína:conceptos y terminología básica• A lo largo <strong>de</strong> la evolución las secuencias <strong>de</strong>scendientes <strong>de</strong> otra ancestral van acumulandodiversos tipos <strong>de</strong> mutaciones. Estas son mutaciones puntuales o reorganizaciones genómicas,que pue<strong>de</strong>n involucrar inserciones, <strong>de</strong>leciones, inversiones, translocaciones o duplicaciones,mediados por distintos mecanismos <strong>de</strong> recombinación (homóloga e ilegítima)• Cualquier análisis filogenético y/o evolutivo <strong>de</strong> secuencias moleculares require <strong>de</strong> un alineamientopara po<strong>de</strong>r comparar sitios homólogos entre las secuencias a estudiar. Para ello seescriben las secuencias en filas una sobre la otra, <strong>de</strong> modo que los sitios homólogos quedanalineados por columnas. Cada sitio o columna <strong>de</strong>l alineamiento correspon<strong>de</strong> a un caracter,y los nt o aa que ocupan dichas posiciones representan los distintos estados <strong>de</strong>l caracter3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3(... truncado)© Pablo Vinuesa 2007, vinuesa@ccg.unam.mx;http://www.ccg.unam.mx/~vinuesa/ 1


<strong>Tema</strong> 2: <strong>Alineamientos</strong> <strong>pareados</strong> y búsqueda <strong>de</strong>homólogos en bases <strong>de</strong> datos mediante BLASTCurso Fundamental <strong>de</strong> Inferencia FilogenéticaMolecular. Junio 2007, Cuernavaca Mor. México,http://www.ccg.unam.mx/~vinuesa/Cursos2RMBFHomología entre secuencias <strong>de</strong> DNA y proteína:conceptos y terminología básica• Cuando por eventos <strong>de</strong> inserción o <strong>de</strong>leción (in<strong>de</strong>les) las secuencias homólogas presentandistintas longitu<strong>de</strong>s, es necesario introducir “gaps” en el alineamiento para mantener lacorrespon<strong>de</strong>ncia entre sitios homólogos situados antes y <strong>de</strong>spués <strong>de</strong> las regiones afectadaspor in<strong>de</strong>les. Estas regiones se i<strong>de</strong>ntifican mediante guiones (-). Los in<strong>de</strong>les no se distribuyenaleatoriamente en las secuencias codificadoras. Casi siempre aparecen ubicadosentre dominios funcionales o estructurales, preferentemente en bucles (loops) que conectana dichos dominios. Esto vale tanto para RNAs estructurales (tRNAs y rRNAs) comopara proteínas. No suelen interrumpir el marco <strong>de</strong> lectura.• A mayor distancia genética (evolutiva) entre un par <strong>de</strong> secuencias, mayor será el número <strong>de</strong>mutaciones acumuladas. Dependiendo <strong>de</strong>l tiempo <strong>de</strong> separación <strong>de</strong> los linajes y la tasaevolutiva <strong>de</strong>l locus, pue<strong>de</strong> llegar a ser imposible alinear ciertas regiones <strong>de</strong>bido a fenómenos<strong>de</strong> saturación mutacional. Las regiones <strong>de</strong> homología dudosa <strong>de</strong>ben <strong>de</strong> ser excluídas <strong>de</strong> unanálisis filogenéticoHomología entre secuencias <strong>de</strong> DNA y proteína:tipos <strong>de</strong> mutaciones en secs. codificadoras <strong>de</strong> proteínassecuenciaancestralsecuencias<strong>de</strong>rivadas(evolucionadas)pos. codón 123codones ATG TGT TTT GAT GCAAA M C F D Aespecie A* *ATG TAT TTT CAT GCAM T F H Anosinónimaespecie Cespecie B* *ATG ---TTC GAC GCAM F D Asinónimas y <strong>de</strong>leción en marcoATG TGT TT- G AT G CAXM C L M X<strong>de</strong>leción fuera <strong>de</strong> marco• Todas las mutaciones en 2 as posiciones resultan en sustituciones no sinónimas• 96% <strong>de</strong> mutaciones en 1 as posiciones resultan en sustituciones no sinónimas• Casi todas las sustituciones sinónimas ocurren en las 3 as posiciones• las <strong>de</strong>leciones o inserciones en secs. codificadoras <strong>de</strong> aa suce<strong>de</strong>n generalmenteen múltiplos <strong>de</strong> tres nt; <strong>de</strong> no ser así se generan cambios <strong>de</strong> marco <strong>de</strong> lecturacorriente abajo <strong>de</strong> la mutación, con frecuencia generando un pseudogen no funcionalHomología entre secuencias <strong>de</strong> DNA y proteína:alineamiento y tipos <strong>de</strong> mutacionesProgramación dinámica: algoritmo <strong>de</strong> Needleman-Wunschy alineamientos <strong>pareados</strong> globalessecuenciaancestralpos. codón 123codones ATG TGT TTT GAT GCAAA M C F D AUn valor <strong>de</strong> puntuación es escogido para cada tipo <strong>de</strong> sustitución (par <strong>de</strong> resíduos oaln. <strong>de</strong> resíduo contra un gap). El set completo <strong>de</strong> estas puntuaciones conforman unamatriz <strong>de</strong> pon<strong>de</strong>raciones o puntuaciones (scoring matrix), <strong>de</strong> dimensiones S (i,j)alineamiento <strong>de</strong>sitios homólogospara tres secs.especie Aespecie Bespecie CATG TAT TTT CAT GCAATG --- TTC GAC GCAATG TGT TT- GAT GCAcambio <strong>de</strong> marco <strong>de</strong>lectura !!! posiblepseudogen.ti ti tv tiTransiciones (ti) purina - purinaα A-CAG• existen 4 tipos <strong>de</strong> ti y 8 <strong>de</strong> tvTransversiones (tv)β A-C pur. pyr.• las tasas <strong>de</strong> sustitución <strong>de</strong> ti (α) sonβ C-G β A-Tβ generalmente mucho más altas que lasG-T<strong>de</strong> tv (β)CTα C-GExisten muchas <strong>de</strong>finiciones <strong>de</strong>l score <strong>de</strong> un alineamiento, pero la más común es simplementela suma <strong>de</strong> scores o puntuaciones para cada par <strong>de</strong> letras alineadas y pares letra-gap, queconforman el alineamiento.Así, para la matriz <strong>de</strong> sustitución siguiente y un w lineal <strong>de</strong> 5, calcula la puntuación <strong>de</strong>lsiguiente alineamiento- A G C TA 10 -1 -3 -4G -1 7 -5 -3C -3 -5 9 0T -4 -3 0 8AGACTAGTTA<strong>CCG</strong>A---GACGTScore = -3+7+10-3x5 +7-4+0-1+0 = 1Transiciones (ti) pirimidina - pirimidina© Pablo Vinuesa 2007, vinuesa@ccg.unam.mx;http://www.ccg.unam.mx/~vinuesa/ 2


<strong>Tema</strong> 2: <strong>Alineamientos</strong> <strong>pareados</strong> y búsqueda <strong>de</strong>homólogos en bases <strong>de</strong> datos mediante BLASTCurso Fundamental <strong>de</strong> Inferencia FilogenéticaMolecular. Junio 2007, Cuernavaca Mor. México,http://www.ccg.unam.mx/~vinuesa/Cursos2RMBFProgramación dinámica y la generación <strong>de</strong>alineamientos <strong>pareados</strong> (globales y locales):dot plots y visualización <strong>de</strong> la similitud entre secuencias• las 2 secs. representan los dos ejes<strong>de</strong> la gráfica• se pone un punto don<strong>de</strong> ambas coinci<strong>de</strong>nSec.2Programación dinámica y la generación <strong>de</strong>alineamientos <strong>pareados</strong> (globales y locales):dot plots y visualización <strong>de</strong> la similitud entre secuenciassecuencia 1: ATGCGTCGTTsecuencia 1: ATGCGTCGTT|| |||| |secuencia 3: AT<strong>CCG</strong>TCATsecuencia 3: AT<strong>CCG</strong>TCAT• la diagonal cruza celdas vacías, correspondientesa posiciones con distintos estados <strong>de</strong> caracter• la diagonal más larga representa la región<strong>de</strong> mayor i<strong>de</strong>ntidad• el camino 1 es el preferido al ser el másparsimonioso (implica menos cambios)• la diagonal cruzada revela un palíndromealineamiento diagonal 1secuencia 1:secuencia 2:ATGCGTCGTT|||||||||ATGCGTCGTgapSec.1alineamiento diagonal 2gapsecuencia 1: ATG---CGTCGTT||| |||secuencia 2: ATGCGTCGT• se pue<strong>de</strong>n alinear dos secuencias aleatorias postulandouna combinación <strong>de</strong> sustituciones y gaps• se pue<strong>de</strong> calcular el “costo” <strong>de</strong> un alineamiento contandoel número <strong>de</strong> sustituciones (s ) y gaps (g ), o una función <strong>de</strong>ellos: p. ej.: D =s + w , don<strong>de</strong> w es un factor <strong>de</strong> penalización(FP) para la creación <strong>de</strong> gaps (gap penalty)don<strong>de</strong> para w = 1 abrir un gap cuesta igual que una sustituciónw = 2 cuesta el doble un gap que una sustituciónSe emplean valores bajos <strong>de</strong> w si pensamos abundaron in<strong>de</strong>les en la hist. evol. <strong>de</strong> las secs.• generalmente w = g + hl, don<strong>de</strong> l es la longitud <strong>de</strong>l gap, g es un FP <strong>de</strong> apertura <strong>de</strong>l gap,y h es el FP para exten<strong>de</strong>r el gap. Estos son FP afines. La fórmula es muy flexible al permitirun control in<strong>de</strong>pendiente <strong>de</strong>l número y longitud (l) <strong>de</strong> los gaps mediante g y halineamientos <strong>pareados</strong> y factores <strong>de</strong> penalización afines para gaps•Dadoqueun sólo evento mutacional pue<strong>de</strong> insertar o eliminar varios nucleótidos <strong>de</strong> unasecuencia, un in<strong>de</strong>l largo no <strong>de</strong>be <strong>de</strong> ser penalizado mucho más que otro más corto ubicadoen la misma región <strong>de</strong> un gen. De ahí el uso <strong>de</strong> factores <strong>de</strong> penalización afines para gaps(affine gap penalties or costs), que cobran una penalidad relativamente alta por abrir ungap y una penalidad más baja por cada posición sobre la que se extien<strong>de</strong>.• La calidad <strong>de</strong> un alineamiento <strong>de</strong>pen<strong>de</strong> en gran medida <strong>de</strong> los valores <strong>de</strong> apertura yextensión <strong>de</strong> gap elegidos.Programación dinámica y la generación <strong>de</strong>alineamientos <strong>pareados</strong> (globales y locales)• Pares <strong>de</strong> secuencias pue<strong>de</strong>n ser comparadas usando alineamientos globales y locales,<strong>de</strong>pendiendo <strong>de</strong>l objetivo <strong>de</strong> la comparación.Un alineamiento global fuerza el alineamiento <strong>de</strong> ambas secuencias a lo largo <strong>de</strong> todasu longitud. Usamos aln. globales cuando estamos seguros <strong>de</strong> que la homología se extien<strong>de</strong>a lo largo <strong>de</strong> todas las secuencias a comparar. Este es el tipo <strong>de</strong> alineamientos que generanprogramas <strong>de</strong> alineamiento múltiple tales como clustal, T-Coffee o muscle.penalización <strong>de</strong> gaps simple (w)penalización o costo <strong>de</strong>l gappenalización afín <strong>de</strong> gapsw = g + hlAlineamiento global óptimo <strong>de</strong>l citocromo C humano (105 resíduos, SWISS-PROT acc. P00001)y citocromo C2 <strong>de</strong> Rhodopseudomonas palustris (114 resíduos, SWISS-PROT acc. P00090).longitud <strong>de</strong>l gapLa matriz <strong>de</strong> puntuación o pon<strong>de</strong>ración (“scoring matrix) empleada fue BLOSUM62,con costo <strong>de</strong> gaps afines <strong>de</strong> –(11 + k). La puntuación <strong>de</strong>l alineamiento global es <strong>de</strong> 131,usando el algoritmo <strong>de</strong> Needleman-Wunsch.© Pablo Vinuesa 2007, vinuesa@ccg.unam.mx;http://www.ccg.unam.mx/~vinuesa/ 3


<strong>Tema</strong> 2: <strong>Alineamientos</strong> <strong>pareados</strong> y búsqueda <strong>de</strong>homólogos en bases <strong>de</strong> datos mediante BLASTProgramación dinámica y la generación <strong>de</strong>alineamientos <strong>pareados</strong> (globales y locales)Un alineamiento local sólo busca los segmentos con la puntuación más alta.Se usa por ejemplo en el escrutinio <strong>de</strong> bases <strong>de</strong> datos <strong>de</strong> secuencias <strong>de</strong>bido a que la homologíaentre pares <strong>de</strong> secuencias frecuentemente existe sólo a nivel <strong>de</strong> ciertos dominios, perono a lo largo <strong>de</strong> toda la secuencia (estructura modular <strong>de</strong> proteínas; genes discontínuosintrones-exonesm; barajado <strong>de</strong> exones ...).BLAST y FASTA buscan alineamientos locales con alta puntuacion (HSPs ó high-scoring pairs)Curso Fundamental <strong>de</strong> Inferencia FilogenéticaMolecular. Junio 2007, Cuernavaca Mor. México,http://www.ccg.unam.mx/~vinuesa/Cursos2RMBFProgramación dinámica y la generación <strong>de</strong>alineamientos <strong>pareados</strong> (globales y locales)• Saul Needleman and Christian Wunsch (1970). A general method applicable to the search forsimilarities in the amino acid sequence of two proteins, J Mol Biol. 48(3):443-53.http://en.wikipedia.org/wiki/Needleman-Wunsch_algorithmEste algoritmo es un ejemplo <strong>de</strong> PD y garantiza encontrar el alineamiento global<strong>de</strong> puntuación máxima• Smith TF, Waterman MS (1981). "I<strong>de</strong>ntification of Common Molecular Subsequences".Journal of Molecular Biology 147: 195-197.http://en.wikipedia.org/wiki/Smith-Waterman_algorithmAlgoritmo <strong>de</strong> PD que garantiza encontrar el alineamiento local <strong>de</strong> puntuación máximaAlineamiento local óptimo <strong>de</strong>l regulador <strong>de</strong> conductancia transmembranal <strong>de</strong> fibrosis cística<strong>de</strong> humano (1480 resíduos, SWISS-PROT acc. P13569) y la proteína transportadora <strong>de</strong> Ni<strong>de</strong>pendiente <strong>de</strong> ATP <strong>de</strong> E. coli (253 resíduos, SWISS-PROT acc. P33593).La matriz <strong>de</strong> puntuación o pon<strong>de</strong>ración (“scoring matrix) empleada fue BLOSUM62,con costo <strong>de</strong> gaps afines <strong>de</strong> –(11 + k). La puntuación <strong>de</strong>l alineamiento local es <strong>de</strong> 89,usando el algoritmo <strong>de</strong> Smith-Waterman.• Ver material suplementario 1: algoritmos <strong>de</strong> programación dinámica <strong>de</strong> NW y SWProgramación dinámica: Notas prácticas sobre el uso <strong>de</strong> losalgoritmos <strong>de</strong> Smith-Waterman y Needleman-Wunsh.Similitud entre pares <strong>de</strong> secuencias <strong>de</strong> AA<strong>Alineamientos</strong> globales vs. locales• Aunque muy similares <strong>de</strong>s<strong>de</strong> el punto <strong>de</strong> vista mecanístico, ambos tienen propieda<strong>de</strong>s yaplicaciones muy diferentes. Por ejemplo, si queremos alinear dos genes eucarióticos muydivergentes esperaríamos que la estructura y secuencia <strong>de</strong> exones esté relativamenteconservada, si bien los intrones habrán sufrido muchos eventos <strong>de</strong> in<strong>de</strong>l.• Los exones tal vez sólo representen el 1-5% <strong>de</strong> la secuencia <strong>de</strong> estos genes. Por ello siqueremos usar una estrategia <strong>de</strong> alineamiento global el resultado seguramente será<strong>de</strong>sastroso <strong>de</strong>s<strong>de</strong> un punto <strong>de</strong> vista biológico. Muy posiblemente las regiones exónicashomólogas no se alineen. Ello se <strong>de</strong>be a que su contribución a la puntuación (score) <strong>de</strong>lalineamiento es mínimo dado su reducido tamaño relativo.• En cambio un algoritmo <strong>de</strong> aln. local sí podrá i<strong>de</strong>ntificar y alinear correctamente a lasregiones exónicas homólogas. Pero usando implementaciones como las vistas en el ejemplosólo recuperaremos aquel aln. local con la puntuación más alta.• Estas limitaciones <strong>de</strong> los algoritmos clásicos <strong>de</strong> SW y NW han sido eliminadas en las múltiplesvariantes que existen <strong>de</strong> los mismos para distinto propósitos (BLAST, Clustal, etc).• El alineamiento <strong>de</strong> aa difiere <strong>de</strong>l <strong>de</strong> nt en dos aspectos fundamentales:1.- Existen más “símbolos” en el alineamiento <strong>de</strong> aa (20) que <strong>de</strong> nt (4)2.- El alineamiento no consiste simplemente en alinear resíduos <strong>de</strong> tal manera que la mayorcantidad coincida, ya que hay que consi<strong>de</strong>rar los posibles caminos mutacionales mediantelos cuales un aa es sutituído por otroCys (UGU) Tyr (UAU)Cys (UGU) Met (AUG)1 subst. en la 2a. pos <strong>de</strong>l codón3 subst. Una en cada posición <strong>de</strong>l codónPor lo tanto alinear Cys con Tyr es 3 veces menos costoso que alinearla con Met•En el alineamiento <strong>de</strong> nt generalmente se valora un “match” como +1 y un“mismatch” como -3 (en NCBI BLAST), o como +5/-4 en WU-BLAST, es <strong>de</strong>cir, los nt seconsi<strong>de</strong>ran idénticos o distintos). Esto, unido a las penalizaciones <strong>de</strong> gap, <strong>de</strong>fine el costo<strong>de</strong> un alineamiento <strong>de</strong> nt•Los alineamientos <strong>de</strong> proteínas se basan generalmente en una matriz empírica <strong>de</strong> costo<strong>de</strong> sustitución, <strong>de</strong>rivada <strong>de</strong> la comparación <strong>de</strong> secuencias alineadas. Estas matricesempíricas reflejan someramente los caminos mutacionales.© Pablo Vinuesa 2007, vinuesa@ccg.unam.mx;http://www.ccg.unam.mx/~vinuesa/ 4


<strong>Tema</strong> 2: <strong>Alineamientos</strong> <strong>pareados</strong> y búsqueda <strong>de</strong>homólogos en bases <strong>de</strong> datos mediante BLASTCurso Fundamental <strong>de</strong> Inferencia FilogenéticaMolecular. Junio 2007, Cuernavaca Mor. México,http://www.ccg.unam.mx/~vinuesa/Cursos2RMBFSimilitud entre pares <strong>de</strong> secuencias <strong>de</strong> AASimilitud entre pares <strong>de</strong> secuencias <strong>de</strong> AAMatriz BLOSUM62• Las matrices empíricas <strong>de</strong> sustituciónentre AAs no reflejan necesariamente lasrelaciones químicas entre ellos. Setrata <strong>de</strong> una <strong>de</strong>finición púramenteestadística basada en el análisis <strong>de</strong>frecuencias empíricas <strong>de</strong> sustitucionesobservadas en alineamientos <strong>de</strong> secs.con un grado <strong>de</strong> divergencia <strong>de</strong>finido• Cada score <strong>de</strong> la matriz representa latasa <strong>de</strong> sustitución esperada entre unpar <strong>de</strong> AAs. Por tanto, los scores <strong>de</strong> los alineamientos<strong>pareados</strong> evaluados con estasmatrices reflejan la distancia evolutivaexistente entre las secuencias.Es importante notar que los scores sonevolutivamente simétricos al no conocersela dirección <strong>de</strong>l cambio evolutivo.• Matrices <strong>de</strong> sustitución <strong>de</strong> AAslog-odds scoresp abf af bp abs (a,b) = (c) logf f a bs (a,b) = score <strong>de</strong>l par a, bMatriz BLOSUM62= verosimilitud <strong>de</strong> la hipótesis a testar; frecuencia esperada odiana, probabilidad con la que esperamos encontrar a y b a<strong>pareados</strong> en un alineamientomúltiple. Se estima a partir <strong>de</strong> observaciones empíricas= verosimilitud <strong>de</strong> la hipótesis nula; frecuencia <strong>de</strong> fondo, probabilidad con la queesperamos encontrar a y b en cualquier proteína. Refleja su abundancia ofrecuenciac = Factor <strong>de</strong> escalamiento usado para multiplicar los lod scores (números reales)antes <strong>de</strong> ser redon<strong>de</strong>ados a números enteros, tal y como se observa en la matriz.Los valores enteros redon<strong>de</strong>ados resultantes se conocen como “raw scores”.Similitud entre pares <strong>de</strong> secuencias <strong>de</strong> AAMatriz BLOSUM62• ¿Porqué difieren los valores entre diferentes sust. conservativas, por ej. L/L y W/W?p LL = 0.0371, p WW = 0.0065f L = 0.099, f W = 0.013Cálculo <strong>de</strong> “scores crudos”s (a,b) = (c) logf f a bLas frecuencias <strong>de</strong> fondo juegan un papel muy importante.Cuantomásraroesun AA, menosfrecuenteseráqueseencuentre apareado consigo mismo por azar• ¿Porqué se castiga más un apareamiento A/L (chico y alifático/alifático) con respecto a unoK/E (+/-)?p AL = 0.0044 f L = 0.099, f A = 0.074p WW = 0.0041 f K = 0.058, f E = 0.054p abAlineamiento pareado <strong>de</strong> proteínas: matrices <strong>de</strong> costo BLOSUMMatrices BLOSUM <strong>de</strong> sustitución <strong>de</strong> aaHenikoff, S., Henikoff, J. G., and Pietrokovski, S. 1999. Blocks+: a non-redundant databaseof protein alignment blocks <strong>de</strong>rived from multiple compilations. Bioinformatics 15: 471-479.• Las matrices BLOSUM están basadas en la base <strong>de</strong> datos BLOCKS+ <strong>de</strong> proteínas alineadas;BLOcks SUbstitution Matrix (http://blocks.fhcrc.org). Son matrices empíricas.• Las series <strong>de</strong> matrices BLOSUM se <strong>de</strong>rivaron <strong>de</strong> alineamientos sin in<strong>de</strong>les (BLOCKS)<strong>de</strong> proteínas consi<strong>de</strong>rando sólo pares <strong>de</strong> alineamientos que no divergieran más <strong>de</strong> unumbral <strong>de</strong>terminado, por ej. un mínimo <strong>de</strong> 62 % <strong>de</strong> i<strong>de</strong>ntidad, para calcular las frecuenciasdiana o esperadas <strong>de</strong> la matriz BLOSUM62. Para estos alns. se calcula la razón entre elnúmero <strong>de</strong> pares <strong>de</strong> aa observados en cada posición y el número <strong>de</strong> pares esperados <strong>de</strong> lasfrequencias globales <strong>de</strong> los aas, expresando los resultados como log 10 X λ• Para evitar sesgos en las matrices por sobrerepresentación <strong>de</strong> secuencias muy similares, sereemplazaron aquellas con similitud > a un umbral dado por un solo representante o por unpromedio pon<strong>de</strong>rado (BLOCKS+).• La matriz BLOSUM62 es la actualmente favorecida para la mayoría <strong>de</strong> las aplicacionespor su buen rendimiento empírico y ha reemplazado a las matrices <strong>de</strong> Dayhoff (PAM)© Pablo Vinuesa 2007, vinuesa@ccg.unam.mx;http://www.ccg.unam.mx/~vinuesa/ 5


<strong>Tema</strong> 2: <strong>Alineamientos</strong> <strong>pareados</strong> y búsqueda <strong>de</strong>homólogos en bases <strong>de</strong> datos mediante BLASTCurso Fundamental <strong>de</strong> Inferencia FilogenéticaMolecular. Junio 2007, Cuernavaca Mor. México,http://www.ccg.unam.mx/~vinuesa/Cursos2RMBFAlineamiento <strong>de</strong> proteínas: selección <strong>de</strong> matrices <strong>de</strong> pon<strong>de</strong>ración -consejos prácticos•Las matrices PAM fueron <strong>de</strong>rivadas <strong>de</strong> las secuencias <strong>de</strong> proteínas disponibles a finales <strong>de</strong>los 60s y ppios. <strong>de</strong> los 70s. Era una base <strong>de</strong> datos muy reducida y estaba sesgada a proteínaschicas, globulares e hidrofílicas ! Al carecer <strong>de</strong> suficientes homólogos con diversos niveles<strong>de</strong> divergencia evolutiva tuvieron que emplear supuestos teóricos (extrapolación) paraobtener las matrices <strong>de</strong> sustitución para prots. más distantes (mediante exponenciación)- las matrices PAM son una pobre elección para alinear (o buscar en las bases <strong>de</strong> datos)proteínas con dominios hidrofóbicos (p. ej. dominios transmembrana)• Qué matriz escoger en función <strong>de</strong>l nivel <strong>de</strong> divergencia esperada(potencial <strong>de</strong> mira retrospectiva en tiempo evolutivo)% i<strong>de</strong>ntidad PAM BLOSUM mira retrospectiva en tiempo evolutivo20- 50 % 250 45 homólogos en la zona <strong>de</strong> penumbra50- 75 % 250 62 ortólogos y parálogos en superfamilias 175- 90 % 160 80 ortólogos y parálogos en familias 290- 99 % 40 90 ortólogos muy cercanos1Superfamilias <strong>de</strong> proteínas contienen diversas familias <strong>de</strong> proteínas con ≥ 30% i<strong>de</strong>ntidad entre ellas2Familias <strong>de</strong> proteínas contienen secuencias con ≥ 85% i<strong>de</strong>ntidad entre ellasEstas <strong>de</strong>finiciones fueron acuñadas por Dayhoff et al. (1978)Alineamiento <strong>de</strong> proteínas: selección <strong>de</strong> matrices <strong>de</strong> pon<strong>de</strong>ración -consejos prácticos para la i<strong>de</strong>ntificación <strong>de</strong> homólogoszona <strong>de</strong>“penumbra”• A medida que el nivel <strong>de</strong> divergencia entre pares<strong>de</strong> proteínas alcanza el valor <strong>de</strong> PAM250(~ 20% i<strong>de</strong>ntidad), comienza a ser dudosa surelación <strong>de</strong> homología, pudiendo tratarse <strong>de</strong>secuencias que presentan cierto grado <strong>de</strong> similitudpor azar, en base a composiciones <strong>de</strong>AAs similares en ambas secuencias !!!• Al entrar en esta zona <strong>de</strong> penumbra, es esencialconsi<strong>de</strong>rar información adicional, particularmentemotivos estructurales, para validar o <strong>de</strong>scartaruna posible relación <strong>de</strong> homologíaDistancias observadasvs. evolutivas (PAM) entre prots.Diferencia % obs. Dist. evol. PAM1 15 510 1115 1720 2330 3840 5650 8060 11270 15980 24685 328 z. penumbra• A medida que el nivel <strong>de</strong> divergenciaevolutiva entre pares <strong>de</strong> proteínasincrementa (distancias PAM) disminuyeel número <strong>de</strong> diferencias observadas,<strong>de</strong>bido a fenómenos <strong>de</strong> reversión(homoplasia). Por tanto, si no se cuentacon evi<strong>de</strong>ncia estructural, el análisisfilogenético <strong>de</strong> proteínas <strong>de</strong>be restringirsea aquellas con ≥ 20% <strong>de</strong> i<strong>de</strong>ntidad.Los alns. tampoco son confiablesCuantificación y análisis estadístico <strong>de</strong> la similitud entre un par <strong>de</strong> secuencias• Conceptos básicos <strong>de</strong> teoría <strong>de</strong> la información-INFORMACIÓN= <strong>de</strong>cremento en el nivel <strong>de</strong> incertidumbre- cualitativamente esperamos mayor contenido <strong>de</strong> información en un vocabulario ricoque en uno pobre y en respuestas sorpren<strong>de</strong>ntes que esperadas.Por tanto la información o sorpresividad <strong>de</strong> una respuesta es inv. prop. a su probabilidad- cuantitativamente la información (H ) o entropía asociada a un valor <strong>de</strong>propabilidad (p ) viene expresada por la siguiente expresión:H (p) = log 2 1/p = - log 2 p- valores convertidos a log 2 se les asigna la unidad bit (binary digit), mientras que losque son convertidos a log en base e tienen por unidad los nats (natural digits).- Se <strong>de</strong>scribe frecuentemente a la información como un mensaje <strong>de</strong> símbolosemitido por una fuente. Los símbolos presentan una distribución <strong>de</strong> frecuencia- Si dicha distribución es plana y existen n símbolos, la p para cada símbolo es 1/nLa infromación <strong>de</strong> cada uno <strong>de</strong> estos símbolos es su entropía = log 2 (1/n)Cuantificación y análisis estadístico <strong>de</strong> la similitud entre un par <strong>de</strong> secuencias• Conceptos básicos <strong>de</strong> teoría <strong>de</strong> la información- Si la distribución <strong>de</strong> frecuencias no es equiprobable, para calcular la entropía <strong>de</strong>cada símbolo hay que pon<strong>de</strong>rarla por su p (frecuencia) <strong>de</strong> ocurrencia.nH = - ∑ p i log 2p iiIndice <strong>de</strong> entropía <strong>de</strong> ShannonEj. 1: para una moneda estándar su entropía es <strong>de</strong> 1 bit- ( (0.5)(-1) + (0.5)(-1) ) = 1 bitEj. 2: para una moneda trucada en la que p águila es <strong>de</strong> 0.75 su entropía es <strong>de</strong> 0.51 bits- ( (0.75)(-0.415) + (0.25)(-2) ) = 0.81 bitsEj. 3: La entropía <strong>de</strong> una fuente aleatoria <strong>de</strong> secuencia <strong>de</strong> DNA es <strong>de</strong> 2 bits- ( (0.25)(-2) + (0.25)(-2) + (0.25)(-2) + (0.25)(-2) ) = 2 bitsEj. 4: una fuente <strong>de</strong> DNA que emite 90% <strong>de</strong> A ó T y 10% <strong>de</strong> G ó C es <strong>de</strong> 1.47 bits- ( 2(0.45)(-1.15) + 2(0.05)(-4.32)) = 1.47 bits© Pablo Vinuesa 2007, vinuesa@ccg.unam.mx;http://www.ccg.unam.mx/~vinuesa/ 6


<strong>Tema</strong> 2: <strong>Alineamientos</strong> <strong>pareados</strong> y búsqueda <strong>de</strong>homólogos en bases <strong>de</strong> datos mediante BLASTCurso Fundamental <strong>de</strong> Inferencia FilogenéticaMolecular. Junio 2007, Cuernavaca Mor. México,http://www.ccg.unam.mx/~vinuesa/Cursos2RMBFEstadísticos <strong>de</strong> Karlin-Altschul <strong>de</strong> similitud entre secuencias:frecuencias diana, lambda y entropía relativaLos atributos más importantes <strong>de</strong> una matriz <strong>de</strong> sustitución son sus frecuencias esperadaso diana implícitas para cada par <strong>de</strong> aa en sus respectivos scores crudos. Estas frecuenciasesperadas representan el mo<strong>de</strong>lo evolutivo subyacente.Los scores que han sido re-escalados y redon<strong>de</strong>ados (scores representados en la matriz) sonlos scores crudos s a,b . Para convertirlos a un score normalizado (log-odd score original)tenemos que mutiplicarlos por λ, una constante específica para cada matriz.λ es aprox. igual al inverso <strong>de</strong>l factor <strong>de</strong> escalamiento (c ).s (a,b) =p ab1logλf af bpor tanto, para <strong>de</strong>spejar λ necesitamos f a f b y encontrar el valor <strong>de</strong> λ para el que la suma <strong>de</strong>las frecuencias diana implícitas valga 1.n an a∑∑ p ∑∑ f af be λ s abab == 1a= 1 b=1a= 1 b=1p ab = f af be λ s ab = score normalizadoUna vez calculada λ, se usa para calcular el valor <strong>de</strong> expectación (E) <strong>de</strong> cada HSP(High Scoring Pair) en el reporte <strong>de</strong> una búsqueda BLASTDado que las f af b <strong>de</strong> los resíduos <strong>de</strong> algunas proteínas difieren mucho <strong>de</strong> las frecuencias <strong>de</strong>resíduos empleadas para calcular las matrices PAM y BLOSUM, versiones recientes <strong>de</strong>BLASTP y PSI-BLAST incorporan una “composition-based λ” que es “hit-específica”Estadísticos <strong>de</strong> Karlin-Altschul <strong>de</strong> similitud entre secuencias:frecuencias diana, lambda y entropía relativan a∑∑a= 1n ap f af be λ s ab = ∑∑ab= 1a= 1 b=1El valor <strong>de</strong> λ que permite resolver esta ecuación existe siempre y cuando la matriz <strong>de</strong> sustitucióncumpla dos propieda<strong>de</strong>s:1.- ha <strong>de</strong> presentar al menos un score positivo2.- el score esperado para alineamientos <strong>pareados</strong> <strong>de</strong> secuencias aleatorias ha <strong>de</strong> sernegativoAmbas condiciones las cumplen las matrices generadas por cálculo <strong>de</strong> log-oddsEstadísticos <strong>de</strong> Karlin-Altschul <strong>de</strong> similitud entre secuencias:frecuencias diana, lambda y entropía relativa• Score esperado (E ) y Entropía relativa (H )El score esperado <strong>de</strong> una matriz <strong>de</strong> sustitución es la suma <strong>de</strong> sus scores crudos pon<strong>de</strong>radospor su frecuencia <strong>de</strong> ocurrencia. Este score esperado ha <strong>de</strong> ser siempre negativo.20 aE = ∑∑ f af bs aba= 1 b=1La entropía relativa <strong>de</strong> una matriz <strong>de</strong> sustitución resume su comportamiento general <strong>de</strong>manera conveniente. Se calcula a partir <strong>de</strong> los scores normalizados. H es el númeropromedio <strong>de</strong> bits (o nats) por resíduo en un alineamiento y es siempre positivo.20 aH = - ∑∑ p abλ s aba= 1 b=1Así por ej. H <strong>de</strong> PAM1 es > H <strong>de</strong> PAM120, esta última contiene menos información por sermenos específica. De igual manera BLOSUM80 contiene más información que BLOSUM62.Para calcular las equivalencias entre matrices PAM y BLOSUM se comparan a nivel <strong>de</strong> susHs.H <strong>de</strong> PAM250 ≈ BLOSUM45; H <strong>de</strong> PAM180 ≈ BLOSUM80; H <strong>de</strong> PAM180 ≈ BLOSUM62Estadísticos <strong>de</strong> Karlin-Altschul para alineamientos localesKarlin, S., and Altschul, S. F. 1990. Methods for assessing the statistical significance of molecularsequence features by using general scoring schemes. Proc Natl Acad Sci U S A 87: 2264-268.Los estadísticos <strong>de</strong> Karlin-Altschul asumen 5 supuestos:1. Un score positivo ha <strong>de</strong> ser posible2. El score esperado ha <strong>de</strong> ser negativo3. Los resíduos <strong>de</strong> una secuencia son in<strong>de</strong>pendientes y distribuídos idénticamente4. Las secuencias son infinitamente largas5. Los alineamientos no contienen gapsLos primeros dos supuestos los cumple cualquier matriz estimada a partir <strong>de</strong> datos reales.Los tres supuestos finales son problemáticos. Se han solucionado en trabajos posteriores.E = k m n e - λSEsta ecuación indica que el número <strong>de</strong> alineamientos esperadospor azar (E ) durante una búsqueda <strong>de</strong> similitud en unabase <strong>de</strong> datos <strong>de</strong> secuencias está en función <strong>de</strong>:el tamaño <strong>de</strong>l espacio <strong>de</strong> búsqueda (m, n ), el score normalizado(λS ) <strong>de</strong>l HSP y una constante <strong>de</strong> valor pequeño (k )E Describe el ruido <strong>de</strong> fondo por azar presente en matches <strong>de</strong> dos secs.m = número <strong>de</strong> símbolos en la secuencia probleman = número <strong>de</strong> símbolos en la base <strong>de</strong> datosk ≈ 0.1 constante <strong>de</strong> ajuste para consi<strong>de</strong>rar HSPs altamente correlacionados© Pablo Vinuesa 2007, vinuesa@ccg.unam.mx;http://www.ccg.unam.mx/~vinuesa/ 7


<strong>Tema</strong> 2: <strong>Alineamientos</strong> <strong>pareados</strong> y búsqueda <strong>de</strong>homólogos en bases <strong>de</strong> datos mediante BLASTBLAST: Basic Local Alignment Search ToolAltschul, S. F., Gish, W., Miller, W., Myers, E. W., and Lipman, D. J. 1990.Basic local alignment search tool. J Mol Biol 215: 403-410.Altschul, S. F., Mad<strong>de</strong>n, T. L., Schaffer, A. A., Zhang, J., Zhang, Z., Miller, W.,and Lipman, D. J. 1997. Gapped BLAST and PSI-BLAST: a new generation of proteindatabase search programs. Nucleic Acids Res 25: 3389-402.Schaffer, A. A., Aravind, L., Mad<strong>de</strong>n, T. L., Shavirin, S., Spouge, J. L.,Wolf, Y. I., Koonin, E. V., and Altschul, S. F. 2001. Improving the accuracy ofPSI-BLAST protein database searches with composition-based statisticsand other refinements. Nucleic Acids Res 29: 2994-3005.Curso Fundamental <strong>de</strong> Inferencia FilogenéticaMolecular. Junio 2007, Cuernavaca Mor. México,http://www.ccg.unam.mx/~vinuesa/Cursos2RMBFBLAST: Basic Local Alignment Search Tool1. El primer paso para iniciar una búsqueda <strong>de</strong> BLAST es seleccionar la base <strong>de</strong> datos <strong>de</strong>secuencias en la que se quieren encontrar los homólogos (secuencias significativamentesimilares).Bases <strong>de</strong> datos• Genómicas• Secuencias no redundantes• Expressed sequence tags• Protein Data Bank• Environmental samples• ...2. El segundo paso es la selección <strong>de</strong>l programa <strong>de</strong> búsqueda y parámetros <strong>de</strong>l mismoProgr. <strong>de</strong> búsq.• BLASTN• BLASTP• BLASTX• TBLASTN• TBLASTX• PSI y PHI BLAST(nt-nt),(p-p),(translated nt-p),(p-translated nt),(translated nt - translated nt)(variantes <strong>de</strong> BLASTP)BLAST: Basic Local Alignment Search Tool1. Abajo una búsqueda sobre genomas microbianos.BLAST: Basic Local Alignment Search Tool1. Abajo (y páginas siguientes) una búsqueda BLASTP sobre la base <strong>de</strong> datos no redundante© Pablo Vinuesa 2007, vinuesa@ccg.unam.mx;http://www.ccg.unam.mx/~vinuesa/ 8


<strong>Tema</strong> 2: <strong>Alineamientos</strong> <strong>pareados</strong> y búsqueda <strong>de</strong>homólogos en bases <strong>de</strong> datos mediante BLASTBLAST: Basic Local Alignment Search Tool1. Abajo una búsqueda BLASTP sobre la base <strong>de</strong> datos no redundante con valores por<strong>de</strong>fecto <strong>de</strong> los parámetros <strong>de</strong> búsquedaCurso Fundamental <strong>de</strong> Inferencia FilogenéticaMolecular. Junio 2007, Cuernavaca Mor. México,http://www.ccg.unam.mx/~vinuesa/Cursos2RMBFBLAST: Basic Local Alignment Search Tool• Anatomía <strong>de</strong> un reporte <strong>de</strong> NCBI-BLAST estándar11.- Encabezado. Indica el programa<strong>de</strong> BLAST y su versión, con la fechaRequest IDIndica la BD sobre la que se hizo labúsqueda, junto con el no. <strong>de</strong> secscontenida en ella y el no. <strong>de</strong> caracteresIndica cual fue la query y su longitud2.- Resumen gráfico <strong>de</strong> distribución <strong>de</strong>hits con respecto a la query.escala <strong>de</strong> color que indica el score <strong>de</strong> losHSPsLas barras indican la distribución <strong>de</strong> losHSPs (coor<strong>de</strong>nadas) con respecto a lasecuencia problema (query), indicando enuna escala <strong>de</strong> color el score <strong>de</strong> los alns.medidos en bitsBLAST: Basic Local Alignment Search Tool• Anatomía <strong>de</strong> un reporte <strong>de</strong> NCBI-BLAST estándar3. Resúmenes <strong>de</strong> 1 linea. Indican el nombre <strong>de</strong> la sec. junto con el score más altoy E value más bajo encontrado para un HSP o grupo <strong>de</strong> HSPsBLAST: Basic Local Alignment Search Tool• Anatomía <strong>de</strong> un reporte <strong>de</strong> NCBI-BLAST estándar4. <strong>Alineamientos</strong>. Representan la parte más voluminosa <strong>de</strong>l reporte. A<strong>de</strong>más <strong>de</strong> lainformación estadística, indica las coor<strong>de</strong>nadas <strong>de</strong> inicio y fin <strong>de</strong> las secuencias queryy subject. Si la búsqueda involucra secuencias <strong>de</strong> DNA, también se indicadireccionalidad <strong>de</strong> las hebras Q/S (plus/plus; plus/minus).Gene Infonormalized score raw scoreStructures© Pablo Vinuesa 2007, vinuesa@ccg.unam.mx;http://www.ccg.unam.mx/~vinuesa/ 9


<strong>Tema</strong> 2: <strong>Alineamientos</strong> <strong>pareados</strong> y búsqueda <strong>de</strong>homólogos en bases <strong>de</strong> datos mediante BLASTCurso Fundamental <strong>de</strong> Inferencia FilogenéticaMolecular. Junio 2007, Cuernavaca Mor. México,http://www.ccg.unam.mx/~vinuesa/Cursos2RMBFBLAST: Basic Local Alignment Search Tool• Anatomía <strong>de</strong> un reporte <strong>de</strong> NCBI-BLAST estándar5. Pie <strong>de</strong> página. Reporta los parámetros <strong>de</strong> búsqueda y varios estadísticos. Los másimportantes son: DB, T, E yla matriz <strong>de</strong> sustitución o esquema <strong>de</strong> puntuación (match/missmatch) y gap penalties empleadosBLAST: Basic Local Alignment Search Tool• Anatomía <strong>de</strong> un reporte <strong>de</strong> NCBI-BLAST estándar6. Cladogramas o árboles <strong>de</strong> NJ o ME. Navegar por los hits en forma <strong>de</strong> árbolesE = k m n e - λSmatriz <strong>de</strong> sustitucióngap penaltiesE value umbral usado = 10; HSPs con gapE value umbral usado = 10; HSPs no gapneighborhood word threshold scoretwo-hit distanceextension attenuation parameteraln. threshold (ungapped)aln. threshold (gapped)BLAST: Basic Local Alignment Search Tool• RESUMEN <strong>de</strong> gapped-BLAST• BLAST es un progrma para búsqueda <strong>de</strong> secuencias similares a una sec. problema en bases<strong>de</strong> datos. BLAST pue<strong>de</strong> ser usado en línea o localmente.•Existendiversos programas BLAST para comparar todas las combinaciones posibles <strong>de</strong>secs. problema (aa y nt) con nt o aa DBs. (BLASTN, BLASTP, BLASTX, TBLASTN,BLAST: Basic Local Alignment Search Tool• Ver material suplementario 3: PSI - BLASTTBLASTX) a<strong>de</strong>más <strong>de</strong> variantes <strong>de</strong> éstos que buscan similitu<strong>de</strong>s en diversas DBsla ecuación <strong>de</strong> Karlin-Altschul E = k m n e - λS•BLAST esunaversión heurística <strong>de</strong>l algoritmo <strong>de</strong> Smith-Waterman que encuentramatches locales cortos (palabras) que intenta exten<strong>de</strong>r en forma <strong>de</strong> alineamientos <strong>pareados</strong>• BLAST reporta a<strong>de</strong>más información relativa a la significancia estadística <strong>de</strong> los HSPsencontrados. El estadístico fundamental es el valor <strong>de</strong> expectancia E (E-value), que indicala tasa <strong>de</strong> falsos positivos que cabe encontrar, dada la longitud <strong>de</strong> la secuencia problema,el tamaño <strong>de</strong> la base <strong>de</strong> datos exprolada, y el score normalizado <strong>de</strong>l HSP, tal y como indica• Ver material suplementario 2: El algoritmo BLAST© Pablo Vinuesa 2007, vinuesa@ccg.unam.mx;http://www.ccg.unam.mx/~vinuesa/ 10

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!