10.07.2015 Views

Tema 6: modelos de sustitución empíricos y ... - CCG-UNAM

Tema 6: modelos de sustitución empíricos y ... - CCG-UNAM

Tema 6: modelos de sustitución empíricos y ... - CCG-UNAM

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Tema</strong> 6: <strong>mo<strong>de</strong>los</strong> <strong>de</strong> sustitución empíricos yparamétricos; bootstrap no paramétricoIntro. Biol. Filogenética - Lic. BiotecnologíaGenómica, Univ. Autónoma <strong>de</strong> Nuevo León,MonterreyIntroducción a la Inferencia Filogenética y Evolución Molecular23-26 Junio 2008, Fac. C. Biológicas - UANLPablo Vinuesa (vinuesa@ccg.unam.mx)Centro <strong>de</strong> Ciencias Genómicas-<strong>UNAM</strong>, Méxicohttp://www.ccg.unam.mx/~vinuesa/Todo el material <strong>de</strong>l curso lo pue<strong>de</strong>s <strong>de</strong>scargar <strong>de</strong>s<strong>de</strong>:http://www.ccg.unam.mx/~vinuesa/UANL08• <strong>Tema</strong> 6: Mo<strong>de</strong>los <strong>de</strong> evolución <strong>de</strong> secuencias y prueba <strong>de</strong> bootstrap1. El uso <strong>de</strong> <strong>mo<strong>de</strong>los</strong> en ciencia y en filogenética2. Mo<strong>de</strong>los empíricos vs. paramétricos3. Derivación <strong>de</strong> matrices <strong>de</strong> sustitución empíricas a partir <strong>de</strong> alineamientos múltiples<strong>de</strong> proteínas4. Mo<strong>de</strong>los paramétricos <strong>de</strong> evolución <strong>de</strong> secuencias <strong>de</strong> DNA – la familia GTR5. Mo<strong>de</strong>los y corrección <strong>de</strong> distancias genéticas6. La prueba <strong>de</strong> bootstrap para <strong>de</strong>terminar la confiabilidad estadística <strong>de</strong> biparticionesMo<strong>de</strong>los <strong>de</strong> evolución <strong>de</strong> secuencias-introducción• Mo<strong>de</strong>los <strong>de</strong> evolución <strong>de</strong>l proceso <strong>de</strong> sustitución y métodos <strong>de</strong>reconstrucción filogenética: consi<strong>de</strong>raciones generales1.- La reconstrucción o estima filogenética es un problema <strong>de</strong> inferencia estadística, y comotal requiere un mo<strong>de</strong>lo <strong>de</strong> sustitución <strong>de</strong> resíduos (aa o nt), es <strong>de</strong>cir, un mo<strong>de</strong>lo <strong>de</strong> evoluciónmolecular <strong>de</strong> las secuencias. Todos los <strong>mo<strong>de</strong>los</strong>, por no ser más que aproximaciones<strong>de</strong> los procesos naturales, hacen una serie <strong>de</strong> suposiciones (simplificaciones)2.- Los <strong>mo<strong>de</strong>los</strong> <strong>de</strong> evolución <strong>de</strong> secs. son usados en filogenética para <strong>de</strong>scribir las probabilida<strong>de</strong>scon las que se dan los distintos eventos <strong>de</strong> sustitución entre aa o nt, con elfin <strong>de</strong> corregir o compensar las sustituciones no observadas a lo largo <strong>de</strong> la filogenia3.- Mientras que los métodos <strong>de</strong> MP asumen un mo<strong>de</strong>lo implícito <strong>de</strong> evolución (número mínimo<strong>de</strong> sustituciones a lo largo <strong>de</strong> la filogenia), los métodos <strong>de</strong> distancia (UPGMA, NJ), los<strong>de</strong> ML y Bayesianos requieren <strong>de</strong> un mo<strong>de</strong>lo explícito <strong>de</strong> evolución4.- Los métodos <strong>de</strong> distancia estiman finalmente un sólo parámetro (no. sust./sitio) dado elmo<strong>de</strong>lo y el valor <strong>de</strong> los parámetros <strong>de</strong>l mismo; en cambio, los métodos <strong>de</strong> ML y Bayesianospue<strong>de</strong>n estimar el valor <strong>de</strong> cada uno <strong>de</strong> los parámetros <strong>de</strong>l mo<strong>de</strong>lo explicitado, dadauna topología y la matriz <strong>de</strong> datos (alineamiento)Mo<strong>de</strong>los <strong>de</strong> evolución <strong>de</strong> secuencias-introducción• Para el análisis filogenético <strong>de</strong> secuencias alineadas virtualmente todos los métodos<strong>de</strong>scriben la evolución <strong>de</strong> las secuencias usando un mo<strong>de</strong>lo que consta <strong>de</strong> dos componentes:1. un árbol filogenético2. una <strong>de</strong>scripción <strong>de</strong> las probabilida<strong>de</strong>s con las que se dan las sustituciones <strong>de</strong> aa o ntsa lo largo <strong>de</strong> las ramas <strong>de</strong>l árbol• ¿Porqué necesitamos <strong>mo<strong>de</strong>los</strong> y para qué sirven?- Los <strong>mo<strong>de</strong>los</strong> nos sirven para interpolar a<strong>de</strong>cuadamente entre nuestras observacionescon el fin <strong>de</strong> po<strong>de</strong>r hacer predicciones inteligentes sobre observaciones futurasajuste a los datosobservados producidospor una funciónpolinomial vs.una func. lineal• añadir parámetros a un mo<strong>de</strong>lo generalmentemejora su ajuste a los datos observados• <strong>mo<strong>de</strong>los</strong> infra-parametrizados conducen a unpobre ajuste a los datos observados• <strong>mo<strong>de</strong>los</strong> supra-parametrizados conducen auna pobre predicción <strong>de</strong> eventos futuros• existen métodos estadísticos para seleccionar<strong>mo<strong>de</strong>los</strong> ajustados a cada set <strong>de</strong> datosCorolario:Mo<strong>de</strong>los <strong>de</strong> evolución <strong>de</strong> secuencias-introducción• Mo<strong>de</strong>los <strong>de</strong> evolución <strong>de</strong>l proceso <strong>de</strong> sustitución y métodos <strong>de</strong>reconstrucción filogenética: consi<strong>de</strong>raciones generales1. El grado <strong>de</strong> confianza que tengamos en una filogenia particular realmente<strong>de</strong>pen<strong>de</strong> <strong>de</strong> la que tengamos en el mo<strong>de</strong>lo subyacente2. Por lo tanto, siempre que usemos un método basado en un mo<strong>de</strong>lo explícito<strong>de</strong> evolución (NJ, ML, By) es necesario usar rigurosas pruebas estadísticaspara seleccionar el mo<strong>de</strong>lo y el valor <strong>de</strong> sus parámetros que mejor se ajustena la matriz <strong>de</strong> datos a analizar© 2008 Pablo Vinuesa, vinuesa@ccg.unam.mxhttp://www.ccg.unam.mx/~vinuesa 1


<strong>Tema</strong> 6: <strong>mo<strong>de</strong>los</strong> <strong>de</strong> sustitución empíricos yparamétricos; bootstrap no paramétricoMo<strong>de</strong>los <strong>de</strong> evolución <strong>de</strong> secuencias-introducción• Mo<strong>de</strong>los <strong>de</strong> evolución <strong>de</strong>l proceso <strong>de</strong> sustitución y métodos <strong>de</strong>reconstrucción filogenética: consi<strong>de</strong>raciones generales• Existen dos aproximaciones para construir <strong>mo<strong>de</strong>los</strong> <strong>de</strong> evolución <strong>de</strong> secuencias.1. construcción <strong>de</strong> <strong>mo<strong>de</strong>los</strong> empíricos basados en propieda<strong>de</strong>s <strong>de</strong>l proceso <strong>de</strong> sustitucióncalculadas a partir <strong>de</strong> comparaciones <strong>de</strong> un gran número <strong>de</strong> secuencias. Los <strong>mo<strong>de</strong>los</strong>empíricos resultan en valores fijos <strong>de</strong> los parámetros, los cuales son estimados sólouna vez, suponiéndose que son a<strong>de</strong>cuados para el análisis <strong>de</strong> otros sets <strong>de</strong> datos.Esto los hace fácil <strong>de</strong> usar e implementar en términos computacionales, pero suutilidad real para cada caso particular ha <strong>de</strong> ser evaluada críticamente2. construcción <strong>de</strong> <strong>mo<strong>de</strong>los</strong> paramétricos basado en el mo<strong>de</strong>laje <strong>de</strong> propieda<strong>de</strong>s químicaso genéticas<strong>de</strong>l aasy nts. Los <strong>mo<strong>de</strong>los</strong>paramétricostienenla ventaja<strong>de</strong> quelos valores <strong>de</strong> los parámetros pue<strong>de</strong>n ser <strong>de</strong>rivados <strong>de</strong> cada set <strong>de</strong> datos alhacer un análisis <strong>de</strong> los mismos usando métodos <strong>de</strong> ML o By, por tanto ajustándolosa cada matriz <strong>de</strong> datos particularMatriz BLOSUM62Intro. Biol. Filogenética - Lic. BiotecnologíaGenómica, Univ. Autónoma <strong>de</strong> Nuevo León,MonterreySimilitud entre pares <strong>de</strong> secuencias <strong>de</strong> AA• Las matrices empíricas <strong>de</strong> sustituciónentre AAs no reflejan necesariamente lasrelaciones químicas entre ellos. Setrata <strong>de</strong> una <strong>de</strong>finición púramenteestadística basada en el análisis <strong>de</strong>frecuencias empíricas <strong>de</strong> sustitucionesobservadas en alineamientos <strong>de</strong> secs.con un grado <strong>de</strong> divergencia <strong>de</strong>finido• Cada score <strong>de</strong> la matriz representa latasa <strong>de</strong> sustitución esperada entre unpar <strong>de</strong> AAs. Por tanto, los scores <strong>de</strong> los alineamientospareados evaluados con estasmatrices reflejan la distancia evolutivaexistente entre las secuencias.Es importante notar que los scores sonevolutivamente simétricos al no conocersela dirección <strong>de</strong>l cambio evolutivo.Alineamiento pareado <strong>de</strong> proteínas: matrices <strong>de</strong> costo BLOSUMMatrices BLOSUM <strong>de</strong> sustitución <strong>de</strong> aaHenikoff, S., Henikoff, J. G., and Pietrokovski, S. 1999. Blocks+: a non-redundant databaseof protein alignment blocks <strong>de</strong>rived from multiple compilations. Bioinformatics 15: 471-479.• Desarrollada por S. Henikoff y J. G. Henikoff para obtener una matriz más robustaque las PAM en la i<strong>de</strong>ntificación <strong>de</strong> homólogos distantes, particularmente cuando contienenuna proporción significativa <strong>de</strong> aas hidrofóbicos•Las matrices BLOSUM están basadas en la base <strong>de</strong> datos BLOCKS+ <strong>de</strong> proteínas alineadas;BLOcks SUbstitution Matrix (http://blocks.fhcrc.org). Son matrices empíricas.• Las series <strong>de</strong> matrices BLOSUM se <strong>de</strong>rivaron <strong>de</strong> alineamientos sin in<strong>de</strong>les (BLOCKS)<strong>de</strong> proteínas consi<strong>de</strong>rando sólo pares <strong>de</strong> alineamientos que no divergieran más <strong>de</strong> unumbral <strong>de</strong>terminado, por ej. un mínimo <strong>de</strong> 62 % <strong>de</strong> i<strong>de</strong>ntidad, para calcular las frecuenciasdiana o esperadas <strong>de</strong> la matriz BLOSUM62. Para estos alns. se calcula la razón entre elnúmero <strong>de</strong> pares <strong>de</strong> aa observados en cada posición y el número <strong>de</strong> pares esperados <strong>de</strong> lasfrequencias globales <strong>de</strong> los aas, expresando los resultados como log 10 X λ• Para evitar sesgos en las matrices por sobrerepresentación <strong>de</strong> secuencias muy similares, sereemplazaron aquellas con similitud > a un umbral dado por un solo representante o por unpromedio pon<strong>de</strong>rado (BLOCKS+).• La matriz BLOSUM62 es la actualmente favorecida para la mayoría <strong>de</strong> las aplicacionespor su buen rendimiento empírico y ha reemplazado a las matrices <strong>de</strong> Dayhoff (PAM)Alineamiento <strong>de</strong> proteínas: selección <strong>de</strong> matrices <strong>de</strong> pon<strong>de</strong>ración -consejos prácticos•Las matrices PAM fueron <strong>de</strong>rivadas <strong>de</strong> las secuencias <strong>de</strong> proteínas disponibles a finales <strong>de</strong>los 60s y ppios. <strong>de</strong> los 70s. Era una base <strong>de</strong> datos muy reducida y estaba sesgada a proteínaschicas, globulares e hidrofílicas ! Al carecer <strong>de</strong> suficientes homólogos con diversos niveles<strong>de</strong> divergencia evolutiva tuvieron que emplear supuestos teóricos (extrapolación) paraobtener las matrices <strong>de</strong> sustitución para prots. más distantes (mediante exponenciación)- las matrices PAM son una pobre elección para alinear (o buscar en las bases <strong>de</strong> datos)proteínas con dominios hidrofóbicos (p. ej. dominios transmembrana)• Qué matriz escoger en función <strong>de</strong>l nivel <strong>de</strong> divergencia esperada(potencial <strong>de</strong> mira retrospectiva en tiempo evolutivo)% i<strong>de</strong>ntidad PAM BLOSUM mira retrospectiva en tiempo evolutivo20- 50 % 250 45 homólogos en la zona <strong>de</strong> penumbra50- 75 % 250 62 ortólogos y parálogos en superfamilias 175- 90 % 160 80 ortólogos y parálogos en familias 290- 99 % 40 90 ortólogos muy cercanos1Superfamilias <strong>de</strong> proteínas contienen diversas familias <strong>de</strong> proteínas con ≥ 30% i<strong>de</strong>ntidad entre ellas2Familias <strong>de</strong> proteínas contienen secuencias con ≥ 85% i<strong>de</strong>ntidad entre ellasEstas <strong>de</strong>finiciones fueron acuñadas por Dayhoff et al. (1978)© 2008 Pablo Vinuesa, vinuesa@ccg.unam.mxhttp://www.ccg.unam.mx/~vinuesa 2


<strong>Tema</strong> 6: <strong>mo<strong>de</strong>los</strong> <strong>de</strong> sustitución empíricos yparamétricos; bootstrap no paramétricoAlineamiento <strong>de</strong> proteínas: selección <strong>de</strong> matrices <strong>de</strong> pon<strong>de</strong>ración -consejos prácticos para la i<strong>de</strong>ntificación <strong>de</strong> homólogoszona <strong>de</strong>“penumbra”• A medida que el nivel <strong>de</strong> divergencia entre pares<strong>de</strong> proteínas alcanza el valor <strong>de</strong> PAM250(~ 20% i<strong>de</strong>ntidad), comienza a ser dudosa surelación <strong>de</strong> homología, pudiendo tratarse <strong>de</strong>secuencias que presentan cierto grado <strong>de</strong> similitudpor azar, en base a composiciones <strong>de</strong>AAssimilaresen ambassecuencias!!!• Al entrar en esta zona <strong>de</strong> penumbra, es esencialconsi<strong>de</strong>rar información adicional, particularmentemotivos estructurales, para validar o <strong>de</strong>scartaruna posible relación <strong>de</strong> homologíaDistancias observadasvs. evolutivas (PAM) entre prots.Diferencia % obs. Dist. evol. PAM1 15 510 1115 1720 2330 3840 5650 8060 11270 15980 246 z. penumbra85 328• A medida que el nivel <strong>de</strong> divergenciaevolutiva entre pares <strong>de</strong> proteínasincrementa (distancias PAM) disminuyeel número <strong>de</strong> diferencias observadas,<strong>de</strong>bido a fenómenos <strong>de</strong> reversión(homoplasia). Por tanto, si no se cuentacon evi<strong>de</strong>ncia estructural, el análisisfilogenético <strong>de</strong> proteínas <strong>de</strong>be restringirsea aquellas con ≥ 20% <strong>de</strong> i<strong>de</strong>ntidad.Los alns. tampoco son confiablesIntro. Biol. Filogenética - Lic. BiotecnologíaGenómica, Univ. Autónoma <strong>de</strong> Nuevo León,MonterreyMo<strong>de</strong>los <strong>de</strong> evolución <strong>de</strong> secuencias-DNA• Mo<strong>de</strong>los <strong>de</strong> sustitución <strong>de</strong> nucleótidos• El mo<strong>de</strong>laje <strong>de</strong> la evolución a nivel <strong>de</strong>l DNA se ha concentrado en la aproximaciónparamétrica. Se manejan tres tipos principales <strong>de</strong> parámetros enestos <strong>mo<strong>de</strong>los</strong>:1. parámetros <strong>de</strong> frecuencia2. parámetros <strong>de</strong> tasas <strong>de</strong> intercambio3. parámetros <strong>de</strong> heterogeneidad <strong>de</strong> tasas <strong>de</strong> sustitución entre sitiosMo<strong>de</strong>los <strong>de</strong> evolución <strong>de</strong> sustitución <strong>de</strong> nucleótidos-<strong>mo<strong>de</strong>los</strong> paramétricos• los diversos <strong>mo<strong>de</strong>los</strong> evolutivos se distinguen por su grado <strong>de</strong> parametrizaciónI. Frecuencias <strong>de</strong> nt : πA = πC = πG = πT = 0.25 ó πA ≠ πC ≠ πG ≠ πT• <strong>mo<strong>de</strong>los</strong> <strong>de</strong> = frecuencia: JC69; K2P, K3P ...• <strong>mo<strong>de</strong>los</strong> <strong>de</strong> ≠ frecuencia: F81, HKY85, TrN93, GTR ...II. Tasas <strong>de</strong> sustitución transicionales/transversionalesΦ A-GΦ A-Cti (pur) A Gti (pir)CtvΦ A-CΦ C-GΦ C-GΦ A-T ΦG-TT• Existen 4 tipos <strong>de</strong> sustituciones ti y 8tv; cuando ti/tv ≠ 0.5 existe un sesgoen sustituciones ti (o tv) en el set <strong>de</strong>datos. ti generalmente >> 1• los <strong>mo<strong>de</strong>los</strong> evolutivos se diferenciantambién en la cantidad <strong>de</strong> parámetrosque utilizan para acomodar diversas tasas<strong>de</strong> sustitución:tasas mo<strong>de</strong>lo1 JC69 (ti=tv)2 K2P (ti ≠tv)3 TrN ó K3P (2 ti, 1 tv)6 GTR (cada sust. su tasa)Mo<strong>de</strong>los básicos <strong>de</strong> evolución <strong>de</strong> DNA:la familia <strong>de</strong> <strong>mo<strong>de</strong>los</strong> anidados GTR o REVJukes-Cantor (JC69)igual frecuencia <strong>de</strong> bases: π A= π C=π G= π Ttodas las sustituciones tienen igual tasa α=βacomodan sesgo ti/tvKimura 2 parameter (K2P)igual frec. <strong>de</strong> bases: π A= π C=π G= π Tdistintas tasas <strong>de</strong> sustitución ti y tv; α≠βacomodan ≠ frec. basesacomodan distintas frecuencias <strong>de</strong> basesdistintas frecs. bases: πA ≠ πC ≠ πG ≠ πTdistintas tasas <strong>de</strong> sust. ti and tv; α≠βacomodan sesgo tasas sust. ti/tvHasegawa-Kishino-Yano (HKY85),y Felsenstein 84 (F84) 2 tasasoTamura-Nei 1993 (TN93), 3 tasasoGeneral time reversible (GTR), 6 tasasFelsenstein (F81)distinta frec. <strong>de</strong> bases: π A≠ π C≠π G≠ π Tigual tasa <strong>de</strong> sustitución ti y tv; α=β© 2008 Pablo Vinuesa, vinuesa@ccg.unam.mxhttp://www.ccg.unam.mx/~vinuesa 3


<strong>Tema</strong> 6: <strong>mo<strong>de</strong>los</strong> <strong>de</strong> sustitución empíricos yparamétricos; bootstrap no paramétricoMo<strong>de</strong>los básicos <strong>de</strong> evolución <strong>de</strong> DNA:la familia <strong>de</strong> <strong>mo<strong>de</strong>los</strong> anidados GTR o REVIntro. Biol. Filogenética - Lic. BiotecnologíaGenómica, Univ. Autónoma <strong>de</strong> Nuevo León,MonterreyMo<strong>de</strong>los básicos <strong>de</strong> evolución <strong>de</strong> DNA:la familia <strong>de</strong> <strong>mo<strong>de</strong>los</strong> anidados GTR o REV• Matriz <strong>de</strong> tasas <strong>de</strong> sustitución instantáneas<strong>de</strong>l mo<strong>de</strong>lo GTR-µ (π A c + π C e + π G f )El mo<strong>de</strong>lo GTR es idéntico al <strong>de</strong> JC69 si a = b = c = d = e = f = 1y todas las bases se asumen que tienen igual frecuencia (¼)µ = tasa <strong>de</strong>l proceso generador <strong>de</strong> todos los tipos <strong>de</strong> sustitucionesa, ... e = modificadores <strong>de</strong> tasa relativa <strong>de</strong> cada tipo particular <strong>de</strong> sustituciónπ = frecuencia <strong>de</strong> cada nt9 parámetrosπ Aπ Cπ Gabc<strong>de</strong>µ1 parámetro (α)Incremento en el número <strong>de</strong> parámetros<strong>mo<strong>de</strong>los</strong> más generales11 parámetroslibres a estimarπA, πC, πGa, b, c, d, eµ,Ι, ΤEn total existen 203 <strong>mo<strong>de</strong>los</strong>posibles en la familia GTR al combinarparams. <strong>de</strong> frec., tasa, G e ILa mayoría <strong>de</strong> ellos carecen <strong>de</strong> nombreComparación empírica <strong>de</strong> <strong>mo<strong>de</strong>los</strong> sust. <strong>de</strong> DNAComparación empírica <strong>de</strong> <strong>mo<strong>de</strong>los</strong> sust. <strong>de</strong> DNA• Comparación <strong>de</strong> los <strong>mo<strong>de</strong>los</strong> <strong>de</strong> JC69 y K2P en su capacidad <strong>de</strong> corregir distanciasobservadas (p ) entre pares <strong>de</strong> secuencias según su grado <strong>de</strong> divergencia• Comparación <strong>de</strong> los <strong>mo<strong>de</strong>los</strong> <strong>de</strong> JC69 y K2P en su capacidad <strong>de</strong> corregir distanciasobservadas (p ) entre pares <strong>de</strong> secuencias según su grado <strong>de</strong> divergenciad JC69 =vs.d K2Pd JC69 =vs.d K2P•EscenarioI:• Escenario II:- sean 2 secs. <strong>de</strong> long. = 200 nt, que difieren en 20 ti y 4 tvpor lo tanto L = 200, P = 20/200 = 0.1 y Q = 4/200 = 0.02- sean 2 secs. <strong>de</strong> long. = 200 nt, que difieren en 50 ti y 16 tvpor lo tanto L = 200, P = 50/200 = 0.25 y Q = 16/200 = 0.08p = 24/200 = 0.12d JC69 ≈ 0.13 (sust./sitio)d K2P ≈ 0.13 (sust./sitio)p = 66/200 = 0.33d JC69 ≈ 0.43 (sust./sitio)d K2P ≈ 0.48 (sust./sitio)no. <strong>de</strong> sust. esperadas = 0.13 X 200 ≈ 26no. <strong>de</strong> sust. esperadas = 0.13 X 200 ≈ 26no. <strong>de</strong> sust. esperadas = 0.43 X 200 ≈ 86no. <strong>de</strong> sust. esperadas = 0.48 X 200 ≈ 96© 2008 Pablo Vinuesa, vinuesa@ccg.unam.mxhttp://www.ccg.unam.mx/~vinuesa 4


<strong>Tema</strong> 6: <strong>mo<strong>de</strong>los</strong> <strong>de</strong> sustitución empíricos yparamétricos; bootstrap no paramétricoIntro. Biol. Filogenética - Lic. BiotecnologíaGenómica, Univ. Autónoma <strong>de</strong> Nuevo León,MonterreyMo<strong>de</strong>los <strong>de</strong> evolución <strong>de</strong> secuencias• El objetivo <strong>de</strong> los <strong>mo<strong>de</strong>los</strong> <strong>de</strong> sustitución es el <strong>de</strong>compensar para los eventos homoplásicos <strong>de</strong> múltiplessustituciones, y así obtener estimas <strong>de</strong> distanciasevolutivas corregidas•El número<strong>de</strong> ti es generalmente > que el <strong>de</strong> tv, fenómenoque se acentúa cuanto mayor es la divergenciaentre las secuencias a comparar. De ahí que en nuestroejemplo las diferencias entre los escenarios I y IIsólo se hicieron notar en el caso en el que la divergenciaentre las secuencias era mayor (escenario II)Estima <strong>de</strong> la confianza que po<strong>de</strong>mos tener en distintas partes <strong>de</strong>una filogenia: el método <strong>de</strong> bootstrap“Filogenias bien soportadasvs. pobremente apoyadaspor los datos”0.11.00/1000.99/91substitutions per siteB. canariense BC-C2 (Canary Is.)B. canariense BRE-4 (Canary Is.)1.00/100B. canariense BC-MAM1 (Morocco)B. canariense BC-MAM5 (Morocco), ISLU16 (Spain)1.00/78B. canariense BC-MAM2, BC-MAM6 (Morocco)B. canariense BC-MAM9 (Morocco)1.00/97B. canariense BC-MAM12 (Morocco)0.99/1001.00/100 B. canariense BC-P22 (Canary Is.)B. canariense BC-MAM8 (Morocco)B. canariense BES-1 (Canary Is.)1.00/100 B. canariense BES-2 (Canary Is.), BC-MAM11 (Morocco)1.00/100B. japonicum X6-9 (China)0.99/78 B. japonicum DSMZ30131 T (Japan)B. japonicum FN13 (Mexico)1.00/95B. japonicum BGA-1 (Canary Is.)B. japonicum BC-P14 (Canary Is.) II1.00/84B. japonicum X3-1 (China)1.00/98 B. japonicum Blup-MR1 (Germany)B. japonicum USDA110 (USA)0.98 * 1.00/99 B. japonicum USDA122 (USA), Nep1 (Nepal)Bradyrhizobium genosp. α BC-C1 (Canary Is.) †III, α0.99/94 Bradyrhizobium genosp. α CIAT3101 (Colombia) †* B. liaoningense Spr3-7 (China)1.00IVB. liaoningense LMG18230 T (China)/100Bradyrhizobium genosp. β BC-P6 (Canary Is.)0.93/861.00/100 1.00/100Bradyrhizobium genosp. β BRE-1 (Canary Is.) V, βBradyrhizobium genosp. β BC-MK6 (Morocco)B. yuanmingense B070 T (China)1.00/931.00 B. yuanmingense LMTR28 (Peru)/100B. yuanmingense TAL760 (Mexico)1.00/100 B. elkanii USDA46 (USA)B. elkanii USDA76 T (USA)1.00/100VII (B. elkanii)B. elkanii USDA94 (USA)1.00/100Bradyrhizobium sp. BTAi1 (USA)Bradyrhizobium sp. IRBG231 (Philippines) †Bradyrhizobium sp. IRBG127 (Philippines) †Rho. palustris Pal-1 †S. meliloti 1021 †B. japonicumB. canarienseVI (B. yuanmingense)VIII (photosynthetic)IEstima <strong>de</strong>l error <strong>de</strong> muestreo mediante el método <strong>de</strong> bootstrap• Una vía <strong>de</strong> estimar el error <strong>de</strong> muestreo es tomar múltiples muestras <strong>de</strong> la poblacióny comparar las estimas obtenidas <strong>de</strong> ellas. La dispersión entre estas muestras nos dauna i<strong>de</strong>a <strong>de</strong>l error <strong>de</strong> muestreo•El método <strong>de</strong> bootstrap se basa en remuestrear la propia muestra© 2008 Pablo Vinuesa, vinuesa@ccg.unam.mxhttp://www.ccg.unam.mx/~vinuesa 5


<strong>Tema</strong> 6: <strong>mo<strong>de</strong>los</strong> <strong>de</strong> sustitución empíricos yparamétricos; bootstrap no paramétricoIntro. Biol. Filogenética - Lic. BiotecnologíaGenómica, Univ. Autónoma <strong>de</strong> Nuevo León,MonterreyEstima <strong>de</strong>l error <strong>de</strong> muestreo mediante el método <strong>de</strong> bootstrapBOOTSTRAPPING• generación <strong>de</strong> n (100-1000) pseudoréplicas(muestreo aleatorio con reemplazo)2. estima<strong>de</strong> la filogeniaparacadapseudoréplica3. cálculo <strong>de</strong> un árbol consenso4. mapeo <strong>de</strong> las proporciones <strong>de</strong> bootstrapsobrela topologíainferida<strong>de</strong> los datosoriginales© 2008 Pablo Vinuesa, vinuesa@ccg.unam.mxhttp://www.ccg.unam.mx/~vinuesa 6

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!