12.07.2015 Views

Tema 6: Máxima parsimonia y estrategias de ... - CCG-UNAM

Tema 6: Máxima parsimonia y estrategias de ... - CCG-UNAM

Tema 6: Máxima parsimonia y estrategias de ... - CCG-UNAM

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Tema</strong> 6: Máxima <strong>parsimonia</strong> y <strong>estrategias</strong> <strong>de</strong> búsqueda<strong>de</strong> árbolesBioInfo aplicada a estudios <strong>de</strong> ecología y sistemáticamolecular <strong>de</strong> bacterias, UFLA, Lavras, MG, Brasil,Nov.2007Criterios <strong>de</strong> optimización – Máxima <strong>parsimonia</strong>Criterios <strong>de</strong> optimización – Máxima <strong>parsimonia</strong>• Los métodos <strong>de</strong> distancia primero convierten los alineamientos <strong>de</strong> secuencias en unamatriz <strong>de</strong> distancias genéticas en base al mo<strong>de</strong>lo evolutivo seleccionado, la cual es usadapor el método <strong>de</strong> reconstrucción para calcular el árbol (LS y ME; UPGMA y NJ)• Los métodos discretos basados en crit. <strong>de</strong> opt. (MP y ML) consi<strong>de</strong>ran cada sitio <strong>de</strong>lalineamiento (o una función probabilística para cada sitio) directamente• Un set <strong>de</strong> 4 seqs. y la matriz <strong>de</strong> distanciascorrespondiente• Un árbol <strong>de</strong> <strong>parsimonia</strong> y uno<strong>de</strong> distancias(ME) para el mismo set <strong>de</strong> datos producetopologías y longitu<strong>de</strong>s <strong>de</strong> ramas idénticas• La diferenciaradica en queel árbol <strong>de</strong><strong>parsimonia</strong>i<strong>de</strong>ntifica qué sitio <strong>de</strong>l alineamientocontribuye cada pasomutacionalenla longitud <strong>de</strong> cada ramamáxima <strong>parsimonia</strong>: involucra la i<strong>de</strong>ntificación <strong>de</strong> la(s) topología(s) con la menorlongitud total <strong>de</strong>l árbol, es <strong>de</strong>cir, que requiere(n) el menor número <strong>de</strong> cambiosevolutivos (transformaciones en estados <strong>de</strong> caracter) para explicar las diferenciasobservadas entre OTUs (Kluge& Farris 1969; Farris, 1970; Fitch, 1971)• Justificación filosófica - La “cuchilla <strong>de</strong> Ockham” : la mejor hipótesis es aquellaquerequiereel menor número <strong>de</strong> suposiciones (“elimínesetodo lo prescindible”), es <strong>de</strong>cir,favorecemos a la hipótesis más simple• Se ha sugerido en un marco conceptual Popperiano que la <strong>parsimonia</strong> es el único métodoconsistente con un marco hipotético-<strong>de</strong>ductivo<strong>de</strong> contraste <strong>de</strong> hipótesis• Estudios recientes muestran en cambioque la relación entre MP y simplicidad no es obvia:se ha <strong>de</strong>mostrado que la ML bajo mo<strong>de</strong>los muy parametrizados queasignan un parámetroindividual para cada caracter (posición) y rama<strong>de</strong>l árbol, se hace equivalente a la MP.¿Indica esto una clara relación entre MP y simplicidad?(Tuffley & Steel 1997. Bull. Math. Biol. 59:581-607; Queiroz & Poe 2001. Syst. Biol. 50:305-321)Criterios <strong>de</strong> optimización – Máxima <strong>parsimonia</strong>Criterios <strong>de</strong> optimización – Máxima <strong>parsimonia</strong>• El mo<strong>de</strong>lo<strong>de</strong> MP se justifica en filogenética dado que1) se asume quelos cambios <strong>de</strong> estado<strong>de</strong> caracter (mutaciones) son poco frecuentes y2) no se pue<strong>de</strong> conocer con exactitud el camino evolutivo <strong>de</strong> dichos cambios, por lo que sebusca maximizar la similitud evolutiva quese pue<strong>de</strong>explicar como homóloga (porancestría compartida). De esta manera se busca <strong>de</strong> minimizar la homoplasia(similitudno heredada directamente<strong>de</strong>l ancestro), ya quelas hipótesis <strong>de</strong> homoplasia(convergencia, evolución paralela ...) pue<strong>de</strong>n ser juzgadas comointentos ad hoc <strong>de</strong>explicar porqué <strong>de</strong>terminados datos no encajan en una hipótesis evolutiva(árbol filogenético) particular• Cualquier discusión sobremétodos <strong>de</strong> MP <strong>de</strong>be distinguir entre elcriterio <strong>de</strong> optimización(árbol<strong>de</strong> longitud mínimabajo una serie<strong>de</strong> restricciones impuestas a los cambiosposibles entre estados <strong>de</strong> caracter) y el algoritmo empleadopara parabuscar estosárboles óptimos en el espacio <strong>de</strong> topologías posibles.• Los algoritmos <strong>de</strong> búsqueda se van mejorandocon el tiempo y algunos pu<strong>de</strong>n quedarobsoletos, mientras que el criterio <strong>de</strong> MP está claramenteestablecido en ciencia <strong>de</strong>s<strong>de</strong>hacemucho tiempo y ha perdurado en filogenética <strong>de</strong>s<strong>de</strong> su implementación en estadisciplina por Edwards y Cavalli-Sforza en 1963 (ver aspectos históricos tratados en eltema I).• Por lo tanto vamos a tratar dos puntos en estetema:1.- El criterio <strong>de</strong> optimización <strong>de</strong> máxima <strong>parsimonia</strong> (MP)2.- las <strong>estrategias</strong> <strong>de</strong> búsquedaexhaustivas y heurísticas empleadas en la actualidadpor paquetes <strong>de</strong> inferenciafilogenética tales como Phylip y PAUP*.© Pablo Vinuesa 2007, vinuesa@ccg.unam.mx,http://www.ccg.unam.mx/~vinuesa 1


<strong>Tema</strong> 6: Máxima <strong>parsimonia</strong> y <strong>estrategias</strong> <strong>de</strong> búsqueda<strong>de</strong> árbolesCriterios <strong>de</strong> optimización – Máxima <strong>parsimonia</strong>• El árbol <strong>de</strong> máxima <strong>parsimonia</strong>representa a la hipótesis evolutiva consistente con elcamino evolutivo más corto que explica o conduce a los caracteres observadosBioInfo aplicada a estudios <strong>de</strong> ecología y sistemáticamolecular <strong>de</strong> bacterias, UFLA, Lavras, MG, Brasil,Nov.2007Máxima <strong>parsimonia</strong> estándar (<strong>de</strong> Fitch)• clasificación <strong>de</strong> caracteres:- sitios (C) invariantes o constantes- sitios (V) variables: (informativos (Pi) vs. no informativos o Singletones (S)• Para sets <strong>de</strong> datos complejos y con homoplasias se encuentra generalmentemás <strong>de</strong> unatopología <strong>de</strong> igual longitud (número <strong>de</strong> cambios en estado<strong>de</strong> caracter);estos árboles son igualmente parsimoniosos y tienen el mismo score (L)• Se han <strong>de</strong>sarrollado diversos métodos <strong>de</strong> MP para inferenciafilogenética con el fin <strong>de</strong> po<strong>de</strong>ranalizar diferentes tipos <strong>de</strong> datos:2Pi C SClases<strong>de</strong> sitios:Pi= Pars. inform.C= ConstanteS= Singletónreconstruccionespara el sitio 2- Parsimonia <strong>de</strong> Wagner: trabajasobrecaracteres multiestadoor<strong>de</strong>nadosA B C (cambio<strong>de</strong> A a C require 2 pasos)- Parsimonia (estándar) <strong>de</strong> Fitch: trabajasobrecaracteres multiestado<strong>de</strong>sor<strong>de</strong>nados (nt)- Parsiminia (pon<strong>de</strong>rada) generalizada: usa una matriz <strong>de</strong> pasos para dar mayorpeso a tv que a ti- Parsimonia <strong>de</strong> Dollo: se empleacuando existeasimetría en la probabilidad <strong>de</strong>evolución <strong>de</strong> estados <strong>de</strong> caracter (p. ej. caracteres <strong>de</strong> sitios<strong>de</strong> restricción: la pérdida es más probable quela gananciaparalela <strong>de</strong> un sitio<strong>de</strong> restricción)• Un sitio es Pi sólo si existen al menos 2 est. car. (nts) y cada uno<strong>de</strong> ellos es compartido almenos por 2 <strong>de</strong> la secuencias a analizar (marcados con *). Sólo así son filogenet. informat.• Para encontrar el árbol<strong>de</strong> MP se i<strong>de</strong>ntifican primero los Pi. Para cada topología posible secalcula el número min. <strong>de</strong> sust. <strong>de</strong> cada Pi. Sobrela(s) topología(s) más parsimoniosas se mapeanfinalmentetodas las sustituciones (informativas o no) para calcular las long. <strong>de</strong> rama• Nótese quelos resíduos en los nodos internos <strong>de</strong> cada árbol representan sólouna <strong>de</strong> las diversasreconstrucciones posibles. Por ej. po<strong>de</strong>mos sutituír las [As] por [ Gs] para el sitio 2en el árbol 1 y no cambia su puntuación; siponemos una [T] ó [C] implicaría 4 sust., etc.Máxima <strong>parsimonia</strong> estándar (<strong>de</strong> Fitch)Ejercicio – MP estándar (FITCH)2Pi C SClases<strong>de</strong> sitios:Pi= Pars. inform.C= ConstanteS= Singletónreconstruccionespara el sitio 2Para el siguiente alineamiento:A) haz una clasificación <strong>de</strong> caracteres según el criterio <strong>de</strong>máxima <strong>parsimonia</strong> estándar (Fitch Parsimony)1. Alineamiento: No. sitios : 15; OTUs (taxa) = 4• En nuestrocasola topología #3 es la más parsimoniosa, puesto que<strong>de</strong>manda 2 pasosmenos que las topologías #1 y #2• Para cada sitio var. <strong>de</strong>l alineamiento el objetivo es reconstruir su evolución bajo laconstricción <strong>de</strong> invocar el número mínimo <strong>de</strong> pasos evolutivos. El número total <strong>de</strong> cambiosevolutivos sobre un árbol (longitud en pasos evolutivos <strong>de</strong>l árbol) es simplemente la suma<strong>de</strong> cambios <strong>de</strong> estados <strong>de</strong> caracter (p. ej. mutaciones) en cada sitio var. <strong>de</strong> la matrizo alineamientokCaracteresRhizobiumAgrobacteriumSinorhizobiumBradyrhizobiumConstantes (C)Singletones (S)VariablesInformativos (I)GGA GGG AGG AGGCCTGGC GGG AGG AGGCCTGGG GGA AGG TGT <strong>CCG</strong>GGT CGT AGC TGT GTGCCS SCS CCS ICI SSIC = 6V = 9S = 6Pi = 3S 15L = S l ii=1K = no. <strong>de</strong> sitios; l =longitud <strong>de</strong> cada sitio© Pablo Vinuesa 2007, vinuesa@ccg.unam.mx,http://www.ccg.unam.mx/~vinuesa 2


<strong>Tema</strong> 6: Máxima <strong>parsimonia</strong> y <strong>estrategias</strong> <strong>de</strong> búsqueda<strong>de</strong> árbolesEjercicio – MP estándar (FITCH)BioInfo aplicada a estudios <strong>de</strong> ecología y sistemáticamolecular <strong>de</strong> bacterias, UFLA, Lavras, MG, Brasil,Nov.2007Ejercicio – MP estándar (FITCH)C) Dibuja las toplogías posibles para los 4 OTUs, indica cual es la topología másparsimoniosa <strong>de</strong> ellas y calcula la longitud <strong>de</strong> la mismaC) Dibuja las toplogías posibles para los 4 OTUs e indica cual es la topología másparsimoniosa <strong>de</strong> ellas y calcula la longitud <strong>de</strong> la mismaRRhizobiumAgrobacteriumSinorhizobiumBradyrhizobiumSRGGA GGG AGG AGG CCTGGC GGG AGG AGG CCTGGG GGA AGG TGT <strong>CCG</strong>GGT CGT AGC TGT GTG* * *ARARhizobiumAgrobacteriumSinorhizobiumBradyrhizobiumGGA GGG AGG AGG CCTGGC GGG AGG AGG CCTGGG GGA AGG TGT <strong>CCG</strong>GGT CGT AGC TGT GTG* * *CCS SCS CCS ICI SSI3 1 2 1 1 1 111 S = 12 =TLABSBBSI 1A RA AI 2 1I 3 1S=3 S=6 S=6S TARAA AA TT TT T1 B T T S 2 B T T B 222AARA22AA AS TACRAACGTSBGTGGRAGGSBGCGGRAGATSBATMáxima <strong>parsimonia</strong> estándar (<strong>de</strong> Fitch)• Reconstrucción <strong>de</strong> estados <strong>de</strong> caracter ancestralesMáxima <strong>parsimonia</strong> generalizada (pon<strong>de</strong>rada)• Para compensar la pérdida <strong>de</strong> señal filogenética que se produce más rápidamente para tiquetv, se pue<strong>de</strong> dar mayor peso a estas últimas, yaque suelenser un mejor indicadorfilogenético. En el casomás extremo, a las tis se les da un peso = 0, habándose entonces<strong>de</strong> “transversion parsimony”.Mo<strong>de</strong>lo <strong>de</strong>sustituciónMatriz <strong>de</strong> pasos(pon<strong>de</strong>ración)HaciaMP no pon<strong>de</strong>radaDe• El set en un nodo interno es la intersección ( ) <strong>de</strong> los dos sets en los dos nodos inmediatamente<strong>de</strong>scendientes siempre que la intersección no esté vacía; <strong>de</strong> ser así, es la unión (U)Hacia• Nótese quela inferencia <strong>de</strong> los caracteres ancestrales es <strong>de</strong>pendiente <strong>de</strong> la topología• Cuando se requiere una U para <strong>de</strong>finir el set nodal, tuvo quehaber acontecido unasustituciónen dichositiodurante su evolución. Por tanto el número <strong>de</strong> Us = no. mínimo<strong>de</strong> sust. quese requieren para explicar el estado<strong>de</strong> caracter <strong>de</strong> un nodo <strong>de</strong>scendiente <strong>de</strong> otro ancestralMP pon<strong>de</strong>radaDe• El no. <strong>de</strong> sust. en un sitio no Pi es igualal no. <strong>de</strong> nts diferentes en dichositio-1© Pablo Vinuesa 2007, vinuesa@ccg.unam.mx,http://www.ccg.unam.mx/~vinuesa 3


<strong>Tema</strong> 6: Máxima <strong>parsimonia</strong> y <strong>estrategias</strong> <strong>de</strong> búsqueda<strong>de</strong> árbolesMáxima <strong>parsimonia</strong> - objeciones• Inconsistencia bajo ciertos mo<strong>de</strong>los<strong>de</strong> evolución: atracción <strong>de</strong> ramas largas(“zona <strong>de</strong> Felsenstein”: Felsenstein 1978. Syst. Zool. 27:401-410)topologíaverda<strong>de</strong>ra((1,2), (3,4))1 3BioInfo aplicada a estudios <strong>de</strong> ecología y sistemáticamolecular <strong>de</strong> bacterias, UFLA, Lavras, MG, Brasil,Nov.2007Máxima <strong>parsimonia</strong> - objeciones• Inconsistencia bajo ciertos mo<strong>de</strong>los<strong>de</strong> evolución: atracción <strong>de</strong> ramas largas(“zona <strong>de</strong> Felsenstein”)topologíaverda<strong>de</strong>ra((1,2), (3,4))1 3131213122ML43MP42ML43MP42 4Sust. homoplásicascovariantes• Ml es estadísticamenteconsistente: converge con la topología verda<strong>de</strong>ra con mayorfrecuencia a medida queincrementa el no. <strong>de</strong> datos (sitios)• MP es estadísticamente inconsistente: converge con la topología incorrecta con mayorfrecuencia a medida queincrementa el no. <strong>de</strong> datos (sitios)2 4Sust. homoplásicascovariantes• La MP requiere que existan más sitios soportando la topología ((1,2), (3,4)) que((1,3), (2,4))para quela primera sea la recuperadaen un análisis• Si la ramacentral es muycorta, OTUs 1 y 3 pue<strong>de</strong>n adquirir las mismas sustitucionesconvergentes (homoplásicas) por azar, las cuales pue<strong>de</strong>nllegar a pesar más que laspocas sust. homólogas quese acumulanen la rama internaMáxima <strong>parsimonia</strong> - objecionesMáxima <strong>parsimonia</strong> - objeciones• El efecto <strong>de</strong> atracción <strong>de</strong> ramas largas se encuentra en datos verda<strong>de</strong>ros cuando:- tenemos pocas secuencias (cuartetos) y algunas <strong>de</strong> ellas presentan tasas <strong>de</strong>sustitución mucho mayor queotras o 2) éstas son muy divergentes• La consistencia <strong>de</strong> la MP incrementadrásticamente cuando los árboles tienen muchasramas (OTUs) que “rompen” las ramas largas. Estoha sido<strong>de</strong>mostradomediante estudios<strong>de</strong> simulación <strong>de</strong> secuencias <strong>de</strong> distinta long. a lo largo <strong>de</strong> filogenias como la mostrada• Más que la presencia <strong>de</strong> ramas largas lo que afecta a la consistencia<strong>de</strong> la MP es que existansustituciones convergentes (covariantes) a lo largo <strong>de</strong> las ramas largas• La probabilidad <strong>de</strong> que existan dichas sustituciones homoplásicas covariantes <strong>de</strong>crecemucho si las ramas largas están muy separadas en la topología, dado quesus caracteresancestrales por lo tanto también son muydistintos. Lo contrario suce<strong>de</strong> para ramas largaspróximas sobretopologías con pocos OTUsHillis, 1996. Nature 383:130-131© Pablo Vinuesa 2007, vinuesa@ccg.unam.mx,http://www.ccg.unam.mx/~vinuesa 4


<strong>Tema</strong> 6: Máxima <strong>parsimonia</strong> y <strong>estrategias</strong> <strong>de</strong> búsqueda<strong>de</strong> árboles¿Es el ML siempre consistente?BioInfo aplicada a estudios <strong>de</strong> ecología y sistemáticamolecular <strong>de</strong> bacterias, UFLA, Lavras, MG, Brasil,Nov.2007Métodos <strong>de</strong> búsqueda <strong>de</strong> árboles• Pasos lógicos <strong>de</strong> los métodos filogenéticos basados en criterios <strong>de</strong> optimización (MP, ML ...)NOML tien<strong>de</strong>a ser inconsistente cuando el mo<strong>de</strong>lo seleccionadoes incorrecto(presenta muy mal ajuste). La presencia <strong>de</strong> ramas largas pue<strong>de</strong>ser unsíntoma <strong>de</strong> un mo<strong>de</strong>lo con pobre ajuste- fuertevariación <strong>de</strong> tasas <strong>de</strong> sustitución entre sitios1. <strong>de</strong>finir el criterio<strong>de</strong> optimización (<strong>de</strong>scritoformalmenteen una función objetiva)2. Construir un árbol <strong>de</strong> partida que contengatodos los OTUs3. Emplar algoritmos <strong>de</strong> búsquedaque tratan <strong>de</strong> encontrar árboles mejores bajoel criterio <strong>de</strong> optimizaci’on escogidoque el árbol actual o <strong>de</strong> partida.Gaut & Lewis 1995. Mol. Biol. Evol. 12:152-1621. Criterios <strong>de</strong> optimización2. Estrategias <strong>de</strong> búsqueda- cuandolos sitios no evolucionan in<strong>de</strong>pendientementeSchöniger & von Haeseler 1995. Syst. Biol. 44:533-547Máxima <strong>parsimonia</strong>Máxima verosimilitudEnumeración exhaustiva (n =12)(exhaustive enumeration)Ramificación y límite(n =25)(branch-and-bound)Métodos exactos:garantizan encontrarlatopologíaóptima• En general ML es bastanterobusto a violaciones <strong>de</strong> los supuestos- cada vez se tienemás claro qué factores evolutivos son los relevantesen distintos tipos <strong>de</strong> secuencias y se continúan<strong>de</strong>sarrollando más y mejoresmo<strong>de</strong>los queconsi<strong>de</strong>ran dichos factores para hacer la reconstrucciónfilogenéticaEvolución MínimaMínimos cuadradosDecomposición en estrella(star <strong>de</strong>composition)Adición secuencial(stepwise addition)(Inter-)cambio <strong>de</strong> rama(branch swapping)Métodos heurísticos:no garantizan encontrarlatopologíaóptimaMétodos <strong>de</strong> búsqueda <strong>de</strong> árboles-enumeración exhaustiva (n = 12)13PAUP* command:alltrees ;Métodos exactos <strong>de</strong> búsqueda <strong>de</strong> árboles-enumeración exhaustiva (n = 12)13se aña<strong>de</strong> el cuarto OTUa cualquiera <strong>de</strong> las 3 ramas42132empezamoscon una topologíatrivial <strong>de</strong> 3 OTUsse aña<strong>de</strong> el quinto OTUa cualquiera <strong>de</strong> las 5 ramas<strong>de</strong> las 3 topologías con 4 OTUs...obtenemos 3x5 = 15 topol421322113211343244324© Pablo Vinuesa 2007, vinuesa@ccg.unam.mx,http://www.ccg.unam.mx/~vinuesa 5


<strong>Tema</strong> 6: Máxima <strong>parsimonia</strong> y <strong>estrategias</strong> <strong>de</strong> búsqueda<strong>de</strong> árboles22131354• PAUP* command:bandb;Métodos exactos <strong>de</strong> búsqueda <strong>de</strong> árboles- “branch and bound” (n = 25)árbol obtenido porunmétodo heurístico conpuntuación MP <strong>de</strong> 1492pasos(límite o bound)1424321315231599XX51219875 2431251 32188441132732 44no alcanza1492el límite• Al igualque la búsqueda exhaustiva, garantiza encontrar el árbol óptimo3412151457mejor34 1324153335BioInfo aplicada a estudios <strong>de</strong> ecología y sistemáticamolecular <strong>de</strong> bacterias, UFLA, Lavras, MG, Brasil,Nov.2007Métodos <strong>de</strong> búsqueda <strong>de</strong> árbolesI.- el problema <strong>de</strong>l número <strong>de</strong> topologíasEl número <strong>de</strong> topologías posibles incrementa factorialmentecon cada nuevo taxono secuencia que se aña<strong>de</strong> al análisisNo. <strong>de</strong> árboles no enraizados= (2n-5)!/2 n-3 (n-3)No. <strong>de</strong> árboles enraizados= (2n-3)!/2 n-2 (n-2)Taxa árboles no enraiz*. árb. enraiz.4 3 158 10,395 135,13510 2,027,025 34,459,42522 3x10 23 ...50 3x10 74 ...*porej. para sólo 15 OTUs tenemos 213,458,046,676,875 topologías- ¡ si pudiésemosevaluar1x10 6 topol./seg. necesitaríamos6 añosy 9 mesespara completarla búsqueda! El no. <strong>de</strong> Avogadro es~ 6 x10 23 (átomos/mol).Según la teor. <strong>de</strong> la relatividad <strong>de</strong> la estructura <strong>de</strong>l universo <strong>de</strong> Einstein,existen 10 80 átomosen el universo ...Por tanto se requieren <strong>de</strong> <strong>estrategias</strong> heurísticas <strong>de</strong> búsqueda árbolescuando se emplean métodos basados en criterios <strong>de</strong> optimización y n > ~25Métodos heurísticos <strong>de</strong> búsqueda <strong>de</strong> árboles- islas <strong>de</strong> árboles• En la mayor parte<strong>de</strong> los casos se empleanmétodos heurísticos;- éstos comienzan con un árbol (aleatorio, NJ o <strong>de</strong> adición secuencial) pararealizar intercambios<strong>de</strong> ramas (branch swappig) sobre esta topología inicial con el propósito <strong>de</strong> encontrartopologías <strong>de</strong> mejor puntuación (según la func. <strong>de</strong> objetividad) que la <strong>de</strong> partida• estos métodos heurísticos no garantizan encontrar la topología óptima perotrabajan muybien cuandose comparan con sets <strong>de</strong> datos <strong>de</strong> = 25 secs. analizados medianteB&B• El espacio <strong>de</strong> árboles pue<strong>de</strong> visualizarsecomoun paisajeconcolinas <strong>de</strong> diversas alturas; cadapicorepresenta un máximo local<strong>de</strong> score o puntuación (isla <strong>de</strong>árboles)• Es recomendablehacer múltiplesbúsqu<strong>de</strong>as heuríst.comenzando cada una <strong>de</strong>s<strong>de</strong>una topología distinta paraminimizar el riesgo <strong>de</strong> obtenerun árbol ubicadoen una islatopológica subóptimaMétodos heurísticos <strong>de</strong> búsqueda <strong>de</strong> árboles- adición secuencial (aleatorizada)Estemétodose usa con frecuencia para generar distintos “árboles semilla” a partir <strong>de</strong> loscuales comenzar búsquedas heurísticas, partiendo <strong>de</strong> “distintos puntos <strong>de</strong>l espacio <strong>de</strong> árboles213PAUP* command:hsearch;swap = no;142412mejor32133452125134341221534 1342241335mejor...54© Pablo Vinuesa 2007, vinuesa@ccg.unam.mx,http://www.ccg.unam.mx/~vinuesa 6


<strong>Tema</strong> 6: Máxima <strong>parsimonia</strong> y <strong>estrategias</strong> <strong>de</strong> búsqueda<strong>de</strong> árbolesMétodos heurísticos <strong>de</strong> búsqueda <strong>de</strong> árboles- adición secuencial (aleatorizada)BioInfo aplicada a estudios <strong>de</strong> ecología y sistemáticamolecular <strong>de</strong> bacterias, UFLA, Lavras, MG, Brasil,Nov.2007Métodos heurísticos <strong>de</strong> búsqueda <strong>de</strong> árboles- <strong>de</strong>composición <strong>de</strong> estrella• El ór<strong>de</strong>n en el que se aña<strong>de</strong>n los OTUs pue<strong>de</strong> cambiar los resultados• Por ellosuelerepetirse varias veces, añadiendo OTUs en cada ciclo <strong>de</strong> manera aleatorizadaPAUP* command:star<strong>de</strong>comp;• Sirve por lo tanto para iniciar distintas búsquedas heurísticas partiendo <strong>de</strong> topologíaspotencialmente diferences para unaeficienteexploración <strong>de</strong>l espacio <strong>de</strong> topologías(pero no a<strong>de</strong>cuado como hipótesis evolutiva en sí misma)árbol estrellaparaN OTUSN(N-1)/2modos <strong>de</strong>buscar paresmejorpuntuación...hasta unir las(N-3) posiblesramas internas• NJ usa estemétodo junto al criterio<strong>de</strong> evolución mínima• una vez que 2 OTUs han sido unidos ya no pue<strong>de</strong>nser <strong>de</strong>sacoplados más a<strong>de</strong>lante; en estodifiere <strong>de</strong>l algoritmo <strong>de</strong> adición secuencial• sensible al or<strong>de</strong>n en que se van uniendo los OTUs; problemaincrementa con el no. <strong>de</strong> OTUs• no <strong>de</strong>be ser por tanto usado como método <strong>de</strong> búsqueda <strong>de</strong>finitivo• buena estrategia para producir árboles iniciales quesean mejorados mediante otras<strong>estrategias</strong> heurísticasMétodos heurísticos <strong>de</strong> búsqueda <strong>de</strong> árboles- intercambio <strong>de</strong> ramas (branch swapping)Métodos heurísticos <strong>de</strong> búsqueda <strong>de</strong> árboles- intercambio <strong>de</strong> ramas (branch swapping)• Intercambio entre vecinos más próximos (Nearest Neighbor Interchange, NNI)• Bisección-reconexión <strong>de</strong> árboles (Tree Bisection-Reconection, TBR)- no es un método muy completo<strong>de</strong> reorganizar topologías2135422131354542222131313135454545422435143142553254113PAUP* cmmd :hsearch swap=nni start=stepwise addseq=random;-Estemétodo evalúamuchas más topols.queel NNI21348corte en una rama internapara generar2 subárboles756se reconectan losdossubárbolesen todaslasposicionesposibles(ej: 3x5 =15 subarreglosen nuestro ejemplo75...62183 4se repite esta operación parareconectarel subárbol chico en las ramas terminales1, 8, 4 y 3 <strong>de</strong>l subárbolgran<strong>de</strong>567765652272131313848484PAUP* cmmd :hsearch swap=tbr start=stepwise addseq=random;© Pablo Vinuesa 2007, vinuesa@ccg.unam.mx,http://www.ccg.unam.mx/~vinuesa 7


<strong>Tema</strong> 6: Máxima <strong>parsimonia</strong> y <strong>estrategias</strong> <strong>de</strong> búsqueda<strong>de</strong> árbolesBioInfo aplicada a estudios <strong>de</strong> ecología y sistemáticamolecular <strong>de</strong> bacterias, UFLA, Lavras, MG, Brasil,Nov.2007Métodos heurísticos <strong>de</strong> búsqueda <strong>de</strong> árboles- <strong>estrategias</strong> <strong>de</strong> búsqueda para muchos OTUs n > 25• Generalmente se combinandistintos tipos <strong>de</strong> búsquedas- es frecuente comenzar con (unao varias) topología generada por adiciónsecuencial aleatorizada y mejorarla mediante un TBR- a veces se intercala una búsqueda NNI• Una vez encontrada una topología mejor en una ronda <strong>de</strong> “branch-swapping”, ésta sirvecomotopología <strong>de</strong> partida paranuevos rearreglos. Por tanto es conveniente partir <strong>de</strong>árboles “buenos” para minimizar el número <strong>de</strong> ciclos <strong>de</strong> branch swapping que se han<strong>de</strong>realizar paraencontrar la topología localmenteóptima. Las topologías generadas poradición secuencial aleatorizada son generalmente suficientemente“buenas” para iniciarlos ciclos <strong>de</strong> branch-swapping que permiten una exploración eficiente<strong>de</strong>l espacio <strong>de</strong>topologías.© Pablo Vinuesa 2007, vinuesa@ccg.unam.mx,http://www.ccg.unam.mx/~vinuesa 8

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!