Tema 5: Mtodos de distancia y prueba de bootstrap Genmica Evolutiva I, LCG-UNAM, Mxico. http://www.lcg.unam.mx
Pablo Vinuesa 2008, [email protected], http://www.ccg.unam.mx/~vinuesa/index.html 1
Inferencia filogentica molecular Mtodos de distancia
Tipos de datos:- caracteres: proveen informacin sobre cada OTU individual- distancias: cuantificacin de la dis-similitud entre pares de OTUs
Caracter: (caracterstica o variable independiente bien definida que en un OTU puedepresentar dos o ms estados mutuamente excluyentes; estados de caracter)
- cuantitativos (est. de car. generalmente contnuos; ej. altura)- cualitativos (est. de car. discretos; binarios o multiestado; gralte. revesibles)
Evolucin de caracteres:Los mtodos de reconstruccin filogentica requieren que se hagan suposiciones explcitassobre:
1.- no. de pasos discretos necesarios para que se d un cambio en estado de caracter2.- la probabilidad con la que acontece un cambio en estado de caracter
Direccionalidad en la evolucin de los cambios de estado de caracter (EC):
- caracteres ordenados: siguen secuencia especfica de pasos (matrices de pasos)
- caracteres desordenados: los cambios en EC se dan en un solo paso (nt)
Inferencia filogentica molecular Mtodos de distancia
Datos de distancia:
- siempre involucran la comparacin entre pares de OTUs
- la mayor parte de los mtodos moleculares generan datos de caracteres; stos han de ser transformados en distancias para poder ser analizados pormtodos basados en matrices de distancias (p. ej. NJ, UPGMA, EM)
Porqu transformar caracteres en distancias?
1.- Una larga lista de estados de caracter, como una secuencia de DNA aa, carece en s
misma de significado evolutivo; en cambio, decir que 3 secuencias A B C presentan
95% y 50% de identidad entre ellas evoca una imagen intuitiva del grado de parentesco
2.- Los modelos de sust. de secuencias corrigen posibles mltiples sustituciones;
estas correcciones se aplican a las distancias pero no a las secuencias (o datos)
3.- Los mtodos de reconstruccn basados en matrices de dist. son muy rpidos
Inferencia filogentica molecular clasificacn de mtodos
Podemos clasificar a los mtodos de reconstruccin filogentica en base al tipo dedatos que emplean (caracteres discretos vs. distancias) y si usan un mtodo algortmicoo un mtodo de bsqueda basado en un criterio de optimizacin para encontrarla topologa ptima bajo el criterio seleccionado
UPGMAy
Neighborjoining
Mnimoscuadrados
yEvolucin
mnima
Mximaparsimonia
yMxima
verosimilitud
Tipo de datos
distanciascaracteresdiscretos
M
t
o
d
o
d
e
r
e
c
o
n
s
t
r
u
c
c
i
n
B
s
q
u
e
d
a
s
b
a
j
o
c
r
i
t
e
r
i
o
d
e
o
p
t
i
m
i
z
a
c
i
n
a
l
g
o
r
i
t
m
o
d
e
a
g
r
u
p
a
m
i
e
n
t
o
Inferencia filogentica molecular mtodos basados en matrices de distancias
Los mtodos de distancia se basan en la idea de que si conocisemos las distanciasevolutivas entre OTUs, podramos reconstruir adecuadamente su historia evolutiva. Este concepto se deriva de la relacin existente entre distancias y rboles:
- la distancia evolutiva representa una escala mtrica topolgica y por lo tanto define un rbol
En la prctica, empero, las distancias rara vez son mtricos topolgicos exactos.para que una distancia pueda reflejar perfectamente a la filogenia subyacente debede cumplir dos requisitos: ha de ser mtrica y aditiva
Distancias mtricas (condiciones):
1. d (a,b) 0 (no-negatividad)2. d (a,b) = d (b,a) (simetra)3. d (a,c) d (a,b) + d (b,c) (inecualidad triangular)4. d (a,b) = 0 slo si a = b (distincin)
C
B
A7
65
La dist. entre cualquier parde secs. no puede ser mayorque la existente entre ellasy una tercera
Tema 5: Mtodos de distancia y prueba de bootstrap Genmica Evolutiva I, LCG-UNAM, Mxico. http://www.lcg.unam.mx
Pablo Vinuesa 2008, [email protected], http://www.ccg.unam.mx/~vinuesa/index.html 2
Inferencia filogentica molecular mtodos basados en matrices de distancias
Distancias ultramtricas (condiciones):
d (a,b) mximo [d (a,c), d (b,c) ] (distancias ms largas definen un tringulo issceles)
La inecualidad ultramtrica. Las dos distanciaspareadas ms largas [d (a,c) y d (b, c)] son iguales,y por lo tanto la ultrametricidad define un tringuloissceles
4B
C
A
6 6
Las distancias ultramtricas tienen la virtud de implicar igual tasa de evolucin entreOTUs a lo largo de toda la filogenia
De ah que por ejemplo el test de tasas relativas para el reloj molecular se basa en cuantificar si las distancias entre tres secuencias departen o no significativamentede la condicin de ultrametricidad
AB
C
Inferencia filogentica molecular mtodos basados en matrices de distancias
Ser una medida mtrica (o ultramtrica) es una condicin necesaria pero no suficientepara representar una medida vlida del cambio evolutivo. Para ello tiene que satisfacertambin la condicin de los cuatro puntos:
d (a,b) + d (c,d) mximo [d (a,c) + d (b,d), d (a,d) + d (b,c)]
lo que equivale a requerir que de las tres sumas [ d (a,b) + d (c,d), d (a,c) + d (b,d) yd (a,d) + d (b,c)], las dos ms grandes son iguales
Esta condicin matemtica equivale a decir que las distancias son aditivas.
Cuando las distanciasno son mtricas y aditivas,puede ser convenienterepresentar las sealesno aditivas como ciclosadicionales en las grficaso rboles, lo que permiteacomodar mejor a estas seales,las cuales son generalmentehomoplsicas.
Estos ciclos pueden tambin acomodar seales no aditivasoriginadas por eventos derecombinacin.
NJ-HKY
Splits tree graphof HKY distances
Inferencia filogentica molecular mtodos de distancias
Las distancias ultramtricas definenuna topologa ultramtrica.Biolgicamente dist. ultram. se ajustana un rbol enraizado bajo el reloj molecularLa sec. d es equidistante a todas lasdems y la sec. c es equidist. de a y b.Si tomamos 3 secs. cualesquiera, lasdist. entre ellas definen un tringulo issceles, por lo quelas distancias mostradas son ultramtricas. Para cualquier par de secs, el valor de dist. en la matriz se corresponde con la sumade long. de ramas en el caminio ms corto que las une en el rbol
Las distancias aditivas o mtricasdefinen a una topologa aditiva.El rbol mtrico representa perfectamentea las distancias aditivas. Ntese que lassecs. b y c son las ms similares[d (b,c) = 3], pero no son las ms relacionadasevolutivamente. El nivel de similitud y relacin evolutivacoincidirn slamente cuando las distancias son ultramtricas. Datos reales nunca son perfectamente aditivos
Distancias topolgicas
Tema 5: Mtodos de distancia y prueba de bootstrap Genmica Evolutiva I, LCG-UNAM, Mxico. http://www.lcg.unam.mx
Pablo Vinuesa 2008, [email protected], http://www.ccg.unam.mx/~vinuesa/index.html 3
En un mundo perfecto, las distancias evolutivas estimadas seran perfectamente aditivas,
en cuyo caso podramos encontrar una combinacin de long. de ramas (a, b, c, d, e) tales que
el camino a travs del rbol conectando el OTU i con el j (pij = distancia topolgica opatrstica) reflejara exactamente la distancia evolutiva correspondiente (dij ).Pero el mundo (homoplasias) y los mtodos no son perfectos ...
Inferencia filogentica molecular mtodos basados en matrices de distancias
- De ah que existan 2 estrategias que buscan minimizar el desfase entre la distanciaevolutiva y la distancia topolgica y por lo tanto representan criterios de optimizacin:
1. mtodos de bondad de ajuste: buscan el rbol mtrico que mejor acomodalas distancias observadas usando el mtodo de mnimos cuadrados
2. mtods de evolucin mnima: buscan el rbol cuya suma de longitudes de rama es la mnima
Mtodo de los mnimos cuadrados (medidas de la bondad de ajuste)
El mtodo de los mnimos cuadrados permite encontrar lacombinacin de valores de (a, b, c, d y e) que maximiza elajuste entre pij y dij. Encontrar las long. de ramas mejorajustadas implica minimizar la suma ponderada de cuadra-dos.w = 1/ d Kij representa un factor de ponderacininversamente proporcional a la distancia estimada,donde k = 0 k =2. As las divergencias profundas tienenmenor peso que las ms recientes, las cuales se puedenestimar mejor.
Inferencia filogentica molecular mtodos basados en matrices de distancias
diag. super.: dist. patrsticas
diag. infer.: dist. evolutivas
Mtodo de los mnimos cuadrados (medidas de la bondad de ajuste)
Inferencia filogentica molecular mtodos basados en matrices de distancias
Distancias K2P (sobre la diagonal) y distancias topolgicas obtenidas por MC para mtDNAs. En negritas dt > de; en cursiva dt < de (dt =dist. topol.; de = dist. observada o evolutiva)
Las dt > de pueden explicarse por homopla-sias en algunas ramas
Las dt < de no pueden explicarse fcilmente yson contra-intuitivas, ya que implicaran que acon-teci menos cambio evolutivo que el observado!
Ello ha llevado a algunos investigadores a criti-car fuertemente el mtodo de los MC para esti-mar la long. de las ramas
rbol aditivo
Mtodo de los mnimos cuadrados (medidas de la bondad de ajuste)
Inferencia filogentica molecular mtodos basados en matrices de distancias
(2n-3) = 7 ramasindependientes
(n-1) = 4 ramasindependientes
topologas aditivas y ultramtricas para las mismas secuencias. La topologa ultramtricatiene menor nmero de ramas con longitudes nicas dadas las restricciones impuestas
A mayor desvo del reloj molecular (igualdad de tasas evolutivas entre linajes) mayor des-vo de la ultrametricidad de los datos y mayor la diferencia en el ajuste entre los rbolesaditivos y ultramtricos a los datos
Los aditivos tienen entonces mayor ajuste dado que no tienen restricciones de ultrametric.
SS = 0.000033144SS = 0.26577
Tema 5: Mtodos de distancia y prueba de bootstrap Genmica Evolutiva I, LCG-UNAM, Mxico. http://www.lcg.unam.mx
Pablo Vinuesa 2008, [email protected], http://www.ccg.unam.mx/~vinuesa/index.html 4
Mtodo de los mnimos cuadrados (medidas de la bondad de ajuste)
Inferencia filogentica molecular mtodos basados en matrices de distancias
rbol aditivo rbol ultramtrico
raz
Criterio de optimizacin de Evolucin Mnima
Inferencia filogentica molecular mtodos basados en matrices de distancias
- dados dos rboles, aquel que minimiza la suma de longitudes de ramas L(estimadas por MC) es el mejor segn el criterio de EM
- dada una topologa aditiva para n secuencias, existen (2n - 3) ramas, cada una con unalongitud li. La suma de estas long. de ramas es la longitud L del rbol:
El criterio de optimizacin de EM es por tanto similar al de MP, si bien el primero calculaL directamente de una matriz de distancias pareada, mientras que el segundo calcula Len base al ajuste entre caracteres discretos y topologas
Al igual que para los caracteres discretos, encontrar el rbol de distancias ptimo es com-putacionalmente difcil. Para nmeros chicos de secs. se pueden usar mtodos exactos; paranmeros grandes, se emplean mtodos heursticos (aproximados):
1.- mtodo de los vecinos2.- mtodo de unin de vecinos (NJ)3.- UPGMA
Criterio de optimizacin de Evolucin Mnima
Inferencia filogentica molecular mtodos basados en matrices de distancias
Se pueden encontrar rboles de EM mediante tcnicas de programacin lineal (encontrar unasolucin ptima dadas unas constricciones). Aplicado a encontrar la longitud de un rbol lasconstricciones son: 1) ramas de long. 0; 2) que para cada par de secuencias las distanciastopolgicas nunca sean < que las observadas (pij dij para todos los pares ij )
distancias observadas (p) sobre diagonal; distancias topolgicabajo la diagonal obtenidas mediante programacin lineal
rbol de EM con las long. de ramas calculadas de lasdist. observadas p usando progr. lineal. La long. totaldel rbol es 331.5
Criterio de optimizacin de Evolucin Mnima
Inferencia filogentica molecular mtodos basados en matrices de distancias
La optimizacin de long. de ramas mediante PL es computacionalmente costosa paramuchos OTUs (>20).
Se usa ms frecuentemente el mtodo de mnimos cuadrados para estimar laslongitudes de rama. Las long. de rama obtenidas por MC se suman para obtener la L
El mtodo de los mnimos cuadrados permite encontrar lacombinacin de valores de (a, b, c, d y e) que maximiza elajuste entre pij y dij. Encontrar las long. de ramas mejorajustadas implica minimizar la suma ponderada de cuadra-dos.
w = 1/ d Kij representa un factor de ponderacininversamente proporcional a la distancia estimada,donde k = 0 k =2. As las divergencias profundas tienenmenor peso que las ms recientes, las cuales se puedenestimar mejor.
Tema 5: Mtodos de distancia y prueba de bootstrap Genmica Evolutiva I, LCG-UNAM, Mxico. http://www.lcg.unam.mx
Pablo Vinuesa 2008, [email protected], http://www.ccg.unam.mx/~vinuesa/index.html 5
Inferencia filogentica molecular mtodos basados en matrices de distancias
Unweighted pair group method with arithmetic means (UPGMA)
- este es uno de los pocos mtodos que construye rboles ultramtricos (todas las hojas
equidistantes de la raz), es decir asume un reloj molecular perfecto a lo largo de toda
la topologa
- se puede concebir como un mtodo heurstico para encontrar la topologa ultramtrica
de mnimos cuadrados para una matriz de distancias pareadas
Inferencia filogentica molecular mtodos basados en matrices de distancias
Unweighted pair group method with arithmetic means (UPGMA)
OTU A B CB dABC dAC dBCD dAD dBD dCD
OTU (AB) CC d(AB)CD d(AB)D dCD
d(AB)C = (dAC + dBC )/2, y d(AB)D = (dAD + dBD )/2=
l(AB)C = d(AB)C/2
Inferencia filogentica molecular mtodos basados en matrices de distancias
Unweighted pair group method with arithmetic means (UPGMA)
el punto de ramificacin (PR) entre dos OTUs sencillos, i y j, se posiciona en el punto medio entre ellos
el PR entre un OTU sencillo y uno compuesto (jm ), se posiciona en el punto medio de la media aritmtica de la distancia entre i y los constituyentes del OTU compuesto (jm )
el PR entre dos OTUs compuestos se posiciona a la mitadde la media aritmtica de las distancias entrelos constituyentes de los OTUs sencillos decada OTU compuesto. As el PR entre (ij ) y (mn )es:
UPGMA, por construir un rbol ultramtrico, resulta en una topologa enraizada.Adems se obtienen las longitudes de rama simultneamente con la topologa
B) Calcula una matriz de distancias pareadas en base al nmero observado de diferencias entre OTUs, y en base a ella dibuja un rbol de UPGMA, indicando las longitudes de cada rama
Ejercicios del examen de la seccin de inferencia filogenticaBGE-IV 2005
Rhizobium GGA GGG AGG AGG CCTAgrobacterium GGC GGG AGG AGG CCTSinorhizobium GGG GGA AGG TGT CCGBradyrhizobium GGT CGT AGC TGT GTG
1. Alineamiento: No. sitios : 15; OTUs (taxa) = 4
2. Matriz de distancias: d : distancia (no. de diferencias observadas)
[ A B C D ][Rhizobium, A][Agrobacterium, B] 1.0[Sinorhizobium, C] 5.0 5.0[Bradyrhizobium, D] 9.0 9.0 6.0
Tema 5: Mtodos de distancia y prueba de bootstrap Genmica Evolutiva I, LCG-UNAM, Mxico. http://www.lcg.unam.mx
Pablo Vinuesa 2008, [email protected], http://www.ccg.unam.mx/~vinuesa/index.html 6
[ A B C D ][Rhizobium, A][Agrobacterium, B] 1.0[Sinorhizobium, C] 5.0 5.0[Bradyrhizobium, D] 9.0 9.0 6.0
Inferencia de un rbol UPGMA usando el no. de dif. obs. como medida de la distancia gentica entre OTUs
RhizobiumAgrobacterium
0.500.50
OTU A B CB dABC dAC dBCD dAD dBD dCD
1.
d(AB)C = (dAC + dBC )/2, y d(AB)D = (dAD + dBD )/2=
= d(AB)C = (5 + 5 )/2, y d(AB)D = (9 + 9)/2
OTU (AB) CC d(AB)CD d(AB)D dCD
2.
OTU (AB) CC 5D 9 6
3. RhizobiumAgrobacteriumSinorhizobium
0.500.50
2.50
2.00
d(AB)C/2
Matriz de distancias:
OTU (ABC) DD d(ABC)D
d(ABC)D = (dAD + dBD + dCD) / 3=
= d(AB)C = (9 + 9 + 6 ) / 3 = 8
[ A B C D ][Rhizobium, A][Agrobacterium, B] 1.0[Sinorhizobium, C] 5.0 5.0[Bradyrhizobium, D] 9.0 9.0 6.0
Inferencia de un rbol UPGMA usando el no. de dif. obs. como medida de la distancia gentica entre OTUs
Matriz de distancias:
4.
RhizobiumAgrobacteriumSinorhizobiumBradyrhizobium
0.500.50
2.50
4.00
2.001.50
1 d(ABC)D / 2
5.
[ A B C D ][Rhizobium, A][Agrobacterium, B] 1.0[Sinorhizobium, C] 5.0 5.0[Bradyrhizobium, D] 9.0 9.0 6.0
Inferencia de un rbol UPGMA usando el no. de dif. obs. como medida de la distancia gentica entre OTUs
Matriz de distancias:
RhizobiumAgrobacteriumSinorhizobiumBradyrhizobium
0.500.50
2.50
4.00
2.001.50
1 d(ABC)D / 2
Notan alguna inconsistencia entre las distancias topolgicas y observadas?
- La distancia entre C y D no es aditiva y no queda adecuadamente reflejadaen la correspondiente longitud de rama
Inferencia filogentica molecular mtodos basados en matrices de distancias
Mtodo neighbor-joining (NJ)
Se trata de un mtodo puramente algortmico, representando una buena aproximacinheurstica para encontrar el rbol de evolucin mnima ms corto. Secuencialmente encuen-tra vecinos que minimizan la longitud total del rbol
Es muy rpido y proporciona un solo rbol
N(N-1)/2 modosde buscar paresde OTUs en X
rbol estrella paraN OTUS
- expresin para la suma de todas las long. de ramas- se busca el par que minimiza S y se considera como
un OTU compuesto- se calcula una nueva matriz de dist. como en UPGMA- se reitera hasta encontrar todas las N-3 ramas internas
Tema 5: Mtodos de distancia y prueba de bootstrap Genmica Evolutiva I, LCG-UNAM, Mxico. http://www.lcg.unam.mx
Pablo Vinuesa 2008, [email protected], http://www.ccg.unam.mx/~vinuesa/index.html 7
Inferencia filogentica molecular mtodos basados en matrices de distancias
Objeciones a los mtodos de distancia
- hay que diferenciar entre los algoritmos para encontrar los rboles y los mtodos paraestimar las dist. evolutivas
- si se escoge un modelo inadecuado de sust. el mtodo de distancia puede fallar en recu-perar la topologa correcta
1. Prdida de informacin
cuando matrices de datos cualitativos han de ser transformada en dist.se pierde mucha informacin. P. ej. ya no se puede trazar la evolucin de cada caractero categoras de caracteres sobre la topologa; no se pueden estimar los valores para losparmetros de un modelo de sustitucin (ti, tv, etc.)
2. Longitudes de rama sin sentido biolgico- Podemos encontrar rboles de EM con L = nmero no entero (p. ej. 331.5)- este rbol es adems mucho ms corto que el calculado por MP (L = 353). El rbol obte-
nido mediante PL es internamente consistente pero biolgicamente imposible
Clculo de lmites de confianza para topologas Exactitud y precisin en filogentica
En filogentica la exactitud de una topologa indica su grado de proximidad a la
realidad (filogenia verdadera a estimar), mientras que la precisin tiene que ver con
la cantidad de rboles alternativos que el mtodo es capaz de desechar.
Si tenemos dos termmetros (A y B) con los que medimos la temperatura de agua
hirviendo (a 1 atm. de presin) y obtenemos las medidas A = 101C y B = 97.35 C
diramos que A es ms exacto pero menos preciso.
Ojo, mtodos filogenticos basados en criterios de optimizacin que producen puntajes
(scores) como nmeros reales como el de mxima verosimilitud (-lnL = 3598.2483) danuna falsa impresin de mayor precisin que aquellos CO como el de mxima parsimonia
que trabajan con nmeros enteros (no. de pasos mutacionales) (L = 257 pasos). En elsegundo caso simplemente existe un nmero finito de pasos mutacionales que definen
a las longitudes de un rbol. De ah que independientemente del mtodo de recons-
truccin utilizado para recuperar una filogenia, la precisin de sta se mide en base al
nmero de topologas alternas que se descartan. Idealmente todas salvo una.
Homoplasias y error de muestreo
Si un set de datos contiene homoplasias implica que distintos sitios del alineamiento van
a apoyar diferentes topologas. Por lo tanto, qu rbol (o rboles) van a ser apoyados por
un set de datos depender del subconjunto de caracteres muestreados.
90 sitios parsimonia informativos (de 986 sitios de coi ) que resultan en el rbol:((human,(chimp,gorilla)),orang,gibbon).
La calidad de la seal filogentica de los datos es una de las fuentes de posible error
en la estima filogentica, pudiendo afectar tanto a la exactitud como a la precisin de la
estima.
El muestreo de las aprox. 16.000 pb del genoma mitocondrial de estos primates y sets de datos ms extensos (con ms OTUs) soportan el rbol:
(((human,chimp),gorilla),orang,gibbon).
Por tanto, para minimizar los errores de muestreo (debidos a homoplasias) hay que tratar deobtener secuencias lo ms largas posibles para el mayor nmero posible de genes
Pero si se muestreasen slo los primeros 31 sitios del aln (5 sitios Pi) obtendramos unrbol de MP con la siguiente topologa: (((human,gorilla),chimp),orang,gibbon), que no secorresponde con el rbol de MP para el set completo de datos. El primer sito apoya(human, gorilla), el 2 (human,chimp,gorilla) y la 3. (chimp,gorilla), que contradice a la relacin apoyada por la 1a. pos.
Homoplasias y error de muestreo
Tema 5: Mtodos de distancia y prueba de bootstrap Genmica Evolutiva I, LCG-UNAM, Mxico. http://www.lcg.unam.mx
Pablo Vinuesa 2008, [email protected], http://www.ccg.unam.mx/~vinuesa/index.html 8
Estima del error de muestreo mediante el mtodo de bootstrap
Una va de estimar el error de muestreo es tomar mltiples muestras de la poblaciny comparar las estimas obtenidas de ellas. La dispersin entre estas muestras nos dauna idea del error de muestreo
El mtodo de bootstrap se basa en remuestrear una muestra nica
Estima del error de muestreo en un alineamiento mltiplemediante el mtodo de bootstrap
Alineamiento original1. Pseudorplicas de bootstrap (muestreo aleatoriode caracteres con reemplazo hasta obtener unamatriz de igual no. de caracteres que la original
2. Obtener el rbol consenso que resumela informacin de las topologas recuperadasde cada pseudorplica de bootstrap.
3. Mapear las proporciones de bootstrapsobre la topologa original
Homo sapiens Pan
Gorilla Pongo
Hylobates M sylvanus
M fascicularis Macaca fuscata M mulatta
Saimiri sciureus Tarsius syrichta
Lemur catta
0.05
Estima del error de muestreo mediante el mtodo de bootstrap
Filogenia NJ-K2P+G estimada a partirde secuencias de NADH-DH mitocondrialde 12 primates.
Estn todas las biparticionesigualmente soportadas?O planteado de otra manera: qu tan resuelta est esta filogenia?
Homo sapiens Pan
Gorilla Pongo
Hylobates M sylvanus
M fascicularis Macaca fuscata M mulatta
Saimiri sciureus Tarsius syrichta
Lemur catta
10099
100
100
97
100
96
83100
0.05
Un anlisis de bootstrap con500 pseudorplicas indica queel rbol est muy bien resuelto:
todas las biparticiones estnltamente justificadas por losdatos segn indican las propor-ciones de bootstrap (expresadasen porcentaje)
el mtodo de bootstrap: consideraciones crticas
Un aspecto importante a tener en cuenta es que el mtodo de bootstrap asume la inde-pendencia de caracteres y que estn distribudos idnticamente. Es decir, asume que cadasitio es independiente de todas las dems y que la tasa de variacin est distribuda homo-gneamente a lo largo del alineamiento.
Cummings et al. (1995) pusieron a prueba el supuesto deindependencia analizando 10 genomas completos de mito-condrias comparando los rboles obtenidos para datosobtenidos de estos genomas siguiendo dos estrategiascontrastantes de muestreo: 1) bloques contiguos de secuencia vs. 2) caracteres muestreados al azar a lo argo de los genomas. (Cummings et al. 1995. MBE, 12:814-22)
Si el supuesto de independencia es cierto, ambos sets de resultados deberan representarbuenas aproximaciones del rbol genmico (Fig.1) . Pero de hecho el muestreo de caracteresal azar represent una mejor aprox. al rbol genmico que muestreando caracteres porbloques. No est claro qu robusto es el bootstrap a violaciones al supuesto de independ.