Alineamiento de secuencias
Encuentra las 12 diferencias
Alineamiento de secuencias
La Bioinformática es una disciplina basada en el conocimiento
Alineamiento de secuencias
Secuencia → Estructura → Función
Las secuencia del ADN determina la secuencia
de una proteína.
La secuencia de una proteína determina su
estructura 3D.
La estructura 3D de una proteína determina su
función biológica.
Por tanto, es muy probable que
secuencias similares den lugar a proteínas
con estructura y función parecidas.
Alineamiento de secuencias
Alineamiento de secuencias
El análisis de secuencias es una herramienta básica de la bioinformática que permite
obtener información funcional, estructural y evolutiva en secuencias biológicas
Similar sequence leads to similar structureSimilar structure leads to similar function
El alineamiento de secuencias permite descubrir el grado de similitud que hay entre ellas para poder determinar si se trata de secuencias homólogas
Para comparar secuencias es necesario hacer un alineamiento: se colocan una encima de la otra de modo que el número de símbolos
conservados que ocupen una misma posición sea máximo
Alineamiento de secuencias
Un alineamiento múltiple de secuencias
Se conservan las regiones que son importantes para mantener la estructura y/o
función
Alineamiento de secuencias
El “santo grial” de la bioinformática
Determinar la estructura 3D a partir de la secuencia
Alineamiento de secuenciasPara alinear dos secuencias de longitud n y m, respectivamente, se
colocan una encima de la otra de manera que el número de símbolos coincidentes sea máximo. Si es necesario, se introducen huecos (gaps).
* Un sistema de puntuación
Alineamiento de secuencias
Alineamiento de secuencias
Las tres posibilidades: match, mismatch, gap
En cada una de las posiciones de un alineamiento de secuencias se puede encontrar:
Un símbolo idéntico (match) que se ha conservado a lo largo de la evolución
Un símbolo distinto (mismatch) que ha sido sustituido (o que ha mutado) a lo largo de la evolución
Un hueco (gap), que es el resultado de la desaparicón (deletion) de un símbolo en una secuencia o de la inserción (insertion) de un símbolo en la otra. Como ambos casos son indistinguibles, también se les llama indel.
Alineamiento de secuenciasEn función del número de secuencias que se comparan podemos distinguir:
Alineamiento de dos secuencias
Alineamiento múltiple de secuencias
Tipos de alineamiento
Alineamiento de secuenciasA veces es interesante comparar una secuencia
consigo misma. En un dot-plot las características más sobresalientes de la secuencia se identifican fácilmente
Alineamiento de una secuencia consigo misma
Alineamiento de secuencias
Parecidas
Posibles causas del parecido entre dos secuencias
Comparación de dos
secuencias
Idénticas Herencia genética
Homólogas
Análogas
Ancestro común
Evolución convergente
En un mismo organismoEn distintos organismos
XenólogasOrtólogas Parálogas
Especiación Duplicación de un genTransferencia horizontal de
genesConserva la función Adquiere nueva función
Alineamiento de secuencias
Suelen conservar la función
Suelen adquirir nuevas funciones
Diversos tipos de homología (1)
Alineamiento de secuencias
Diversos tipos de homología (2)
Alineamiento de secuenciasHomólogas: secuencias similares de dos organismos
distintos, que proceden de una misma secuencia ancestral.
Ortólogas: secuencias similares de dos organismos distintos, que han aparecido durante un proceso de
especiación. Conservan la misma función.
Parálogas: secuencias similares de un mismo organismo, que han aparecido durante un proceso de duplicación génica. Pueden adquirir distinta función.
Xenólogas: secuencias similares que han surgido como consecuencia de un proceso de transferencia
horizontal de genes. (virus, simbiosis, etc.)
Diversos tipos de homología (2)
Alineamiento de secuenciasDos secuencias siempre se pueden alinear y son
muchos los posibles alineamientos. Para determinar cuál es el mejor, es necesario un sistema de puntuación.
Alineamiento óptimo
¿Cuál es el mejor?
HEAGAWGHEE
PAWHEAEEjemplo:
HEAGAWGHE-EP-A--W-HEAE
HEAGAWGHE-E--P-AW-HEAE
El alineamiento que obtenga la puntuación más elevada se denomina alineamiento óptimo
Alineamiento de secuenciasSi hay más de un alineamiento con la misma puntuación,
será criterio del investigador decir cuál es el más probable.
Alineamiento óptimo (2)
Alineamiento de secuenciasEl sistema más sencillo consiste en otorgar una
puntuación discreta a las coincidencias (match), otra a las diferencias (mismatch) y otra a los huecos (gaps).
En muchos casos se utiliza una matriz de puntuación (scoring matrix) donde se tiene en
cuenta que no todos los aa sustituyen a otro con la misma probabilidad (muchas de las
sustituciones observadas son conservativas)
Hay diversos criterios para puntuar los huecos. Se considera que en la evolución es más lógico que se introduzca un hueco de longitud n que n huecos de
longitud 1. Por eso se otorga una penalización al introducir un hueco y otra (menor) por cada carácter añadido
El sistemas de puntuación
Alineamiento de secuencias
Tipos de alineamiento
Alineamiento global (longitud de la
secuencia parecida)
Alineamiento local (longitud de la
secuencia parecida)
Alineamiento semiglobal (longitud
de las secuencias muy distinta
Alineamiento de secuencias
Alineamiento global
Es especialmente adecuado cuando:
• Se comparan genes o proteínas con una misma función• Las secuencias tienen aproximadamente la misma longitud• Las secuencias están estrechamente relacionadas• Los dominios conservados se encuentran en el mismo orden
Un alineamiento global intenta alinear cada residuo de una secuencia con un residuo (o
un indel) de la otra.
Un alineamiento global permite:
• establecer relaciones de homología entre las secuencias• hacer un análisis filogenético de las secuencias
Para hacer un alineamiento global se utiliza el algoritmo de Needleman y Wunsch
Alineamiento de secuencias
Alineamiento local
Es especialmente adecuado cuando:• Se comparan secuencias muy divergentes (de igual o distinta longitud)• No se conoce el orden de los dominios conservados• Se compara ADNc (o EST) con el ADN genómico
En un alineamiento local, una o más regiones de una
secuencia se alinean con una o más regiones de la otra.
Un alineamiento local permite:• detectar pequeñas regiones conservadas de similitud local (centros activos, dominios proteicos, exones)• distinguir entre exones y intrones• ensamblar contigs a partir de fragmentos más pequeños
Para hacer un alineamiento local se utiliza el algoritmo de Smith y Waterman
Alineamiento de secuencias
Alineamiento semiglobal
Es especialmente adecuado cuando:• Se comparan secuencias de muy distinta longitud• El final de una secuencia se solapa con el inicio de la otra• Los dominios conservados se encuentran en el mismo orden
Un alineamiento semiglobal se utiliza para
alinear secuencias con una longitud muy distinta
Un alineamiento semiglobal permite:• ensamblar contigs a partir de fragmentos más pequeños• comparar ADNc (o EST) con el ADN genómico para establecer la estructura del gen
Para hacer un alineamiento semiglobal se utiliza una variante del algoritmo de Smith y Watermina que no aplica
penalizaciones ni al principio ni al final de la secuencia
Alineamiento de secuencias
Ejemplo de alineamiento semiglobal
Alineamiento de secuencias
Alineamientos de secuencias de ácidos nucleicos
En las bases de datos, los 4 nucleótidos aparecen con la misma frecuencia
Todos los cambios posibles tienen una probabilidad similar
Se basa fundamentalmente en la coincidencia directa entre los textos
Método lento, porque las bases de datos de ácidos nucleicos contienen un
número muy elevado de caracteres
Es preferible “traducir” una secuencia de DNA a 6 proteínas (los 6 ORF) y alinear las secuencias de proteínas
No queda más remedio que hacerlo si se trata de secuencias no codificantes
Son menos sensibles que los alineamientos de proteínas ...
Alineamiento de secuencias
Alineamientos de secuencias de proteínas
1.- Aportan más información (más de 4 bits por aa).
3.- El código genético es redundante, casi 1/3 de las bases no están sometidas a presión selectiva y generan ruido, lo que afecta a la sensibilidad de la búsqueda
4.- Las búsquedas en bases de datos de ácidos nucleicos son más lentas porque son mucho más grandes a causa de los proyectos genómicos y, además, contienen muchas secuencias no codificantes.5.- A diferencia de los nucleótidos, las probabilidades de sustituir un aa por otro son muy distintas. Teniendo en cuenta este hecho se mejora enormemente la eficacia de la búsqueda.
2.- Se obtienen resultados estadísticamente significativos con alineamientos más cortos
Alineamiento de secuencias
AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGAAUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA
Consideremos estas dos secuencias:
AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGA
AUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA
Hagamos un alineamiento sin huecos:
Hay 23 nucleótidos idénticos de un total de 42 (Un 55% de similitud)
Alineamientos de 2 secuencias de ácidos nucleicos
Alineamiento de secuencias
Alineamientos de las proteínas codificadas
AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGAAUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA
Secuencias de ADN:
Traducción a proteínas:
MELISAISALIVEMELISAISALIVE
A nivel de aminoácidos, las dos secuencias son idénticas
Alineamiento de secuencias
La complejidad no es mala
Alineamiento de secuencias
Estrategias para alinear dos secuencias
Existen diversos métodos para el alineamiento de dos secuencias:
1.- El algoritmo de fuerza bruta
2.- Matrices de puntos (dot-plot)
3.- El algoritmo de programación dinámica
4.- Métodos heurísticos (FASTA, BLAST)
Alineamiento de secuencias
A lo bestia: el algoritmo de fuerza bruta
O (2n × 2m)
Alineamiento de secuenciasTrata de encontrar la secuencia común de mayor tamaño (LCS)
entre dos secuencias X e Y de longitudes m y n, respectivamente.
Se determinan todas las subsecuencias posibles de X (2m) y se comparan con todas las subsecuencias posibles de Y (2n)
En total, hay que hacer 4(m+n) comparaciones
En la práctica, resulta imposible, tanto por el tiempo que se necesita como por los recursos de memoria que le harían falta al ordenador
Con gaps, hay que repetir los cálculos 2N veces para examinar la presencia de gaps en todas las
posiciones posibles de las dos secuencias
Según Waterman (1989) comparar dos secuencias de 300 aminoácidos requiere examinar 1088 posibilidades, casi el mismo
número de partículas elementales que hay en el Universo.
El algoritmo de la “fuerza bruta”
Top Related