Bioinformática para el análisis de metagenomas
Javier Tamames
Centro Superior de Investigación en Salud PúblicaGeneralitat Valenciana
Proyectos de metagenómica
Hugenholtz et al, Nature 455, 481 (2008)
1600
11
200
2
110
1
28
72
2
180
200
<1
6123 727
7
2000
62
316
020406080
100120140160180
Year
Nu
mb
er
of
art
icle
s
5 10 15 20 25Number of projects
MARINE
EXTREME
AQUATIC
SOIL
HUMAN
PLANTS
FOSSIL
BIOREACTOR
VIRAL
INSECTS
CORALS
ANIMALS
WORMS
AERIAL
SYNTHETIC
Proyectos de metagenómica
0 500 1000 1500 2000Size (Mb)
1:FOSSIL2:FOSSIL
3:MARINE4:EXTREME
5:SAND6:HUMAN
7:BIOREACTOR8:MARINE
9:AQUATIC10:MARINE
11:SOIL12:AQUATIC
13:SOIL14:EXTREME
15:MARINE16:FOSSIL
17:WORMS18:EXTREME
19:PLANTS20:HUMAN21:FOSSIL
22:PLANTS23:SOIL
24:BIOREACTOR25:AQUATIC26:MARINE
27:28:ANIMALS29:AQUATIC30:PLANTS31:MARINE
32:SIMULATED33:AQUATIC
34:HUMAN35:MARINE36:MARINE
CompletedOngoing
96
19
Secuenciación 16S rDNA
Secuenciación metagenómica
ObjetivoEstudiar la composición y abundancia de especies en la muestra
Estudiar genes y genomas presentes en la muestra
Usos
Estudiar el número de especies en la muestra
Describir el perfil funcional de la muestra
Estudiar la distribución taxonómica en la muestra
Obtención de genes de interés
Describir la diversidad de la muestra
Relacionar funciones y especies de procedencia
Comparar diferentes muestras a nivel de la composición en especies
Comparar diferentes muestras a nivel de la composición funcional
Relacionar poblaciones con factores externos
Determinar posibles relaciones en la comunidad
Estudio de comunidades bacterianas
PCROf 16S
rDNA genes16S
rDNA amplicons
Ligation Transformation
Insert PCR
Analysis
Sequencing
Total DNA:
(Giuseppe d’Auria)
Secuenciación del 16S rDNA
Sogin et al, Proc Natl Acad Sci USA 103, 12115-20 (2006)
Estimación del número de especies
Cluster distance
0.03 0.05
ID Reads OTU ACE Chao1 OTU ACE Chao1
FS396 17666 6326 23315 20949 5573 18003 16889SChao1=Sobs+ F1
2/ 2F2
Est. Error Est. OTUsPower lawFungi Desert 30.0 2 x 104
Prairie 20.5 2 x 109
Rainforest 9.66 2 x 103
Log-normalFungi Desert 42.7 7 x 104
Prairie 23.7 1 x 106
Rainforest 9.00 2 x 104
LogarithmicFungi Desert 62.0 2 x 103
Prairie 29.0 2 x 103
Rainforest 28.1 1 x 103
Fierer et al, Appl Environm Microbiol 73, 7059-66 (2007)
Estimación del número de especies
Diversidad de las comunidades
Indices de diversidadTratan de medir la forma de la distribución de especies en la comunidad
Indice de Simpson
D = ni (ni -1) / N (N -1)
Bacteria[100%] Proteobacteria[100%] Alphaproteobacteria[100%] Rhodobacterales[100%] Rhodobacteraceae[97%] Sulfitobacter[90%]
RDP classifierhttp://rdp.cme.msu.edu
Blast hits
Asignación taxonómica de secuencias 16S rDNA
Asignación taxonómica de secuencias 16S rDNA
Sundquist et al, BMC Microbiol 7, 108 (2007)
Eckburg et al, Science 308, 1635-8 (2005)
Comparación de la composición de comunidades
Comparación de comunidades
TreeClimber algorithm
Schloss & Handelsman, Appl Environ Microb 72, 2379-84 (2006)
Analyzing the relationships between populations and the environment (DCA)
Relación con factores externos
Comparing the populations (PCA)
Eckburg et al, Science 308, 1635-8 (2005) Tamames et al (2009)
Other tissues
Secuenciación 16S rDNA
Secuenciación metagenómica
ObjetivoEstudiar la composición y abundancia de especies en la muestra
Estudiar genes presentes en la muestra
Usos
Estudiar el número de especies en la muestra
Describir el perfil funcional de la muestra
Estudiar la distribución taxonómica en la muestra
Obtención de genes de interés
Describir la diversidad de la muestra
Relacionar funciones y especies de procedencia
Comparar diferentes muestras a nivel de la composición en especies
Comparar diferentes muestras a nivel de la composición funcional
Relacionar poblaciones con factores externos
Determinar posibles relaciones en la comunidad
Estudio de comunidades bacterianas
Métodos de secuenciación de alto rendimiento
454
Síntesis, liberación de pirofosfato Longitud lecturas: 100-150/400 nt Precio:0.003 $/base
Amplificación: terminadores y fluoróforosLongitud lecturas: 35 nt Precio:0.0007 $/base
SOLiD
LigaciónLongitud lecturas: 35-50 nt Precio:0.0005 $/base
Illumina
Bioinformatics workflow for metagenomics
Gene prediction
Binning
AAGACGTGGACA
CATGCGTGCATG
AGTCGTCAGTCATGGG
GTCCGTCACAACTGA
Short reads (40-150 bps)
AAGACGTGGACAGATCTGCTCAGGCTAGCATGAAC
Contigs
GATAGGTGGACCGATATGCATTAGACTTGCAGGGC
1 3000 6000
ORFs
Proteins, families, functions
1 3000 6000
Functional profiles
1 2000
Sequences into species
Assembly
Homology searching
Functional classificationOntologies
EnsamblajeAnotación funcional
Binning
Secuencias procedentes de
diversas especies
Formación de quimeras
Sin efectoLo hace
necesario
Secuencias cortasMétodos
genómicos no aptos
Homología con solo una parte del hit
Poca señal filogenética o composicional
Secuencias con errores
Menor soporte para los contigs
Poco efecto Poco efecto
Problemas asociados a las secuencias metagenómicas
Mavromatis et al, Nature Meth 4, 495-500 (2007)
Ensamblaje de metagenomas
Errores
JAZZ 29%Arachne 33%Phrap 56%
Cantidad ensamblada
JAZZ 32%Arachne 44%Phrap 66%
JAZZ 2%Arachne 2%Phrap 40%
Otros ensambladores: Newbler, Mira
Predicción de genes: Para genomas procariotas existen herramientas que funcionan con alta precisión (>98%), pero no son utilizables para secuencias metagenómicas
Predicción de genes en metagenomas
Mavromatis et al, Nature Meth 4, 495-500 (2007)
Otros predictores: MetaGene
En colaboración con ITACA-UPV, usando EELA grid:Búsquedas de homología en GenBank nr para el metagenoma del Mar de los SargazosRealizado en 8 dias de tiempo real (25 genomas bacterianos medios/dia)
Búsquedas de homología mediante computación en grid
Tamaño de diversos metagenomas:
Human gut microbiome: 10 Kb Whale fall 1: 28 Kb Minessotta farm soil: 135 Kb Sargasso Sea waters: 810 Kb
Asignación funcional a COGs
Dalevi et al, Bioinformatics 24, i7 (2008)
Turnbaugh et al, Nature 444, 1027-31 (2006)
Comparing metagenomes
Woyke et al, Nature 443, 950-5 (2006)Tyson et al. Nature 428, 37-43 (2004)
Finding relationships between community members
Sargasso Sea metagenomeMethod
E.coli assignment (2000 sequences)
Huson et al, Genome Res 17, 377 (2007)
Binning filogenético: MEGAN
Aproximaciones filogenéticas
Basadas en el estudio de la filogenia de la secuencia problema
Dificultades • Secuencias truncadas, no informativas para realizar la filogenia
• Filogenias ruidosas: Duplicaciones, HGT, diferentes tasas de mutación • Resolución limitada en la taxonomía
• Costosas computacionalmente
Aproximaciones al binning
Filogenia 16S Filogenia tetranucleótidos
AGAG AGAT AGGC ATTA CGTA GACC GATT … Seq1 0 0.14 0.14 0 0.14 0 0 …Seq2 0.12 0.02 0 0.05 0.11 0.02 0.08 …
Composición de las secuencias como vectores de oligonucleótidos
Métodos composicionales de binning
Clasificadores Bayesianos (Sanberg et al, Genome Res 2001, 11: 1404-9)
Modelos de Markov (Teeling et al, Env Microbiol 2004, 6: 938-47)
Mapas autoorganizativos (SOMs) (Abe et al, Genome Res 2003, 13, 693-702)
Métodos composicionales de binning
Máquinas de Soporte Vectorial (McHardy et al, Nature Methods 2007, 4, 63-72)
SOM (Abe et al, Genome Res 13, 693-702, 2003)
SVM: Phylopythia(McHardy et al, Nature Methods 2007, 4, 63-72)
Aproximaciónes composicionales
Basadas en el estudio de la composición de las secuencias
Dificultades • Secuencias cortas, por debajo de lo requerido por los métodos
• Se complica mucho en metagenomas complejos
• Confundidas facilmente por eventos de HGT
• Resolución limitada en el tiempo (pérdida de señal por amelioración)
Aproximaciones al binning
Detección de eventos de HGT
Tamames et al, BMC Genomics 9, 136 (2008)
DNA
mRNA
Alta expresiónGenes muy activos
Baja expresiónGenes poco activos
Metatranscriptómica
Gen X
3’ 5’
Gen Y
3’
Genoma
Metagenoma
Met
atra
nscr
ipto
ma
(Gilbert)
(Frias-López)
Frias López et al, Proc Natl Acad Sci USA 105, 3805 (2008)
Gilbert et al, PLoS ONE 3, e3042 (2008)
• EnsamblajeVarios métodos ya desarrolladosBuenos resultados para metagenomas simples (en torno a 50% ensamblado)
Muy dificil para metagenomas complejos
• Predicción de genes Varios métodos ya desarrollados, con buenos resultados para la mayoría de casos
• Búsqueda de homologíasProblema computacional por la gran cantidad de datos. Supercomputación, grids
• Asignación funcionalMuy buena precisión, pero posible para menos de la mitad de genes
• BinningVarios métodos ya desarrolladosBuena precisión para secuencias largas (>5 Kb). Poco útiles en la práctica
• MetatranscriptómicaMétodos en desarrollo
Bioinformática para el estudio de metagenomas
Conclusiones
Top Related