Las multiples caras de la bioinformatica

93

description

I Jornadas de bioinformática de Granada - Alberto Labarga

Transcript of Las multiples caras de la bioinformatica

Page 1: Las multiples caras de la bioinformatica
Page 2: Las multiples caras de la bioinformatica

las multiples caras de la bioinformá[email protected]

Page 3: Las multiples caras de la bioinformatica

La bioinformática consiste en la creación y desarrollo de algoritmos, bases de datos, técnicas informáticas y estadísticas, y las bases teóricas para resolver problemas formales y prácticos en torno a la gestión y análisis de información biológica.

Page 4: Las multiples caras de la bioinformatica

La vida puede verse como un proceso de almacenamiento y transmisión de información biológica. La vida puede verse como un proceso de almacenamiento y transmisión de información biológica.

El ADN es la molécula portadora de esta información. El ADN es la molécula portadora de esta información.

Para entender la vida debemos identificar estas moléculas y descifrar el códigoPara entender la vida debemos identificar estas moléculas y descifrar el código

Page 5: Las multiples caras de la bioinformatica
Page 6: Las multiples caras de la bioinformatica

“We wish to propose a structure for the salt of desoxyribose nucleic acid (DNA). This structure has novel features which are of considerable biological interest”

“We wish to propose a structure for the salt of desoxyribose nucleic acid (DNA). This structure has novel features which are of considerable biological interest”

“It has not escaped our attention that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material.”

“It has not escaped our attention that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material.”

Page 7: Las multiples caras de la bioinformatica

Sanger determinó la secuencia de los aminoácidos de la insulina en 1955. Al hacerlo, demostró que las proteínas tienen estructuras específicas.

Sanger determinó la secuencia de los aminoácidos de la insulina en 1955. Al hacerlo, demostró que las proteínas tienen estructuras específicas.

Este resultado le valió su primer Premio Nobel de química en 1958Este resultado le valió su primer Premio Nobel de química en 1958

Page 8: Las multiples caras de la bioinformatica

Cuando Perutz llegó a Cambridge la estructura molecular más grande que se había resuelto era la del pigmento natural ficocianina, de 58 átomos.

Cuando Perutz llegó a Cambridge la estructura molecular más grande que se había resuelto era la del pigmento natural ficocianina, de 58 átomos.

El tema escogido por Perutz para su tesis fue otra proteína, la hemoglobina, el transportador de oxígeno que da color rojo a nuestra sangre. Tenía 11000 átomos.

El tema escogido por Perutz para su tesis fue otra proteína, la hemoglobina, el transportador de oxígeno que da color rojo a nuestra sangre. Tenía 11000 átomos.

Page 9: Las multiples caras de la bioinformatica

El primer Atlas of Protein Sequence and Structure, presentaba información sobre 65 proteinas. El primer Atlas of Protein Sequence and Structure, presentaba información sobre 65 proteinas.

Page 10: Las multiples caras de la bioinformatica

En 1971 se crea el Protein Data Bank. En 1974 tiene 12 estructuras

En 1971 se crea el Protein Data Bank. En 1974 tiene 12 estructuras

myoglobin hemoglobin

papain ribonuclease

lactate dehydrogenasecarboxypeptidase A

Page 11: Las multiples caras de la bioinformatica

Frederick Sanger publica en 1975 un método para la "Secuenciación del ADN mediante síntesis enzimática".Frederick Sanger publica en 1975 un método para la "Secuenciación del ADN mediante síntesis enzimática".

Page 12: Las multiples caras de la bioinformatica

El primer genoma de ADN completamente secuenciado fue el del bacteriófago φX174, en 1977El primer genoma de ADN completamente secuenciado fue el del bacteriófago φX174, en 1977

Page 13: Las multiples caras de la bioinformatica

5,386 bases

Page 14: Las multiples caras de la bioinformatica

11 genes

Page 15: Las multiples caras de la bioinformatica

In 1981 the EMBL Nucleotide Sequence Data Library is created. Version 2 was composed of 811 secuences, around 1 million bases introduced by hand.

In 1981 the EMBL Nucleotide Sequence Data Library is created. Version 2 was composed of 811 secuences, around 1 million bases introduced by hand.

Page 16: Las multiples caras de la bioinformatica

Smith TF, Waterman MS (1981). "Identification of common molecular subsequences.". J Mol Biol. 147 (1): 195-7.Smith TF, Waterman MS (1981). "Identification of common molecular subsequences.". J Mol Biol. 147 (1): 195-7.

Page 17: Las multiples caras de la bioinformatica

S.F. Altschul, et al. (1990), "Basic Local Alignment Search Tool," J. Molec. Biol., 215(3): 403-10, 1990. 15,306 citationsS.F. Altschul, et al. (1990), "Basic Local Alignment Search Tool," J. Molec. Biol., 215(3): 403-10, 1990. 15,306 citations

Page 18: Las multiples caras de la bioinformatica

J. Thompson, T. Gibson, D. Higgins (1994), CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment. Nuc. Acids. Res. 22, 4673 - 4680

J. Thompson, T. Gibson, D. Higgins (1994), CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment. Nuc. Acids. Res. 22, 4673 - 4680

Page 19: Las multiples caras de la bioinformatica

En 1995 se crea el European Bioinformatics instituteEn 1995 se crea el European Bioinformatics institute

Page 20: Las multiples caras de la bioinformatica
Page 21: Las multiples caras de la bioinformatica
Page 22: Las multiples caras de la bioinformatica

http://www.ensembl.org

Page 23: Las multiples caras de la bioinformatica

23

http://www.uniprot.org

Page 24: Las multiples caras de la bioinformatica

herramientas web

http://www.ebi.ac.uk/Tools/

Page 25: Las multiples caras de la bioinformatica

SOAP: Simple Object Access Protocol

fetchData(uniprot,wap_rat,default,xml)

servicios web

http://www.ebi.ac.uk/Tools/websevices

Page 26: Las multiples caras de la bioinformatica

http://taverna.sourceforge.net/

Page 27: Las multiples caras de la bioinformatica

http://www.myexperiment.org/users/471

Page 28: Las multiples caras de la bioinformatica
Page 29: Las multiples caras de la bioinformatica

http://www.ebi.ac.uk/dasty/

Page 30: Las multiples caras de la bioinformatica

15 de Febrero de 2001: se publica el borrador de la secuencia del genoma humano15 de Febrero de 2001: se publica el borrador de la secuencia del genoma humano

Page 31: Las multiples caras de la bioinformatica
Page 32: Las multiples caras de la bioinformatica

3,000,830,137 bases

Page 33: Las multiples caras de la bioinformatica

<2%

Page 34: Las multiples caras de la bioinformatica
Page 35: Las multiples caras de la bioinformatica
Page 36: Las multiples caras de la bioinformatica
Page 37: Las multiples caras de la bioinformatica

25,000 genes

Page 38: Las multiples caras de la bioinformatica

Bioinformatics: Gone in 2012

http://conferences.oreillynet.com/cs/bio2003/view/e_sess/3452

Page 39: Las multiples caras de la bioinformatica

98% ADN basura

Page 40: Las multiples caras de la bioinformatica

¿basura?

Page 41: Las multiples caras de la bioinformatica

ENCyclopedia Of DNA Elements

Page 42: Las multiples caras de la bioinformatica

Fire A, Xu S, Montgomery M, Kostas S, Driver S, Mello C (1998). "Potent and specific genetic interference by double-stranded RNA in Caenorhabditis elegans". Nature 391 (6669): 806–11. doi:10.1038/35888. PMID 9486653

Page 43: Las multiples caras de la bioinformatica

Hamilton A, Baulcombe D (1999). "A species of small antisense RNA in posttranscriptional gene silencing in plants". Science 286 (5441): 950–2. PMID 10542148

Page 44: Las multiples caras de la bioinformatica

Dr Alan Wolffe (1999)

• Epigenetics is heritable changes in gene expression that occur without a change in DNA sequence

• Such changes cannot be attributed to changes in DNA sequence (mutations)

• They are as Irreversible as mutations (or difficult to reverse)

Page 45: Las multiples caras de la bioinformatica
Page 46: Las multiples caras de la bioinformatica

99,99% idénticos

Page 47: Las multiples caras de la bioinformatica

VARIACIÓN EN LA SECUENCIA HUMANA DE DNA

Tasa de mutación = 10-8 /sitio/generación

Nº generaciones ancestro común-humano actual: 104-105

Page 48: Las multiples caras de la bioinformatica

10.000.000 SNPs

Page 49: Las multiples caras de la bioinformatica
Page 50: Las multiples caras de la bioinformatica

$10-million award for the first privately funded team

that can sequence 100 human genomes in 10 days

for less than 10.000$

Page 51: Las multiples caras de la bioinformatica

Applied Biosystems ABI 3730XL

Illumina / Solexa Genetic Analyzer

Applied BiosystemsSOLiD

Roche / 454 Genome Sequencer

1 Mb/day 100 Mb/run 3000 Mb/run

Page 52: Las multiples caras de la bioinformatica

Sequencing Fragment assembly problem The Shortest Superstring Problem Velvet (Zerbino, 2008) Sequencing Fragment assembly problem The Shortest Superstring Problem Velvet (Zerbino, 2008)

Gene finding Hidden Markov Models, pattern recognition methods GenScan (Burge & Karlin, 1997)Gene finding Hidden Markov Models, pattern recognition methods GenScan (Burge & Karlin, 1997)

Sequence comparison pairwise and multiple sequence alignments dynamic algorithm, heuristic methods PSI- BLAST (Altschul et. al., 1997) (SSAHA, 2001) (MUMmerGPU, 2008)

Sequence comparison pairwise and multiple sequence alignments dynamic algorithm, heuristic methods PSI- BLAST (Altschul et. al., 1997) (SSAHA, 2001) (MUMmerGPU, 2008)

Page 53: Las multiples caras de la bioinformatica

2560 JS21 blade computing nodes, each with 2 dual-core, 2.3 GHz, IBM 64-bit PowerPC 970MP processors 10240 CPUs | 20 TB of RAM | 280 TB of external disk

2560 JS21 blade computing nodes, each with 2 dual-core, 2.3 GHz, IBM 64-bit PowerPC 970MP processors 10240 CPUs | 20 TB of RAM | 280 TB of external disk

Page 54: Las multiples caras de la bioinformatica
Page 55: Las multiples caras de la bioinformatica
Page 56: Las multiples caras de la bioinformatica

Comparative genomics

Comparative genomics

Sequence (DNA/RNA) & phylogeny

Sequence (DNA/RNA) & phylogeny

Regulation of gene expression; transcription

factors & micro RNAs

Regulation of gene expression; transcription

factors & micro RNAs

Protein sequence analysis &evolution

Protein sequence analysis &evolution

Protein families, motifs and domains

Protein families, motifs and domains

Protein structure & function: computational crystallography

Protein structure & function: computational crystallography

Protein interactions & complexes: modelling and predictionProtein interactions & complexes: modelling and prediction

Chemical biologyChemical biology

Pathway analysisPathway analysis

Systems modelling

Systems modelling

Image analysisImage analysis

Data integration & literature miningData integration & literature mining

Page 57: Las multiples caras de la bioinformatica

AKJLSKDUCMMSLSIIEMMCSKLSKCSDCMSKLCCSDKCLSMCLKMCCLSKDCLSMCLSKCSCLSCLSMCLKSCDMCLMKMLWLKWLCMSKMCLSMCLSMCLSKCDJFIOIWELKMLXLWLWKMLWKCLWMCLWMCLWLWCLWKJCLWKCLKDWJCLWKDJCLK

Page 58: Las multiples caras de la bioinformatica
Page 59: Las multiples caras de la bioinformatica
Page 60: Las multiples caras de la bioinformatica

http://www.ebi.ac.uk/intact

Page 61: Las multiples caras de la bioinformatica

http://www.ebi.ac.uk/biomodels/

Page 62: Las multiples caras de la bioinformatica

http://www.cytoscape.org

Page 63: Las multiples caras de la bioinformatica

Bioinformatics: alive and kicking.

biologists are all bioinformaticians

now.

http://genomebiology.com/2008/9/12/114

Page 64: Las multiples caras de la bioinformatica
Page 65: Las multiples caras de la bioinformatica

una empresa de tecnología...

Análisis de datos, señales, imágenes

Análisis de datos, señales, imágenes

Modelado de sistemas, simulación

Modelado de sistemas, simulación

Bases de datos, data mining, IA

Bases de datos, data mining, IA

Tecnología, comunicación, computación

Tecnología, comunicación, computación

Page 66: Las multiples caras de la bioinformatica

con soluciones para el sector biomédico

gestión de datos

análisis estadístico

anotación análisis de redes

selección

30.000 genes

1500 genes

150 genes

50 elementos

10 targets

Page 67: Las multiples caras de la bioinformatica

queremos ser pieza fundamental

integrando procesos de I+D+i y tecnología en un mecanismo único que permita gestionar todo el proceso y donde la tecnología sea el eslabón más fuerte de la cadena

Page 68: Las multiples caras de la bioinformatica

datosgestiónanálisis

visualización

Page 69: Las multiples caras de la bioinformatica

data management

Page 70: Las multiples caras de la bioinformatica

https://carmaweb.genome.tugraz.at/

http://base.thep.lu.se/

Page 71: Las multiples caras de la bioinformatica

http://www.agml.org/

Page 72: Las multiples caras de la bioinformatica

http://www.openmicroscopy.org

Page 73: Las multiples caras de la bioinformatica

CONTENT: Minimal Information to be reported -> MIBBI (http://www.mibbi.org)

SEMANTIC: Terminology Used, Ontologies -> OBI (http://obi-ontology.org)

SYNTAX: Data Model, Data Exchange ->FUGE (http://fuge.sourceforge.net)

Page 74: Las multiples caras de la bioinformatica

data analysis

Page 75: Las multiples caras de la bioinformatica

Biological question

Testing

Biological verification and interpretation

experiment

Estimation

Experimental design

Image analysis

Normalization

Clustering Prediction

Expression quantification Pre-processing

Analysis

Page 76: Las multiples caras de la bioinformatica

Bioconductor for Expression Analysis

• Quickly becoming the accepted approach

• Open source

• Flexible

• (fairly) simple to use - intuitive

• Wide applications – many packages

http://www.bioconductor.org

Page 77: Las multiples caras de la bioinformatica

Trans-Proteomic Pipeline (TPP) is a collection of integrated tools for MS/MS proteomics

http://tools.proteomecenter.orghttp://proteowizard.sourceforge.nethttp://www.thegpm.org/TANDEM

Page 78: Las multiples caras de la bioinformatica

BIG data

Page 79: Las multiples caras de la bioinformatica
Page 80: Las multiples caras de la bioinformatica
Page 81: Las multiples caras de la bioinformatica
Page 82: Las multiples caras de la bioinformatica
Page 83: Las multiples caras de la bioinformatica
Page 84: Las multiples caras de la bioinformatica
Page 85: Las multiples caras de la bioinformatica

gestiónanálisis

visualización

literatura

Page 86: Las multiples caras de la bioinformatica

enriquecimiento semántico

extracción de información

Page 87: Las multiples caras de la bioinformatica

Antileukoproteinase, Secretory leukocyte protease inhibitor, P03973

uniprot: http://www.uniprot.org/uniprot/P03973genecards: http://www.genecards.org/cgi-bin/carddisp.pl?id=P03973dasty: http://www.ebi.ac.uk/dasty/client/ebi.php?q=P03973

>sp|P03973|SLPI_HUMAN Antileukoproteinase OS=Homo sapiens GN=SLPI MKSSGLFPFLVLLALGTLAPWAVEGSGKSFKAGVCPPKKSAQCLRYKKPECQSDWQCPGK KRCCPDTCGIKCLDPVDTPNPTRRKPGKCPVTYGQCLMLNPPNFCEMDGQCKRDLKCCMG MCGKSCVSPVKA

Page 88: Las multiples caras de la bioinformatica
Page 89: Las multiples caras de la bioinformatica
Page 90: Las multiples caras de la bioinformatica
Page 91: Las multiples caras de la bioinformatica
Page 92: Las multiples caras de la bioinformatica

retos de la biología en los próximos 50 años

• Listado de todos los componentes moleculares que forman un organismo:– Genes, proteinas, y otros elementos funcionales

• Comprender la funcion de cada componente• Comprender como interaccionan • Estudiar como la función ha evolucionado• Encontrar defectos geneticos que causan

enfermedades• Diseñar medicamentos y terapias de manera

racional• Secuenciar el genoma de cada individuo y usarlo en

una medicina personalizada

Page 93: Las multiples caras de la bioinformatica