Las multiples caras de la bioinformatica

Post on 29-Nov-2014

1.991 views 2 download

description

I Jornadas de bioinformática de Granada - Alberto Labarga

Transcript of Las multiples caras de la bioinformatica

las multiples caras de la bioinformáticaalberto.labarga@scientifik.info

La bioinformática consiste en la creación y desarrollo de algoritmos, bases de datos, técnicas informáticas y estadísticas, y las bases teóricas para resolver problemas formales y prácticos en torno a la gestión y análisis de información biológica.

La vida puede verse como un proceso de almacenamiento y transmisión de información biológica. La vida puede verse como un proceso de almacenamiento y transmisión de información biológica.

El ADN es la molécula portadora de esta información. El ADN es la molécula portadora de esta información.

Para entender la vida debemos identificar estas moléculas y descifrar el códigoPara entender la vida debemos identificar estas moléculas y descifrar el código

“We wish to propose a structure for the salt of desoxyribose nucleic acid (DNA). This structure has novel features which are of considerable biological interest”

“We wish to propose a structure for the salt of desoxyribose nucleic acid (DNA). This structure has novel features which are of considerable biological interest”

“It has not escaped our attention that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material.”

“It has not escaped our attention that the specific pairing we have postulated immediately suggests a possible copying mechanism for the genetic material.”

Sanger determinó la secuencia de los aminoácidos de la insulina en 1955. Al hacerlo, demostró que las proteínas tienen estructuras específicas.

Sanger determinó la secuencia de los aminoácidos de la insulina en 1955. Al hacerlo, demostró que las proteínas tienen estructuras específicas.

Este resultado le valió su primer Premio Nobel de química en 1958Este resultado le valió su primer Premio Nobel de química en 1958

Cuando Perutz llegó a Cambridge la estructura molecular más grande que se había resuelto era la del pigmento natural ficocianina, de 58 átomos.

Cuando Perutz llegó a Cambridge la estructura molecular más grande que se había resuelto era la del pigmento natural ficocianina, de 58 átomos.

El tema escogido por Perutz para su tesis fue otra proteína, la hemoglobina, el transportador de oxígeno que da color rojo a nuestra sangre. Tenía 11000 átomos.

El tema escogido por Perutz para su tesis fue otra proteína, la hemoglobina, el transportador de oxígeno que da color rojo a nuestra sangre. Tenía 11000 átomos.

El primer Atlas of Protein Sequence and Structure, presentaba información sobre 65 proteinas. El primer Atlas of Protein Sequence and Structure, presentaba información sobre 65 proteinas.

En 1971 se crea el Protein Data Bank. En 1974 tiene 12 estructuras

En 1971 se crea el Protein Data Bank. En 1974 tiene 12 estructuras

myoglobin hemoglobin

papain ribonuclease

lactate dehydrogenasecarboxypeptidase A

Frederick Sanger publica en 1975 un método para la "Secuenciación del ADN mediante síntesis enzimática".Frederick Sanger publica en 1975 un método para la "Secuenciación del ADN mediante síntesis enzimática".

El primer genoma de ADN completamente secuenciado fue el del bacteriófago φX174, en 1977El primer genoma de ADN completamente secuenciado fue el del bacteriófago φX174, en 1977

5,386 bases

11 genes

In 1981 the EMBL Nucleotide Sequence Data Library is created. Version 2 was composed of 811 secuences, around 1 million bases introduced by hand.

In 1981 the EMBL Nucleotide Sequence Data Library is created. Version 2 was composed of 811 secuences, around 1 million bases introduced by hand.

Smith TF, Waterman MS (1981). "Identification of common molecular subsequences.". J Mol Biol. 147 (1): 195-7.Smith TF, Waterman MS (1981). "Identification of common molecular subsequences.". J Mol Biol. 147 (1): 195-7.

S.F. Altschul, et al. (1990), "Basic Local Alignment Search Tool," J. Molec. Biol., 215(3): 403-10, 1990. 15,306 citationsS.F. Altschul, et al. (1990), "Basic Local Alignment Search Tool," J. Molec. Biol., 215(3): 403-10, 1990. 15,306 citations

J. Thompson, T. Gibson, D. Higgins (1994), CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment. Nuc. Acids. Res. 22, 4673 - 4680

J. Thompson, T. Gibson, D. Higgins (1994), CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment. Nuc. Acids. Res. 22, 4673 - 4680

En 1995 se crea el European Bioinformatics instituteEn 1995 se crea el European Bioinformatics institute

http://www.ensembl.org

23

http://www.uniprot.org

herramientas web

http://www.ebi.ac.uk/Tools/

SOAP: Simple Object Access Protocol

fetchData(uniprot,wap_rat,default,xml)

servicios web

http://www.ebi.ac.uk/Tools/websevices

http://taverna.sourceforge.net/

http://www.myexperiment.org/users/471

http://www.ebi.ac.uk/dasty/

15 de Febrero de 2001: se publica el borrador de la secuencia del genoma humano15 de Febrero de 2001: se publica el borrador de la secuencia del genoma humano

3,000,830,137 bases

<2%

25,000 genes

Bioinformatics: Gone in 2012

http://conferences.oreillynet.com/cs/bio2003/view/e_sess/3452

98% ADN basura

¿basura?

ENCyclopedia Of DNA Elements

Fire A, Xu S, Montgomery M, Kostas S, Driver S, Mello C (1998). "Potent and specific genetic interference by double-stranded RNA in Caenorhabditis elegans". Nature 391 (6669): 806–11. doi:10.1038/35888. PMID 9486653

Hamilton A, Baulcombe D (1999). "A species of small antisense RNA in posttranscriptional gene silencing in plants". Science 286 (5441): 950–2. PMID 10542148

Dr Alan Wolffe (1999)

• Epigenetics is heritable changes in gene expression that occur without a change in DNA sequence

• Such changes cannot be attributed to changes in DNA sequence (mutations)

• They are as Irreversible as mutations (or difficult to reverse)

99,99% idénticos

VARIACIÓN EN LA SECUENCIA HUMANA DE DNA

Tasa de mutación = 10-8 /sitio/generación

Nº generaciones ancestro común-humano actual: 104-105

10.000.000 SNPs

$10-million award for the first privately funded team

that can sequence 100 human genomes in 10 days

for less than 10.000$

Applied Biosystems ABI 3730XL

Illumina / Solexa Genetic Analyzer

Applied BiosystemsSOLiD

Roche / 454 Genome Sequencer

1 Mb/day 100 Mb/run 3000 Mb/run

Sequencing Fragment assembly problem The Shortest Superstring Problem Velvet (Zerbino, 2008) Sequencing Fragment assembly problem The Shortest Superstring Problem Velvet (Zerbino, 2008)

Gene finding Hidden Markov Models, pattern recognition methods GenScan (Burge & Karlin, 1997)Gene finding Hidden Markov Models, pattern recognition methods GenScan (Burge & Karlin, 1997)

Sequence comparison pairwise and multiple sequence alignments dynamic algorithm, heuristic methods PSI- BLAST (Altschul et. al., 1997) (SSAHA, 2001) (MUMmerGPU, 2008)

Sequence comparison pairwise and multiple sequence alignments dynamic algorithm, heuristic methods PSI- BLAST (Altschul et. al., 1997) (SSAHA, 2001) (MUMmerGPU, 2008)

2560 JS21 blade computing nodes, each with 2 dual-core, 2.3 GHz, IBM 64-bit PowerPC 970MP processors 10240 CPUs | 20 TB of RAM | 280 TB of external disk

2560 JS21 blade computing nodes, each with 2 dual-core, 2.3 GHz, IBM 64-bit PowerPC 970MP processors 10240 CPUs | 20 TB of RAM | 280 TB of external disk

Comparative genomics

Comparative genomics

Sequence (DNA/RNA) & phylogeny

Sequence (DNA/RNA) & phylogeny

Regulation of gene expression; transcription

factors & micro RNAs

Regulation of gene expression; transcription

factors & micro RNAs

Protein sequence analysis &evolution

Protein sequence analysis &evolution

Protein families, motifs and domains

Protein families, motifs and domains

Protein structure & function: computational crystallography

Protein structure & function: computational crystallography

Protein interactions & complexes: modelling and predictionProtein interactions & complexes: modelling and prediction

Chemical biologyChemical biology

Pathway analysisPathway analysis

Systems modelling

Systems modelling

Image analysisImage analysis

Data integration & literature miningData integration & literature mining

AKJLSKDUCMMSLSIIEMMCSKLSKCSDCMSKLCCSDKCLSMCLKMCCLSKDCLSMCLSKCSCLSCLSMCLKSCDMCLMKMLWLKWLCMSKMCLSMCLSMCLSKCDJFIOIWELKMLXLWLWKMLWKCLWMCLWMCLWLWCLWKJCLWKCLKDWJCLWKDJCLK

http://www.ebi.ac.uk/intact

http://www.ebi.ac.uk/biomodels/

http://www.cytoscape.org

Bioinformatics: alive and kicking.

biologists are all bioinformaticians

now.

http://genomebiology.com/2008/9/12/114

una empresa de tecnología...

Análisis de datos, señales, imágenes

Análisis de datos, señales, imágenes

Modelado de sistemas, simulación

Modelado de sistemas, simulación

Bases de datos, data mining, IA

Bases de datos, data mining, IA

Tecnología, comunicación, computación

Tecnología, comunicación, computación

con soluciones para el sector biomédico

gestión de datos

análisis estadístico

anotación análisis de redes

selección

30.000 genes

1500 genes

150 genes

50 elementos

10 targets

queremos ser pieza fundamental

integrando procesos de I+D+i y tecnología en un mecanismo único que permita gestionar todo el proceso y donde la tecnología sea el eslabón más fuerte de la cadena

datosgestiónanálisis

visualización

data management

https://carmaweb.genome.tugraz.at/

http://base.thep.lu.se/

http://www.agml.org/

http://www.openmicroscopy.org

CONTENT: Minimal Information to be reported -> MIBBI (http://www.mibbi.org)

SEMANTIC: Terminology Used, Ontologies -> OBI (http://obi-ontology.org)

SYNTAX: Data Model, Data Exchange ->FUGE (http://fuge.sourceforge.net)

data analysis

Biological question

Testing

Biological verification and interpretation

experiment

Estimation

Experimental design

Image analysis

Normalization

Clustering Prediction

Expression quantification Pre-processing

Analysis

Bioconductor for Expression Analysis

• Quickly becoming the accepted approach

• Open source

• Flexible

• (fairly) simple to use - intuitive

• Wide applications – many packages

http://www.bioconductor.org

Trans-Proteomic Pipeline (TPP) is a collection of integrated tools for MS/MS proteomics

http://tools.proteomecenter.orghttp://proteowizard.sourceforge.nethttp://www.thegpm.org/TANDEM

BIG data

gestiónanálisis

visualización

literatura

enriquecimiento semántico

extracción de información

Antileukoproteinase, Secretory leukocyte protease inhibitor, P03973

uniprot: http://www.uniprot.org/uniprot/P03973genecards: http://www.genecards.org/cgi-bin/carddisp.pl?id=P03973dasty: http://www.ebi.ac.uk/dasty/client/ebi.php?q=P03973

>sp|P03973|SLPI_HUMAN Antileukoproteinase OS=Homo sapiens GN=SLPI MKSSGLFPFLVLLALGTLAPWAVEGSGKSFKAGVCPPKKSAQCLRYKKPECQSDWQCPGK KRCCPDTCGIKCLDPVDTPNPTRRKPGKCPVTYGQCLMLNPPNFCEMDGQCKRDLKCCMG MCGKSCVSPVKA

retos de la biología en los próximos 50 años

• Listado de todos los componentes moleculares que forman un organismo:– Genes, proteinas, y otros elementos funcionales

• Comprender la funcion de cada componente• Comprender como interaccionan • Estudiar como la función ha evolucionado• Encontrar defectos geneticos que causan

enfermedades• Diseñar medicamentos y terapias de manera

racional• Secuenciar el genoma de cada individuo y usarlo en

una medicina personalizada