Presentación de la Plataforma Bioinformática de Andalucía.

Post on 12-Jul-2015

1.112 views 1 download

Transcript of Presentación de la Plataforma Bioinformática de Andalucía.

La Plataforma Andaluza de Bioinformática: cómo utilizar la

bioinformática sin morir en el intentoM. Gonzalo Claros

Departamento de Biología Molecular y Bioquímica

PLATAFORMA ANDALUZA DE BIOINFORMÁTICA

Plataforma de Genómica, Proteómica y Biocomputación

Vamos a situarnos...

Investigación

Soporte a los usuarios (formación)

Acceso a recursos bioinformáticos

Centro de Supercomputación y Bioinformática (UMA)

PlataformaComputacional

de la UMA

Red Españolade Super-

computación

HP SuperDome

Mare Nostrum

Plataforma Andaluza de Bioinformática Genómica y Proteómica

(SCAI, UCO)

Objetivos

• Poner a disposición del entorno Ciencia-Tecnología-Empresa andaluz la infraestructura, tecnología, y personal altamente cualificado para el acceso eficiente a las nuevas tecnologías denominadas «ómicas»

• Potenciar a los grupos de investigación y unidades I+D+I al poner a su disposición las herramientas necesarias para incrementar su competitividad y proyección internacional, así como fomentar la transferencia de tecnología.

BOE 172 del 20-7-2005, 25926-33

Funcionamiento

• Acceso a los programas sin necesidad de instalarlos.

• Programas comerciales (garantizado por 5 años).

• Espacio para almacenar datos, con backup.

• Acceso a bases de datos comerciales.

• Computación de altas prestaciones

SupercomputadorSuperDome HP

Acceso: www.scbi.uma.es

Acceso: www.scbi.uma.es

Identificación

Lo que se puede ver

Recursos bioinformáticos

GCG AccelrysEMBOSSSeqTrimFull-LengtherAlignMinerSeq2ContigWFCap3MIRA2

Lo que se puede usar

HyperChemDiscovery Studio

SYBYLAMPACAmber

Bioconductor (R)ArrayHubArrayUnlockLitheMinerSpotFire Decisionsite

GE DeCyderSpotFire DecisionsiteIngenuity Pathway (IPA)

Protein LooungeMatLab:

• Simulink• Bioinformatics ToolBox• Simbiology

Herramientas públicas (propias)

¿Quiénes lo usan?!

19 usuarios19 usuarios

2 usuarios1 usuario

3 usuarios

3 usuarios

1 usuario

Frecuencia de usoResumen anual

Último mes10 usuarios (25%)

Se usa desde la zona privada

Las máquinas virtuales

Descarga de la máquina virtual

Uso de la máquina virtual

Las herramientas propias

PLATAFORMA ANDALUZA DE BIOINFORMÁTICA

SeqTrim

www.scbi.uma.es/seqtrim Falgueras et al, 2007

SeqTrim is modular... and something moreSequences (fasta) Seqs + Quals (fasta)

Trimming Adaptors

Trimming polyA | T

Removing specialized features

Trimming Ns

Trimming Low Qual

Removing low quality seqs

Trimming Contaminants

Removing contaminant seqs

Maskering Repeats

Dust

Repeat Masker

chromatograms (abi, scf...)

Sequences

QualitiesInfo

Trimming Vector

Removing cloning vector

Terminal tranferase

Removing Additional artifacts

Ending As, Ts, Ns, Xs

Phred ZIPSeveral input formats

Four modular functions

Two sequential, optional functions

Output formats for pipeliningFalgueras et al, 2007

SeqTrim

Falgueras et al, 2007

Browsing window

Falgueras et al, 2007

Browsing window

Falgueras et al, 2007

Browsing window

Falgueras et al, 2007

Browsing window

Falgueras et al, 2007

Browsing window

Falgueras et al, 2007

Browsing window

Falgueras et al, 2007

Browsing window

Falgueras et al, 2007

Browsing window

Falgueras et al, 2007

Utilizaciones de SeqTrim

• EST

• GEMINI

• PIN

• SSH

• Compresión/lateral

• Juvenil/madura

• Secuenciación de ADNg

• BAC de Pinus pinaster

0

25

50

75

100

Vect

or

Adap

tado

res

Baja

cal

idad

Inde

term

inac

ione

s

Cont

amin

ante

s

70,6885,63

99,65

Porcentaje de lecturas afectadas

% L

ectu

ras

0

25

50

75

100

Vect

or

Ada

ptad

ores

Baj

a ca

lidad

Inde

term

inac

ione

s

Con

tam

inan

tes

18,625,34

25,48

Porcentaje de nucleótidos recortados

% N

ucle

ótid

os

nt Reads

Full-Lengther

www.scbi.uma.es/full-lengther Lara et al, 2007

Análisis de los resultados

N. Fernández-Pozo, 2008

AlignMiner

www.scbi.uma.es/alignminer

Trabajar con AlignMiner

Visualización de los resultados

InGeBiol: modelo general en Ruby

Nuestro uso de CAP3web

N. Fernández-Pozo, 2008

100 100

73,93

48,9350,99

36,37

0

20

40

60

80

100

120

Lecturas Nucleótidos

Porc

enta

je d

e Le

ctur

as o

Nuc

leóti

dos

Iniciales Limpias Únicas

100 100

67,18

37,3636,03

23,15

0

20

40

60

80

100

120

Lecturas Nucleótidos

Porc

enta

je d

e Le

ctur

as o

Nuc

leóti

dos

Iniciales Limpias Únicas

PIN GEMINI

Interfaz simplificada para MIRA2

El «gran proyecto»

Colaboración en investigación

PLATAFORMA ANDALUZA DE BIOINFORMÁTICA

NC/-N-C_a

NC/-N-C_z

-N-C/NC_a

-N-C/NC_z

Condiciones experimentales

GEM-009-H07

GEM-108-C01

GEM-032-C07

GEM-020-C11

GEM-103-E10

CK16 2 F10

GEM-058-D04

CK16 1 B05

GEM-051-B04

GEM-100-H11

gDNA pinaster

GEM-003-B08

GEM-002-F10

GEM-097-H03

PIN-9-A08

GEM-077-C08

GEM-105-C03

GEM-088-A07

PIN-5-F01

GEM-094-G04

GEM-026-H10

Spike 2

Spike 6

Spike 2

ASPG

GEM-078-C04

GEM-093-C02

GEM-085-C12

Spike 4

GEM-093-A05

AS

Spike 6

Spike 4

Ge

ne

s c

an

did

ato

s

Investigación

• Úselo usted mismo

• Colaboración científica

• Analizar resultados e interpretarlos

• Diseño de bases de datos, portales y algoritmos a medida

• Desarrollo de flujos de trabajo estándares para la investigación

• Socio bionformático para proyectos ómicos.

• Ejemplos:

• Proyecto piloto nacional para la secuenciación de Pinus pinaster (UMA. IP: Francisco M. Cánovas)

• European Animal Disease Genomics Network of Excellence for animal health and food safety (UCO. IP: Juan José Garrido)

Base de datos en Ruby

Base de datos en Ruby

Análisis de micromatrices 2C

Datos(GenePix,QScan)

•Datos normalizados•Genes con expresión

diferencial•Visualización de los

resultados•Calidad de los datos

Script propio

Visualización de los datos 2CDatos orginales Datos normalizados

Los genes candidatosCalidad datos

Genes con expresión diferencial

Interpretación funcional

NC/-N-C_a

NC/-N-C_z

-N-C/NC_a

-N-C/NC_z

Condiciones experimentales

GEM-009-H07

GEM-108-C01

GEM-032-C07

GEM-020-C11

GEM-103-E10

CK16 2 F10

GEM-058-D04

CK16 1 B05

GEM-051-B04

GEM-100-H11

gDNA pinaster

GEM-003-B08

GEM-002-F10

GEM-097-H03

PIN-9-A08

GEM-077-C08

GEM-105-C03

GEM-088-A07

PIN-5-F01

GEM-094-G04

GEM-026-H10

Spike 2

Spike 6

Spike 2

ASPG

GEM-078-C04

GEM-093-C02

GEM-085-C12

Spike 4

GEM-093-A05

AS

Spike 6

Spike 4

Genes c

andid

ato

s

NC/-N-C_a

NC/-N-C_z

-N-C/NC_a

-N-C/NC_z

---NA---

---NA---

metallothionein-like protein

acid phosphatase

---NA---

---NA---

---NA---

---NA---

glyoxalase bleomycin resistance protein dioxygenase

transaldolase

catalase

stem-specific proteinexpressed

---NA---

stem-specific proteinexpressed

aldose 1-epimerase

---NA---

seed imbibition protein

stem-specific proteinexpressed

general substrate transporter

myo-inositol oxygenase

NC/-N-C_a

NC/-N-C_z

-N-C/NC_a

-N-C/NC_z

Condiciones experimentales

GEM-009-H07

GEM-108-C01

GEM-032-C07

GEM-020-C11

GEM-103-E10

CK16 2 F10

GEM-058-D04

CK16 1 B05

GEM-051-B04

GEM-100-H11

gDNA pinaster

GEM-003-B08

GEM-002-F10

GEM-097-H03

PIN-9-A08

GEM-077-C08

GEM-105-C03

GEM-088-A07

PIN-5-F01

GEM-094-G04

GEM-026-H10

Spike 2

Spike 6

Spike 2

ASPG

GEM-078-C04

GEM-093-C02

GEM-085-C12

Spike 4

GEM-093-A05

AS

Spike 6

Spike 4

Genes c

andid

ato

s

Experimentos en serieAnálisis ANOVA

Enriquecimiento biológico (análisis asociativo)

Un ejemplo de resultado

!"#$"$% !""#$

CytosolMitochondria

Plastid

D.P. Villalobos 2008

Varia

bilit

y

Sólo la normalización no bastaNormalizar disminuye variabilidadVSN se basa en disminuir variabilidad

Mejor normalización (Affymetrix)El mejorDatos brutos

RMA es el que mejor se comporta

El 2.º mejor

Pérez-Florido et al 2009

Varia

bilit

y

Sólo la normalización no bastaNormalizar disminuye variabilidadVSN se basa en disminuir variabilidad

Mejor normalización (Affymetrix)El mejorDatos brutos

RMA es el que mejor se comporta

El 2.º mejor

Pérez-Florido et al 2009

Varia

bilit

y

Sólo la normalización no bastaNormalizar disminuye variabilidadVSN se basa en disminuir variabilidad

Mejor normalización (Affymetrix)El mejorDatos brutos

RMA es el que mejor se comporta

El 2.º mejor

Los datos brutos tienen poca correlaciónLos otros métodos son parecidosRMA y GCRMA se basan en mejorar la correlación de los datos

Pérez-Florido et al 2009

Varia

bilit

y

Sólo la normalización no bastaNormalizar disminuye variabilidadVSN se basa en disminuir variabilidad

Mejor normalización (Affymetrix)El mejorDatos brutos

RMA es el que mejor se comporta

El 2.º mejor

Los datos brutos tienen poca correlaciónLos otros métodos son parecidosRMA y GCRMA se basan en mejorar la correlación de los datos

Spe

arm

an

corr

elat

ion

RMA es el que mejor se comportaVSN es una buena alternativa

Pérez-Florido et al 2009

Varia

bilit

y

Sólo la normalización no bastaNormalizar disminuye variabilidadVSN se basa en disminuir variabilidad

Mejor normalización (Affymetrix)El mejorDatos brutos

RMA es el que mejor se comporta

El 2.º mejor

Los datos brutos tienen poca correlaciónLos otros métodos son parecidosRMA y GCRMA se basan en mejorar la correlación de los datos

Spe

arm

an

corr

elat

ion

RMA es el que mejor se comportaVSN es una buena alternativa

Pérez-Florido et al 2009

Ensamblaje de un BAC de pino

FragmentaciónPirosecuenciación (media: 200 pb)

Ensamblaje

Filtrado

ADN pinoVector pIndigoBAC536Genómico E. coli

Allcontig

Largecontig ( > 500 pb)

Estrategias de ensamblajeSecuencias

Newbler® SeqTrim

Contig

Estrategia FLX Estrategias

Cap3

PCAP

MIRA2

EULER-SR

Celera Assembler

Otros ensambladores

probados

SeqTrim

Newbler®

Large contigs

AmosValidate

Reliable contigs

Contig

SeqTrim

¿Qué contiene 176P12?

Fd-GOGAT

Ty1-Copia elementRetroelement pol polyprotein-like

El gen Fd-GOGAT

Recursos humanos actuales

• 2 Ldo. en informática

• Darío Guerrero Fernández

• Antonio J. Lara Aparicio

• 2 Dr. en Biología

• Rocío Bautista Moreno

• M. Gonzalo Claros Díaz (supervisión)

• Otros colaboradores

• Guillermo Pérez Trabado (supervisión)

• Juan Falgueras (profesor)

• Rafael Larrosa (gestor del sistema)

• Noé Fernández Pozo (doctorando)

SCBIPLATAFORMA ANDALUZA DE BIOINFORMÁTICA