Biclustering sobre datos de expresión génicajanepo/doc/TESIS-presentacion-janepo.v2.pdf · 1....

Post on 07-Aug-2020

0 views 0 download

Transcript of Biclustering sobre datos de expresión génicajanepo/doc/TESIS-presentacion-janepo.v2.pdf · 1....

Biclustering sobre datos de expresión génica

Candidato : Juan A. Nepomuceno Chamorro

Directores : Alicia Troncoso Lora

Jesús S. Aguilar Ruiz

Disertación tesis doctoral. Sevilla, 21de julio de 2015

Candidato: Juan A. Nepomuceno ChamorroDpto. Lenguajes y Sistemas Informáticos

Universidad de Sevilla

Directores: Alicia Troncoso Lora

Jesús S. Aguilar RuizÁrea de Lenguajes y Sistemas Informáticos

Universidad Pablo de Olavide

Minería de Datos

Computación Evolutiva

Bioinformática

2

Inicio

Guía

1. Introducción

2. Estado del arte

3. Propuestas y resultados

1) SScorr

2) BISS

3) GoldBinch

4. Conclusiones y plan de futuro

5. Contribuciones

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones3

Guía

1. Introducción

2. Estado del arte

3. Propuestas y resultados

1) SScorr

2) BISS

3) GoldBinch

4. Conclusiones y plan de futuro

5. Contribuciones

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones4

Problema - contexto

Dogma central de la biología molecular

� Visión actual: holística o de sistemas

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones

ADN ARN Aminoácidos/Proteínas

Transcripción Translación

gen producto funcional

“Dogma central de la Biología Molecular”

5

Problema - contexto

� Ciencias ómicas

� Bioinformática y descubrimiento de biomarcadores

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones

(datos de expresión)

6

Problema – Datos

Datos de expresión génica:

� tecnología de microarray (transcriptómica)

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones7

Problema – Datos

Datos de expresión génica:

� datos de microarray

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones

genes

condiciones experimentales (muestras)

valor de expresión del gen Gx bajo la condición Cy

8

Problema – Datos

Datos de expresión génica:

� mediante otras tecnologías: vía RT-PCR, RNA-seq

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones9

Problema - Planteamiento

Flujo de trabajo

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones10

Problema - Planteamiento

Flujo de trabajo

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones11

Problema - Planteamiento

Flujo de trabajo

� Acceso a los datos:� Repositorios públicos: NCBI – GEO datasets

� Procesamiento de los datos: Babelomics

� Nomenclatura y anotaciones de genes

� Análisis (Biclustering)

� Interpretación o análisis funcional: � GO (Gene Ontology)

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones12

Guía

1. Introducción

2. Estado del arte

3. Propuestas y resultados

1) SScorr

2) BISS

3) GoldBinch

4. Conclusiones y plan de futuro

5. Contribuciones

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones13

Biclustering - definciones

Biclustering (capítulo 4, pág. 39)

� Aprendizaje no supervisado

� Importancia con datos de expresión

� Búsqueda de patrones locales

� Problema NP-completo (~ “clique”)

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones14

Biclustering - definciones

Biclustering (capítulo 4, pág. 39)

� Aprendizaje no supervisado

� Importancia con datos de expresión

� Búsqueda de patrones locales

� Problema NP-completo (~ “clique”)

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones15

Biclustering - definciones

Biclustering (capítulo 4, pág. 39)

� Aprendizaje no supervisado

� Importancia con datos de expresión

� Búsqueda de patrones locales

� Problema NP-completo (~ “clique”)

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones16

Biclustering - definciones

Biclustering (capítulo 4, pág. 39)

� Aprendizaje no supervisado

� Importancia con datos de expresión

� Búsqueda de patrones locales

� Problema NP-completo (~ “clique”)

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones17

Biclustering - definciones

� Clustering “tradicional” vs. Biclustering

� Objetivos

� Patrones

� Solapamiento*

� Estructura de soluciones

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones

a)

b)

a)

b)

Clustering: genes Biclustering: genes/condiciones

18

Biclustering - definciones

� Clustering “tradicional” vs. Biclustering

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones19

4 clusters

c1

c2

c3

c4(zona celeste)

Biclustering - definciones

� Clustering “tradicional” vs. Biclustering

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones20

3 biclusters

b1

b2

b3

4 clusters

c1

solape

c2

c3

c4(zona celeste)

Biclustering - definciones

Ejemplo de bicluster:

Introducción Estado del arte Propuestas y resultados Conclusiones Contribucionesg

ene

s

condiciones o muestrasbicluster

21

(perfil de expresión bicluster)

Biclustering - definciones

Patrones: con evoluciones coherentes

� de desplazamiento

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones22

Biclustering - definciones

Patrones: con evoluciones coherentes

� de escalado

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones23

Biclustering - algoritmos

� Gran variedad de algoritmos

� Taxonomía según� Técnica empleada

� Patrones que encuentra

� Criterio de evaluación

� Dificultades

� Comparación entre algoritmos

� Disponibilidad de código (Tabla Software* pág. 61)

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones24

Biclustering - algoritmos

� Algoritmo “fundacional” Cheng-Church (ChCh)

� Medida MSR como medida de calidad

� Otros algoritmos clásicos/referencia:

� FLOC

� ISA

�OPSM

� xMotifs

� Samba

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones25

Biclustering - algoritmos

� Algoritmos basados en metaheurísticas

� MSR como medida de calidad

� Diversas técnicas (SEBI)

� Basados en las correlación

� BCCA

� BICLIC

� Otros:

� Plaid Model, Spectral, BiMAX, …

� Datos temporales: eCCC y CCC-biclustering

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones26

Integración de información

Apuntes sobre integración (capítulo 5, pág. 63)

� Anotación de genes

� Información sobre genes:

� GO (Gene Ontology): ontología de genes

� Tres ramas: BP, MF, CC

� KEGG, InterPro

� Medidas sobre GO� IC-measures

� Edge-based measures

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones27

Guía

1. Introducción

2. Estado del arte

3. Propuestas y resultados

1) SScorr

2) BISS

3) GoldBinch

4. Conclusiones y plan de futuro

5. Contribuciones

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones28

Motivación

� La medida MSR presenta defectos a la hora de capturar biclusters con patrones de escalado

� Aguilar, J.S. Shifting and scaling patterns from gene expression data. Bioinformatics, 21(20):3840--3845 2005.

� Algoritmo basado en una metaheurística

� Independencia: motor de búsqueda y criterio evaluación

� Búsqueda dispersa o Scatter Search: Fred Glover

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones29

Búsqueda dispersa

Búsqueda dispersa (capítulo 6, pág. 69)

� Metaheurística basada en poblaciones

� Evolución de un conjunto representativo de soluciones

� Intesificación (mejora la calidad de soluciones)

� Método de la Mejora

� Actualización conjunto de referencia

� Diversificación (evita mínimos locales)

� Método de diversificación

� Reconstrucción del conjunto de referencia

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones30

Búsqueda dispersaIntroducción Estado del arte Propuestas y resultados Conclusiones Contribuciones31

Búsqueda dispersaIntroducción Estado del arte Propuestas y resultados Conclusiones Contribuciones32

Búsqueda dispersaIntroducción Estado del arte Propuestas y resultados Conclusiones Contribuciones33

Búsqueda dispersaIntroducción Estado del arte Propuestas y resultados Conclusiones Contribuciones

intensificación

diversificación

34

Búsqueda dispersa

Búsqueda dispersa

� Codificación de soluciones

� Método de diversificación

� Construcción y reconstrucción de RefSet

� Generación soluciones

� Combinación

�Método de la Mejora

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones35

Guía

1. Introducción

2. Estado del arte

3. Propuestas y resultados

1) SScorr

2) BISS

3) GoldBinch

4. Conclusiones y plan de futuro

5. Contribuciones

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones36

1) SScorr

Correlaciones lineales I (capítulo 7, pág. 82)

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones

Correlación media 0.003 Correlación media 1

37

1) SScorr

� Función objetivo

� Método de la mejora:

� Búsqueda local

� Elimina genes con correlación negativa

� Mejora término de la correlación

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones38

volumen

desviación estándar

1) SScorr

� Método de la mejora:

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones

Correlación media 0.0083 Correlación media 1

39

1) SScorr

� Experimentación (capítulo 9, pág. 103)

� Tres conjuntos de datos:

� Yeast, Lymphoma

� GaschYeast

� Tabla con valores descriptivos:

� volumen, correlación – MSR

� Representación gráfica de los biclusters

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones40

1) SScorr

� Valores de referencia: volumen, correlación – MSR

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones

Patrones de escalado

41

1) SScorr

� Comparativa

� Datos de GaschYeast

� Criterio comparación: porcentaje de biclusters enriquecidos

� Estudio biológico de biclusters

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones42

1) SScorr

“Se dice que un bicluster está enriquecido si su grupo de genes está asociado a un término GO según un umbral”

� GO (Gene Ontology)

� Grupo de genes presente en un término� Por cada término un test de Fisher

� Contraste múltiple de hipótesis (correcciones de Bonferroni)

� Herramientas� Funcassociate

� AGO (GeneMerge)

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones43

(sección 9.4, pág. 108)

1) SScorr

� Conclusiones� Búsqueda dispersa + correlación

� Se encuentran biclústers con patrones de escalado

� Ideas: dificultades en� Datos, algoritmos

� Comparación� Técnica no supervisada:

Análisis “experto”/biológico resultados

� Decisión de no usar datos sintéticos� Evitar sobreajuste en la experimentación

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones44

Guía

1. Introducción

2. Estado del arte

3. Propuestas y resultados

1) SScorr

2) BISS

3) GoldBinch

4. Conclusiones y plan de futuro

5. Contribuciones

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones45

2) BISS

El contexto biológico del problema nos motiva:

� Patrones de activación-inhibición no estudiados� [104] Tao Zeng et al. Maximization of negative correlations

in time course gene expression data for enhancingunderstanding of molecular pathways. Nucleic Acids Research,38(1):e1, 2010

� Análisis de los resultados en profundidad

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones46

2) BISS

Correlaciones lineales II (capítulo 7, pág. 85)

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones

Modificación en el cálculo de la correlación media

47

2) BISS

� Función objetivo

� Método de la mejora

� Se establece un umbral de correlación

� Procedimiento automático de elección

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones48

2) BISS

� Método de la mejora

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones

Correlación media:• Antes: 0.70• Después: 0.98

49

2) BISS

� Experimentación (capítulo 10, pág. 115)

� Tres conjuntos de datos

� GaschYeast, GDS1116 (levadura), Alzheimer

� Estudio y ajuste parámetro función objetivo

� Comparación con

� Algoritmos clásicos

� Algoritmos basados en correlación

� Filtrados

� Estudio biológico algunos biclusters

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones50

2) BISS

� Configuración de parámetros

� Función objetivo

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones51

2) BISS

� Configuración de parámetros

� Elección del umbral de correlación (automático)

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones52

2) BISS

� Comparación con algoritmos clásicos

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones

correlación con y sin valor absoluto

53

2) BISS

� Comparación con algoritmos clásicos

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones54

2) BISS

� Comparación con algoritmos clásicos

Debido a la influencia del tamaño de los biclusters en el estudio del enriquecimiento [16, 84, 36] se filtran aquellos biclusters con más de 50 genes [16]

[16] Bhattacharya et al. Bi-correlation clustering algorithm fordetermining a set of co-regulated genes. Bioinformatics, 25(21):2795--2801, 2009.

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones55

2) BISS

� Comparación con algoritmos clásicos

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones56

2) BISS

� Comparación con algoritmos basados en correlación

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones

correlación con y sin valor absoluto

57

2) BISS

� Comparación con algoritmos basados en correlación

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones58

2) BISS

� Comparación con algoritmos basados en correlación

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones59

2) BISS

� Comparación con algoritmos basados en correlación

� Dificultad en el análisis: volumen de los biclusters

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones60

2) BISS

� Estudio biológico algunos biclusters

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones61

2) BISS

� Conclusiones:

� Heterogeneidad de los distintos algoritmos

� Ideas:

� Contexto del problema

� Ficheros de anotaciones

� Estructura de GO

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones62

Guía

1. Introducción

2. Estado del arte

3. Propuestas y resultados

1) SScorr

2) BISS

3) GoldBinch

4. Conclusiones y plan de futuro

5. Contribuciones

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones63

3) GoldBinch

� Motivación� La integración entre distintas fuentes de información es

una de las tendencias en bioinformática

� Manejo de los ficheros de anotaciones

� Visto en clustering pero aún no en biclustering� [97] Marie Verbanck et al. A new unsupervised gene

clustering algorithm based on the integration of biological knowledge into expression data. BMC Bioinformatics, 14(1):42, 2013

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones64

3) GoldBinch

� Ficheros de anotaciones

� Gen asociado a términos de un vocabulario (GO)

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones65

3) GoldBinch

� Entrada: Matriz de expresión + Fichero anotaciones

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones66

3) GoldBinch

� Idea:

� Los ficheros de anotaciones introducen información de tipo biológico

� Esta información proporciona un sesgo en el proceso de búsqueda

� Ampliar la función objetivo con un término que controle dicha información

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones67

3) GoldBinchIntroducción Estado del arte Propuestas y resultados Conclusiones Contribuciones

Datos de entrada:• Matriz expresión• Fichero anotaciones

68

3) GoldBinch

� Función objetivo (capítulo 8, pág. 91)

� Rango de parámetros

� Necesidad de los tres términos

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones

volumencorrelación media

(valor absoluto)

término integración

información biológica

69

3) GoldBinch

� Método de la mejora

� Independiente de la función objetivo

� Permite experimentar con varias definiciones

� Basado en permutaciones

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones70

3) GoldBinch

� Término integración de la información biológica� FracGO

� Basada en la “fracción relevante de un bicluster en un término GO”

� SimNTO� Adaptación de la medida GO propuesta en:

[72] Mistry M. et al. Gene ontology term overlap as a measure of gene functional similarity. BMC Bioinformatics, 9(1):327, 2008

� Ambas utilizan únicamente los ficheros de anotaciones*

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones71

3) GoldBinch

� FracGO

� Dado un término GO para el que el bicluster está enriquecido, se mide la proporción de genes asociados a dicho término GO.

� Se calcula la media de dicha proporción para todos los términos GO enriquecidos (p-value = 0.05)

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones

valores entre 0 y 1

72

bi = {g1, …, g7, g8, g9, g10} � 8/10

3) GoldBinch

� SimNTO

� Se basa en el “solape 2 a 2” entre genes [72]

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones

términos anotados asociados a g1

73

3) GoldBinch

� SimNTO

� Se basa en el “solape 2 a 2” entre genes [72]

� Media de los solapes (simetría)

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones

términos anotados asociados a g1

valores entre 0 y 1

74

3) GoldBinch

� Experimentación (capítulo 11, pág. 135)

� Objetivos

� La integración de información mejora los resultados

� Diferencias entre SimNTO y FracGO

� Dos conjuntos de datos

� GDS1116, GDS2914 (S. cerevisiae)

� Ficheros de anotaciones generados con Babelomics4.0

� Nuevas cuestiones asociadas

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones75

3) GoldBinchIntroducción Estado del arte Propuestas y resultados Conclusiones Contribuciones

estudio parámetros3 ramas para evitar

sesgo de FracGOtérminos GO por bi.

“Sin integración”

76

3) GoldBinchIntroducción Estado del arte Propuestas y resultados Conclusiones Contribuciones

estudio parámetros3 ramas para evitar

sesgo de FracGOtérminos GO por bi.

“Sin integración”

77

3) GoldBinchIntroducción Estado del arte Propuestas y resultados Conclusiones Contribuciones

� Algoritmos clásicos

78

3) GoldBinch

� Imagen tablas (enriquecimiento) – GDS1116

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones79

3) GoldBinch

� Imagen tablas (enriquecimiento) – GDS2914

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones80

3) GoldBinch

� La integración de información mejora los resultados

� 211, 212, 221 frente a 210, 220

� Frente a los algoritmos clásicos

� Los biclusters de FracGO

� Más grandes

� Tienen un término GO por bi.

� Hipótesis

� Capturan términos altos en GO y por tanto irrelevantes

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones81

3) GoldBinch

� SimNTO� Inconvenientes: asociado a ficheros* de GO

� Ventajas: rápido

� FracGO� Inconvenientes

� mayor coste computacional

� biclusters capturan un solo término GO - (Hipótesis anterior)

� Ventajas� No depende de una estructura en forma de árbol, se puede

aplicar a ficheros de anotaciones distintos de GO (KEGG, InterPro)

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones82

3) GoldBinch

� Ejemplo en el que se puede aplicar FracGO pero no SimNTO

� Ficheros de anotaciones distintos de GO: KEGG, InterPro

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones83

3) GoldBinch

� Cómo se construyen los ficheros de anotaciones� Influye la calidad de la información a la hora de realizar la

integración

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones84

3) GoldBinch

� Cómo se construyen los ficheros de anotaciones� Influye la calidad de la información a la hora de realizar la

integración

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones85

3) GoldBinch

� FracGO

� Inconvenientes

� biclusters capturan un solo término GO - (Hipótesis anterior)

� Estudio cualitativo de biclústers (GDS1116)

� Reactome:

� Encuentra rutas asociadas para todos los biclusters de SimNTO, dos de Corr y ninguno de FracGO

� Gene Term Linker: metagrupos de genes con significado biológico coherente en GO

� Revigo: agrupa términos GO según similitud

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones86

“funcionalidad biológica irrelevante”

3) GoldBinch

� FracGO

� Inconvenientes

� biclusters capturan un solo término GO - (Hipótesis anterior)

� Estudio cualitativo de biclústers (GDS1116)

� Reactome refuerza la hipótesis

� Gene Term Linker+Revigo la confirman

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones87

“funcionalidad biológica irrelevante”

3) GoldBinch

� FracGO

� Inconvenientes

� biclusters capturan un solo término GO - (Hipótesis anterior)

� Estudio cualitativo de biclústers (GDS1116)

� Reactome refuerza la hipótesis

� Gene Term Linker+Revigo la confirman

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones88

3) GoldBinch

� Otras medidas GO: SimGIC, SimUI

� Motivos del estudio

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones89

3) GoldBinch

� Conclusiones

� Integración de información biológica en biclustering

� Ideas

� Se puede extender la misma idea a otros algoritmos

� El proceso de experimentación didáctico:

� nuevas preguntas/hechos

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones90

Guía

1. Introducción

2. Estado del arte

3. Propuestas y resultados

1) SScorr

2) BISS

3) GoldBinch

4. Conclusiones y plan de futuro

5. Contribuciones

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones91

Resumen

� SScorr� Búsqueda dispersa + correlación

� Experimentación estándar

� BISS� Mejora el algoritmo anterior (patrones AI)

� Experimentación más extensa� Contexto biológico

� GoldBinch� Integración de información biológica

� Experimentación exhaustiva y didáctica

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones92

Plan de futuro

� Continuación natural: biclustering� Mejoras en el esquema de Búsqueda Dispersa

� Nueva codificación de soluciones

� Nuevo método de la combinación: operadores de cruce

� Visión multiobjetivo

� Comparativa entre algoritmos de biclustering� Partiendo de una visión más amplía de GO

� Estudiar el efecto de integración en otros algoritmos

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones93

Plan de futuro

� Otros problemas relacionados

� Datos de microRNA

� Algorítmicamente un problema de biclustering

� Adaptar el algoritmo

� Referencias base [80, 37]

� Clustering sobre redes haciendo hincapié en el solape

� Ideas parecidas

� Experimentación muy similar

� Referencias base [78, 87] - Cytoscape

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones94

Guía

1. Introducción

2. Estado del arte

3. Propuestas y resultados

1) SScorr

2) BISS

3) GoldBinch

4. Conclusiones y plan de futuro

5. Contribuciones

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones95

Difusión de resultados

� Tres artículos JCRs asociados a las propuestas:

� Resultados intermedios presentados en congresos:

� 7 internacionales y 6 nacionales

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones96

Difusión de resultados

� Tres artículos JCRs asociados a las propuestas:

� SScorr

BioData Mining, 2011, 4, 3. DOI: 10.1186/1756-0381-4-3

� Impact Factor: 1.54*

� Cuartil: Q2 (Mathematical and Computational Biology)

� Citas: (23 citas según Google Scholar (01/05/2015))

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones97

Difusión de resultados

� Tres artículos JCRs asociados a las propuestas:

� BISS

Applied Soft Computing. (En prensa). DOI: 10.1016/j.asoc.2015.06.019

� Impact Factor: 2.6

� Cuartil: Q1 (Computer Science and Artificial Intelligence)

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones98

Difusión de resultados

� Tres artículos JCRs asociados a las propuestas:

�GoldBinch

Computer Methods and Programs in Biomedicine, 2015 May; 119(3):163-80. DOI: 10.1016/j.cmpb.2015.02.010,

� Impact Factor: 1.093

� Cuartil: Q1 (Computer Science, Theory and Methods)

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones99

Difusión de resultados

� Resultados intermedios presentados en congresos:

� 7 internacionales y 6 nacionales

� IDEAL’07 - MAEB’07 - EvaBio’07 (CAEPIA)

� PRIB’09 - EvaBio’09 (CAEPIA)

� ISDA’09

� SAC’10

� EvoBIO’10 (EvoStar) - MAEB’10

� NaBIC’11

� ISDA’11 - BBC’11(Benelux Bioinformatics Conference)

� JdBI2014 (XII Symposium on Bioinformatics)

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones100

Otros méritos - CV

� Estancia CRP-Santé Luxemburgo

� Dr. Francisco Azuaje - (julio-agosto 2012)

� Financiada por Plan Propio (Universidad de Sevilla)

� Resultados de Minería de Datos no relacionados con el trabajo presentado en la tesis

� IEA/AIE’06, JISBD’06, DS’06

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones101

Otros méritos - CV

� Financiación

� Ministerio de Educación y Ciencia

� TIN2007-68084-C-00

� TIN2011-28956-C02-02

� Junta de Andalucía

� P12-TIC-1728

Introducción Estado del arte Propuestas y resultados Conclusiones Contribuciones102

Minería de Datos

Computación Evolutiva

Bioinformática

• multi-disciplinar• inter-disciplinar• trans-disciplinar

103

Final

Muchas gracias por su atención

104

106

Anexo-1

� Estudio de parámetros (propuesta GoldBinch)

término integración

información biológica

experimentación extra (no relevante)experimentación

107

Anexo-2

� Solape entre biclusters� Evitar encontrar siempre misma solución

� Solape entre biclusters biológicamente relevante

� Estudiado efecto en función objetivo en ISDA’09

� Dispersión en Búsqueda dispersa/datos reales

� Experimentación: análisis resultados

108

Anexo-3

� Algoritmos de biclustering� ChCh: búsqueda voraz - MSR � FLOC: variación de ChCh� ISA: incremental - valores medios columnas/filas� OPSM: reordenación de filas y columnas según orden� xMotifs: valores constantes� Samba: teoría de grafos� Metaheurísticas: SEBI (GA+MSR)� BCCA: correlación Person – búsqueda según umbral� BICLIC: expansión de una semilla� Plaid Model, Spectral, BiMAX, …� eCCC y CCC-biclustering (Ukkonen – datos temporales)

109

Anexo-4

� Experimentación SScorr: (sección 9.4, pág. 108)