Análisis estadístico de microarrays de ADN -...

Análisis estadístico demicroarrays de ADN

Víctor MorenoBioestadística. Facultat Medicina. UABEpidemiologia i Registre del Càncer. ICO

Advertencia

Varios materiales de esta presentación(imágenes, esquemas, textos) están

copiados y a veces modificados de otrosobtenidos en Internet sin permiso de sus

autores.Me es imposible dar crédito adecuado a losautores originales, a quienes agradezco quepongan sus materiales a disposición pública

Contenido

• Qué es un microarray y para qué sirve.• Análisis estadístico:

– Análisis de imágenes– Control de calidad– Diseño de experimentos– Análisis de expresión diferencial– Reducción de la dimensionalidad– Búsqueda de patrones

Fundamentos

El material genético

proteina

genoma

expresión

transcriptase

DNA to RNA

reversetranscriptase

RNA to DNA

DNApolimerase

DNA to cDNA

DNA → RNA → DNA → cDNA

T A T A

A U A T

C G C G

G C G C

T C G A CT C G A C

A G C T GA G C T G

Hibridación

Usos de los microarrays• Análisis masivo del nivel de expresión de

miles de genes:– Clasificación de tumores (lympho-chip).– Respuesta a fármacos.– Asignación de función a genes (ESTs).– Inferencia de redes de regulación génica.

• Otros tipos de microarrays:– genotipado (SNPs, mutaciones, …)– número de copias del ADN (CGH)– …

Tipos de microarrays deexpresión

• Filtros SAGE: serial analysis of gene expression

• De oligonucleótidos, cortos y largos• De 2 colores

– Permiten medir la abundancia relativa de tránscritos deRNA

– Basados en la hibridación competitiva de 2 sondasmarcadas con diferente color con un cDNA diana

• De 4 colores: APEX SNP detection

MétodoEl microarray de ADN

Clones de cDNA(dianas)

Amplificación del producto por PCRPurificación

Impresión

microarray

0.1nl/spot

Micrografia de un spot hibridado en un array deS. cerevisiae

DNA(Sonda:Probe)

cDNA microarray(Dianas: Targets)

excitacion

laser 1laser 2

emision

scanning

analisis

sobreimponer imágenes y normalizar

Lectura

A B E F G

A B E F GC D

Labelled Target:1 gene/spot

cDNA sample 1

cDNA sample 2

Gene ArrayGene Array

A B E F G

A B E F GC D

Labelled Target:1 gene/spot

cDNA sample 1

cDNA sample 2

Gene ArrayGene Array

Aspectos estadísticos

• Análisis de imagen• Control de calidad• Diseño de experimentos• Análisis de expresión diferencial• Reducción de la dimensionalidad• Búsqueda de patrones

Datos crudosArrays HU4.6 de Yale• 4.592 dianas repartidas en 4x4

matrices de 24x24 puntos• 2 réplicas de cada diana• 2 hibridaciones posibles por

• 2 imágenes TIFF de 16 bits, 1por color ~ 30Mb

Análisis de la imagen

• Localización de los puntos.• Segmentación: decidir qué

pixels son señal y qué sonbackground.

• Cuantificación: intensidadde la señal de cada canal, elbackground y medidas decalidad.

SegmentaciónSeeded Region Growing Fixed Circle

Spotspequeños

Spots nocirculares

Cuantificación• Intensidad de los spots:

– Media.– Mediana.

• Valores de background:– Local.– Constante (global)– Morphological opening: estimación suavizada

localmente en 2D del background global

Medidas de calidad• Circularidad• Área, perímetro• Razón señal / background• Variación en las intensidades de los pixels• Identificación des spots defectuosos• Correlación entre intensidades de los spots• Porcentaje de spots sin señal• Distribución del área de los spots

Dificultades de la técnica

log10(Intensity)

2 3 4 5 6

log10(Intensity)

2 3 4 5 6

Filtrado• Variables:

– Circularidad– Perímetro– Area

área > 30

Réplicas

Normalización

• Objetivo: identificar y eliminar fuentes devariación sistemática que no seandiferencias de expresión:– Diferente eficiencia en el marcaje con color– Diferente cantidad de RNA en cy3 y cy5– Diferentes parámetros de escáner– Efectos espaciales del chip (aguja, zona …)

Normalización

• Es necesaria para asegurar que lasdiferencias en intensidades se deben adiferencias de expresión real, no a artefactosde impresión, hibridización o escaneo …

• El ajuste es un paso previo a cualquier otroanálisis estadístico

• Se evidencia cuando se compara la mismamuestra marcada con 2 colores

Visualización gráfica deintensidades

• Usual– R vs G– log2(R) vs log2(G)

• Preferible– Gráfica MA :

• M = log2(R) - log2(G) = log2(R/G)• A = (log2(R) + log2(G))/2 = (R·G)0.5

Lowess/loess: regresión robustaponderada localmente: suavizado

Normalización• Centrado

log2R/G← log2R/G - L

– Constante: L = media o mediana de log2(R/G)– Adaptativa: L = función de intensidad, sector …

• Regresión ponderada localmente (lowess o loess)

• Escaladolog2R/G←(log2R/G - L)/S

• Métodos 2D

Lowess to rank invariant gene selection

RNA extraction

translation to DNA

DNA labeling

hybridization

scanning

image analysis

statistical analysis

Microarray protocol

Mayorsources ofvariability

Teoría ≠ realidad

tissue

• Sample and array crossed• Array aliased with dye:sample interaction

sample dye array

Dye effect

dyesamplearray dye sample interaction

interaction

intgene array gene dye

ne sam

gene dye

eraction

sample

idual replica

: : :g d s a g d g s g ay eµ α β γ κ τ φ λ= + + + + + + + +

Normalised in 20quintiles. Removesdye*sample effect

Variance Component estimate % % over geneinteractions

gene 2,686 86,1dye 0,000 0,0sample 0,000 0,0array = dye:sample 0,000 0,0

gene:dye 0,000 0,0 0,0gene:sample 0,252 8,1 58,1gene:array (dye:sample) 0,162 5,2 37,3

residual 0,020 0,6 4,6

100 13,9

Reference

R GR G

G GGV2 V3V1

Comparison to a common controlCT1

Var(TA-TB) =4σ2

Error df = 0

Balanced incomplete blocksT1

Var(TA-TB) =4/3σ2

Error df = 1

Expresión diferencial

• Identificar los genes que cambian suexpresión en función de variables de interés– Resultado clínico: supervivencia, respuesta al

tratamiento, tipo de tumor, tratamientos, grupo,dosis, ...

• Estimación: cuantificar el efecto• Test: evaluar la significación estadística

Estimación

• CrudaR/G o log2R/G

• Suavizada: métodos bayesianos empíricos– Se intenta reducir la variabilidad de los valores

mediante la incorporación de informaciónexterna: distribución de probabilidad “a priori”

– Al tratarse de razones, las intensidadespequeñas suelen tener mayor variabilidad quelas grandes

2 4 6 8 10 12 14

Método de Newton

• Supone que las intensidades de cada sondasiguen una distribución Gamma conparámetros (aR , θR) y (aG , θG)

• Modelo jerárquico Gamma-Gamma:– Los parámetros de escala ( θR y θG) provienen de

otra distribución Gamma con parámetros (a0 ,ν)

Measurement error Actual Expression

Expresión diferencial

• Con este modelo Gamma-Gamma, se puedederivar la distribución “a positeriori” de laexpresión diferencial ρ=R/G:

• Y el estimador bayesiano empírico es:

Suavizado

• Los estimadores bayesianos (R+ν)/G+ν)atenúan los estimadores crudos R/G.

• La atenuación es mayor en los valoresmenores

• El orden de las intensidades puede variar

Los cambios ¿Son significativos?

• Métodos sin réplicas (con 1 único array)– |log2 R/G |> k

• Normalmente k = 2 • Justificación: “Porque todo el mundo lo hace así”

– Si se tiene información sobre la variabilidadesperada por azar, se pueden calcular un valorde k que asegure un tasas de falsos positivosdada (Sabatti, UCLA tr304, Math Biosci)

Método de Sabatti

• Sin réplicas• Si se supone que yi ~N(θi,σ) y que hay

“pocos” θi ≠ 0, entonces• los límites k = σ[2log(n)]1/2 son adecuados

para detectar los valores de interés• σ se puede obtener de un experimento en el

que se comparen 2 muestras idénticas(normal-normal)

Sabatti (II)

• Si se desea una tasa de falsos positivos dada(α), se puede mejorar el cálculo de k demanera adaptativa para considerar quenormalmente el número de valores θi ≠ 0 esdesconocido

• Basado en el método de Benhamini &Hochberg (JRSS-B 1995)

• Depende de σ, α y n

Método de Sabatti

2log( )nσ

Método de Newton (2)• El modelo bayesiano empírico Gamma-

Gamma se puede mejorar con una mixturapara modelar la suposición de que unaproporción de los genes no modifican suexpresión:Modelo Gamma-Gamma-Bernoulli

• Se puede estimar con el algoritmo EM• Perimite calcular para cada gen la odds de

haber cambiado de expresión

2 4 6 8 10 12 14

Test de hipótesis• Para cada gen podemos hacer un test sobre

la H0 de que no hay expresión diferencial: t-test / ANOVA

• Posibles errores– Tipo I o falso positivo– Tipo II o falso negativo

• Problema de multiplicidad– miles de hipótesis se prueban simultáneamente– Gran aumento de la probabilidad de error tipo I

Tests de hipótesis múltiples

• Definir una tasa de error de tipo I adecuada• Emplear un procedimiento que

– Asegure un control estricto del error de tipo I– Sea potente (pocos falsos negativos)– Tenga en cuenta la distribución conjunta de los

múltiples tests de hipótesis• Reportar un p-valor ajustado para cada gen

que refleje la tasa global de error de tipo I

Métodos basados en réplicas

Modelos jerárquicos Tseng (2001)• Serie de experimentos en las mismas

condiciones• Réplicas de hibridaciones y de spots• Asume log-normalidad de las intensidades• Estima los hiperparámetros (Bayesiano

empírico)• Calcula la distribución a posteriori con

métodos MCMC

Modelos jerárquicos

• Interesante:– Captura la dependencia entre genes

• Problemas:– Basado en log-normalidad - cuestionable

– Ignora las comparaciones múltiples

Métodos no paramétricos

• Dudoit 2002, Tusher 2001• Diseño:

– nC hibridaciones control-control– nD hibridaciones control-test

• Test:

• Permutaciones para evaluar la significación

Permutaciones

• Se intercambian las etiquetas entre control ytest al azar

• Se calcula el test (Ti) para cada gen con elnuevo orden

• Se calcula el p-valor para cada gen según lafórmula

Web resources

• Bioconductor: www.bioconductor.org• Microarrays: www.microarrays.org• Berkeley: www.stat.berkeley.edu• Stanford: genome-www.stanford.edu

Acknowledgments

• Miguel A. Peinado• Gabriel Capellá• Mónica Grau• Elisenda Vendrell• Gemma Tarafa• Antonia Obrador• Xavier Solé

• Institut Catalàd’Oncologia (ICO)

• Institut de RecercaOncològica (IRO)

Análisis estadístico de microarrays de ADN -...

Documents

Transcript of Análisis estadístico de microarrays de ADN -...

BASES TECNOLÓGICAS DE LOS MICROARRAYS DE PROTEÍNAS

La Tecnología de Microarrays en Medicina Reproductiva. José A.Horcajadas

Tecnología de microarrays Portafolio de soluciones · Portafolio de soluciones ... Acceso pleno al contenido de los microarrays de catálogo (secuencia del oligo, puntuación de

Anàlisi de microarrays de DNA

FORMULARIO PARALAPOSTULACIÓNDEACTIVIDADES … · • Conocer la tecnología de microarrays de ADN y sus aplicaciones. • Conocer las principales estrategias para el estudio funcional

Microarray Genòmic en Diagnòstic Prenatal - academia.cat · Com s’interpreten les CNVs ? Troballes incidentals; Anomalia trobada en una prova mèdica que es realitza en l’estudi

MEMORIA ANUAL DEFINITIVA 2010 - plataformadeoncologia.com · Genética Molecular. Seguidamente en Julio 2010 se ha iniciado la determinación de microarrays de expresión en tumores

Test de Intolerancia a Alimentos con Microarray. REACCIÓN ADVERSA A ALIMENTOS IgE Alergia Tipo I IgG Alergia Tipo III Deficiencia de Enzima Efecto farmacológico.

Análisis de datos de microarrays Conceptos, Problemas, Métodos.

Presentación de PowerPoint - Pàgines de la UABsct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/files/... · •Análisis de discriminación ... suave residual bien horrible

Análisis coste- efectividad de los microarrays para el ...€¦ · n tamaño muestral p p valor ... anÁlisis coste-efectividad de los microarrays para el diagnÓstico prenatal de

Aplicaciones de los Microarrays y Biochips en Salud Humana · Diseño de un microarray de carbohidratos 39 4.1.1. Síntesis de oligosacáridos 39 ... APLICACIONES DE LOS MICROARRAYS

Elisa microarray inmuno

Técnicas de análisis de microarrays - USCmathgene.usc.es/cursoverano/material/presentacion_micro...Diferentes tipos de microarrays 5 6 7 Primera microarray de rodaballo 8 Imágenes

Facultad de Ciencias Experimentalestauja.ujaen.es/bitstream/10953.1/542/1/TFG_TorresGodino,Isabel.pdf · incluyendo “microarrays” de proteínas y “microarrays” de tejidos

Francielly Morais-Rodrigues, Rita Silv´erio-Machado ... · Analysis of the microarray gene expression for breast cancer progression after the application modified logistic regression

Micro arreglos o microarrays

Análisis transcriptómico y de microarrays para la identificación de ...

Análisis de datos de microarrays

L’Extensió de la Poisson-IG Truncadasct.uab.cat/estadistica/sites/sct.uab.cat.estadistica/...V és el nombre total de paraules diferents (types) Marta Pérez-Casany (UPC) Servei