Post on 29-Sep-2018
Análisis estadístico demicroarrays de ADN
Víctor MorenoBioestadística. Facultat Medicina. UABEpidemiologia i Registre del Càncer. ICO
Advertencia
Varios materiales de esta presentación(imágenes, esquemas, textos) están
copiados y a veces modificados de otrosobtenidos en Internet sin permiso de sus
autores.Me es imposible dar crédito adecuado a losautores originales, a quienes agradezco quepongan sus materiales a disposición pública
Contenido
• Qué es un microarray y para qué sirve.• Análisis estadístico:
– Análisis de imágenes– Control de calidad– Diseño de experimentos– Análisis de expresión diferencial– Reducción de la dimensionalidad– Búsqueda de patrones
Fundamentos
El material genético
DNA
mRNA
mRNA
proteina
genoma
expresión
transcriptase
DNA to RNA
reversetranscriptase
RNA to DNA
DNApolimerase
DNA to cDNA
DNA → RNA → DNA → cDNA
T A T A
A U A T
C G C G
G C G C
T C G A CT C G A C
A G C T GA G C T G
Hibridación
Usos de los microarrays• Análisis masivo del nivel de expresión de
miles de genes:– Clasificación de tumores (lympho-chip).– Respuesta a fármacos.– Asignación de función a genes (ESTs).– Inferencia de redes de regulación génica.
• Otros tipos de microarrays:– genotipado (SNPs, mutaciones, …)– número de copias del ADN (CGH)– …
Tipos de microarrays deexpresión
• Filtros SAGE: serial analysis of gene expression
• De oligonucleótidos, cortos y largos• De 2 colores
– Permiten medir la abundancia relativa de tránscritos deRNA
– Basados en la hibridación competitiva de 2 sondasmarcadas con diferente color con un cDNA diana
• De 4 colores: APEX SNP detection
MétodoEl microarray de ADN
Clones de cDNA(dianas)
Amplificación del producto por PCRPurificación
Impresión
microarray
0.1nl/spot
Micrografia de un spot hibridado en un array deS. cerevisiae
mRNA
DNA(Sonda:Probe)
cDNA microarray(Dianas: Targets)
excitacion
laser 1laser 2
emision
scanning
analisis
sobreimponer imágenes y normalizar
Lectura
A B E F G
E
D
A B E F GC D
A B
GEH
FC
ID
Labelled Target:1 gene/spot
cDNA sample 1
cDNA sample 2
Gene ArrayGene Array
A B E F G
E
D
A B E F GC D
A B
GEH
FC
ID
Labelled Target:1 gene/spot
cDNA sample 1
cDNA sample 2
Gene ArrayGene Array
Aspectos estadísticos
• Análisis de imagen• Control de calidad• Diseño de experimentos• Análisis de expresión diferencial• Reducción de la dimensionalidad• Búsqueda de patrones
Datos crudosArrays HU4.6 de Yale• 4.592 dianas repartidas en 4x4
matrices de 24x24 puntos• 2 réplicas de cada diana• 2 hibridaciones posibles por
chip
• 2 imágenes TIFF de 16 bits, 1por color ~ 30Mb
Análisis de la imagen
• Localización de los puntos.• Segmentación: decidir qué
pixels son señal y qué sonbackground.
• Cuantificación: intensidadde la señal de cada canal, elbackground y medidas decalidad.
SegmentaciónSeeded Region Growing Fixed Circle
Spotspequeños
Spots nocirculares
Cuantificación• Intensidad de los spots:
– Media.– Mediana.
• Valores de background:– Local.– Constante (global)– Morphological opening: estimación suavizada
localmente en 2D del background global
Aspectos estadísticos
• Análisis de imagen• Control de calidad• Diseño de experimentos• Análisis de expresión diferencial• Reducción de la dimensionalidad• Búsqueda de patrones
Medidas de calidad• Circularidad• Área, perímetro• Razón señal / background• Variación en las intensidades de los pixels• Identificación des spots defectuosos• Correlación entre intensidades de los spots• Porcentaje de spots sin señal• Distribución del área de los spots
Spots
Array
Dificultades de la técnica
Dificultades de la técnica
Dificultades de la técnica
log10(Intensity)
Den
sity
2 3 4 5 6
0.0
0.5
1.0
1.5
2.0
2.5
log10(Intensity)
Den
sity
2 3 4 5 6
02
46
8
Filtrado• Variables:
– Circularidad– Perímetro– Area
área > 30
Área
Réplicas
Normalización
• Objetivo: identificar y eliminar fuentes devariación sistemática que no seandiferencias de expresión:– Diferente eficiencia en el marcaje con color– Diferente cantidad de RNA en cy3 y cy5– Diferentes parámetros de escáner– Efectos espaciales del chip (aguja, zona …)
Normalización
• Es necesaria para asegurar que lasdiferencias en intensidades se deben adiferencias de expresión real, no a artefactosde impresión, hibridización o escaneo …
• El ajuste es un paso previo a cualquier otroanálisis estadístico
• Se evidencia cuando se compara la mismamuestra marcada con 2 colores
Visualización gráfica deintensidades
• Usual– R vs G– log2(R) vs log2(G)
• Preferible– Gráfica MA :
• M = log2(R) - log2(G) = log2(R/G)• A = (log2(R) + log2(G))/2 = (R·G)0.5
Lowess/loess: regresión robustaponderada localmente: suavizado
Normalización• Centrado
log2R/G← log2R/G - L
– Constante: L = media o mediana de log2(R/G)– Adaptativa: L = función de intensidad, sector …
• Regresión ponderada localmente (lowess o loess)
• Escaladolog2R/G←(log2R/G - L)/S
• Métodos 2D
Lowess to rank invariant gene selection
Aspectos estadísticos
• Análisis de imagen• Control de calidad• Diseño de experimentos• Análisis de expresión diferencial• Reducción de la dimensionalidad• Búsqueda de patrones
RNA extraction
translation to DNA
DNA labeling
hybridization
scanning
image analysis
statistical analysis
Microarray protocol
Mayorsources ofvariability
Teoría ≠ realidad
tissue
SA
Cy5
Cy3
Cy5
Cy3
RNA
SB
• Sample and array crossed• Array aliased with dye:sample interaction
sample dye array
Dye effect
σ
σ
σ
σ
σ
σ
σ
σ
≡
≡2:
2
2
2
2
2
:
2:
2
: : :
:
:
: :
:: :
:
: :
( )
:g a
g
d
s
a
e
g s
g d
ge
gene
dyesamplearray dye sample interaction
interaction
interaction
intgene array gene dye
ne sam
gene dye
eraction
res
p
sample
idual replica
l
tes
e
: : :g d s a g d g s g ay eµ α β γ κ τ φ λ= + + + + + + + +
Normalised in 20quintiles. Removesdye*sample effect
Variance Component estimate % % over geneinteractions
gene 2,686 86,1dye 0,000 0,0sample 0,000 0,0array = dye:sample 0,000 0,0
gene:dye 0,000 0,0 0,0gene:sample 0,252 8,1 58,1gene:array (dye:sample) 0,162 5,2 37,3
residual 0,020 0,6 4,6
100 13,9
Loop
Reference
G R
R GR G
V1
V2V3
A1
A2
A3
R
G GGV2 V3V1
V0
Comparison to a common controlCT1
B1
CT2
B2
CT3
B3
Var(TA-TB) =4σ2
Error df = 0
Balanced incomplete blocksT1
T2
B1
T2
T3
B2
T3
T1
B3
Var(TA-TB) =4/3σ2
Error df = 1
Aspectos estadísticos
• Análisis de imagen• Control de calidad• Diseño de experimentos• Análisis de expresión diferencial• Reducción de la dimensionalidad• Búsqueda de patrones
Expresión diferencial
• Identificar los genes que cambian suexpresión en función de variables de interés– Resultado clínico: supervivencia, respuesta al
tratamiento, tipo de tumor, tratamientos, grupo,dosis, ...
• Estimación: cuantificar el efecto• Test: evaluar la significación estadística
Estimación
• CrudaR/G o log2R/G
• Suavizada: métodos bayesianos empíricos– Se intenta reducir la variabilidad de los valores
mediante la incorporación de informaciónexterna: distribución de probabilidad “a priori”
– Al tratarse de razones, las intensidadespequeñas suelen tener mayor variabilidad quelas grandes
2 4 6 8 10 12 14
-4-2
02
A
Nor
mal
ized
M
Método de Newton
• Supone que las intensidades de cada sondasiguen una distribución Gamma conparámetros (aR , θR) y (aG , θG)
• Modelo jerárquico Gamma-Gamma:– Los parámetros de escala ( θR y θG) provienen de
otra distribución Gamma con parámetros (a0 ,ν)
Measurement error Actual Expression
Expresión diferencial
• Con este modelo Gamma-Gamma, se puedederivar la distribución “a positeriori” de laexpresión diferencial ρ=R/G:
• Y el estimador bayesiano empírico es:
Suavizado
• Los estimadores bayesianos (R+ν)/G+ν)atenúan los estimadores crudos R/G.
• La atenuación es mayor en los valoresmenores
• El orden de las intensidades puede variar
Los cambios ¿Son significativos?
• Métodos sin réplicas (con 1 único array)– |log2 R/G |> k
• Normalmente k = 2 • Justificación: “Porque todo el mundo lo hace así”
– Si se tiene información sobre la variabilidadesperada por azar, se pueden calcular un valorde k que asegure un tasas de falsos positivosdada (Sabatti, UCLA tr304, Math Biosci)
Método de Sabatti
• Sin réplicas• Si se supone que yi ~N(θi,σ) y que hay
“pocos” θi ≠ 0, entonces• los límites k = σ[2log(n)]1/2 son adecuados
para detectar los valores de interés• σ se puede obtener de un experimento en el
que se comparen 2 muestras idénticas(normal-normal)
Sabatti (II)
• Si se desea una tasa de falsos positivos dada(α), se puede mejorar el cálculo de k demanera adaptativa para considerar quenormalmente el número de valores θi ≠ 0 esdesconocido
• Basado en el método de Benhamini &Hochberg (JRSS-B 1995)
• Depende de σ, α y n
Método de Sabatti
2log( )nσ
Método de Newton (2)• El modelo bayesiano empírico Gamma-
Gamma se puede mejorar con una mixturapara modelar la suposición de que unaproporción de los genes no modifican suexpresión:Modelo Gamma-Gamma-Bernoulli
• Se puede estimar con el algoritmo EM• Perimite calcular para cada gen la odds de
haber cambiado de expresión
2 4 6 8 10 12 14
-4-2
02
A
M
Test de hipótesis• Para cada gen podemos hacer un test sobre
la H0 de que no hay expresión diferencial: t-test / ANOVA
• Posibles errores– Tipo I o falso positivo– Tipo II o falso negativo
• Problema de multiplicidad– miles de hipótesis se prueban simultáneamente– Gran aumento de la probabilidad de error tipo I
Tests de hipótesis múltiples
• Definir una tasa de error de tipo I adecuada• Emplear un procedimiento que
– Asegure un control estricto del error de tipo I– Sea potente (pocos falsos negativos)– Tenga en cuenta la distribución conjunta de los
múltiples tests de hipótesis• Reportar un p-valor ajustado para cada gen
que refleje la tasa global de error de tipo I
Métodos basados en réplicas
Modelos jerárquicos Tseng (2001)• Serie de experimentos en las mismas
condiciones• Réplicas de hibridaciones y de spots• Asume log-normalidad de las intensidades• Estima los hiperparámetros (Bayesiano
empírico)• Calcula la distribución a posteriori con
métodos MCMC
Modelos jerárquicos
• Interesante:– Captura la dependencia entre genes
• Problemas:– Basado en log-normalidad - cuestionable
– Ignora las comparaciones múltiples
Métodos no paramétricos
• Dudoit 2002, Tusher 2001• Diseño:
– nC hibridaciones control-control– nD hibridaciones control-test
• Test:
• Permutaciones para evaluar la significación
Permutaciones
• Se intercambian las etiquetas entre control ytest al azar
• Se calcula el test (Ti) para cada gen con elnuevo orden
• Se calcula el p-valor para cada gen según lafórmula
Web resources
• Bioconductor: www.bioconductor.org• Microarrays: www.microarrays.org• Berkeley: www.stat.berkeley.edu• Stanford: genome-www.stanford.edu
Acknowledgments
• Miguel A. Peinado• Gabriel Capellá• Mónica Grau• Elisenda Vendrell• Gemma Tarafa• Antonia Obrador• Xavier Solé
• Institut Catalàd’Oncologia (ICO)
• Institut de RecercaOncològica (IRO)