Post on 25-Sep-2018
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
DIA 1. 5 de Octubre
Microarrays (Ricardo Gonzalo)RTqPCR (Paqui Gallego)Diseño experimental y análisis de resultados (Alex Sánchez)
DIA 2. 30 de Noviembre
Ultrasecuenciación (Paqui Gallego y Alex Sánchez)
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
MATERIAL DE PARTIDA: RNA
•Calidad (Bioanalyzer/RIN)•Cantidad (Kits amplificación)
TIPOS DE ARRAYS
•Según su tecnología•Según objetivo del estudio (Affymetrix/UCTS)
EXPERIMENTO DE MICROARRAYS
•Procedimiento de amplificación / detección•GeneTitan•Controles de calidad
MIC
RO
AR
RA
YS
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
MATERIAL DE PARTIDA: RNA
•Calidad (Bioanalyzer/RIN)•Cantidad (Kits amplificación)
TIPOS DE ARRAYS
•Según su tecnología•Según objetivo del estudio (Affymetrix/UCTS)
EXPERIMENTO DE MICROARRAYS
•Procedimiento de amplificación / detección•GeneTitan•Controles de calidad
MIC
RO
AR
RA
YS
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
Tipos de arrays de expresión según su tecnología (I)
Arrays de cDNA – 2 colores Arrays de oligos – 1 color
Impresión de la sonda síntesis de la sonda “in situ”
2 dyes fluorescentes (Cy3/5) 1 dye fluorescente (FE)
1 gen = pocos spots/replicados 1 gen = representado por muchas sondas diferentes
2 muestras / slide 1 muestra / slide
Longitud (nt) elevada oligos de 20-25 nt
Medidas relativas medidas absolutas
Tipos de arrays de expresión según su tecnología (II )
•Más económicos
•Alta flexibilidad en el diseño
•Chips de alta densidad
•Muy reproducibles
•Medidas absolutas
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
Arrays de cDNA (2 colores) Arrays de oligos (1 color)
pros
•Manejo de clones
•Posibles hibridaciones cruzadas
•Baja reproducibilidad
•Precio elevado
•Falta de flexibilidad en algunos formatos
•Equipamiento especializado
cons
•Genome-Wide SNP Analysis GW Human SNP array 6.0
? 1.8 M marcadores genéticos (900.000 SNP + 900.000 CNV)
•Resequencing Arrays Human Mitochondrial array
“Custom” resequencing arrays
•Citogenética GW Human SNP array 6.0
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
Tipos de microarrays (Plataforma de Affymetrix) (I)
DNA ANALYSIS ARRAYS
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
GENE REGULATION ANALYSIS ARRAYS
Tipos de microarrays (Plataforma de Affymetrix) (II)
• ChiP-on-Chip: Estudio de interacciones entre DNA y proteínas y
modificaciones del DNA, ej.
� Sitios de unión de factores de transcripción
� Sitios de unión de histonas
� Metilación del ADN
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
Tipos de microarrays (Plataforma de Affymetrix) (III)
EXPRESSION ANALYSIS ARRAYS (I)
3’ Expression Human U133 Plus 2.0 array
Human U219 array plate
Rat, Mouse, Porcine, Zebrafish, …
3’5’
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
Tipos de microarrays (Plataforma de Affymetrix) (IV)
EXPRESSION ANALYSIS ARRAYS (II)
Gene Arrays Human, Mouse, Rat Gene 1.0 ST Array
Exon Arrays Human, Mouse, Rat Gene 1.0 ST Array
3’5’
Gene Arrays
Exon Arrays
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
Tipos de microarrays (Plataforma de Affymetrix) (V)
miRNA GeneChip miRNA 2.0 Array
•131 organisms in the array (human, mouse, rat, canine, ….)
•100% miRBase v115
•2.334 snoRNAs and scaRNAs (human small nuclear RNAs)
•Low inputs amounts (0.1 to 1 ugtotal RNA)
•2.202 probe sets unique to pre-miRNA hairpins
• Según el método de purificación se enriquece una fracción u otra.
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
Tipos de microarrays (Plataforma de Affymetrix) (VI). Re sumen
RNA - 3’IVT Expression Hg U133 Plus 2.0 Formato individual o formato placa (16, 24 ó 96)
Hg U219 Formato placa
- WT-Expression Human Gene Array Formato individual o formato placa
Human Exon Array Formato individual
- miRNA miRNA Array Formato individual
DNA - Resequencing Mitochip Formato individual
“Custom” Formato individual
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
MATERIAL DE PARTIDA: RNA
•Calidad (Bioanalyzer/RIN)•Cantidad (Kits amplificación)
TIPOS DE ARRAYS
•Según su tecnología•Según objetivo del estudio (Affymetrix/UCTS)
EXPERIMENTO DE MICROARRAYS
•Procedimiento de amplificación / detección•GeneTitan•Controles de calidad
MIC
RO
AR
RA
YS
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
MATERIAL DE PARTIDA RNA TOTAL
Poli A mRNA
EXTRACCIÓN
Células eucariótas QIAGEN
Tejido TRIZOL
CALIDAD CANTIDADBIOANALYZER
CALIDAD RNA (III): BIOANALYZER. Cálculo de la conce ntración
RNA Area: 192.0 RNA Concentration: 150 ng/µlResult Flagging Color: 255 Result Flagging Label: Bad RNA quality
RNA Area: 155.7 RNA Concentration: 122 ng/µlrRNA Ratio [28s / 18s]: 1.6 RNA Integrity Number (RIN): 8.5 (B.02.08) Result Flagging Color: 65280 Result Flagging Label
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
Not all expected ladder peaks have been found. You should try to modify peak find settings or add peaks using manual integration.
Issue with ladder peak detection. Please check ladder.
RNA Area: 1,653.2 RNA Concentration: 50,101 pg/µlrRNA Ratio [28s / 18s]: 1.3 RNA Integrity Number (RIN): 7.7 (B.02.08) Result Flagging Color: 65280 Result Flagging Label: Good RNA quality
CALIDAD RNA (IV): BIOANALYZER. Cálculo de la concen tración
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
BIOANALYZER
Chips disponibles:
RNA
PROTEINAS
DNA
CÉLULAS
Agilent RNA 6000 Nano Kit Agilent RNA 6000 Pico Kit Agilent 2100 Small RNA Kit
Agilent DNA 1000Kit Agilent DNA 7500Kit Agilent DNA 12000Kit Agilent High Sensitivity DNA Kit
Agilent Protein 80 Kit Agilent Protein 230 Kit High Sensitivity Protein 250 Kit
Agilent Cell Kit
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
CALIDAD RNA (V): RNA INTEGRITY NUMBER
? ¿qué RIN es el más adecuado?
RIN 5.0 RIN 8.0
¿hasta que RIN se puede utilizar?¿se pueden mezclar diferentes RIN?
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
CALIDAD RNA (VI): TIPO DE MUESTRA
• kits especiales extracción RNA
• extracción “genes globina”
• no trabajar con sangre total
• HABLAR CON NOSOTROS ANTES
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
CANTIDAD RNA
• 3’ IVT ARRAYS 200 ng / 3 µL
• Exon/Gene ARRAYS 200 ng / 3 µL
• NUGEN 500 pg / 5 µL
• miRNA 1 µg / 8 µL
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
MATERIAL DE PARTIDA: RNA
•Calidad (Bioanalyzer/RIN)•Cantidad (Kits amplificación)
TIPOS DE ARRAYS
•Según su tecnología•Según objetivo del estudio (Affymetrix/UCTS)
•EXPERIMENTO DE MICROARRAYS
•Procedimiento de amplificación / detección•GeneTitan•Controles de calidad
MIC
RO
AR
RA
YS
RNA (150 ng)
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
3’IVT EXPRESS
AAAAAAAAAAAA
TTTTTTT
TTTTT
RNA (150 ng) RNA-cDNA dscDNA cRNA (≈ 40 µµµµg)
IVT
O/N
PROCEDIMIENTO (I)
EXON/GENE
NNNNN
RNA-cDNA dscDNA
IVT
O/NcRNA
NNNNN
ssDNA (7 µµµµg)
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
NUGEN
PROCEDIMIENTO (II)
NNNNN
RNA (500 pg) RNA-cDNA dscDNA
SPIA
ssDNA (8 µµµµg)TTTTT
miRNA
ATPAAAAAA
RNA (1 µµµµg) AAAAAA
Biotin-labeled 3DNA
Biotin-labeled RNA
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
PROCEDIMIENTO (III)
Fragmentación
O/N
3’IVT EXPRESS EXON/GENE NUGEN miRNA Resequencing
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
DIFERENCIAS ENTRE LOS KITS
3’ IVT Exon/Gene NUGEN
Oligo dT NNN oligo dT + NNN
cRNA ssDNA ssDNA
15 µµµµg 5.5 µµµµg 5 µµµµg
NO MEZCLAR DIFERENTES PROTOCOLOS DE AMPLIFICACIÓN
EN UN MISMO PROYECTO…
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
GENETITAN(III)
• Formato placa: 16, 24, 96 arrays
� mayor high throughtput
�reducción del tiempo de procesado
� disminución de costes
� mayor reproducibilidad (disminución de efecto batch)
� Formato cerrado (16, 24, 96)
� No todos los tipos de especies, tipo de array representados
TECNOLOGÍAS DE ALTO RENDIMIENTO EN GENÓMICA
DIA 1. 5 de Octubre
� Microarrays (Ricardo Gonzalo y Alex Sánchez)� RTqPCR (Paqui Gallego y Alex Sánchez)
Programa del Seminario RTqPCR-2011
� Definición de la técnica
� Terminología asociada a qPCR
� Diseñando un experimento de qPCR
� Etapas en la realización de un experimento de qPCR
� Evaluación de un ensayo de qPCR
� Bibliografía muy recomendada
Definición de la Técnica
Termociclador
con sistema de detección
R QSonda Agentes intercalantes
A G CNucleótidos
Taqpolimerasa
Tampón dereacción
Cebadores Ácido nucléico
PCR en tiempo real o qPCR o RT-qPCR
http://www.appliedbiosystems.com/support/apptech/#rt_pcr
UNG(opcional)
ROX
TTU
ROX como referente pasivo
+ ROX - ROX∆Rn
Ciclos Ciclos
Desv St= ± 0.059
Desv St= ± 0.306
Fluoróforo referente pasivo más comúnmente utilizadopara normalizar la fluorescencia específica en instrumentos de ABI y Stratagene.
ROX=6-carboxy-X-rhodamine
Programa del Seminario RTqPCR-2011
� Definición de la técnica
� Terminología asociada a qPCR
� Diseñando un experimento de qPCR
� Etapas en la realización de un experimento de qPCR
� Evaluación de un ensayo de qPCR
� Bibliografía muy recomendada
Escala semi-logarítmica
Cycle Number
Terminología asociada a qPCR
PlatóLine
al
BaselineCt value= 15.5
ThresholdExpo
nenc
ial
Log
Fluo
resc
ence
Rn
RT-qPCR
� Cualitativa y cuantitativa.
� Elevado rango dinámico de detección� Capaz de detectar cambios 2-fold.� No requiere procesado post-PCR
PCR Convencional
� Semi-cuantitativa:
� Rango dinámico pequeño ›2 logs� Baja Precisión; baja resolución y poco
Sensible.� Manipulación post-PCR .� Baja Resolución� No-automatización� Discriminación basada sólo en tamaño� Los resultados no están expresados
en números.� El BrET no es muy cuantitativo
RT-qPCR vs PCR Convencional
A tiempo real(fase exponencial)
Cuantificación Absoluta
Cuantificación Relativa
A tiempo final(fase plató)
Plus/MinusDiscriminación Alélica
Programa del Seminario RTqPCR-2011
� Definición de la técnica
� Terminología asociada a qPCR
� Diseñando un experimento de qPCR
� Etapas en la realización de un experimento de qPCR
� Evaluación de un ensayo de qPCR
� Bibliografía muy recomendada
Diseñando un experimento de qPCR
� Aplicación
� Método de Normalización
� Química de detección:� Sondas específicas marcadas con fluorocromos� Agentes Intercalantes� Fluorocromos unidos a primers
� Reactivos:� Core kit vs Master Mix� dNTPs/dUTPs y UNG enzyme� ROX como referente pasivo
� Termociclador: � Formato� Número de canales de detección� Software de análisis� Duración del programa� Precio y flexibilidad de la oferta
mRNAmiRNAncRNAsiRNAsaRNACNA
SNPCNVMutacionesAnálisis Metilación
Análisis en Células StemAnálisis en célula Única
MicoplasmaPatógenos en la comida
Aplicaciones RTqPCR
ProteínaTejido
Célula Eucariota
RNA
DNA
VirusBacteria
Target
5´oligo3´oligo
Validación Microarrays
� Normalización respecto a la masa total de RNA exraído(chequeo calidad –RIN, moleculas/ng RNA)
� Normalización respecto al volumen/masa de la muestra( moléculas/mg tejido; moléculas/ml sangre)
� Normalización respecto al número de células( moléculas/célula)
� Normalización respecto a un gen endógeno no regulable(GAPDH, tubulina, actina, albúmina, ciclofilina, micro-globulina, histonas, rRNA, ……)
� Normalización respecto a más de un gen endógeno (›3)� geNorm (Vandesompele et al. 2002. Genome Biology)� BestKeeper (Pfaffl et. Al. 2004; Biotechnology Letters 2004)� Normfinder� Statistical modeling for selecting houskeeper genes (Szabo et al.2004, Genome
Biology)
Estrategias de Normalización qPCR
BMC Bioinformatics 2009, 10:110
Genes and Immunity (2005) 6, 279-284. Review
Placas-384
Plataforma de RTqPCR en la UCTS
Microfluidicas(Arrays de baja densidad)
Placas-96
FAM, TAMRA, VIC, JOE, NED, SYBR, ROX
Formato 384-p: FAM, TAMRA, VIC, JOE, NED, SYBR, ROX, TET.Formato LDA: FAM, VIC, ROX.
7000 SDS 7900HT Fast SDS
Química
Softwares V1.2.3f2 con RQ studyPrimer Express 2.0
SDS 2.4.1RQ Manager 1.2
Tiras de 8 Tubos
LightCycler 480
White Plates-384
mode 9600 Emulation /Standard 9600 Emulation/StandardFast
Formato
Filtros/canales detección:500, 533, 568, 610, 640, 670 nm
Ref. Pasivo ROX ROX Ninguno
Fast
SW 1.5
9600 Emulation/Standard Fast
UNG:
Química: SYBRGreen SondasTaqMann SondasTaqMann
La UCTS dispone de los siguientes reactivos:
Mode:
Sí Sí
Programa del Seminario RTqPCR-2011
� Definición de la técnica
� Terminología asociada a qPCR
� Diseñando un experimento de qPCR
� Etapas en la realización de un experimento de qPCR
� Evaluación de un ensayo de qPCR
� Bibliografía muy recomendada
Etapas Implicadas en la Realización de un ensayo de qPCR
PreparaciónMuestra
Transcripción Reversa (RT)
PCR a tiempo Real (qPCR )
Extracción Ác. Nucléicos
RNA cDNA
Producto AmplificadoMuestra
DNA
Preparación Material de partida
PreparaciónMuestra
Extracción Ácidos Nucléicos
Transcripción Reversa (RT)
PCR a tiempo Real (qPCR )
� Tipo de muestra� Método Extracción
NATURE PROTOCOLS. Vol1, Num3, 2006
RNA cDNA
Producto AmplificadoMuestra
DNA
Preparación Material de partida
PreparaciónMuestra
Extracción Ácidos Nucléicos
Transcripción Reversa (RT)
PCR a tiempo Real (qPCR )
� RNA total/mRNA/DNA� Calidad & Cantidad� Almacenamiento (-80ºC)
NATURE PROTOCOLS. Vol1, Num3, 2006
RNA cDNA
Producto AmplificadoMuestra
DNA
Pureza (ausencia de contaminación por DNA y Proteínas y ausencia de inhibidores)
Integridad Cantidad• Existen dif. métodos de cuantificación.• Generan difs. resultados.•Hay que cuantificar muestras comparables entre sí con el mismo método de cuantificación.
• ODA260/A280=1.8-2.0• OD A260/A230=2• SPUD assay (Nolan, 2006)
• rRNA ( 28S:18S=2:1)• Número RIN (› 5)• Ensayo 3´:5´(alrededor de 1 indica elevada integridad; ›5 degradado)
RNA Q &Q
Gel Desnt.Agarosa
Expert Rev. Mol. Diagn. 5, 493-498 (2005)
Evaluación del RNA
10.0 9.2 8.1 7.2 6.0 5.0 4.4 4.0
BUENO MALOPERFECTO
Molecular Aspects of Medicine 27 (2006) 126–139
2:1
Agilent Bioanalyzer
Reacción de Transcripción Reversa (RT)
� One-Step vs Two Step� CDNA Priming� Pérfil Térmico� Consideraciones Experimentales
PreparaciónMuestra
Extracción Ácidos Nucléicos
Transcripción Reversa (RT)
PCR a tiempo Real (qPCR )
RNA cDNAProducto AmplifcadoMuestra
NATURE PROTOCOLS. Vol1, Num3, 2006
One-Step RT-PCR � Requiere una única mezcla de reacción ya que RT y PCR ocurren en el mismo tubo.
� AmpErase UNG no se puede usar.� Única enzima (ej. PolimerasaTth) RNA-y-DNA
dependiente.� Minimiza tiempo de preparación y el riesgo de
contaminación.� No es posible la optimización por separado de
ambas reacciones.� Requiere primer RT específico de secuencia.� Menos sensible debido a la menor eficiencia de
la actividad RT de la polimerasa.� Acumulación de dímeros de primers.
� Requiere dos mezclas de reacción (reacción RT y reacción PCR).
� Más flexible (El cDNA se puede guardar y ser usado más tarde).
� Permite la optimización por separado de ambas reacciones.
� Permite el uso de primer RT específico de secuencia, random primers o oligo(dT).
Two-Step RT-PCR
One Step RT-PCR vs Two Step RT-PCR
RNA cDNA Producto Amplif.RT qPCR
RNA cDNART
cDNA Producto Amplif.qPCR
NATURE PROTOCOLS. Vol1, Num3, 2006
Consideraciones Experimentales de la RT
� En general, usar el RNA total como molde para la RT.
� Dado que la eficiencia de RT depende del gen diana y de la enzima de RT, es muy importante usar siempre el mismo enzima RT, los mismos primers para la síntesis de cDNA y las mismas condiciones experimentales si se quieren comparar resultados entre sí.
� Hacer réplicas
� Incluir siempre control no-RT
� Añadir la misma cantidad de RNA total en cada reacción.
� Siempre que sea posible, montar las reacciones de RT de todas las muestras al mismo tiempo para evitar la variación entre tandas.
� Cuando se procesan múltiples muestras en diferentes tandas, incluir una muestra control positiva de referencia en todas las tandas.
NATURE PROTOCOLS. Vol1, Num3, 2006
qPCR
� Elección en el software del ensayo a realizar� Perfil Térmico � Consideraciones Experimentales
PreparaciónMuestra
Extracción Ácidos Nucléicos
Transcripción Reversa (RT)
PCR a tiempo Real (qPCR )
RNA cDNAProducto AmplifcadoMuestra
NATURE PROTOCOLS. Vol1, Num3, 2006
Absolute Quantification(Standard Curve)
7000 SDS de ABI 7900 SDS de ABI
Con Curva Stándard
Standard Curve (AQ)
Relative Quantification (ddCt) Plate
ddCt
7000 SDS 7900 SDS∆∆Ct (RQ)
Relative Quantification (ddCt) Study
Perfil térmico que incluye paso de Activación UNG
Perfil térmico clásico qPCR
1.- Activación UNG2.- Activación Taq y desnaturalización UNG3.- Desnaturalización del dsDNA4.- Anillamiento y extensión primers
Consideraciones qPCR
� Cuando se procesan múltiples muestras en diferentes placas, la inclusión de una muestra calibradora o curva estándar en cada placa es un control importante para medir la variabilidad inter-ensayo.
� Duplicados técnicos son generalmente suficientes (Triplicados si Cts›35). Si las réplicas difieren ›0.5 Ct, las reacciones deberían repetirse. Son más importantes los duplicados biológicos.
� Incluir Controles negativo (NTC) y positivos. Cargar el NTC en el pocillo que esté más distanciado de aquel que contenga mayor concentración de cDNA para evitar contaminación cruzada.
� Preparar mezcla de reacción de pcr en laboratorio diferente de donde se manipule el cDNA.
� Es siempre mejor no esperar demasiado en correr un run de qPCR después de la preparación de la placa. Si necesitas comparar dos placas idénticas con diferente ciclo de temperaturas, es mejor prepararlas al mismo tiempo, y guardar una de ellas a 4ºCprotegido de la luz hasta 10 horas.
� Especial atención en el sellado de la placa para evitar evaporaciones y evitar marcas y huellas en la parte superior del cobertor/tapa.
NATURE PROTOCOLS. Vol1, Num3, 2006Real-Time PCR Aplications Guide from Bio-Rad
Programa del Seminario RTqPCR-2011
� Definición de la técnica
� Terminología asociada a qPCR
� Diseñando un experimento de qPCR
� Etapas en la realización de un experimento de qPCR
� Evaluación de un ensayo de qPCR
� Bibliografía muy recomendada
PreparaciónMuestra
Transcripción Reversa (RT)
PCR a tiempo Real (qPCR )
Extracción Ác. Nucléicos
RNA cDNA
Producto Amplificado
Muestra
DNA
Análisis de datos
Calidad del Ensayo
Estadística
Métodos de Cuantificación
Etapas Implicadas en la Realización de un ensayo de qPCR
Calidad del Ensayo
� Reproducibilidad (viene indicada por las réplicas)
� Controles qPCR
NEGATIVOS� NTC (Non Template Control) Detección de dímeros de primers y contaminación� NAC (Non Amplif. Control) Detección de degradación de sondas� No RT (No RT control) Detección de contaminación por DNA genómico
POSITIVOS� Control Endógeno Testado de la calidad de los reactivos. Usado también para normalizar.� Control Exógeno Testado de la calidad de los reactivos� Spiking Control Detecta presencia de inhibidores
� Curva de Disociación (SYBR Green)
� Curva Estándar� Linealidad de los datos� Distancia entre las curvas de amplificación� Eficiencia de amplificación
Pendiente
EficienciaAmplificación
(E= 10-1/slope)
Convertir E enPorcentaje
%E= (E-1)100%
-3,0 2,2 115
-3,1 2,1 110
-3,2 2,1 105
-3,3 2,0 101
-3,32 2,0 100
-3,4 2,0 97
-3,6 1,9 90
-3,7 1,9 86
-4 1,8 78
2n=Factor de dilución
FactorDilución n=LG(Factor Dil.)/LG(2)
2 1,00
5 2,32
10 3,32
Curva Estándard:
Slope= -3.73
OK
R2 ›0.98 o r › 0.99
Calidad del Ensayo
Cuantificación Absoluta Cuantificación Relativa
Cantidad de ácido nucléico (número de copias, µg) por cantidad de muestradada (por célula, por µg de RNA total)
Cantidad relativa de ácido nucléicode una muestra A respecto a una muestra B
Ejemplo: medida carga viral Ejemplo: Niveles de expresión génicaen Tumor vs Tejido normal.
104105 102103 10106
Ct
Log (Num de copias)
A.- Cuantificación Relativa con Curva Stándard:
Qty gen problemaQty gen EC
Muestra Problema =
Qty gen problemaQty gen EC
Calibradora =
B.- Método Pfaffl:
RQ =(Egen diana) dCT, gen diana (calibradora – muestra problema)
(Egen EC) dCT, gen EC (calibradora – muestra problema)
C.- Método (Livak) Doble Delta CT:
dCT = CT(gen diana) – CT(gen EC)
ddCT = dCT(muestra problema) – dCT (calibradora)
RQ= 2–ddCT
Métodos de Cuantificación
SlopeR2
∆Ct
= (C
tge
n T
arge
t–
Ctge
n En
dóge
no)
Log Diluciones
Y = 0.0471x + 3.0178R2 = 0.2315
Eficiencias del Gen Target vs Eficiencia gen EC
Routine lab method’s accuracy called intoquestionNATURE MEDICINE VOL 16,page 349 APRIL 2010Catherine Shaffer
1) Potential viral pathogenic mechanism for new variant inflammatory bowel diseaseV Uhlmann et al. Mol Pathol 2002;55:84–90
Estudio que causó una polémica en 1998 al sugerir un vínculo entre la vacuna triple vírica y el autismo.
RT-qPCR and molecular diagnostics: no evidence for measles virus in the GI tract of autisticchildren.S.A. Bustin. Eur Pharm Rev Dig 1 (2008) 11-16.
2) The mRNA of the Arabidopsis Gene FT Moves from Leaf to Shoot Apex and Induces flowering.Huang et al. Science 309 September 2005: 1694-1696“Breakthrough of the Year 2005”, the runners-up. Science 310:1880-1885
Retraction of Hung et al., Science 309 (5741) 1694-1696.H. Bohlenius et al. Sience 316 April 2007:367.
Ejemplos:
RTqPCR en tela de juicio
Programa del Seminario RTqPCR-2011
� Definición de la técnica
� Terminología asociada a qPCR
� Diseñando un experimento de qPCR
� Etapas en la realización de un experimento de qPCR
� Evaluación de un ensayo de qPCR
� Bibliografía muy recomendada
Direcciones de interés relacionadas con qPCR
http://qpcr.gene-quantification.info/
http://www.horizonpress.com/pcr/qPCR-machines.html
qPCR-Technical-Guide.pdf (Sigma Life Science)
http://www.eurogentec.com
http://www.dorak.info/genetics/glosrt.html
http://genex.gene-quantification.info/
Seminario RTqPCR18 de Octubre en VHIR
Prof. Michael KubistaEstá entre los pioneros que desarrollaron la RTqPCR
Statistical analysis of gene expression data
Alex Sánchez
Unitat d'Estadística i Bioinformàtica (VHIR)
Statistics Department (UB)
Outline
� Basic principles of experimental design
� Analysis of RT-qPCR data
� The microarray data analysis process
To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of.
Father of modern Mathematical Statistics and Developer of Experimental Design and ANOVA
Sir Ronald A. Fisher
And Fisher said…
The three basic principles of Experimental Design
� Apply the following principles to best attain the objectives of experimental design� Replication
� Local control or Blocking
� Randomization
1. Replication
� Each treatment must be applied independently to several experimental units.
� Provides the means to estimate the EE variance in the absence of systematic differences among EUs treated alike which is important because treatment differences are judged against the EE variance.
� Provides the capacity to increase the precision for estimates of treatment means.
� By itself, does not guarantee valid estimates of EE or treatment differences.
Replication vs Pooling
� mRNA from different samples are often combined to form a ``pooled-sample’’ or pool. Why?
� If each sample doesn’t yield enough mRNA
� To compensate an excess of variability� ?
� Statisticians tend not to like it but pooling may be OK if properly done� Combine several samples in each pool
� Use several pools from different samples
� Do not use pools when individual information is important (e.g.paired designs)
Examples of “pooling”
� Study with 12 patients� 12 chips � Expensive� Optiob 1:
� Group A: 6 individuals� 1 pool of 6 � 1 chip� Group B: 6 individuals� 1 pool of 6 � 1 chip
� Option 2: � Group A: 12 individuals� 4 pools of 3 � 4 chip� Grupo B: 12 individuals� 4 pools of 3 � 4 chip
� Option 2 may be cheaper and, at the samae time have similar precisioHowever, without having information about variability within pools and between individuals it cannot be assured �
Local Control
� Group EUs so that the variability of units within thegroups is less than that among all unitsprior togrouping�� Differences among treatments are not confused with
differences among experimental units.
� EE is reduced by the variability associated withenvironmental differences among groups of units.
� Effects ofnuisancefactors which contributesystematicvariation to the differences among EUs can be eliminated.
� Analysis is more sensitive.
Confounding block with treatment effects
Sample Treatment Sex Batch Sample Treatment Sex Batch1 A Male 1 1 A Male 12 A Male 1 2 A Female 23 A Male 1 3 A Male 24 A Male 1 4 A Female 15 B Female 2 5 B Male 16 B Female 2 6 B Female 27 B Female 2 7 B Male 28 B Female 2 8 B Female 1
Awful design Balanced design
� Two alternative designs to investigate treatment effects� Left: Treatment effects confounded with Sex and Batch
effect� Right: Treatments are balanced between blocks
� Influence of blocks is automatically compensated� Statistical analysis may separate block from treatment efefect
3. Randomisation
� Randomly assigning samples to groups to eliminate unspecific disturbances� Randomly assign individuals to treatments.� Randomise order in which experiments are performed.
� Randomisation required to � ensure validity of statistical procedures.
� Lead to unbiased estimates of variances and unbiased estimates of treatment differences,
� Simulates the effects of independence among EUs that are otherwise controlled, selected, and monitored.
Allocating samples to treatments
� A key point in any experiment is the way thatexperimental units are allocated to treatments� It must be chosen so that random variability is as
small as possible
� It must be chosen so that the best local control isachieved.
� It implicitly defines the analysis model, so it mustbe chosen so that the analysis can be performedand validity conditions hold.
Efecto Batch en Microarrays
Diferencias/variaciones no biológicas observadas en experimentos de microarrays
Origen:
•Técnico que procesa las muestras
•Amplificación
•Lote del kit de tinción
•Reparto de muestras en las tandas de amplificación
•Kit de amplificación....
No suele invalidar el expeimentoaunque si añade una cantidad de ruído no cuantificable
Solemos conocer la fuentepero no siempre se podrácuantificar y/o eliminar!!!
Técnico que procesa las muestras
Técnico 1: procesa muestras control
Técnico 2: procesa muestrasproblema
Técnico 1: procesa muestras control y problema
Técnico 2: procesa muestras problema y control
SOLUCION
Técnico 1 y 2 no compartenproyecto
Reparto de muestras en las tandas de amplificación
12 muestras máximo por tanda de amplificación
Proyectos n>12 muestras se han de repartir en diferentes tandas de amplificación
Tanda 1: Controles
Tanda 2: muestras problema
Tanda 1: se procesan muestras control y problema
Tanda 2: se procesan muestras problema y control
SOLUCION
Lote del Kit de tinción
Sondas se marcan con ficoeritrina
Va perdiendo intensidad con el tiempo
Hibridar cada tanda de 12 muestras
Esperar a tener todas las muestras preparadas e hibridarlas todas a la vez
SOLUCION
Eliminación del efecto batch
• Con un diseño experimental apropiado el efecto batch se puede eliminar o atenuar
• de forma implícita balanceando las muestras entre distinos lotes
• de forma explícita estimando los efectos del batch y substrayéndolos de los valores originales.
• Si el diseño no es adecuado, (e.g. hay CONFUSIÓN entre lote y tratamientos) no se podrá hacer nada.
• Incluso con un buen diseño no se puede realizar la eliminación de muchos efectos batch de forma indefinida, porque cada vez se pierde más potencia estadística.
• Es fácil que al final tengamos que aceptar algún efecto batch.
EJEMPLOS-2
4
4
3
3
2
2
1
1
Camada
2
1
2
1
2
1
2
1
Grupo
E42pp14
E42pm24
E41pp13
E41pm23
E40pp22
E40pm12
E39pp21
E39pm11
ShortName
green
yellow
green
yellow
green
yellow
green
yellow
Colores
E42+_+.CEL
E42+_-.CEL
E41+_+.CEL
E41+_-.CEL
E40+_+.CEL
E40+_-.CEL
E39+_+.CEL
E39+_-.CEL
fileName
Efecto batch de nacimiento
In summary
� Good experimental design is essential to perform good experiments.
� Experimental design means planning ahead� Should be done before the experiment starts
� Should consider all the steps: from sampling to data analysis.
� Not a question of "statistical snobism" but of saving time and money and of doing good science
Outline
� Common types of qPCR data analyses
� Biostatistical aspects of relative quantification
� Confirmatory and exploratory statisticalanalysis.
Real time qPCR data
� RT-qPCR data are CT or threshold cyclevalues.� CT= Cycle number at which detectable signal is achieved.� The Lower/higher the CT �Larger/Smaller amount of
starting material
Basic types of RT-qPCR analysis
� Two basic types of analysis� Absolute quantification
� Relative quantification
� Choice based on� Experimental goals
� Available resources
Absolute quantification
� Use absolute quantification…� To understand properties that are intrinsic to a
given sample.
� To answer the question "how many"?
� Examples of applications� Chromosome or gene copy number determination
� Viral load measurements
Standard curve
� Absolute quantification is achieved by comparing CT values of each sample to a standard curve, which is obtained by� Using different known amounts of sample
� For which CT is calculated
� And plotted vs the (log) (known) quantity
Example: determining absolute copynumber from absolute quantification
� The standard curve is used only for interpolation butnot for extrapolation (relation may not be linear outside the limits tested).
Absolute vs Relativequantifications
� Absolute quantification answers the question"how many" but gives no information aboutchange.
� Relative quantification can be used to� Compare levels or changes in gene expression.
� Answer the question –What is the fold difference?
Relative quantificationmethods
� For absolute quantification one requires a standardtemplate with several known concentrations to buildthe curve.
� For relative quantification one needs to apply someform of normalization, thatis one has to transformthe data in order to� Remove possible experimental biases
� Make data from different samples/groups comparable so that the term "relative" keeps its meaning.
Normalization against a reference gene
� Benefit: � Circumvents need for accurate quantification of
starting material
� Drawback: � Requires known reference genes with stable
expression levels
Most common approaches
� Livak or ∆∆CT method
� The∆CT method against a reference gene
� The Pfaffl method
Other methods
� Although Livak method is the most used
� The∆CT method yields equivalent results butis simpler to calculate.
� The Pfaffl method is preferable when reactionefficiencies of the target and reference are notsimilar.
Biostatistical analysis
� Two main types of analyses� Comparative analyses,
� Relatively rigorous
� Check a predefined hypotheses
� Relies on statistical testing
� Expression profiling: Search for trends and patterns in the data� Exploratory, hypothesis generating approach
� Less rigorous
� Cluster analysis or PCA
Three basic premises
� Statistical analyses of RT-qPCR data relies on three assumptions� One gene-at-a-time
� We are sampling from two different (unknown) independent populations
� There exist unknown mechanisms that contribute to variability.
From assumptions to strategies (1)
� Use random sampling and randomization to obtain independent and representative samples.
From assumptions to strategies (2)
� Apply experimental design principles to minimize confounding variability
From assumptions to strategies (3)
� Perform statistical testing� DO NOT FORGET about multiple testing adjustments
Statistical analysis
� Standard statistical approach: Confirmatory study-Reject or accept predefined hypothesis
Exploratory statistical analysis
� If instead of confirming hypothesis we want to generate them (finding patterns in data)
Software for the analysis
� ABI� DataAssist
� Biogazelle� REST
� Bio-Rad� GENEX (Gene expression macro)
� Multid� GenEx
� Bioconductor� HTqPCR
� Integromics� StatMiner
Esquema de la presentación
�Introducción y objetivos�Análisis de datos de microarrays
� Tipos de datos y Tipos de estudios. Herramientas. � El proceso de análisis. Ejemplos
�Críticas, consensos, consejos y “estado del arte”� Críticas a los microarrays� Consensos y consejos (“dos and don’ts”)� MAQC-I, MAQC-II
�De los microarrays al diagnóstico� ¿Porque está siempre por llegar?
Y muchos más …
�Time Course� Perfiles de expresión a lo largo del tiempo
�Pathway Analysis-(Systems Biology)� Reconstrucción de redes metabólicas a partir de
datos de expressión
�Whole Genome, CGH, Alternative Splicing
�Estudios con datos de distintos tipos� Fusión o Integración de datos
HerramientasHerramientasHerramientasHerramientas paraparaparapara el el el el ananananáááálisislisislisislisis
Programas de análisis de datos
�Multitud de herramientas� Gratuítas / Comerciales [R, BRB, MeV, dChip…] / [Partek, GeneSpring, Ingenuity]
� Descargables / En-linea
[R, BRB, MeV…] / [Gepas,…]
� Aísladas / Parte de “suites” o de sitios
[BRB, dChip] / [MeV (TM4), OntoTools]
�A survey of free microarray data analysis tools:� http://chagall.med.cornell.edu/I2MT/MA-tools.pdf
Programas de análisis libresPrograma ☺☺☺☺ ����
R/Bioconductor
Potente, flexible, actualizado,
Unix/Windows/Mac
Consola, difícil de dominar
BRB tools Basado en Excel,
User-friendly
Si falla, falla.
Difícil de extender
dChip Expresión & SNP’s
User-frinedly
Solo Windows
Pocas opciones
Babelomics Web-based,
Multiples opciones,
Buen material
Web-based
Manejo algo rígido
…
Programas de análisis comerciales
Programa ☺☺☺☺ ����
geneSpring Muy extendido
Gráficos potentes
Extensible (R)
ANOVA limitados
CARO
Partek ANOVA muy potente
Mult. tipos de datos
Visualización 3D
Sólo estadística “clásica”
No extensible. Caro
Ingenuity BD de anotacionesAnálisis de redes y de significación biológica
Centrada mayormente en datos de cáncer.
Caro.
…
Análisis de un experimento con microarrays
(1) Imágenes(Datos crudos)
(2) C. de calidad(bajo nivel)
(3) Preprocesado
(4) Exploración de la Matriz de Expresión
(5) Análisis
(6) SignificaciónBiológica
(0) Diseño experimental
� Variabilidad� Sistemática
� Calibrar/Normalizar
� Aleatoria� Diseño Experimental
� Inferencia
� Decidir acerca de� Réplicas,
� Lotes (“Batch effect”)
� Pools …
Sample Treatment Sex Batch Sample Treatment Sex Batch1 A Male 1 1 A Male 12 A Male 1 2 A Female 23 A Male 1 3 A Male 24 A Male 1 4 A Female 15 B Female 2 5 B Male 26 B Female 2 6 B Female 17 B Female 2 7 B Male 18 B Female 2 8 B Female 2
Awful design :-( Balanced design :-)
(1) Obtención de la imagen�Entra: Microarrays
�Salen: � Imágenes (1/chip) � Ficheros de imagen
�Información para cada sonda individual
�Datos para el análisis de bajo nivel� Control de calidad� Preprocesado� Sumarización
…
…
1.cel, 1.chp 2.cel, 2.chp
(2) Control de calidad de bajo nivel
�Entra: � Imágenes (.CEL, ...)
�Proceso� Diagnósticos y
Control de calidad� Análisis basado en
modelos (PLM)
�Salen:� Gráficos� Estadísticos de
control de calidad
…
1.cel, 1.chp 2.cel, 2.chp
(3) Preprocesado
�Entra:� Fichero de Imágenes (datos
del escaner)
�Proceso� Eliminación de ruido
� Normalización
� Sumarización
� Filtrado
�Sale:� Matriz de expresión
…
1.cel, 1.chp 2.cel, 2.chp
C01-001.CEL C02-001.CEL C03-001.CEL1415670_at 8.954387 9.088924 8.8338631415671_at 10.700876 10.639307 10.6109531415672_at 10.377266 10.510106 10.4617011415673_at 7.320335 7.252635 7.1123131415674_a_at 8.381129 8.332256 8.3937181415675_at 8.120937 8.082713 8.0515141415676_a_at 10.322229 10.287371 10.2828121415677_at 9.038344 8.979641 8.905711
(4) Exploración
�Entra� Matriz de expresión
�Proceso� PCA, Cluster, MDS� Representaciones en
2D/3D� Agrupaciones
�Sale� Detectado efectos
batch� Verificación calidad
C01-001.CEL C02-001.CEL C03-001.CEL1415670_at 8.954387 9.088924 8.8338631415671_at 10.700876 10.639307 10.6109531415672_at 10.377266 10.510106 10.4617011415673_at 7.320335 7.252635 7.1123131415674_a_at 8.381129 8.332256 8.3937181415675_at 8.120937 8.082713 8.0515141415676_a_at 10.322229 10.287371 10.2828121415677_at 9.038344 8.979641 8.905711
(5) Análisis estadístico (i):Selección de genes diferencialmente
expresados�Entra:
� Matriz expresión
� Modelo de análisis
�Proceso� t-tests, ANOVA
� Ajustes de p-valores
�Sale� Listas de genes
� Fold change, p.values
� Gráficos
� Perfiles de expresión
C01-001.CEL C02-001.CEL C03-001.CEL1415670_at 8.954387 9.088924 8.8338631415671_at 10.700876 10.639307 10.6109531415672_at 10.377266 10.510106 10.4617011415673_at 7.320335 7.252635 7.1123131415674_a_at 8.381129 8.332256 8.3937181415675_at 8.120937 8.082713 8.0515141415676_a_at 10.322229 10.287371 10.2828121415677_at 9.038344 8.979641 8.905711
ProbeSet gene ID logFC t P.Value adj.P.Val B1450826_a_at Saa3 1450826_a_at 4.911 63.544 6.21E-14 2.80E-10 22.2441457644_s_at Cxcl1 1457644_s_at 4.286 53.015 3.52E-13 7.69E-10 20.7911415904_at Lpl 1415904_at -4.132 -50.455 5.66E-13 7.69E-10 20.3731449450_at Ptges 1449450_at 5.164 49.483 6.82E-13 7.69E-10 20.2071419209_at Cxcl1 1419209_at 5.037 47.175 1.08E-12 9.71E-10 19.7941416576_at Socs3 1416576_at 3.372 42.107 3.19E-12 2.08E-09 18.7841450330_at Il10 1450330_at 4.519 42.056 3.23E-12 2.08E-09 18.7731455899_x_at Socs3 1455899_x_at 3.648 40.821 4.29E-12 2.12E-09 18.5021419681_a_at Prok2 1419681_a_at 3.709 40.645 4.48E-12 2.12E-09 18.4631436555_at Slc7a2 1436555_at 3.724 40.081 5.12E-12 2.12E-09 18.335
(5) Análisis estadístico (ii ):Construcción & validación de un
predictor
�Entra:� Matriz expresión
�Proceso� Selección variables
� Ajuste modelo
� Validación�Sale
� Modelos predictivos
� Medidas de fiabilidad /reproducibilidad
(6) Significación biologica
�Entra� Listas de genes
�Proceso� GEA, GSEA, …
�Sale:� Clases GO /
Grupos de GenesPathwaysespecialmente representados
ProbeSet gene ID logFC1450826_a_at Saa3 1450826_a_at 4.9111457644_s_at Cxcl1 1457644_s_at 4.2861415904_at Lpl 1415904_at -4.1321449450_at Ptges 1449450_at 5.1641419209_at Cxcl1 1419209_at 5.0371416576_at Socs3 1416576_at 3.3721450330_at Il10 1450330_at 4.5191455899_x_at Socs3 1455899_x_at 3.6481419681_a_at Prok2 1419681_a_at 3.7091436555_at Slc7a2 1436555_at 3.724
EjemploEjemploEjemploEjemplo de de de de ananananáááálisislisislisislisis de de de de datosdatosdatosdatos
Comparación de perfilesde expresiónentre tumores BRCA1/BRCA2 y
Construcción de un predictor que permitadistinguir entre ambos.
Fuente del ejemplo
�Gene Expression Profiles in Hereditary Breast Cancer
�Hedenfalk, I, et. al., NEJM, Vol. 344, No. 8, pp 539-548.
�Objetivo: Encontrar un predictor basado en perfiles de expresión para diferenciar tumoresasociados a BRCA1 y BRCA2
Esquema del análisis
� Diseño experimental y datos para el análisis
� Preprocesado
� Exploración
� Selección de genes
� Construcción de varios predictores y selección del más apropiado
Diseño experimental
� RNA extraido de� 7 pacientess. BRCA1
� 8 pacients BRCA2
� 7 con cancer “esporádico”
� 6512 sondas� 5361 genes
� 3226 retenidos para el análisis
� Diseño de referencia� Cada muestra comparada contra
linea celular no tumorgénica(MCF-104)
1s106 BRCA21
4s1616
BRCA21
3s1816
BRCA16s1905
Sporadic2
1s1281
Sporadic1
9s1542
Sporadic1
8s1320
Sporadic1
5s1649
Sporadic1
7s1324
Sporadic1
6s1572
BRCA22
2s1486
BRCA28s1721
BRCA29s1787
BRCA21
0s1900
BRCA14s1510
BRCA12s1252
BRCA17s1224
BRCA13s1714
BRCA15s1822
BRCA11s1996
Sporadic2
0s1321
BRCA1 v BRCA2 vSporadic
PID
Patient
Array
Análisis (1). Selección de genes (class comparison)
� BRCA1 vs noBRCA1
� Usamos un t-test y un cutoff de 0.0001 � es decir declaramos
diferencialmeneteexpresados los genes cuyo p-valor sea inferior a 0.0001
� No hacemos ajustes� Mínimo FC
� Multiple testing
Resultados (1): Lista de genes
OrderParametric
p-value FDR Fold-change Unique id Description1 1.66e-05 0.0198 2.24 HV34H7 ESTs2 2.17e-05 0.0198 2.03 UG5G3 minichromosome maintenance deficient (S. cerevisiae) 73 2.3e-05 0.0198 0.31 HV17G6 keratin 84 3.37e-05 0.0198 1.89 HV18E8 SELENOPHOSPHATE SYNTHETASE ; Human selenium donor protein5 3.63e-05 0.0198 2.21 HV32C7 ESTs6 4.32e-05 0.0198 1.57 UG1F1 very low density lipoprotein receptor7 4.5e-05 0.0198 1.67 HV24F5 chromobox homolog 3 (Drosophila HP1 gamma)8 4.92e-05 0.0198 2.02 LO3F1 butyrate response factor 1 (EGF-response factor 1)9 9.43e-05 0.0338 1.85 HV9E3 "tumor protein p53-binding protein, 2"
Análisis (2):Construcción de un predictor
� Construímos predictorespor 6 métodos distintos.
� Genes candidatos por class-comparison.
� Elegimos el que presente menor tasa de error de predicción(estimada por leave one out)
Resultados (2i)
Compound Diagonal Linear 1-Nearest 3-Nearest Nearest Sup port BayesianCovariate Discriminant Neighbor Neighbors Centroid Vector CompoundPredictor Analysis Machines Covariate
PredictorCorrect? Correct? Correct? Correct? Correct? Correct? Correct?
s1224 BRCA1 YES YES YES YES YES YES YESs1252 BRCA1 YES YES NO NO YES YES YESs1510 BRCA1 NO YES NO NO NO NO NOs1714 BRCA1 NO YES NO NO NO NO NOs1822 BRCA1 YES YES YES YES YES YES YESs1905 BRCA1 YES YES YES YES YES YES YESs1996 BRCA1 YES YES NO YES YES YES NAs1063 notBRCA1 YES YES YES YES YES YES YESs1281 notBRCA1 YES YES YES YES YES YES NAs1320 notBRCA1 NO YES YES YES YES YES YESs1321 notBRCA1 NO NO NO NO NO NO NOs1324 notBRCA1 YES YES YES YES YES YES YESs1486 notBRCA1 YES YES YES YES YES YES YESs1542 notBRCA1 YES YES YES YES YES YES YESs1572 notBRCA1 YES YES YES YES YES YES YESs1616 notBRCA1 YES YES YES YES YES YES YESs1649 notBRCA1 YES YES YES YES YES YES YESs1721 notBRCA1 YES YES YES YES YES YES YESs1787 notBRCA1 YES YES YES YES YES YES YESs1816 notBRCA1 YES YES YES YES YES YES YESs1900 notBRCA1 YES YES YES YES YES YES YESs1936 notBRCA1 YES YES YES YES YES YES YES
82% 95% 77% 82% 86% 86% 85%
Class labelArray id
Resultados (2ii)Performance of the Diagonal Linear Discriminant Ana lysis Classifier:
Class Sensitivity Specificity PPV NPVBRCA1 1 0.933 0.875 1notBRCA1 0.933 1 1 0.875
Final classifier: coeficients and criteria
A sample is classified to the class BRCA1 if the sum is greater than the thresholdThat is, ∑iwi xi > threshold.The threshold for the Diagonal Linear Discriminant predictor is 91.124
1 2 3 …. 51 52Genes HK1A11 HV10D8 HV11A6 …. HV28G8 HV2B1Coeficients 2,57 3,31 2,79 …. 3,01 5,52
Resumiendo…
�El análisis de microarrays puede visualizarse como un proceso.
�Es importante conocer � Los métodos apropiados para cada problrma,� los parámetros, el significado, las limitaciones de cada
paso.
�Una aplicación adecuada del proceso proporciona información relevante como...� una lista de genes diferencialmente expresados
(biomarcadores).� un modelo con capacidad de predecir (firma)
An array of problems?
� Poca reproducibilidad entre estudios� Poca coincidencia entre las listas de genes
� No reproducción de las predicciones en nuevos conjuntos de test
� Falta de estándares
� Falta de consenso en los métodos
� El paso a la clínica siempre por llegar
� Mediados de la década: ¿Promesa o realidad?
Algunos consensos (Allison 2006)
� Diseño� Biological replication is essential� There is strength in numbers: power & sample size � Pooling biological samples can be useful
� Seleccion de genes diferencialmente expresados� Using FC alone as a differential expression test is not valid� 'Shrinkage' is a good thing� FDR is a good alternative to conventional multiple-testing approaches
� Clasificación y Predicción� Unsupervised classification is overused� Unsupervised classification should be validated using resampling-
� Supervised-classification requires independent cross-validation
No todos los estudios se hacen bien...
� Dupuy & Simon estudian 90 publicaciones. � Análisis detallado de los métodos usados en 42.
� Ecuentran algunos errores comunes� Objetivos pobremente definidos.
� No hay control de la multiplicidad 104 genes � 104 tests P(Falso+) muy alta
� Ni se informa bien de la fiabilidad de un predictor.
� No se utiliza un conjunto de test independiente.
� Se abusa por doquier del análisis de clusters.
Aunque es posible hacerlo bien si...
� Se procura... (do’s)� Definir bien objetivos.
� Combinar el p-valor y el FC al seleccionar genes.
� Usar la FDR para el control de multiplicidad.
� Validar un predictor con un conjunto de prueba independiente.
� Contar con un estadístico
� Se evita... (don’t)� Basar la selección tan sólo
en “Fold Change”
� Usar p-valores de 0.05
� Usar métodos de cluster si lo que se deseara es clasificar muestras.
� Violar el principio básico de la validación (no debe usarse el cjto de prueba antes de la validación).
... Hasta 40 “do’s” y “don’ts” en la tabla 3 de Dupuy y Simon (JNCI 99 (2): 147-157).
Resumiendo
� Los microarrays tienen algunas limitaciones –razonables e intrínsecas-
� Un adecuado uso de los métodos de análisis puede generar información útil, fiable y reproducible.
� Aún asíel paso de la clínica al diagnóstico es más lento de lo que se esperaba.
¿Por qué?
Algunas de las dificultades
� Se precisan estudios muy grandes para establecer la potencia de un (kit) diagnóstico y validarlo en una cohorte independiente y suficientemente amplio.
� Hacen falta estandarizaciones y sistemas de control de calidad validados según criterios de laboratorios clínicos.
� Los tests de perfiles de expresión han de cumplir las normas de la Agencia Médica Europea y/o la FDA.
� Para justificar su desarrollo hay que hacer estudios de coste efectividad que sugieran una clara mejora en el tratamiento al paciente y retorno de inversión y beneficios en el medio/largo plazo.
Resumiendo
� Se espera que la creciente calidad y tamaño de los estudios genere nuevos perfiles de expresión transportables al diagnóstico.
� Aspectos como estandarización y automatización (robótica) para minimizar la intervención humana están cada vez mejor.
� Otros como la regulación por parte de las agencias y las políticas de reembolso a los inversores y los laboratorios deben de irse resolviendo.
� No es improbable un futuro en el que el “lab-on-a-chip” forme parte de las herramientas de los clínicos.