Post on 29-Sep-2018
Métodos de secuenciación de ácidos nucleicos.
Gonzalo Greif .
Unidad de Biología Molecular. Institut Pasteur Montevideo.
1. Un poco de historia
2. Secuenciación por método de Maxxam y Gilbert
3. Secuenciación por método de Sanger
a. Avances en el método de Sanger (1986‐1996)
b. Proyecto Genoma Humano
4. Algunos Métodos de secuenciado masivo
a. Pirosecuenciación
b. Secuenciado por hibridización (Illumina)
c. Otro métodos
d. Aplicaciones
1. Un poco de historia.
Pasaron 15 años desde el descubrimiento de la estructura de doble hélice del ADN en 1953
hasta la determinación de la primera secuencia de ADN de forma experimental. Algunas de las
razones que provocaron esta demora fueron:
1. Las propiedades químicas similares de las diferentes moléculas de ADN dificultaban su
aislamiento.
2. El largo de las moléculas de ADN, mucho mayores que las cadenas polipeptídicas de las
proteínas, hacían inabordable la secuenciación completa.
3. No se conocían ADNasas específicas. La secuenciación de proteínas se basaba en el uso
de proteasas que cortaban en determinados aminoácidos.
Sin embargo, algunas moléculas de ARN no ofrecían estas dificultades, en particular las
moléculas de ARN de transferencia eran pequeñas y se podían purificar individualmente.
Además se conocían ARNasas base‐específicas y se desarrollaron métodos análogos a los
utilizados para proteínas. La primer secuencia de un ácido nucleico fue obtenida por Holley y
sus colaboradores en 1965 y correspondía al ARN de transferencia de alanina de Escherichia
coli.
Un evento importante en el desarrollo de los métodos de secuenciación de ADN fue el
descubrimiento de las enzimas de restricción de tipo II en 1970. Estás enzimas reconocen y
cortan el ADN en secuencias específicas (en general entre 4 y 6 bases de largo). Estas enzimas
proporcionaron un método general para fragmentar largas moléculas de ADN en pequeñas
piezas para luego ser separadas por electroforesis en geles de agarosa. A mediados de la
década del 70, Frederick Sanger publica el método “más‐menos” (“plus‐minus” method) que
permitía la secuenciación de fragmentos de ADN utilizando la enzima ADN polimerasa de E.
coli. A fines de esta misma década, Maxxam y Gilbert publican un método alternativo de
secuenciación de ADN (método químico) y el mismo Frederick Sanger publica el método que
luego se convertiría en el más utilizado durante los siguientes 30 años (método enzimático),
como veremos en el punto 3.
2
El m
febre
publi
En e
para
de un
cada
desde
poliac
de es
El m
poliac
ADN.
2. Secuenci
étodo de se
ero de 1977
cara el méto
el artículo de
secuenciar u
n ADN marc
una de las b
e el extrem
crilamida y s
sta molécula
étodo prop
crilamida, y
ación químic
ecuenciación
en el Volu
odo de secue
escriben el p
una molécul
cado radioac
bases. El cor
mo marcado
separando d
.
puesto estab
en este prim
ca.
n química p
men 74 (nº
enciación enz
rocedimient
la de ADN. E
tivamente e
rte parcial d
o hasta la
ichos fragme
ba limitado
mer artículo
El
quí
(18
dim
est
pH
inte
el
pro
y t
hid
tim
En
dur
(mo
Figu
poIntUntenqueposcolsól
Méto
propuesto po
2) de la re
zimática que
to de esta m
El procedimi
en un extrem
e cada base
base dónde
entos por ta
por la cap
muestran la
método utili
ímica produ
8M hidracina
metil‐sulfato
e tratamient
neutro, ent
enso para las
contrario, e
ovoca un pat
tenues de
dracina) prod
minas.
la Figura 1,
rante la secu
ostrado en e
ura 1. Se mliacrilamida cerpretación: a banda intenue en la segue la situaciónsición. Una bumna en la o presente en
odos de secu
or Maxxam
evista PNAS,
e veremos en
manera: “Des
ento determ
mo, cortándo
e, genera un
e fueron c
maño, es po
pacidad de
a posibilidad
izaba 4 reacc
uce cortes e
a, 2M NaCl
corta en Ade
to químico s
tonces se o
s guaninas y
el tratamien
trón inverso
guaninas). E
duce el clivaj
se muestra e
uenciación d
el artículo de
muestran loscon cada unaLa secuencia ensa en la punda correspo inversa correbanda que apmisma posicin la última col
enciación de
y Gilbert, f
10 meses a
n la siguiente
arrollamos u
mina la secue
olo con agen
set de fragm
livados. Uti
osible determ
resolución
d de secuen
ciones quími
específicame
. Una reacc
eninas y Gua
e calienta la
obtiene un p
tenues para
nto posterio
(bandas inte
El último t
je tanto en c
el patrón de
de un fragm
1977).
cuatro cara de las reacse lee de a
primera columonden a una Aesponde a unparece en la ón indica unumna corresp
e ácidos nuclGonzalo
fue publicad
antes que S
e sección.
una nueva té
encia nucleo
ntes químico
mentos mar
lizando gele
minar la secu
de los gele
ciar 100 bas
icas. Una rea
ente en Cito
ción con 50
aninas; si lue
reacción a 9
patrón de b
a las adenina
r a un pH
ensas de ade
ratamiento
citosinas com
e bandas obt
ento de 64
rriles del gecciones de clibajo hacia armna y una bAdenina, miena Guanina entercera y cua C. y una bponde a una T
leicos.o Greif
2
do en
Sanger
écnica
otídica
os” en
rcados
es de
uencia
es de
ses de
acción
osinas
0 mM
ego de
90ºC a
andas
as. Por
ácido
eninas
(18M
mo en
tenido
bases
l deivaje.rriba.andantrasn esauartaandaT.
Fred
Fuequeprot(195
En 1dónResocomunaobtu(mé
En 1los c
En 1
Fuen
Lectu
3
En dic
méto
había
partir
dificu
secue
méto
Así, e
secue
aspec
capila
(final
prem
la ap
ácido
princ
los se
derick Sange
e la primera p las proteínasteínas deberí58).
1962, Sanger cnde Francis Colver como omo estudiando técnica aplicuvo por ello étodo de secue
1992, el Wellccentros de sec
1985 se retiró
ntes:http://www.
uras recomendad
3. Secuenci
ciembre de 1
odo para det
an ya public
r del cual ha
ultad en la i
encia hiciero
odos de secu
el método p
enciación de
ctos tecnoló
ar, etc.) per
izado en el
mio Nobel en
arición de lo
os nucleicos.
ipio de nucl
ecuenciadore
er (1918‐)
Frederick Saesperaba quedecidió realirealizando uncontinuó trabel transcursoordenan los a
persona en obs eran molécuan tener un
comienza a trrick, John Kebtener la secuo primero la fcable luego alsu segundo enciación quí
come Trust y cuenciación d
y se dedica p
.dnaftb.org/23/b
das: Nobel Lectu
ación enzim
1977 se pub
terminar la s
cado dos añ
abían logrado
nterpretació
on que Sang
enciación de
propuesto p
e ácidos nuc
gicos y meto
rmitieron, c
año 2003)
Química po
os secuencia
Aun así, mu
eótidos term
es de Illumin
nger nació ene Fred siguierizar una carrn Ph.D. con Abajando con Co de la inveaminoácidos e
btener la secuulas ordenadaorden o secu
rabajar en el lendrew y otrouencia de ADforma de secl ADN (el métpremio Nobmica) y Paul B
el Medical Rdónde se llevó
principalmente
io.html/ http://w
re (Frederick San
ática.
lica el trabaj
secuencias d
os antes, un
o obtener do
ón de los re
ger y sus co
e ácidos nucl
or Sanger e
cleicos hasta
odológicos (a
omo hito fu
por este mé
r la invenció
dores 454 se
chas de las n
minadores, d
na.
Méto
n Rendcombera sus pasos, sera en CiencAlbert NeuberC. Chibnall idestigación, Saen la proteína
encia de aminas y, por anauencia. Por es
aboratorio deos trabajabanN era la extenuenciar ARN todo de secuel también eBerg (ADN rec
esearch Counó adelante el p
e al cuidado d
www.sanger.ac.uk
ger, 1980).
o de Sanger,
de bases en
n método d
os secuencia
sultados y a
olaboradore
eicos.
en 1977 se c
a la actualid
automatizac
undamental,
étodo. En 19
n de este mé
e dio un cam
nuevas tecno
descrito por
odos de secu
e, Inglaterra esin embargo ecias. Continuóger, en metabentificando losnger imaginóa.
noácidos de ulogía, los genste trabajo o
e Biología Mon con problemnsión natural (una moléculenciación poren Química ccombinante).
ncil establecieproyecto Geno
de su jardín.
k/about/people/
, Nicklen y Co
una molécu
de secuencia
as de 70 base
algunos erro
s siguieran
convirtió en
dad. La inco
ión, método
, la secuenc
980 Frederic
étodo (ver re
mbio en la te
ologías de se
Sanger, com
enciación de
en 1918. De en la Universió su formacibolismo de ams aminoácidosó las formas
una proteína (nes y el ADN btuvo su prim
lecular, tambmas relacionade su trabajola más pequer dideoxinuclecompartido co
eron el Sangeroma Humano
biographies/fsan
oulson que p
la de ADN.
ación (métod
es del bacte
ores que pod
trabajando
el método
rporación d
os de detecci
ciación del
ck Sanger ob
ecuadro). Re
ecnología de
ecuenciación
mo veremos
e ácidos nuclGonzalo
padre médicdad de Cambón en Cambminoácidos. Ls de la insulinen las cuále
(la insulina). Pque codifica mer premio N
ién en Cambrados con el Ao anterior. Fueeña) logró obteótidos). En 1on Walter Gi
r Institute, un.
nger.html
propone un n
Sanger y Co
do más‐men
riófago φX1
dían ocurrir
para mejora
más utilizad
e mejoras e
ión, electrof
genoma hu
btuvo su seg
ecién en 2005
secuenciaci
masiva utili
más adelan
leicos.o Greif
3
o, se ridge ridge Luego na, en es se
Probó estas Nobel
ridge, ADN. e así, tener 1980, ilbert
no de
nuevo
oulson
nos) a
74. La
en la
ar los
do de
en los
foresis
mano
gundo
5, con
ón de
zan el
nte en
El mé
caden
dideo
–Figu
ADN
(Figu
En el
reacc
exten
debe
prese
trifos
Figura 2
Figura 3naciente
étodo enzim
na de ADN
oxinucleótido
ura 2‐ ). La in
impide que
ra 3).
artículo eje
ción: “Debido
ndiéndose, e
ría haberse
encia de una
sfato (uno
2. Estructura de
. Esquema de me luego de la inc
mático de Sa
que está si
os (es decir n
corporación
e una nueva
emplifican, d
o a que el d
entonces la t
incorporado
a mezcla de
de ellos m
un nucleótido
mecanismo de scorporación de
anger, utiliza
endo sintet
nucleótidos
de una base
a base pued
de forma cla
dT no contie
terminación
. Si un cebad
e ddTTP y
arcado radi
(ej. dATP) y un
síntesis de ADNe un didoxinucle
Méto
a una ADN p
izada en lug
que en su ca
e con estas c
a incorporas
ara, que suc
ene grupo 3
ocurre espe
dor y un mol
dTTP, así co
iactivamente
di‐deoxinucleó
N (1), y (2) impoeótido.
odos de secu
polimerasa e
gares especí
arbono 3´ no
característica
se y la sínte
ede cuándo
’ hidroxilo, l
ecíficamente
lde son incub
omo los otr
e con 32p),
ótido (ddATP).
osibilidad de co
enciación de
e inhibidore
íficos, partic
o contienen
as en un mol
esis de ADN
utilizan di‐d
a cadena no
e en las pos
bados con A
ros tres deo
, se obtien
ntinuar elongac
e ácidos nuclGonzalo
s que finaliz
cularmente
el grupo hid
lécula nacien
N es interrum
deoxiTimina
o puede cont
siciones dón
DN polimera
oxiribonucleo
e un mezc
ción de cadena
leicos.o Greif
4
zan la
utiliza
droxilo
nte de
mpida
en la
tinuar
de dT
asa en
osidos
cla de
a
fragm
es fra
mues
para
mezc
secue
Las se
Figura princip
mentos todos
accionada po
stra la distrib
cada uno d
cla en parale
encia de base
ecuencias ob
4. Esta imagenpio del método
s con el mism
or electrofor
bución de lo
de los cuatr
lo en el gel,
es” (Figura 4
btenidas con
n se encuentra de dideoxinucle
mo extremo
resis desnatu
s residuos T
ro nucleótid
se obtiene u
4 y 5).
este métod
en la Nobel Leeótidos termin
Figura 5. Se trata mezclas imagen sLas lectude acuerdnucleótid
Méto
5´ y con res
uralizante en
Timina en el
os en reacc
un patrón de
o alcanzaban
ecture de F. Saadores.
Esta imagen code un autorad(una para cade leen las secueras se realizan do a la apariciódo de diferencia
odos de secu
iduos ddT en
n geles de ac
ADN sintetiz
ciones indep
e bandas a p
n hasta 200
anger de 1980.
orresponde a ladiografía dóndeda dideoxinucleencias de ADN de abajo (frag
ón de las bandaa en tamaño.
enciación de
n el extremo
crilamida el
zado. Utilizan
pendientes,
partir del cua
bases de larg
En la misma s
a segunda figure se muestra laeótido termina(en este caso ugmentos más ps. La resolución
e ácidos nuclGonzalo
o 3´. Si esta m
patrón de b
ndo termina
y corriendo
al se puede l
go.
se ejemplifica e
a del artículo da migración deador utilizado).un fragmento dequeños) hacian del gel, permi
leicos.o Greif
5
mezcla
andas
adores
cada
eer la
el
e Sanger (PNASe las cuatro dif. A la derechel bacteriófagoa arriba (más gite separar ban
S, 1977).ferentesha de lao φX174.grandes),das de 1
a
I.
En 19primecon tmoléen unLas snucle
II
La emprimesecueUSA)secueEn 19secue Con edesarestracopiaVentede 43
a. Avances y
. Secuenciaci
986 Hood yer reporte deerminadorescula fluorescn único tubosecuencias oeótidos.
I. Secuenciac
mpresa Appler secuenciaencia del pri. La aparicióenciación. El992, Venter enciación co
esta plataforrrollo de la etegia consisa) y clonarlaer reporta 33 millones de
a.
y mejoras en
ión con term
y colaboradoe automatizas fluorescentcente difereo (Figura ). Asobtenidas, co
ción automát
lied Biosysteador automámer gen porn de los sec primero defunda el Inn 30 equipos
rma instaladestrategia ESte en hacer as de forma 37 genes hue secuencias
b.
n el método
minadores flu
ores, en colaación de la stes como vante unida a simismo, la son esta nue
tica.
ems, fue la pático (ABI 37r Craig Venteuenciadorese ellos fue elstitute for Gs.
da, se demueT (expressedcopias de Aaleatoria p
umanos no ccorrespond
Fipadepasele
c.
Méto
de Sanger (1
uorescentes (
aboración csecuenciacióriante del mcada dideoxsecuencia pueva variante
pionera y líd70A) aparecer y sus cole automático NIH, dóndeGenomic Res
estra el podd sequence tADN a partirara luego seonocidos. Lientes a 130
gura 6. En estaara cada base)el gel (cada coloara convertir esecuencia de ADctura 5’‐3’.
odos de secu
1977‐1996).
(dye‐termina
on Applied n de ADN, q
método de Sainucleótido, uede ser leíderan de un
der en instruce en 1987, egas del Natos permitió lae se instalarosearch (TIGR
er de la sectag) para el dr del ARN mecuenciar. Ea base de da0 organismo
a figura se ejem(a), se corren or representa usas señales en “DN (c). La flech
enciación de
ator sequenc
Biosystems que estableceanger. Está vay permite re
da a través dn largo de e
umentos de y con él seional Instituta instalaciónon 6 secuencR) y expande
uenciación adescubrimienmensajero ceEn 1991, conatos de EST os diferentes
mplifica como etodas las reacuna base) (b) y “electroferograha a la izquierd
e ácidos nuclGonzalo
cing).
(ABI) publice la secuencariante utilizealizar la reae un computentre 500 y
secuenciaci logra conote of Healthn de facilidadciadores ABIe la capacid
automática cnto de geneselular (ADNcn esta estracontiene ho.
n lugar de 4 caciones en un úse desarrollan aamas” que reprda indica la dir
leicos.o Greif
6
can el iación za una acción tador. 1000
ón. El cer la (NIH, des de I3700. ad de
con el s. Esta c=ADN ategia, y más
rriles (unoúnico carrilalgoritmosresentan larección de
Métodos de secuenciación de ácidos nucleicos.Gonzalo Greif
7
b. Proyecto Genoma humano: La secuenciación del genoma humano se volvió un objetivo realizable una vez establecidas las metodologías de secuenciación de ADN. La discusión formal comenzó en 1985 en Estados Unidos. En 1990, se presentó un proyecto de 5 años en el congreso de Estados Unidos (Human Genome Project). Se estimaba que el proyecto duraría 15 años y el costo rondaría los 3 mil millones de dólares. El proyecto establecía el objetivo de mapear y secuenciar diferentes organismos modelo además de humano. Entre ellos E. coli, S. cerevisiae, C. elegans, D. melanogaster y el ratón (Mus domesticus). El proyecto se convirtió en un esfuerzo de colaboración internacional entre diversos centros de secuenciación en Estados Unidos, Europa y Japón. Cada centro se focalizó en regiones particulares del genoma, que permitieran obtener un mapa. En 1994 se publicó un mapa detallado del genoma humano que incluía el mapeo de 5840 loci con una media de espaciado de 0,7 cM (1 centiMorgan = 106 bases). En 1998, el proyecto público, compitiendo ahora con la empresa Celera (propiedad de Craig Venter) adopta los secuenciadores capilares de Applied Biosystems (ABI3700). En 1999 el proyecto Genoma humano había secuenciado más de mil millones de bases y se publicó la secuencia completa de un cromosoma humano (el cromosoma 22). Para el mismo tiempo, Celera, comenzó a secuenciar el genoma humano con la estrategia de “whole genome shotgun sequencing” desarrollada por C. Venter (explicada más adelante). La secuenciación comenzó en setiembre de 1999 y en junio de 2000 se realizó un ensamblaje inicial de las secuencias obtenidas. Los datos de Celera permitieron el ensamblaje del genoma humano con una cobertura de 5X (ver Cobertura). Además se aumentó la cobertura 3X con los datos públicos. El 25 de junio de 2000, en la Casa Blanca, el
presidente Clinton junto a Francis Collins
(responsable del proyecto público, NIH) y Craig
Venter, anunciaron públicamente la versión
borrador del genoma humano realizada tanto
por el esfuerzo público como privado (Figura 7).
En febrero de 2001, se publicaron los borradores
del consorcio público y del privado en Science y
Nature (Figura 8). Finalmente en el año 2004 se
publicó la versión final del genoma humano.
Cobertura (Coverage):
La cobertura es el número promedio de
secuencias que representan a un
determinado nucleótido en la secuencia
total reconstruida. Puede ser calculada a
partir del largo original del genoma (G), el
número de secuencias (N) y el largo
promedio de las secuencias (L) como:
Cobertura = N x L/G
Ejemplo. Un genoma hipotético de 2000
bases, secuenciado con 24 secuencias de
350 bases de promedio de largo tiene
una cobertura de:
24 x (350/2000) = 4,2 X.
Este valor significa que el genoma fue
secuenciado 4,2 veces. Cuánto mayor
cobertura, menor posibilidades de
errores en la secuencia final.
Whol
El mé
clona
obten
solapa
sin em
influe
En 19
mejor
(Haem
colabo
ratón
En 20
JCVSF
trabaj
e genome Sho
todo de Who
rlo en plásmi
nidas, las secu
an (Figura 9).
mbargo Vent
enzae, 1,8Mb)
95, Venter y s
rados de sec
mophilus influ
oradores, com
).
006 se fundó
F, etc.). Se tra
jando.
ra 9. Esquemaerados al azar
otgun sequen
le Genome Sh
idos y secuen
uencias se alin
El método fu
er fue el prim
y proponerlo
su grupo decid
cuenciación
uenzae). En T
menzaron en
el J. Craig Ve
ta de una org
a de secuenciar y ensamblaj
ncing y Craig V
hotgun consis
nciar ambas h
nean y ensam
e utilizado po
mero en util
o como estrate
den utilizar nu
para realizar
IGR analizar m
tonces la sec
nter Institute
ganización líde
ación con la ee de la secuen
Méto
Figura 7. Fohumano e
Figura 8. Tlos borrad
Venter:
ste en la fragm
hebras (el pas
mblan para for
or Sanger en 1
izarlo para se
egia para secu
uevas herram
r la primer
más de 50 ge
cuenciación d
e (JCVI) por la
er en genómi
estrategia de Sncia utilizando
odos de secu
oto de lanzamn Washington
apas de revistdores del geno
mentación al a
so de clonado
rmar contigs b
1982 para ens
ecuenciar un
uenciar el gen
mientas compu
secuencia de
enomas micro
de genomas d
a unión de va
ca a nivel mu
Shotgun. Secuo procesamien
enciación de
miento de borrn (Clinton, Ven
tas Nature y Soma humano.
azar del ADN
o luego fue e
basándose en
samblar el fag
genoma de
oma humano
utacionales as
e un organis
obianos. Vent
de mayor tam
rias organizac
undial con má
uenciación de nto informátic
e ácidos nuclGonzalo
rador del genonter, Collins).
Science de 200
de todo el ge
eliminado). U
n las secuencia
go lambda (48
mayor tamañ
o.
sí como los mé
smo de vida
ter y alguno d
maño (mosca
ciones (TIGR,
ás de 400 cien
fragmentos co.
leicos.o Greif
8
oma
01 con
enoma,
na vez
as que
8,5 kb),
ño (H.
étodos
a libre
de sus
, rata,
TCAG,
ntíficos
Métodos de secuenciación de ácidos nucleicos.Gonzalo Greif
9
4. Algunos Métodos de secuenciado masivo
Pasaron cerca de 30 años desde la publicación del método de Sanger, hasta que apareciera una nueva tecnología de secuenciación de ácidos nucleicos que no fuera el método de dideoxinucleotidos terminadores. La principal característica de estas nuevas metodologías es la posibilidad de secuenciado masivo de forma paralela, esto significa que el número de secuencias obtenidas durante una corrida supera muchas veces el máximo de 96 secuencias por corrida que se obtienen con los secuenciadores capilares de última generación que utilizan el método de secuenciado de Sanger.
A partir del desarrollo del método de pirosecuenciación (primer método de secuenciado masivo utilizado, 2005), surgen nuevas alternativas de secuenciación que utilizan el mismo principio de dideoxinucleotidos terminadores en sus protocolos, aunque con mejoras innovadoras.
Estos nuevos métodos de secuenciado masivo no ofrecen lecturas tan largas como el método clásico de Sanger, aunque en pocos años se ha mejorado sustancialmente el largo de las secuencias obtenidas y en algunos casos alcanzan longitudes comparables a Sanger.
a. Pirosecuenciación:
El primer método de secuenciado masivo o “next generation sequencing” (NGS), fue publicado en 2005 en Nature, y llevado al mercado por la empresa 454 (luego adquirida por Roche). El resumen de este artículo explica: “Describimos un método escalable, un sistema de secuenciación altamente paralelizable con un rendimiento significativamente mayor que los instrumentos de electroforesis capilar. El aparato permite secuenciar 25 millones de bases, con 99% de precisión en una corrida de 4 horas” (este rendimiento es 100 veces superior a la cantidad de bases secuenciadas en ese tiempo en un secuenciador de 96 capilares).
En el primer artículo, publican la secuenciación de novo del genoma de Mycoplasma genitalium alcanzando cubrir el 96% del genoma y con una precisión de 99,96% en una corrida.
El método consiste en 4 pasos: 1. Fragmentación del ADN (o ARN). 2. Ligación de oligonucleótidos (adaptadores) en cada uno de los extremos. 3. Amplificación clonal (mediante PCR en emulsión). 4. Secuenciado por síntesis usando un protocolo de pirosecuenciación optimizado en un
soporte sólido y en escala de picolitros. Más en detalle, luego de fragmentar el ADN, se ligan oligonucléotidos adaptadores a cada extremo del ADN. Estas secuencias adaptadoras comunes a todos los fragmentos serán utilizadas, tanto para ligar cada fragmento a las esferas, como secuencias donde se unirán los cebadores de la PCR y además presenta la secuencia donde se unirá el cebador de secuenciación. Una vez ligados los adaptadores, se ligan a las beads (esferas que contienen el complementario a uno de los adaptadores en su superficie), por un método de dilución límite, de modo de obtener un único fragmento unido a una esfera. Se busca, entonces, obtener en cada bead un único fragmento de ADN, el mismo es amplificado mediante PCR en emulsión.
PCR e
La P
indep
esfer
obten
fragm
micel
react
micro
Figuracomplemulsframgecofactmiles fragme
Luegopreseplacaun bepodesecue
en emulsión
CR en emu
pendientes. U
as que cont
ner un únic
mento de AD
las de aceite
tivos necesa
oreactores d
a 10. Esquemaementarias a uión (agua‐aceitento y encontrores). (3) Luegode reacciones ento unido a un
o de finalizentaron ampa (picoTiter pead (Figura 1mos decir enciadores d
(emPCR):
ulsión perm
Una vez obte
tienen uno
o fragmento
DN) es emuls
e independi
arios para l
ónde se lleva
de la PCR enuno de los adate) de tal formramos además o se realiza unaen paralelo. (4na bead.
ada esta replificación. Lplate), tiene 11). En cada que tenem
de 96 capilare
ite realizar
enida la libre
de los adap
o por esfera
sionada en u
entes –cada
levar adela
a adelante la
n emulsión. (1aptadores que ma que en cadatodos los reaca PCR convenci4) Luego de n
eacción, se Las mismas 1,6 millonespocillo suced
mos 1,6 mies aproximad
Méto
en un úni
ería de fragm
ptadores pre
a. Luego la
una mezcla d
a uno de ello
nte la reac
a reacción de
1) Se liga a case encuentran a gota de aceitctivos necesarioonal, pero en cciclos de reacc
rompe la eson deposits de pocillos,derá una reallones de sdamente.
odos de secu
ico tubos m
mentos que s
esentes en l
población d
de agua y ac
os con una
cción‐. El re
e PCR de form
ada bead un fen la superficte encontremoos para llevar acada tubo de reción, se obtien
emulsión y tadas en la y en cada uacción de secsecuenciado
enciación de
miles de re
serán secuen
los fragmen
de esferas (
ceite, de mo
única esfera
esultado fina
ma independ
fragmento medie de las mismos una única beadelante la PCReacción se realie una amplific
se recuperaplaca de seuno de ellos cuencia, por res de 1 c
e ácidos nuclGonzalo
acciones de
nciados, se u
tos, de mod
cada una co
do tal de ob
a y con todo
al, son mile
diente (Figur
diante las secumas. (2) Se realead unida a unR (dNTPs, Polimizan simultáneacación clonal d
an las beadsecuenciaciónsólo puede elo cual en lacapilar, o 1
leicos.o Greif
10
e PCR
unen a
do de
on un
btener
os los
es de
ra 10).
uencias iza una n único merasa, amente de cada
s que . Esta entrar placa 16000
Figurade los
Reacc Este termdóndvez, incornaciepirofomediemitibase detecpirofo(Figucada En elhomola can EjemEn elobserluz emobserla ba
a 11. Pico‐Titre pocillos y ejem
ción de secu
método inadores. Ene se ofrece
secuenciaporación deente de ADosfato liberante dos pda en cada pofrecida,
cción luminoosfato durara ). Una cámbase, en cad
l caso de hoopolimero esntidad de ba
plo: primer ciclorva la emisiómitida). Luegrvan los pocse G, y luego
plate. Arriba: emplo de carga de
enciación:
no utilin este caso, en cada pocalmente. e una base DN se liberarado se coprocesos enzpocillo, dóndes monit
ométrica de nte la reacmara CCD coda ciclo y en
omopolimeros determinases incorpor
o se ofrece ón de luz (dego de obtenillos que incoo la C para t
squema de depe una placa.
za nucleóse realizan cillo una basDurante en una mola pirofosfatonvierte enzimáticos. Lde se incorpotoreada pola liberació
cción de sínlecta los datcada posició
os (tractos ddo a partir drada).
la base A, eependiendo idas las imáorporan T. Sterminar el p
Méto
posición de esfe
ótidos ciclos e por
la écula to, el n luz La luz oró la or la n del ntesis tos de ón.
de secuenciade la cantida
n todos los la cantidad dgenes, se ree vuelve a eprimer ciclo.
Figura
odos de secu
eras en los poci
a con el misad de pirofos
pocillos. En de A incorpoemueve la baliminar la ba Luego de 1
a 12. Esquema
enciación de
illos. Abajo: mic
smo nucleótsfato liberad
aquellos quorada, será lase, y se ofrease no incorp00 ciclos fin
de reacción de
e ácidos nuclGonzalo
crografía electr
tido), el largdo (proporcio
ue se incorpoa intensidadece la base Tporada y se oaliza la corri
pirosecuenciac
leicos.o Greif
11
rónica
go del onal a
ora se d de la T y se ofrece ida. El
ción
Métodos de secuenciación de ácidos nucleicos.Gonzalo Greif
12
tamaño promedio de cada lectura es de 400 bases y en una corrida se obtienen cerca de 1 millón de secuencias (es decir 400 millones de bases/10 horas de corrida).
b. Illumina:
La segunda tecnología de secuenciación masiva que salió al mercado (2006) fue la de Solexa (luego adquirida por Illumina). En esta tecnología, se utilizan nucleótidos terminadores marcados con moléculas fluorescentes al igual que en la Secuenciación de Sanger. Además de la paralelización masiva (es decir la capacidad de realizar millones de secuencias en cada corrida), la diferencia con el método convencional es la posibilidad de eliminar la fluorescencia una vez obtenida la imagen, y desbloquear carbono 3’ de modo que pueda aceptar una nueva base para continuar la reacción de secuenciación, haciendo que la incorporación de un nucleótido terminador sea reversible. En este caso, las longitudes obtenidas son menores que los secuenciadores 454 (en la actualidad hasta 150 bases), sin embargo la capacidad de realizar secuencias en paralelo es mucho mayor que en 454 (hasta 250 millones de secuencias). Como resultado es posible obtener hasta 6 x 1012 en una sola corrida. Para dimensionar este número, el genoma humano tiene aproximadamente 3 x 109 bases de largo. Al igual que el método de secuenciación de Roche, los primeros pasos consisten en la fragmentación del ADN y ligación de adaptadores. Luego hay un paso de amplificación (en este caso, la amplificación es en una superficie sólida: “flow cell”, dónde también se dará luego la reacción de secuenciación). Amplificación y Reacción de secuenciación: En el primer paso, la librería se deposita en la flow cell por complementariedad con los adaptadores (1). Luego se produce la amplificación en puente (2 y 3) en sucesivos ciclos (4,5,6,7,8) hasta obtener un cluster con la amplificación clonal del fragmento inicial (8) (Figura 13). Figura 13. Amplificación en puente. Ver descripción en el texto.
En la reacción de secuenciación, se bloquea uno de los adaptadores (1), y se comienza la reacción de secuenciación desde el otro extremo (2) mediante un cebador específico (Figura 14).
1 2 43 5 6 7 8
1 2
Figura 14. Reacción de secuenciación de Illumina. Ver descripción en el texto.
Métodos de secuenciación de ácidos nucleicos.Gonzalo Greif
13
1 2 43
Durante la reacción, a diferencia de la pirosecuenciación, se ofrecen los cuatro nucleótidos terminadores marcados cada uno con un fluorocromo diferente (1), al igual que el método de Sanger. Luego de un lavado (2), se obtienen las imágenes y se obtiene la primera base de cada cluster (3). Luego, se elimina el fluorocromo y se desbloquea el Carbono 3, permitiendo que un nuevo nucleótido pueda extender la cadena de ADN naciente (4). Otra vez los cuatro nucleótidos terminadores marcados son ofrecidos a los clusters, comenzando un nuevo ciclo (Figura 15).
Figura 15. Reacción de secuenciación de Illumina. Primer ciclo de secuenciación (1), incorporación de dideoxinucleótidos marcados (2), adquisición de imagen (3), y lavado, desbloqueo, y eliminación de marcado (4).
Los últimos modelos de Illumina permiten secuenciar en paralelo más de 3000 millones de clusters con largos desde 35 a 150 bases (www.illumina.com).
c. Otros métodos:
Desde 2005 hasta la fecha, otras tecnologías de secuenciación masiva han sido desarrolladas y
otras se encuentran en desarrollo y constituyen una nueva generación de secuenciadores
(Tabla 1). Es imposible en este capítulo el desarrollo en profundidad de cada una de ellas, por
lo tanto en la siguiente tabla se muestran otras tecnologías y las fuentes dónde obtener mayor
información de cada una de ellas.
Algunas de estas tecnologías (SMRT, Helicos) proponen la secuenciación a partir de una única
molécula de ADN en tiempo real. Una de ellas (Pacific Biosciences) en teoría no tiene límite en
cuánto al largo de las secuencias generadas y eventualmente podría secuenciar cromosomas
enteros en una única lectura (www.pacificbiosciences.com).
Otras, como Oxford nanopore e Ion Torrent (recientemente lanzada al mercado) ofrecen
novedosas soluciones y no requieren marcación fluorescente ni cámaras registradoras de
imágenes. En particular, Ion Torrent (ver recuadro J. Rothberg), se basa en el registro de los
cambios de pH producidos durante la incorporación de bases durante la síntesis de ADN. Se
trata de micropHímetros que reducen notablemente los costos de secuenciación
(www.iontorrent.com) y prometen ser herramientas útiles en el área de diagnóstico.
S
G
(H
S
Io
O
Tabla
Plata
OLiD (Applie
Genetic Ana
Helicos)
MRT (Pacific
on Torrent
Oxford Nanop
Rothberg naIngeniería BUniversidad El Dr. Rothbpágina websu hijo fuersalud. SubsDirigió la sedel Dr. WatGenome Pro La contribubacterial (e En 2007, RTorrent y de
Además es fRothberg In
Fuente: http
1. Información
forma
ed Biosystem
alysis Syste
c Biosciences
pore
ació en 1963Biomedica end de Yale.
berg es el pi (www.iontora internadosecuentemenecuenciacióntson). Ademáoject, en col
ción de RothmPCR).
othberg comesarrolla el c
fundador denstitute for C
://www.ionto
sobre otras tec
Te
m) Ligación
em true Si
Sequen
s) Single
time
Micro p
Label fr
Jonathan MFundador y
3 en New Han Carnegie M
ionero en elorrent.com), o en cuidadonte, funda 4 del primer gás inició el paboración co
hberg al sec
menzó un nuconcepto de
e otras empreChildhood Dis
orrent.com/te
cnologías de se
ecnología
n
ingle Molec
cing
Molecule R
pHímetros
ee, electrica
M. RothbergCEO de Ion T
aven, ConnecMellon Unive
desarrollo dla primera id
os intensivos454 Life Sciegenoma humprimer proyeon el Dr. Paa
uenciado ma
uevo negocisecuenciació
esas, vinculasease.
eam/jonathan
Méto
ecuenciación ma
Long
50 bas
cule 25 a 5
Real >1000
(en teo
>200 b
l ND
g, Ph.D. (19Torrent.
cticut. Se grarsity, y realiz
de tecnologídea sobre el s y se cuestioences, lanzanmano de un icto de secuebo).
asivo incluye
o, a raíz de ón con pHím
adas a la tecn
‐rothberg/
odos de secu
asiva en el mer
gitud de read
ses
5 bases
bases
oría sin límit
bases
963 ‐ )
aduó en ingezó luego su m
ías de secuesecuenciadoonara la impndo al mercndividuo (seenciado mas
e el desarrol
un comentmetros.
nología y me
enciación de
rcado o cerca de
ds Año
200
200
e)
ND
201
ND
eniería químimaestría y do
nciación mao masivo en portancia deado el primcuenciando sivo de un AD
lo del prime
ario de su h
edicina. Es ta
e ácidos nuclGonzalo
e salir.
o
7 www.ap
8 www
D www.pa
1 www
D www.
ca con opcióoctorado en
siva. Según paralelo surel genoma her secuenciaexitosamentDN antiguo (
er sistema de
hijo. Rothbe
mbién funda
leicos.o Greif
14
Web ppliedbiosystems.co
w.helicosbio.com
acificbiosciences.co
w.iontorrent.com
nanoporetech.com
ón en la
cuenta en lage luego queumano en laador masivote el genoma(Neandertha
e clonado no
rg funda Ion
ador de The
om
m
a e a o. a al
o
n
Métodos de secuenciación de ácidos nucleicos.Gonzalo Greif
15
Genoma Humano y Secuenciación masiva:
Como ya vimos antes, la secuencia del genoma humana se publicó en 2004. La secuenciación de este
genoma tuvo un costo aproximado de 3000 millones de dólares y cerca de 20 años de trabajo. En
octubre de 2007, se publica el primer genoma de un único individuo (J. Craig Venter), realizado por el
método de shotgun y secuenciación Sanger. El costo de este genoma fue aproximadamente 70 millones
de dólares y una duración de 4 años.
El primer genoma humano secuenciado con la tecnología 454 fue el del Dr. James Watson, a un costo
de 1 millón de dólares y en dos meses (2008). El costo ha continuado bajando y se han reportado la
secuenciación de un genoma humano por menos de 100.000 dólares.
Varios proyectos tienen como objetivo la secuenciación de más individuos, entre el ellos “The Cancer
Genome Atlas” y “1000 Genome project”.
Hace tan solo 10 años, 2 dedos eran suficientes para contar el número de genomas secuenciados. En
2009, alcanzaban los dedos de ambas manos. Hoy, es difícil de saberlo exactamente, pero un
relevamiento realizado por la revista Nature, indica que cerca de 30.000 genomas humanos estarán
secuenciados para finales de 2011.
d. Aplicaciones
La producción de un gran número de lecturas a bajo costo permite la aplicación de las plataformas de secuenciado masivo en muchas aplicaciones, y es imposible describir todas ellas aquí. La primera aplicación obvia es la secuenciación de genomas (ver recuadro Genoma Humano y Secuenciación masiva) y la precisa anotación de genes (sitios de splicing, poliadenliación, secuencias 5’ y 3’ UTR, etc). Dentro de las primeras aplicaciones encontramos la secuenciación de ARN (ej. descubrimiento de ARN pequeños, nuevas variantes génicas, nuevos genes, etc.) y amplicones de PCR (secuenciado de ARNr16S y su aplicación en metagenómica como veremos en el siguiente párrafo). Asimismo, la posibilidad de cuantificación de transcriptos que ofrece esta tecnología (RNA‐seq), la vuelve una alternativa a los experimentos de microarreglos. La secuenciación para identificar marcadores epigenéticos, identificar interacción ADN‐proteína, determinar estructura de cromatina (ChIP‐Seq, Methyl‐seq, DNase‐seq) son aplicaciones cada vez más utilizadas. La metagenómica es el estudio genómico de microorganismos por la extracción directa de ADN de una comunidad microbiana. La aparición de la secuenciación masiva ha facilitado a los investigadores la tarea de identificación y caracterización de diferentes microogranismos, en diferentes ambientes. En la sección de lecturas recomendadas se ofrecen revisiones bibliográficas de cada una de estas aplicaciones para que el lector profundice en ellas.
Métodos de secuenciación de ácidos nucleicos.Gonzalo Greif
16
Lecturas recomendadas: 1. Sanger F. Coulson R. A rapid method for determining sequences in DNA by primed
synthesis with DNA polymerase. J. Mol. Biol., 94, 441‐448 (1975). Método “más‐menos” de Sanger.
2. Maxam A. and Gilbert. A new method for sequencing DNA. PNAS, 74 (2), 560‐564, (1977). Articulo dónde se describe método químico de secuenciación de ácidos nucleicos.
3. Sanger, F., Nicklen, S. and Coulson, A.R. DNA sequencing with chain‐terminating inhibitors 4. PNAS, 74 (12), 5463‐5467 (1977). Artículo de Sanger dónde describe el método de
secuenciación utilizando dideoxinucleótidos. 5. Sanger, F. Determination of nucleotide sequences in DNA. Nobel lecture, 8 December
1980. 6. Venter, C. et al. The Diploid Genome Sequence of an Individual Human. PLOS Biology, 5
(10), (2007). Publicación de genoma de Craig Venter. 7. International Human Genome Consortium. Finishing the euchromatic sequence of the
human genome. Nature 431, 931–945 (2004). 8. Margulies, M. et al. Genome sequencing in microfabricated high‐density picolitre reactors.
Nature 437, 376–380 (2005). Los autores describen el desarrollo de la primer tecnología de secuenciado masivo, y realizan el ensamblaje de novo del genoma de Mycoplasma genitualium utilizando pirosecuenciación.
9. Bentley, D. R. et al. Accurate whole human genome sequencing using reversible terminator chemistry. Nature 456, 53–59 (2008). Artículo de los desarrolladores de Illumina, reportando el uso de esta tecnología para la secuenciación de un cromosoma humano.
10. Wang, Z., Gerstein, M. & Snyder, M. RNA‐Seq: a revolutionary tool for transcriptomics. Nature Rev. Genet. 10, 57–63 (2009). Review sobre uso de tecnologías de secuenciado masivo para análisis de transcriptomas (RNA‐seq).
11. Park, P. J. ChIP–seq: advantages and challenges of a maturing technology. Nature Rev. Genet. 10, 669–680 (2009). Revisión sobre ChIP‐seq.
12. Morozova, O.,Hirst, M., Marra, M. Applications of New Sequencing Technologies for Transcriptome Analysis. Annu. Rev. Genomics Hum. Genet. 10,135–51 (2009). Revisión NGS.
13. Petrosino, J. F., Highlander, S., Luna, R. A., Gibbs, R. A. & Versalovic, J. Metagenomic pyrosequencing and microbial identification. Clin. Chem. 55, 856–866 (2009). Se trata de un review sobre metagenómica.
14. Zhou, X., Ren, L., Meng, Q., Li, Y., Yu, Y., Yu, J. The next‐generation sequencing technology and application. Protein Cell, 1(6), 520–536 (2010). Revisión NGS.
15. Metzker, M.L. Sequencing technologies — the next generation. Nature Reviews Genetics 11, 31‐46 (2010). Revisión NGS.
16. Human genome: Genomes by the thousand. Nature 467, 1026‐1027 (2010). Revisión secuenciadores instalados y genomas secuenciados.
17. Zhanga, J., Chiodinic, R., Badra, A., Zhang G. The impact of next‐generation sequencing on genomics. Genet. Genomics. 38(3), 95–109 (2011). Revisión NGS.
Otros recursos interesantes: 1000 Genomes Project: http://www.1000genomes.org The Cancer Genome Atlas: http://cancergenome.nih.gov The Exome Project: http://www.nhlbi.nih.gov/resources/exome.htm Human Microbiome Project: http://nihroadmap.nih.gov/hmp Personal Genome Project: http://www.personalgenomes.org Craig Venter Institute: www.jcvi.org