Guía+Bioinformatica+2

10
Guía de Estudio Práctico BIO141c Objetivo General Explorar la relación secuenciaestructurafunción en proteínas a través de la comparación de sus estructuras mediante servidoresweb de libre acceso. Objetivos específicos 1. Utilizar el software PyMOL para la visualización de estructuras de proteínas. 2. Comparar la estructura tridimensional de proteínas mediante el servidor TopMatch. Marco teórico PDB (Protein Data Bank): una base de datos de estructura de proteínas. La base de datos PDB es el repositorio mundial de libre accesso que contiene estructuras tridimensionales de moléculas biológicas tales como proteínas y ácidos nucleicos. Aquí se pueden encontrar moléculas provenientes de organismos tan diversos como bacterias, hongos, plantas, mosca y ratón, así también como de humanos. Entender la estructura o ‘forma’ tridimensional de una molécula, ayuda a comprender como ésta funciona. Esta base de datos fue constituída en 1971 en el Laboratorio Nacional de Brookhaven, Estados Unidos, y en su inicio contenía sólo siete estructuras. En 1998, la RCSB (Research Collaboratory for Structural Bioinformatics) se hace responsable del manejo y mantención del PDB. Actualmente, el PDB crece constantemente. Actualmente 2014, existen más de 100,000 estructuras determinadas experimentalmente, las que fueron depositadas por científicos de todo el mundo. Además del número creciente de estructuras disponibles, la complejidad de las estructuras también ha aumentado, por ejemplo, hoy es posible encontrar la estructura completa de grandes máquinas macromoleculares. Asociada con cada estructura presente en el PDB, se encuentra disponible una variedad de información adicional, la que incluye detalles de secuencia, coordenadas atómicas, condiciones de cristalización, distintos datos geométricos, factores estructurales, imágenes tridimensionales y gran cantidad de enlaces a otros recursos. Todos los archivos son depositados por la comunidad científica internacional y mantenidos por el equipo del RCSB.

description

biologia

Transcript of Guía+Bioinformatica+2

Guía  de  Estudio  Práctico  BIO141c    Objetivo  General    Explorar  la  relación  secuencia-­‐estructura-­‐función  en  proteínas  a  través  de  la  comparación  de  sus  estructuras  mediante  servidores-­‐web  de  libre  acceso.    Objetivos  específicos    

1. Utilizar  el  software  PyMOL  para  la  visualización  de  estructuras  de  proteínas.  2. Comparar  la  estructura  tridimensional  de  proteínas  mediante  el  servidor  

TopMatch.    Marco  teórico    PDB  (Protein  Data  Bank):  una  base  de  datos  de  estructura  de  proteínas.       La   base   de   datos   PDB   es   el   repositorio   mundial   de   libre   accesso   que   contiene  estructuras   tridimensionales   de   moléculas   biológicas   tales   como   proteínas   y   ácidos  nucleicos.  Aquí  se  pueden  encontrar  moléculas  provenientes  de  organismos  tan  diversos  como  bacterias,  hongos,  plantas,  mosca  y  ratón,  así  también  como  de  humanos.  Entender  la  estructura  o   ‘forma’   tridimensional  de  una  molécula,   ayuda  a   comprender   como  ésta  funciona.       Esta   base   de   datos   fue   constituída   en   1971   en   el   Laboratorio   Nacional   de  Brookhaven,   Estados   Unidos,   y   en   su   inicio   contenía   sólo   siete   estructuras.   En   1998,   la  RCSB   (Research   Collaboratory   for   Structural   Bioinformatics)   se   hace   responsable   del  manejo  y  mantención  del  PDB.       Actualmente,   el   PDB   crece   constantemente.   Actualmente   2014,   existen   más   de  100,000   estructuras   determinadas   experimentalmente,   las   que   fueron   depositadas   por  científicos  de  todo  el  mundo.  Además  del  número  creciente  de  estructuras  disponibles,  la  complejidad   de   las   estructuras   también   ha   aumentado,   por   ejemplo,   hoy   es   posible  encontrar  la  estructura  completa  de  grandes  máquinas  macromoleculares.       Asociada   con   cada   estructura   presente   en   el   PDB,   se   encuentra   disponible   una  variedad   de   información   adicional,   la   que   incluye   detalles   de   secuencia,   coordenadas  atómicas,   condiciones   de   cristalización,   distintos   datos   geométricos,   factores  estructurales,   imágenes   tridimensionales   y   gran   cantidad   de   enlaces   a   otros   recursos.  Todos   los   archivos   son   depositados   por   la   comunidad   científica   internacional   y  mantenidos  por  el  equipo  del  RCSB.      

Búsqueda  de  estructuras    

Los   servicios  ofrecidos  por  PDB   incluyen  un  portal  web,  una  base  de  datos  en   la  cual  se  pueden  realizar  diversas  búsquedas,  información  resumida  de  datos  actualizados,  programas   de   código   abierto,   un   foro   de   discusión,   enlaces   de   ayuda   y   recursos  educacionales.    

Cada   día   más   de   10,000   científicos,   estudiantes   y   docentes   de   todo   el   mundo  visitan   este   portal   web.   En   promedio,   2.2   estructuras   son   descargadas   cada   segundo.  Estos   datos   son   utilizados   para   investigación   principalmente   en   biología,   medicina,  ingeniería  y  ciencias  de  la  computación.  

Figura  1:  Págna  inicial  del  portal  web  de  PDB  (ver  texto).    

Si  accedes  al  portal  web  del  PDB  (http://www.pdb.org)  aparecerá  la  página  inicial  mostrada   en   la   Figura   1.   En   la   columna   izquierda   (Figura   1A)   encontrarás   un   detallado  menú  con  información  relacionada  con  el  portal  y  enlaces  a  distintos  recursos,  tales  como  tutoriales,  programas  para  análisis  de  estructuras  moleculares,  estadística  general  acerca  de   las   distintas   estructuras   depositadas   en   la   base   de   datos,   información   acerca   de   los  distintos   formatos   de   archivo   utilizados,   etc.   Si   estás   interesado,   y   a   modo   de  introducción,   te   recomendamos   navegar   este  menú   para   que   familiarices   aún  más   con  PDB,  sus  términos  y  conceptos.  

 Este   portal   es   un   sitio   que   se   encuentra   en   constante   actualización.   Se   destaca  

especialmente   la  sección    “Molecule  of  the  Month”  (Figura  1B),  que  como  su  nombre   lo  indica,  de  todas  las  estructuras  depositadas  durante  un  mes,  se  elige  una  de  ellas,  dada  su  

A

B

D C

relevancia,   pues   por   ejemplo,   se   trata   de   una   nueva   estructura,   que   revela   una   nueva  función  o  muestra  un  mecanismo  bioquímico  que  era  desconocido.  Por  otro  lado,  también  es   posible   conocer   en   línea   el   número   de   estructuras   depositadas   en   la   base   de   datos  (Figura  1C),  el  que  va  en  aumento  día  a  día.  

 Para   realizar  búsqueda  de  estructuras  utilizaremos  el   campo  de  búsqueda   rápida  

que  se  encuentra  en  la  parte  superior  del  portal  (Figura  1D).  Alternativamente,  se  pueden  llevar  a  cabo  búsquedas  por  tópicos,  accediendo  a  la  pestaña  “Search”  de  la  columna  de  la  izquierda  (Figura  1A).  

 Haremos  una  búsqueda   simple   (investiga   cómo   se   lleva   a   cabo  una  búsqueda   avanzada  presionando  en  el  enlace  “Advanced  Search”  mostrado  en  la  Figura  1D).  Para  ello  escribe  la   palabra   “rubisco”1  y   presiona   “Site   Search”.   En   la   sección   principal   de   la   página  aparecerán  los  resultados  de  esta  búsqueda  (Figura  2).    

Figura  2.  Resultados  de  la  búsqueda  del  término  “rubisco”  (ver  texto).    

Según   los   resultados   de   nuestra   búsqueda   (Figura   2A),   el   sistema   encontró   el  término  “rubisco”  asociado  a  60  estructuras,  a  29  publicaciones  científicas  donde  se  hace  mención  a   las  60  estructuras,  a  23   ligandos,   sustratos  o  grupos  prostéticos  encontrados  

1 RUBISCO es la enzima más abundante en la naturaleza. Esta enzima se encuentra en los organismos fotosintetizadores y es la encargada de fijar el dióxido de carbono atmosférico en moléculas orgánicas.

B C D

A

junto  a  las  60  estructuras  y  a  29  páginas  web  del  portal  del  PDB  donde  aparece  el  término  “rubisco”.      

Los  resutados  mostrados  en  la  Figura  2  corresponden  al  enlace  “60  Structure  Hits”  (Figura  2A).  Por  defecto,  el  sistema  muestra  sólo  10  resultados  por  página,  por  lo  que  para  ver  las  otras  estructuras  es  necesario  ir  a  las  siguientes  páginas  (Figura  2B).    

Los   paneles   C   y   D   de   la   Figura   2,   destacan   la   primera   estructura   de   los   60  resultados   obtenidos   al   buscar   el   término   “rubisco”.   En   C   se   indica   el   Código   PDB   (o  PDB  ID)  de  la  estructura  (código  único  alfanumérico  de  cuatro  caracteres  que  identifica  a  cada   estructura   presente   en   la   base   de   datos),   que   en   este   caso   es   “1EJ7”,   y   su  representación  gráfica.  Por  otro   lado,  en  D  se  muestra   información  general  acerca  de   la  estructura.  En  este  caso,  vemos  que  la  estructura  fue  depositada  en  el  año  2000,  que  fue  resuelta   por   difracción   de   rayos-­‐X   con   una   resolución   de   2.45   Å,   que   se   trata   de   una  enzima  de  la  familia  de  las  liasas,  etc.    

En  estos  resultados  busca  la  estructura  cuyo  código  PDB  es  1RXO  y  luego  presiona  sobre   su   representación  gráfica   (la  estructura  mostrada  en  el  panel  C  de   la  Figura  2).  El  sistema  en  este  caso,  te  llevará  a  una  página  como  la  mostrada  en  la  Figura  3.    

Figura  3.  Información  detallada  acerca  de  la  estructura  cuyo  código  PDB  es  1RXO.    

En  primer  lugar  aparecen  nuevos  enlaces  en  el  menú  de  la  izquierda  (investiga  de  qué   se   tratan)(Figura  3A)   y  el   sistema  nos  muestra  más  detalles  acerca  de   la  estructura  elegida.  Por  defecto,   la   información  mostrada  es   la  correspondiente  al  enlace  “Structure  

A

C

B

Summary”  del  panel  B  de  la  Figura  3.  Averigua  y  explora  el  tipo  de  información  mostrada  en  esta   sección   (si  no  conoces  algunos   términos  dirígete  al  enlace  de  ayuda  “Help”  a   la  izquierda   del   panel   B   de   la   Figura   3   o   simplemente   búscalos   en   Google).   En   la   sección  “Biology  &  Chemistry”  encontrarás  detalles  como  la  fórmula  química  de  la  estructura,  su  peso,   los   ligandos   involucrados,   etc.;   en   “Material   &   Methods”   se   muestran   las  condiciones   experimentales   y   parámetros   utilizados   para   la   obtención   de   la   estructura,  por  ejemplo,  vemos  que  se  trabajó  a  pH  7.8  y  0.2  M  NaCl;  en  la  sección  “Sequence  Details”  encontrarás   información   a   nivel   de   secuencia.   Para   el   caso   de   esta   estructura   (1RXO)  vemos   que   la   unidad   dimérica   básica   (repetida   4   veces   en   total)   de   esta   proteína   está  representada  por   las  cadenas  L  y  S;   la  cadena  L  tiene  475  residuos,  dos  dominios,  23  α–hélices  y  20  hojas-­‐β;  mientras  que  la  cadena  S  posee  123  residuos,   los  cuales  forman  un  sólo   dominio   que   tiene   2   α–hélices   y   6   hojas-­‐β.   En   “Geometry”   encontrarás   datos  estadísticos   acerca  de   las   longitudes  de  enlace,   ángulos  de  enlace   y   ángulos  de   torsión,  por   ejemplo,   vemos   que   el   número   de   enlaces   Cα-­‐Cβ   en   la   cadena   L   es   284   con   una  longitud  de  enlace  promedio  de  1.54  Å.    

El  panel  C  de  la  Figura  3  contiene  dos  íconos:  el  de  la  izquierda  permite  descargar  un   archivo   de   texto   en   formato   especial   (llamado   “archivo   PDB”)   que   contiene  información   sobre   la   estructura   respectiva   y   las   coordenadas   tridimensionales   de   cada  átomo  que   la   compone;  al  presionar  el   ícono  de   la  derecha   se  muestra  el   contenido  de  este   archivo   en  una   ventana  nueva  del   navegador.   Si   no   te   has   dado   cuenta,   estos   dos  íconos   también   se   encuentran   en   los   resultados  mostrados   en   la   Figura   2.   Descarga   el  archivo  PDB  presionando  el  ícono  de  la  izquierda  del  panel  C,  guárdalo  en  tu  computador,  ábrelo  y  explóralo  con  algún  editor  de  texto  (por  ejemplo,  el  block  de  notas  o  notepad)  y  confróntalo  con  la  sección  que  sigue  a  continuación.    Software  de  visualización  molecular  (PyMOL)    

Una  herramienta  muy  útil  y  necesaria  para  trabajar  en  el  análisis  de  estructuras  de  proteínas   corresponde  a   los  programas  de  visualización  molecular.   En   términos   simples,  estos  programas  leen  un  archivo  de  datos  (usualmente  en  formato  de  texto  como  el  PDB)  donde   se   almacenan   las   coordenadas   atómicas   de   los   átomos   que   conforman   una  biomolécula.   Estos   programas  no   sólo   se  utilizan  para   ver   y   trabajar   con  estructuras   de  proteínas,  sino  que  también  son  utilizados  para  ver  otro  tipo  de  biomoléculas  como  ácidos  nucleicos  o  combinaciones  de  ambas  (complejos  proteína-­‐ADN).      

Nos  enfocaremos  en  una  herramienta  de  visualización  llamada  PyMOL,  puesto  que  es   ampliamente   utilizada   y   además   existe   en   versiones   gratuitas   para   uso   libre.  Adicionalmente   se   caracteriza  porque  es  una  herramienta  altamente   configurable   y   con  una  calidad  de  representación  bastante  alta.  De  hecho,  PyMOL  puede  generar   imágenes  de   alta   calidad,   como   las   que   se   requieren   normalmente   en   la   publicación   de   artículos  científicos.    

Para  continuar  con  el  aprendizaje  de  PyMOL,    descarga  los  siguientes  videos  disponibles  en:    http://protein.bio.puc.cl/cardex/bio141c/Tutorial-­‐PyMOL-­‐Parte1.mp4  http://protein.bio.puc.cl/cardex/bio141c/Tutorial-­‐PyMOL-­‐Parte2.mp4    La  relación  secuencia-­‐estructura  en  proteínas    

En   el   año   1986   un   experimento   bioinformático   realizado   por   Chothia   y   Lesk,  permitió  dar  con  un  principio  clave  en   lo  referente  a   la  relación  secuencia/estructura  en  proteínas.  Ellos  pudieron  demostrar  que  la  estructura  de  una  proteína  es  más  conservada  que   su   secuencia.   Lo   anterior   quiere   decir   que   es   posible   encontrar   pares   de   proteínas  cuyas  secuencias  sean  altamente  divergentes  (porcentaje  de  identidad  menor  a  30%),  sin  embargo  su  estructura  está  altamente  conservada.      

Para  demostrar  este  principio  Chothia  y  Lesk  utilizaron  una  herramienta  muy  útil  en  bioinformática  llamada  alineamiento  estructural.      

A   continuación   revisaremos   algunos   conceptos   básicos   sobre   alineamientos  estructurales,  así  como  la  utilización  de  una  herramienta  particular  para  la  construcción  de  estos  alineamientos  (TopMatch).  

 Conforme  se  fueron  depositando  más  estructuras  en  la  base  de  datos  del  PDB,  fue  

necesario  diseñar  métodos  que  permitieran  comparar  geométricamente  estas  moléculas,  pues   pronto   se   hizo   evidente   que   la   organización   tridimensional   contenía   información  relevante   que   podía   ser   interpretada   a   nivel   bioquímico   en   relación   a   la   función   que  puede  cumplir  una  proteína,  así  como  en  términos  de  sus  relaciones  evolutivas.    Definición  de  un  alineamiento  estructural.       Un   alineamiento   estructural   viene   a   resolver   el   problema   de   comparar   a   nivel  estructural  dos  proteínas  cuya  organización  tridimensional  es  conocida  de  manera  previa  por  métodos  experimentales  (cristalografía  de  rayos  X  o  resonancia  nuclear  magnética).  El  propósito  de  todo  alineamiento  estructural  es  identificar  los  residuos  de  una  proteína  que  tienen   un   rol   estructural   equivalente   en   ambas   estructuras,   que   se   enuncia   como  aminoácidos  estructuralmente  equivalentes  (Hendrickson,  1979).        

Los   alineamientos   estructurales   son   especialmente   útiles   cuando   se   quiere  explorar   proteínas   que   se   encuentran   distantemente   relacionadas   en   término   de   sus  secuencias.  Una   forma  de  mejorar   la  calidad  del  alineamiento  de  secuencias  es  emplear  un   alineamiento   estructural,   obtenido   a   partir   de   la   previa   superposición   óptima   de  estructuras.  La  razón  por   la  que  estos  alineamientos  son  más  exactos  es  un  efecto  de   la  conservación   de   aminoácidos   importantes   para   la   estabilidad   termodinámica,  plegamiento  y  función  de  la  proteína.  

 Los   alineamientos   de   secuencias   principalmente   consideran   la   optimización   de  

identidades  de  aminoácidos  sin  considerar  la  información  estructural.  Esto  puede  generar  resultados  que  cuando  se  examinan  en  la  perspectiva  estructural,  carecen  de  todo  sentido  (Figura  4).  Si  se  trata  entonces  de  determinar  qué  aminoácidos  cumplen  el  mismo  rol  en  ambas  estructuras,  desde  luego  hay  que  considerar  su  ubicación  espacial.  En  este  sentido  el  ejemplo  mostrado  en  la  Figura  4  es  categórico.  Aquí,  se  comparan  los  resultados  de  una  alineamiento  de  secuencias  y  uno  de  estructuras.  Ambos  alineamientos  son  graficados  en  la  forma  de  una  superposición  estructural  y  de  un  alineamiento  de  secuencias.  En  el  caso  del  alineamiento  de  secuencia,  que  optimiza  una  función  que  es  dependiente  del  tipo  de  aminoácido,   se  obtienen  pobres   relaciones  estructurales.  En  efecto,  en  este  ejemplo   los  segmentos  alineados  tampoco  son  similares  en  su  composición  de  estructura  secundaria.  Por   otra   parte,   incorporar   la   información   estructural   (i.e.   alineamiento   estructural),  permite   identificar   no   sólo   la   real   relación   entre   las   estructuras   comparadas,   sino   que  además  se  puede  incrementar  la  relación  ruido-­‐señal  en  alineamientos  de  secuencia.      

Este   tipo   de   ejemplo   es   típico   de   proteínas   que   tienen   bajos   porcentajes   de  identidad   de   secuencia   entre   ellas,   donde   se   sabe   que   los  métodos   basados   en   el   uso  exclusivo   de   esta   información   generan   alineamientos   defectuosos   (Pei,   2008).   Sin  embargo,   es   posible   utilizar   la   información   estructural   para   generar   alineamientos   de  mejor  calidad  en  proteínas  distantemente  relacionadas  (i.e.  alineamientos  estructurales).  Es   interesante  considerar  que  el  proceso  de  construcción  de  alineamientos  estructurales  en  algunos  algoritmos  no  considera  el  tipo  de  aminoácido  que  se  está  alineando,  sino  que  se  basan  de  manera  exclusiva  en  el  uso  de  la  información  de  coordenadas  atómicas  (Ortiz  et  al.,  2002).  

                   

   Figura  4.    Comparación  entre  un  alineamiento  de  secuencias  y  un  alineamiento  estructural  y  los  efectos  observados  cuando  se  realizan  sobre  proteínas  distantemente  relacionadas.  En  la  figura  se  compara  el  alineamiento  de  secuencias  con  el  alineamiento  estructural.   Se  estudia  un  par  de  proteínas   distantemente   relacionadas   a   nivel   de   sus   secuencias.   Las   proteínas   se   encuentran  coloreadas   en   azul   (polimerasa   Dpo4,   código   PDB   2iwm)   y   verde   (polimerasa   iota,   código   PDB  2wtf)  tanto  en  la  estructura  como  en  sus  secuencias.  En  el  panel  A,  se  muestra  la  construcción  de  alineamiento  de  secuencias  (base  de  la  figura)  y  cómo  queda  representado  éste  desde  el  punto  de  vista  estructural.  En  el  alineamiento  de  secuencias  se  destacaron  en  rojo  para  la  secuencia  azul  y  en   naranjo   para   la   estructura   verde,   los   aminoácidos   alineados   según   un   algoritmo   de  alineamiento   de   secuencias.   Esos   mismos   aminoácidos   fueron   utilizados   para   generar   una  superposición  óptima  de  ambas  estructuras  que    se  encuentran  representadas  en  la  modalidad  de  cartoons   (el  mismo   código   de   colores   utilizado   en   la   secuencia   se   aplica   acá).  En   el   panel   B,   se  muestra  una  un  alineamiento  estructural  del  mismo  par  de  proteínas.  La  superposición  óptima  las  estructuras   se   encuentran   en   color   azul   y   verde,   y   los   aminoácidos   identificados   como  estructuralmente  equivalentes   según  el   algoritmo  de  alineamiento  estructural   se  encuentran  en  rojo  para  la  estructura  azul  y  naranjo  para  la  estructura  verde.  Posteriormente  dicho  alineamiento  estructural   se   representó  en   la   forma  de  un  alineamiento  de   secuencias.   Los   códigos  de  colores  que  se  aplican  son  los  mismos  que  los  descritos  anteriormente.    Ingresando  a  TopMatch       A   continuación   revisaremos   de   manera   breve   el   uso   de   TopMatch   para   la  obtención  de  alineamientos  estructurales.  Este   software  desarrollado  por  Manfred  Sippl  en  la  Universidad  de  Salzburgo  en  Austria,  tiene  la  ventaja  de  ser  sencillo  de  utilizar  pues  existe  una  versión  disponible  en  formato  web.  Además  TopMatch  ha  demostrado  producir  alineamientos  estructurales  de  alta  calidad  cuando  ha  sido  comparado  contra  diferentes  estándares  de  comparación  en  alineamientos  estructurales.       En   primer   lugar   accederemos   a   la   web   de   TopMatch   en   la   dirección   web  https://topmatch.services.came.sbg.ac.at.   Este   sitio   requiere   tener   un   plugin   de   Java  instalado  en  el   computador.  Una  vez  que  accedamos,  podremos  ver   la  pantalla  general,  que  describiremos:  

 

 Figura  5.  Pantalla  de  inicio  de  TopMatch    

En   la   figura   5   tenemos   una   vista   de   la   pantalla   de   inicio   de   TopMatch.   Todo  alineamiento  estructural  requiere  una  proteína  que  denominaremos  Query  y  una  segunda  llamada  Target.  En  los  cuadros  1  y  2  se  debe  ingresar  un  código  que  representa  a  la  Query  y   Target   respectivamente.   El   código   deriva   de   un   código   PDB,   que   es   un   identificados  alfanumérico   para   referenciar   a   alguna   estructura   de   proteína   en   la   base   de   datos   del  PDB.   Ejemplos   de   cómo   de   escriben   estos   códigos   y   que   significan   se   muestran   en   la  siguiente  tabla:    Código   Significado  1bl0   Toma  como  query  o  target  a  la  estructura  

1bl0  completa  con  todas  sus  cadenas  1bl0,A   Toma  como  query  o  target  a  la  cadena  A  de  

la  estructura  1bl0  1bl0,A(10:25)   Toma  como  query  o  target  a  los  residuos  10  

a  25  de  la  cadena  A  de  la  estructura  1bl0  1bl0,A(10:25)A(60:80)   Toma  como  query  o  target  a  los  residuos  10  

a  25  y  60  a  80  de  la  cadena  A  de  la  estructura  1bl0  

 Esto  es  muy  importante,  pues  TopMatch  nos  permite  alinear:  varias  cadenas  de  

proteínas  de  forma  simultánea,  cadenas  completas  y  fragmentos  de  esas  cadenas.  

   Construcción  de  un  alineamiento  estructural  con  TopMatch    

Tomaremos   un   ejemplo   para   ver   como   se   realiza   e   interpreta   un   alineamiento  estructural   en   TopMatch.   Para   ello   revisa   el   video  disponible   en   la   página  web.   En  este  video   revisaremos   paso   a   paso   la   construcción   de   un   alineamiento   estructural   y   se  explorarán  algunas  opciones  y  detalles  con  respecto  a  TopMatch.  Es  muy  importante  que  lo  revisen,  pues  es  parte  del  estudio.  

 Conceptos  claves    

1. Pares  de  aminoácidos  estructuralmente  equivalentes:  son  aminoácidos  que  cumplen  el  mismo  rol  estructural  en  un  par  de  proteínas  distintas.    

2. Aminoácidos  alineados  estructuralmente:  son  aminoácidos  estructuralmente  equivalentes  que  han  sido  superpuestos  óptimamente.  En  TopMatch  se  representan  en  color  naranjo  en  la  estructura  query  y  en  rojo  en  la  estructura  target.  La  totalidad  de  los  aminoácidos  alineados  estructuralmente  dará  origen  a  un  alineamiento  estructural.  

3. Superposición  óptima:  es  el  proceso  mediante  el  cual  una  estructura  proteica  se  acomoda  sobre  otra  buscando  maximizar  el  número  de  aminoácidos  estructuralmente  equivalentes.  Permite  evaluar  la  similitud  de  dos  estructuras  proteícas.  

4. Alineamiento  de  secuencias,  derivado  de  la  estructura:  es  la  representación  del  alineamiento  estructural  utilizando  la  secuencia  de  aminoácidos  de  ambas  proteínas  (esto  es,  es  una  representación  1D  de  la  similitud  3D  de  un  par  de  proteínas).  La  información  que  se  observa  ahí  se  obtiene  a  partir  de  todos  los  aminoácidos  alineados  estructuralmente  y,  no  maximiza  el  número  de  “identidades”.    

 A  continuación  revisa  un  ejemplo  interactivo  de  cómo  funciona  TopMatch,  visita  el  

siguiente  link  para  ver  el  video:    http://protein.bio.puc.cl/cardex/bio141c/TopMatch-­‐Example-­‐480p.mp4    

En  este  ejemplo  trabajarás  con  dos  códigos  de  proteínas  1HUO  que  corresponde  a  una  polimerasa  de  ADN  de  la  familia  X,  y  1XSL  que  correponde  a  una  polimerasa  de  ADN  de  la  familia  Y.    Códigos  de  ejemplo:    Query:  1huo,A(152:262)  Target:  1xsl,A(386:494)