1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad...

91
1 Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural Bioinformatics

Transcript of 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad...

Page 1: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

1 Fernán Agüero

2007

Fernán AgüeroInstituto de Investigaciones BiotecnológicasUniversidad Nacional de General San Martín

Protein sequence analysisStructural Bioinformatics

Page 2: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

2 Fernán Agüero

El flujo de información en biología

> DNAAATTCATGAAAATCGTATACTGGTCTGGTACCGGCAACACTGAGAAAATGGCAGAGCTCATCGCTAAAGGTATCATCGAATCTGGTAAAGACGTCAACACCATCAACGTGTCTGACGTTAACATCGATGAACTGCTGAACGAAGATATCCTGATCCTGGGTTGCTCTGCCATGGGCGATGAAGTTCTCGAGGAAAGCGAATTTGAACCGTTCATCGAAGAGATCTCTACCAAAATCTCTGGTAAGAAGGTTGCGCTGTTCGGTTCTTACGGTTGGGGCGACGGTAAGTGGATGCGTGACTTCGAAGAACGTATGAACGGCTACGGTTGCGTTGTTGTTGAGACCCCGCTGATCGTTCAGAACGAGCCGGACGAAGCTGAGCAGGACTGCATCGAATTTGGTAAGAAGATCGCGAACATCTAGTAGA

> ProteinaMKIVYWSGTGNTEKMAELIAKGIIESGKDVNTINVSDVNIDELLNEDILILGCSAMGDEVLEESEFEPFIEEISTKISGKKVALFGSYGWGDGKWMRDFEERMNGYGCVVVETPLIVQNEPDEAEQDCIEFGKKIANI

Gen Función

Page 3: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

3 Fernán Agüero

Conformación proteica

• Christian AnfinsenEstudios sobre desnaturalización reversible: “la secuencia determina la conformación”

• Las chaperonas y las enzimas intercambiadoras de disulfuros están involucrados pero no controlan el estado final.

• A partir de una secuencia proteica recién determinada, que se puede decir acerca de su conformación? Se puede predecir la estructura por métodos computacionales?

• Respuesta: predicción ab initio (no muy confiable!!!)

Page 4: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

4 Fernán Agüero

Protein sequence analysis

HomologySearches

ProfileAnalysis

Comparative Methods

PhysicalProperties

StructuralProperties

Predictive Methods

Protein Sequence

• Ancestro común?• Función conservada?• Dominio o secuencia completa?

Page 5: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

5 Fernán Agüero

BLAST

• Identifica high-scoring segment pairs (HSPs)– Un par de secuencias que pueden ser alineados sin

gaps– Cuando están alineadas tienen un score agregado

máximo (no puede ser mejorado por extensión o por recorte del alineamiento)

– El score debe estar por arriba de un determinado valor (threshold) S.

– gapped (2.0) o ungapped (1.4)

• Modos de uso (interfases disponibles)– WWW search form

http://www.ncbi.nlm.nih.gov/BLAST– Unix command line

blastall -p progname -d db -i query > outfile

Page 6: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

6 Fernán Agüero

Algoritmos BLAST

Program Query Sequence Target Sequence

BLASTN Nucleotide Nucleotide

BLASTP Protein Protein

BLASTX Nucleotide, Proteinsix-frame translation

TBLASTN Protein Nucleotide,six-frame translation

TBLASTX Nucleotide, Nucleotide,six-frame translation six-frame translation

Page 7: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

7 Fernán Agüero

Palabras cercanas (neighborhood words)

Query Word (Query Word (WW = 3) = 3)

Neighborhood Score Neighborhood Score ThresholdThreshold((TT = 13) = 13)

Query: GSQSLAALLNKCKTPQGQRLVNQWIKQPLMDKNRIEERLNLVEAFVED

PQG 18PEG 15PRG 14PKG 14PNG 13PDG 13PHG 13PMG 13PSG 13PQA 12PQN 12etc.

NeighborhoodNeighborhoodWordsWords

Page 8: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

8 Fernán Agüero

High-scoring segment pairs (HSPs)

Query: 325 SLAALLNKCKTPQGQRLVNQWIKQPLMDKNRIEERLNLVEA 365 +LA++L TP G R++ +W+ P+ D + ER + ASbjct: 290 TLASVLDCTVTPMGSRMLKRWLHMPVRDTRVLLERQQTIGA 330

PQG 18PEG 15PRG 14PKG 14PNG 13PDG 13PHG 13PMG 13PSG 13PQA 12PQN 12etc.

Page 9: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

9 Fernán Agüero

Requerimientos de una búsqueda de BLAST

• Una secuencia query, en formato FASTA.

• Qué programa de BLAST usar.

• Qué base de datos buscar.

• Parámetros de la búsqueda.

Page 10: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

10 Fernán Agüero

Secuencia query

>N-terminal unknown proteinMSSAAAAAAGAAGGGALFQPQSVSTANSSSSNNNNSSTPAALATHSPTSNSPVSGASSASSLLTAAFGNLFGGSSAKMLNELFGRQMKQAQDATSGLPQSLDNAMLAAAMETATSAELLIGSLNSTSKLLQQQHNNN...

BLASTP / SWISSPROT / BLOSUM62

Un E bajo implica un HSP más significativo – pero siempre hay que mirar los alineamientos!!!

Score ESequences producing significant alignments: (bits) Value

sp|P29617|PRO_DROME PROTEIN PROSPERO 948 0.0sp|P34522|HM26_CAEEL HOMEOBOX PROTEIN CEH-26 242 4e-63sp|P48437|PRX1_MOUSE HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 214 7e-55sp|Q92786|PRX1_HUMAN HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 214 7e-55sp|Q91018|PRX1_CHICK HOMEOBOX PROSPERO-LIKE PROTEIN PROX1 (PROX 1) 213 2e-54sp|P25440|RNG3_HUMAN RING3 PROTEIN (KIAA9001) 35 0.79sp|P31000|VIME_RAT VIMENTIN 34 1.4sp|P48670|VIME_CRIGR VIMENTIN 34 1.4

Page 11: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

11 Fernán Agüero

Requerimientos BLAST

• Una secuencia query, en formato FASTA. • Qué programa de BLAST usar. • Qué base de datos buscar.• Parámetros de la búsqueda.

Extension

Cum

ulat

ive

Sco

re

T

S

X

E = kNe-S

Número de HSPs

hallados por puro

azar

HSP

Intenta extender el HSP, siempre que la caída del score sea menos que X (bits). Si lo logra, se repite con el próximo pico.

X

Page 12: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

12 Fernán Agüero

Matrices de scoring

• Esquema empírico de ponderación (weighting) que intenta representar conocimiento biológico (estructural/funcional) – Cys : puentes disulfuro o unión a metales: estabilizan la

estructura. – Pro : relativamente voluminoso y sin grupo N-H para

cadenas laterales: ocurre en codos (turns). – Trp: cadena lateral voluminosa. – Lys/Arg: cadenas laterales cargadas positivamente.– Gly: no tiene cadena lateral. Permite rotar a la cadena

porlipeptídica: ocurre en codos (turns). – Ala: sinpropiedades particulaes. Cadena lateral pequeña:

ocurre frecuentemente en alpha-hélices. – Glu/Asp: frecuentes al comienzo de alpha-hélices.– Lys/Arg: frecuentes hacia el final de alpha-hélices.

Page 13: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

13 Fernán Agüero

Matrices de scoring: importancia

•Es importante comprender las matrices de scoring

• Aparecen (y son la base) de todos los análisis que involucran

comparación de secuencias.

• Representan en forma implícita una teoría particular de la

evolución.

• La elección de la matriz puede influenciar fuertemente los

resultados que se obtengan.

Page 14: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

14 Fernán Agüero

Estructura de una matriz

A R N D C Q E G H I L K M F P S T W Y V B Z X *A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4* -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1

Page 15: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

15 Fernán Agüero

Hay tantas matrices ...

• Triple-PAM (Altschul, 1991)– PAM 40 Alineamientos cortos, alta

similitud– PAM 120– PAM 250 Alineamientos largos, baja similitud

• BLOSUM 62 (Henikoff, 1993)– La más efectiva para detectar miembros de una

familia de proteínas. (BLAST default).

• No hay una matriz que sea la respuesta completa para todas las comparaciones!!!

Page 16: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

16 Fernán Agüero

Matrices PAM

• Margaret Dayhoff, 1978

• Point Accepted Mutation (PAM)– Se observan los patrones de sustituciones en

proteínas relacionadas. – La nueva cadena lateral debe funcionar en forma

similar a la anterior (aceptación)– En promedio 1 PAM, corresponde al cambio de 1

amino ácido cada 100 residuos. – 1 PAM ~ 1% divergencia– Se extrapola para predecir patterns de mutación a

mayores distancias.

Page 17: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

17 Fernán Agüero

Matrices PAM (cont.)

• Suposiciones– Una mutación es independiente de los residuos que la

rodean.– Las secuencias comparadas son de una composición

promedio.– Todos los sitios son igualmente reemplazables.

• Fuentes de error– Para derivar las matrices se utilizaron proteínas

pequeñas, globulares (desvío de la composición promedio).

– Los errores en PAM 1 son aumentados al extrapolar hasta PAM 250

– No considera, ni es flexible para considerar bloques conservados o dominios.

Page 18: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

18 Fernán Agüero

Matrices BLOSUM

• Henikoff and Henikoff, 1992

• Blocks Substitution Matrix (BLOSUM)– Considera sólo diferencias en regiones conservadas,

libres de gaps, de una familia proteica.

– Más sensible a sustituciones estructurales o

funcionales.

– BLOSUM n

• Contribución de secuencias > n% idénticas pesan 1.

• Reduce la contribución de secuencias muy similares.

• Incrementar n ~ incrementar la distancia PAM.

Page 19: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

19 Fernán Agüero

Protein sequence analysis

HomologySearches

ProfileAnalysis

Comparative Methods

PhysicalProperties

StructuralProperties

Predictive Methods

Protein Sequence

• Ancestro común?• Función conservada?• Dominio o secuencia completa?

Page 20: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

20 Fernán Agüero

Profiles

• Representación númerica de un alineamiento múltiple.

• Depende de patrones (patterns) o motivos (motifs)

que contengan residuos conservados.

• Representan las características comunes de una

familia de proteínas.

• Permite identificar similitud entre secuencias con

poca o ninguna identidad.

• Permite incorporar al análisis secuencias

relacionadas en forma distante.

Page 21: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

21 Fernán Agüero

Construcción de profiles

Cons A B C D E F G H I K L M N P Q R S T V W Y Z G 17 18 0 19 14 -22 31 0 -9 12 -15 -5 15 10 9 6 18 14 1 -15 -22 11 P 18 0 13 0 0 -12 13 0 8 -3 -3 -1 -2 23 2 -2 12 11 17 -31 -8 1 H 5 24 -12 29 25 -20 8 32 -9 9 -10 -9 22 7 30 10 0 4 -8 -20 -7 27 I -1 -12 6 -13 -11 33 -12 -13 63 -11 40 29 -15 -9 -14 -15 -6 7 50 -17 8 -11 V 3 -11 1 -11 -9 22 -3 -11 46 -9 37 30 -13 -3 -9 -13 -6 6 50 -19 2 -8 V 5 -9 9 -9 -9 19 -1 -13 57 -9 35 26 -13 -2 -11 -13 -4 9 58 -29 0 -9 A 54 15 12 20 17 -24 44 -6 -4 -1 -11 -5 12 19 9 -13 21 19 9 -39 -20 10 T 40 20 20 20 20 -30 40 -10 20 20 -10 0 20 30 -10 -10 30 150 20 -60 -30 10 P 31 6 7 6 6 -41 19 11 -9 6 -16 -11 0 89 17 17 24 22 9 -50 -48 12 G 70 60 20 70 50 -60 150 -20 -30 -10 -50 -30 40 30 20 -30 60 40 20 -100 -70 30

APHIIVATPGGCEIVIATPGGVEICIATPGGVDILIGTTGRPHIIVATPGKPHIIIATPGKVQLIIATPGRPDIVIATPGAPHIIVGTPGAPHIIVGTPGGCHVVIATPGNQDIVVATTG

• Qué residuos aparecen en cada posición?• Cuál es la frecuencia de los residuos observados?• Qué posiciones están conservadas? • Dónde pueden introducirse gaps?

Position-Specific Scoring Table

Page 22: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

22 Fernán Agüero

ProfileScan

• Compara una secuencia contra una colección de profiles.

• Bases de datos disponibles– PROSITE 17.39 1609 entries– Pfam 8.0 5193 entries

• http://expasy.org/prosite

Page 23: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

23 Fernán Agüero

Query ProfileScan

Selecciono TODAS las bases de datosSólo matches significativos

E-value

>C-terminal endMALLQISEPGLSAAPHQRRLAAGIDLGTTNSLVATVRSGQAETLADHEGRHLLPSVVHYQQQGHSVGYDARTNAALDTANTISSVKRLMGRSLADIQQRYPHLPYQFQASENGLPMIETAAGLLNPVRVSADILKALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAAIAYGLDSGQEGVIAVYDLGGGTFDISILRLSRGVFEVLATGGDSALGGDDFDHLLADYIREQAGIPDRSDNRVQRELLDAAIAAKIA...

normalized raw from - to Profile|Description219.3535 27400 pos. 21 - 600 PF00012|HSP70 Heat shock hsp70 proteins

NScore SwissProt 7.0 1.8000 8.0 0.1800 9.0 0.0180 10.0 0.0018

219.4 3e-211

[IV]-D-L-G-T-[ST]-x-[SC]

[LIVMF]-[LIVMFY]-[DN]-[LIVMFS]-G-[GSH]-[GS]-[AST]-x(3)-[ST]-[LIVM]-[LIVMFC]

[LIVM]-x-[LIVMF]-x-G-G-x-[ST]-x-[LIVM]-P-x-[LIVM]-x-[DEQKRSTA]

Signatures

Page 24: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

24 Fernán Agüero

BLOCKS

• Steve Henikoff, Fred Hutchinson Cancer Research Center, Seattle

• Alineamientos múltiples de regiones conservadas en familias de proteínas. – 1 “block” = 1 alineamiento corto, sin gaps– Cada familia puede definirse por uno o más ‘blocks’– Las búsquedas permiten detectar uno o más blocks

representantes de una familia.

• Interfases disponibles– E-Mail [email protected]– Web http://blocks.fhcrc.org/

Page 25: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

25 Fernán Agüero

Query BLOCKS

ID HSP70_1; BLOCKAC BL00297A; distance from previous block=(94,187)DE Heat shock hsp70 proteins family proteins.BL PRR motif; width=55; seqs=111; 99.5%=2947; strength=1607

>C-terminal endMALLQISEPGLSAAPHQRRLAAGIDLGTTNSLVATVRSGQAETLADHEGRHLLPSVVHYQQQGHSVGYDARTNAALDTANTISSVKRLMGRSLADIQQRYPHLPYQFQASENGLPMIETAAGLLNPVRVSADILKALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAAIAYGLDSGQEGVIAVYDLGGGTFDISILRLSRGVFEVLATGGDSALGGDDFDHLLADYIREQAGIPDRSDNRVQRELLDAAIAAKIA...

BL00297A HSCA_ECOLI 136 ALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAA |||||||||||||||||||||||||||||||||||||||||||||||||||||||C-terminal 136 ALAARATEALAGELDGVVITVPAYFDDAQRQGTKDAARLAGLHVLRLLNEPTAAA

Search blocks

Examine blocks

Page 26: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

26 Fernán Agüero

BLOCKS entry

ID HSP70_1; BLOCKAC BL00297A; distance from previous block=(94,187)DE Heat shock hsp70 proteins family proteins.BL PRR motif; width=55; seqs=111; 99.5%=2947; strength=1607HS70_CHLRE ( 129) KETAQASLGADREVKKAVVTVPAYFNDSQRQATKDAGMIAGLEVLRIINEPTAAA 19

HS7L_SBYV ( 132) ALISTASEAFKCQCTGVICSVPANYNCLQRSFTESCVNLSGYPCVYMVNEPSAAA 75

HS7R_HUMAN ( 124) KLKETAESVLKKPVVDCVVSVPCFYTDAERRSVMDATQIAGLNCLRLMNETTAVA 45

HS7T_MOUSE ( 126) TKMKETAEVFWAPMSQRVITVPAYFNDSQRQATKDAGVIAGLNVLRIINEPTAVA 28

YKH3_YEAST ( 160) SLLKDRDARTEDFVNKMSFTIPDFFDQHQRKALLDASSITTGIEETYLVSEGMSV 100

DNAK_BACSU ( 95) HLKSYAESYLGETVSKAVITVPAYFNDAERQATKDAGKIAGLEVERIINEPTAAA 7DNAK_BORBU ( 122) KMKETAEAYLGEKVTEAVITVPAYFNDAQRQATKDAGKIAGLEVKRIVNEPTAAA 3DNAK_BRUOV ( 122) KMKETAESYLGETVTQAVITVPAYFNDAQRQATKDAGKIAGLEVLRIINEPTAAA 3DNAK_BURCE ( 123) KMKKTAEDYLGEPVTEAVITVPAYFNDSQRQATKDAGRIAGLEVKRIINEPTAAA 3DNAK_CAUCR ( 122) KMKEAAEAHLGEPVTKAVITVPAYFNDAQRQATKDAGKIAGLEVLRIINEPTAAA 5DNAK_CHLPN ( 125) KMKETAEAYLGETVTEAVITVPAYFNDSQRASTKDAGRIAGLDVKRIIPEPTAAA 10DNAK_CLOPE ( 98) KLKADAEAYLGEKVTEAVITVPAYFNDAERQATKDAGRIAGLDVKTIINEPTAAS 8DNAK_CRYPH ( 122) KLVDDASKYLGESVKQAVITVPAYFNDSQRQATKDAGRIAGLEVLRIINEPTAAS 5DNAK_ECOLI ( 121) KMKKTAEDYLGEPVTEAVITVPAYFNDAQRQATKDAGRIAGLEVKRIINEPTAAA 3DNAK_ERYRH ( 96) YMKSYAEDYLGEKVTKAVITVPAYFNDAQRQATKDAGKIAGLEVERIINEPTAAA 5DNAK_HAEIN ( 120) KMKKTAEDFLGESVTEAVITVPAYFNDAQRQATIDAGKIAGLDVKRIINEPTAAA 6

.

.

.

Page 27: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

27 Fernán Agüero

BLOCK Maker

>Histone chk-H5 family6 sequences are included in 2 blocks

HistoneA, width = 31 chk-H5 1 SHPTYSEMIAAAIRAEKSRGGSSRQSIQKYI hum-H1 1 SGPPVSELITKAVAASKERSGVSLAALKKAL pea-H1 1 SHPTYEEMIKDAIVSLKEKNGSSQYAIAKFI sce-H1.1 1 SSKSYRELIIEGLTALKERKGSSRPALKKFI sce-H1.2 1 SSLTYKEMILKSMPQLNDGKGSSRIVLKKYV xla-H1 1 SGPSASELIVKAVSSSKERSGVSLAALKKAL

HistoneB, width = 15 chk-H5 ( 21) 53 IRRLLAAGVLKQTKG hum-H1 ( 21) 53 LKSLVSKGTLVQTKG pea-H1 ( 21) 53 LKKNVASGKLIKVKG sce-H1.1 ( 21) 53 IKKGVEAGDFEQPKG sce-H1.2 ( 21) 53 IKKCVENGELVQPKG xla-H1 ( 21) 53 LKALVTKGTLTQVKG

MOTIF/GIBBS

>chk-H5SRRSASHPTYSEMIAAAIRAEKSRGGSSRQSIQKYIKSHYKVGHNADLQIKLSIRRLLAAGVLKQTKGVGASGSFRLAKS>hum-H1TPRKASGPPVSELITKAVAASKERSGVSLAALKKALAAAGYDVEKNNSRIKLGLKSLVSKGTLVQTKGTGASGSFKLNKK>pea-H1PRNPASHPTYEEMIKDAIVSLKEKNGSSQYAIAKFIEEKQKQLPANFKKLLLQNLKKNVASGKLIKVKGSFKLSAAAKKP

Page 28: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

28 Fernán Agüero

CD-Search (RPS-BLAST)

• Compara una secuencia contra una colección de profiles (Reverse PSI-BLAST)

• Bases de datos disponibles– Pfam 2478 entries– Smart 488 entries– Oasis (combined pfam, smart and cdd) 3019 profiles.

• Buscar usando Blast

http://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi

• Buscar la base de datos CDD (Conserved Domains from 3D structures)– http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml

Page 29: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

29 Fernán Agüero

PSI-BLAST

• Position-Specific Iterated BLAST search

• Easy-to-use version of a profile-based search– Hace una búsqueda utilizando BLAST contra una base

de datos de proteínas. – Utiliza los resultados para derivar una matriz posición-

específica (position-specific scoring matrix, PSSM)– En la próximas rondas (iteraciones) se utiliza la PSSM

en lugar de la secuencia query original– Se puede iterar hasta que no aparezcan nuevos

alineamientos significativos. • Convergencia – todas las secuencias relacionadas fueron

encontradas. • Divergencia – el query es demasiado amplio, utilizar

criterios (cut-offs) más estringentes.

Page 30: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

30 Fernán Agüero

Protein sequence analysis

HomologySearches

ProfileAnalysis

Comparative Methods

PhysicalProperties

StructuralProperties

Predictive Methods

Protein Sequence

• estructura secundaria• módulos de señalización • estructura terciaria• plegamientos especializados

Page 31: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

31 Fernán Agüero

Predicción de estructura secundaria

• Dada una secuencia primaria de una proteína

GHWIATRGQLIREAYEDYRHFSSECPFIP

• Predecir el contenido de estuctura secundaria (-hélice, -sheets, coils)

CEEEEECHHHHHHHHHHHCCCHHCCCCCC

Page 32: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

32 Fernán Agüero

Predicción de estructura secundaria

• Predice la posición más probable de alfa-hélices y

hojas beta.

• Cuando la similitud con otras secuencias es baja,

confirma características estructurales o

funcionales compartidas entre dos secuencias.

• Guía la selección racional de mutantes específicas

para el estudio en el laboratorio.

• Es la base para futuros estudios estructurales.

Page 33: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

36 Fernán Agüero

nnpredict

• Estrategia de predicción basada en una red neural (Kneller et al., 1990)

• Best-case accuracy > 65%

• Interfases– E-mail [email protected]– Web http://www.cmpharm.ucsf.edu/

~nomi/nnpredict.html

Page 34: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

39 Fernán Agüero

nnpredict query

option: a/b>flavodoxin - Anacystis nidulansAKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIYDDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVGLAIDEDNQPDLTKNRIKTWVSQLKSEFGL

Tertiary structure class: alpha/beta

Sequence:AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIYDDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVGLAIDEDNQPDLTKNRIKTWVSQLKSEFGL

Secondary structure prediction (H = helix, E = strand, - = no prediction):----EEE------EEEHHHHHHH------EEEH---------------EEEE-----------------------HHHH---EEEE------------H--HHHHHHHH------E--E--E--------------HH--E----------------EHHHHH------

folding class

Page 35: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

40 Fernán Agüero

SignalP

• Dos métodos de predicción• Red neural (SignalP-NN)• Modelos de Markov (SignalP-HMM) • Entrenamiento basado en filogenia.

–Gram-negative prokaryotic–Gram-positive prokaryotic–Eukaryotic

• Predice péptido señal (secreción, no los involucrados en transducción de señales intracelulares)

• http://www.cbs.dtu.dk/services/SignalP/

Page 36: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

41 Fernán Agüero

SignalP query

************************* SignalP predictions *************************Using networks trained on euk data

>IGF-IB length = 195

# pos aa C S Y . . . 46 A 0.365 0.823 0.495 47 T 0.450 0.654 0.577 48 A 0.176 0.564 0.369 49 G 0.925 0.205 0.855 50 P 0.185 0.163 0.376 . . . < Is the sequence a signal peptide?# Measure Position Value Cutoff Conclusion max. C 49 0.925 0.37 YES max. Y 49 0.855 0.34 YES max. S 37 0.973 0.88 YES mean S 1-48 0.550 0.48 YES# Most likely cleavage site between pos. 48 and 49: ATA-GP

>sp|P05019|IGFB_HUMAN INSULIN-LIKE GROWTH FACTOR IB PRECURSORMGKISSLPTQLFKCCFCDFLKVKMHTMSSSHLFYLALCLLTFTSSATAGPETLCGAELVDALQFVCGDRG

N-terminal end onlyEukaryotic set

Page 37: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

42 Fernán Agüero

SignalP query

************************* SignalP predictions *************************Using networks trained on euk data

>IGF-IB length = 195

# pos aa C S Y . . . 46 A 0.365 0.823 0.495 47 T 0.450 0.654 0.577 48 A 0.176 0.564 0.369 49 G 0.925 0.205 0.855 50 P 0.185 0.163 0.376 . . . < Is the sequence a signal peptide?# Measure Position Value Cutoff Conclusion max. C 49 0.925 0.37 YES max. Y 49 0.855 0.34 YES max. S 37 0.973 0.88 YES mean S 1-48 0.550 0.48 YES# Most likely cleavage site between pos. 48 and 49: ATA-GP

>sp|P05019|IGFB_HUMAN INSULIN-LIKE GROWTH FACTOR IB PRECURSORMGKISSLPTQLFKCCFCDFLKVKMHTMSSSHLFYLALCLLTFTSSATAGPETLCGAELVDALQFVCGDRG

N-terminal end onlyEukaryotic set

C = cleavage site scoreS = signal peptide scoreY = combined score

Page 38: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

43 Fernán Agüero

PredictProtein

• Interfases– Web http://

predictprotein.org/

• Algoritmo predictivo en varios pasos. (Rost et al., 1994)– La secuencia de proteína se

compara contra SWISS-PROT

– Se utiliza MaxHom para generar alineamiento multiple baasado en profiles (iterativo) (Sander and Schneider, 1991)

– El alineamiento multiple se utiliza como input para una red neural (PHDsec)

• Precisión– Average >

70%– Best-case > 90%

Page 39: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

44 Fernán Agüero

Predict protein query

Joe BuzzcutNational Human Genome Research Institute, [email protected]# flavodoxin - Anacystis nidulansAKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVGELQSDWEGIYDDLDSVNFQGKKVAYFGAGDQVGYSDNFQDAMGILEEKISSLGSQTVGYWPIEGYDFNESKAVRNNQFVGLAIDEDNQPDLTKNRIKTWVSQLKSEFGL

Estructura secundaria

....,....1....,....2....,....3....,....4....,....5....,....6AA |AKIGLFYGTQTGVTQTIAESIQQEFGGESIVDLNDIANADASDLNAYDYLIIGCPTWNVG|PHD sec | EEEEEEE HHHHHHHHHHHHH EEEEE HHH HHHH EEEEE |Rel sec |938999736982489999999999767982443213241278631241999861547765|Detail:prH sec |000000000014689999999999821000011112565388764321000001111111|prE sec |058998852000000000000000000003665542100000000014899874120002|prL sec |931000137985310000000000178985222344324511234554000114667776|

• SWISS-PROT hits• Multiple alignment• PDB homologues

Page 40: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

45 Fernán Agüero

PHDtopology

• Estrategia similar a PredictProtein (PHDsec)

• Precisión total 94.7%– Predicción de hélices 92.0%– Predicción de loops 96.0%

• Incluye predicción de topología.

• Gratuito para uso académico. Licencia comercial disponible.

• Interfases disponibles– E-mail [email protected]– Web http://predictprotein.org

Page 41: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

46 Fernán Agüero

PHDtopology query

Joe BuzzcutNational Human Genome Research Institute, [email protected] htm topology# pendrinMAAPGGRSEPPQLPEYSCSYMVSRPVYSELAFQQQHERRLQERKTLRESLAKCCSCSRKRAFGVLKTLVPILEWLPKYRVKEWLLSDVISGVSTGLVATLQGMAYALLAAVPVGYGLYSAFFPILTYFIFGTSRHISVGPFPVVSLMVGSVVLSMAP...

....,....37...,....38...,....39...,....40...,....41...,....42 AA |YSLKYDYPLDGNQELIALGLGNIVCGVFRGFAGSTALSRSAVQESTGGKTQIAGLIGAII| PHD htm | HHHHHHHHHHHHHH HHHHHHHHHH| Rel htm |368899999999999998641104667777655431257778887777621467788888| detail: | | prH htm |310000000000000000124457888888877765321110000111135788899999| prL htm |689999999999999999875542111111122234678889999888864211100000|

.

.

. PHDThtm |iiiiiiiiiiiiiiiiiiiTTTTTTTTTTTTTTTTTToooooooooooooooTTTTTTTT|

Page 42: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

47 Fernán Agüero

Precisión de las predicciones

Page 43: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

48 Fernán Agüero

Protein sequence analysis

HomologySearches

ProfileAnalysis

Comparative Methods

PhysicalProperties

StructuralProperties

Predictive Methods

Protein Sequence

• estructura secundaria• módulos de señalización • estructura terciaria• plegamientos especializados

Page 44: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

49 Fernán Agüero

Predicción de estructura terciaria

• La secuencia determina la conformación pero no viceversa.

• La estructura se conserva mucho más que la secuencia. – Númer limitado de plegamientos conocidos.

• Similitud entre proteínas no siempre detectada por métodos ‘tradicionales’.

Page 45: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

50 Fernán Agüero

PDB Growth

Page 46: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

51 Fernán Agüero

ab initio structure prediction

• Funciones de energía que describan la estructura 3D de una proteína

o bond energyo bond angle energyo dihedral angle energyo van der Waals energyo electrostatic energy

o Minimizar las funciones y obtener la estructura. En general poco práctico.o Computacionalmente costosoo Precisión pobre

o Funciona razonablemente para proteínas chicaso Péptidos (~ 20 aa)

Page 47: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

52 Fernán Agüero

Contact order

• Orden de contacto– Medida que refleja las interacciones entre aminoácidos en una

proteína– Distancia promedio entre aminoácidos que interaccionan entre

sí• Suma de las distancias / Longitud de la proteína

– Está relacionada con el tiempo de plegamiento de una proteína

• Low contact order proteins = fast folding• High contact order proteinas = slow folding

• Las estructuras de proteínas con valores de contact order bajos son más fáciles de predecir ab initio

Page 48: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

53 Fernán Agüero

Ab initio prediction: Rosetta

• Análisis de MSAs de proteínas de estructura conocida– Gran número de patrones de 3-15 aminoácidos, algunos de

los cuales están fuertemente asociados a ciertas estructuras locales

– Algunas de estas estructuras tienen energías predecibles (datos experimentales de NMR)

– I-Sites

• La estrategia recrea el proceso de folding • Análisis usando una ventana de 9 aminoacidos

– Identificación de I-Sites

• Muestreo de posibles estructuras minimizando energía (Monte Carlo)

Page 49: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

54 Fernán Agüero

Rosetta online: Robetta

Page 50: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

55 Fernán Agüero

Threading

• Predicción de estructura basado en el reconocimiento del fold nativo– thread (alinear o acomodar) una proteína query sobre una

estructura molde de alguna forma óptima. – Un alineamiento bueno provee un backbone aproximado

• Requerimientos– Una biblioteca de moldes– Una función de scoring– Un alineamiento– Evaluar confidencia

• Fuerza bruta– Threading de una secuencia contra todas las estructuras disponibles

(PDB)

Page 51: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

56 Fernán Agüero

Threading: performance

Predicted model X-ray structure

Page 52: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

57 Fernán Agüero

Threading: aplicaciones

• Predecir estructura

• Identificar homologías distantes

• Predecir función de proteínas con bajo grado de similitud con otras proteínas

Page 53: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

58 Fernán Agüero

Threading: moldes

• Bases de datos representativas (no-redundantes)– Estructuras secundarias y formas de combinarlas– Idealmente de dominios, pero depende de que la

partición en dominios se haga correctamente

Page 54: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

59 Fernán Agüero

Clases de plegamientos: all alpha

Cyt CGlobinsEF-hand

Page 55: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

60 Fernán Agüero

Clases de plegamientos: all beta

• Plasminogen Activator

• Phospatidylinositol 3-kinase

• Beta-2-microglobulin

• Fibroblast Growth Factor

Page 56: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

61 Fernán Agüero

Clases de plegamientos: alpha/beta

• PCNA

• Cytochrome P450

• Dehydrogenases (Rossman fold)

Page 57: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

62 Fernán Agüero

Proteínas trans-membrana: clases

• Paquete de hélices (helix bundle)Largas extensiones de amino ácidos apolares.

• Plegamiento en -hélices trans-membrana. “Positive-inside rule”– Receptores de superficie– Canales iónicos– Transportadores activos y pasivos.

• Barriles Hojas anti-paralelas dispuestas en cilindro. – Membrana externa de Gram-negativas.– Porinas (difusión selectiva, pasiva).

Page 58: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

63 Fernán Agüero

Bases de datos de clasificación de estructuras

• SCOP– Structural Classification of Proteins– http://scop.mrc-lmb.cam.ac.uk/scop– Basada en definición de similitud estructural a cargo

de expertos– Luego de clasificar por clase, SCOP clasifica

proteínas en una jerarquía que incluye: superfamilia, familia y fold

Page 59: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

64 Fernán Agüero

Clasificación estructural de proteínas

• CATH– Classification by Class, Architecture, Topology and

Homology– http://www.biochem.ucl.ac.uk/bsm/cath– Clasifica por

• Clase (contenido de estructura 2daria)• Arquitectura (orientación gruesa de la estructura

secundaria)• Fold (topología fina)• Superfamilia (estructura y función similar)

– Utiliza SSAP (secondary structure alignment) para alinear estructuras

Page 60: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

65 Fernán Agüero

CATH: catherine wheel

• C: Class level• A: Architecture level• T: Topology (fold-family)• H: Homologous superfamily• S: Sequence families

Page 61: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

66 Fernán Agüero

Clasificación estructural de proteínas

• FSSP– Fold Classification based on Structure-Structure alignment of

Proteins– http://www.ebi.ac.uk/dali/fssp– Alineamiento estructural de todas las combinaciones posibles de

proteínas en la base de datos PDB• A nivel de dominios• Usa DALI (Distance alignment tool)

– Generación de un set no-redundante de folds– Cada fold está representado por un cluster de folds de estructura

similar– Valor estadístico Z, describe el grado en que los átomos comparten

posiciones estructurales similares• Z > 16 = muy buen alineamiento estructural• 8 < Z < 16 = buenos alineamientos• 2 < Z < 8 = pobres (2 es el límite de detección).

– 8320 PDB entries 947 estructuras representativas, 1484 dominios, 540 tipos de folds estructuralmente diferentes

Page 62: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

67 Fernán Agüero

Alineamiento estructural: distance matrix

• Similar a dot-plots• Se hace un gráfico por proteína

– Cada posición en la grilla corresponde a la distancia entre los átomos C- correspondientes

– Las regiones con más alta densidad de átomos se resaltan dibujando un punto

• Se comparan las estructuras a través de estos gráficos– DALI (

Page 63: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

68 Fernán Agüero

Alineamiento estructural: distance matrix

• Similar a dot-plots• Se hace un gráfico por proteína

– Cada posición en la grilla corresponde a la distancia entre los átomos C- correspondientes

– Las regiones con más alta densidad de átomos se resaltan dibujando un punto (< 12 Å)

• Se comparan las estructuras a través de estos gráficos– DALI (Distance Alignment Tool)

Page 64: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

69 Fernán Agüero

DALI

• Ejemplo con 3 hélices

1. Identificación del patrón en la proteína A y búsqueda (scanning) del plot de la proteína B buscando similitudes

2. Las búsquedas se hacen en subplots (particiones del espacio de búsqueda)

3. Finalmente todas las similitudes se ensamblan (se remueven inserciones / deleciones y se reordenan las secuencias) para producir el alineamiento final

Page 65: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

70 Fernán Agüero

DALI Server

• Comparacion de estructuras 3D– Query: coordenadas– Search against PDB

• http://www.ebi.ac.uk/dali

Page 66: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

71 Fernán Agüero

Clasificación estructural de proteínas

• MMDB– Molecular Modelling Database– http://www.ncbi.nlm.nih.gov/Entrez– Proteínas en PDB agrupadas de acuerdo a similitud

estructural usando VAST (Vector Alignment Search Tool)

– Entrez provee ‘structural neighbors’ como links

Page 67: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

72 Fernán Agüero

VAST

• Compara los tipos y ordenamientos de hélices y hojas entre y las maneras en que están conectadas.– Pocos tipos de elementos de

estructura secundaria

• La localización y dirección de estos elementos se describen con vectores

Page 68: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

73 Fernán Agüero

Comparación de estructuras: VAST

Ricin Chain B

Step 1: Construct vectors for secondary structure elements

Page 69: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

74 Fernán Agüero

Comparación de estructuras: VAST (cont.)

Paso 2: Obtener un alineamiento óptimo de los vectores estructurales.

1 2 3 4

5

1 2 3 4

1 2 3 4

1 2 3 4

2 3 4

5

1 2 3 4

1 3 4

5

1 2 3 41 2 3 4

1 2 3

5

1 2 3 4

Proteína 1 Proteína 2

Alineamiento 1 Alineamiento 2 Alineamiento 3 Alineamiento 4

Page 70: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

75 Fernán Agüero

Comparación de estructuras: VAST (cont.)

Paso 3: refinar residuo por residuo el alineamiento

Ricin B (both domains)

Hisactophilin

Page 71: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

76 Fernán Agüero

Double dynamic programming: SSAP

• Secuencias: cada caracter en la grilla es un aminoácido o una base

• Estructuras: cada caracter en la grilla es un vector– Describe el ambiente local de cada aminoácido

• Distancias interatómicas• Angulos de enlace• Cadenas laterales

• Se derivan vectores desde C-hacia otros aminoácidos– Vision geométrica desde un punto en la proteína

http://cathwww.biochem.ucl.ac.uk/cgi-in/cath/SsapServer.pl

Page 72: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

77 Fernán Agüero

SSAP

• Se restan los vectores– Vector de F-E en proteína A– Menos– Vector de C-Q en proteína B

• Se hace dynamic programming (global) para todos los vectores

• Luego se itera:– Se cambia el centro al próximo aminoácido

(V), se generan los vectores, se calcula el mejor camino

• Finalmente se deriva una matriz de resultados– Los caminos compartidos suman sus

puntajes– Se hace dynamic programming sobre esta

matriz final para obtener el alineamiento

Page 73: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

78 Fernán Agüero

SSAP

http://cathwww.biochem.ucl.ac.uk/cgi-in/cath/SsapServer.pl

Page 74: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

79 Fernán Agüero

Alineamientos estructurales

• La estructura tridimensional de un dominio proteico se alinea en el espacio con la estructura 3D de un segundo dominio proteico

• Alineamiento de secuencias– descubrir similitud de secuencias (origen evolutivo común)

– Modela procesos evolutivos (mutación, inserción/deleción)

• Alineamiento de estructuras– descubrir similitud estructural

– Convergencia evolutiva

• Funcional (función idéntica o similar, estructuras diferentes)

• Estructural (estructura similar, función divergente)

• Alineamientos significativos entre estructuras no necesariamente indican origen evolutivo común.

Page 75: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

80 Fernán Agüero

Alineamientos estructurales: loops

• La deleción de un loop ilustra la diferencia entre los dos tipos de alineamientos

PHE ASP ILE CYS ARG LEU PRO GLY SER ALA GLU ALA VAL CYS

PHE ASN VAL CYS ARG THR PRO --- --- --- GLU ALA ILE CYS

PHE ASN VAL CYS ARG --- --- --- THR PRO GLU ALA ILE CYS

ARG

GLU

ALA

CYS

Page 76: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

81 Fernán Agüero

Predicción de estructura terciaria

• En Entrez todas las estructuras tienen una proteína asociada, lo cual facilita linkear una estructura a la base de datos de proteínas.

• En Entrez, si una proteína no tiene structure links, buscar los protein links relacionados. Luego buscar los structure links de todas estas secuencias relacionadas. Usando Cn3D (NCBI) se puede visualizar la estructura y el alineamiento de la secuencia inicial con la secuencia que tienen su estructura resuelta.

• Es también posible encontrar una estructura que pegue mejor a la proteína query.

Page 77: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

82 Fernán Agüero

Proceso de predicción de estructura terciaria

Query Protein

Protein neighbours

Structure links

Structure neighbours of structures.

View in Cn3D

Ver en Cn3D, mejor match entre estructura y proteína query, dado que la similitud inicial era débil.

Page 78: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

83 Fernán Agüero

SWISS-MODEL

• Servidor de modelado automatizado de proteínas automatizado.

• http://swissmodel.expasy.org/

Resultados por E-mail

Búsqueda BLAST para encontrar secuencias similares en PDB

Selecciona moldes con identidad > 25% y un modelo proyectado > 20 aa

Genera modelos

Minimiza energía

Genera archivo PDB para el nuevo modelo

Page 79: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

84 Fernán Agüero

Gene 3D

• Base de datos de asignaciones estructurales pre-calculadas para proteínas en genomas completos

• http://www.biochem.ucl.ac.uk/bsm/cath/Gene3D/

Page 80: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

85 Fernán Agüero

Protein sequence analysis

HomologySearches

ProfileAnalysis

Comparative Methods

PhysicalProperties

StructuralProperties

Predictive Methods

Protein Sequence

Cuando todo lo demás no funciona! • Composición• Hidrofobicidad

Page 81: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

86 Fernán Agüero

Panorama informativo

Nonpolar

Polar Neutral

Polar Basic

Polar Acidic

Page 82: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

87 Fernán Agüero

Funciones comunes asociadas a distintos residuos

• C disulphide-rich, metallo-thionein,

zinc fingers• DE acidic proteins (unknown)• G collagens• H histidine-rich glycoprotein• KR nuclear proteins, nuclear

localisation• P collagen, filaments• SR RNA binding motifs• ST mucins

• Polar (C,D,E,H,K,N,Q,R,S,T) - active sites

• Aromatic (F,H,W,Y) - protein ligand-binding sites

• Zn+-coord (C,D,E,H,N,Q) - active site, zinc finger

• Ca2+-coord (D,E,N,Q) - ligand-binding site

• Mg/Mn-coord (D,E,N,S,R,T) - Mg2+ or Mn2+ catalysis, ligand binding

• Ph-bind (H,K,R,S,T) - phosphate and sulphate binding

Page 83: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

88 Fernán Agüero

Parámetros físico-químicos

• Proteínas con los mismo parámetros físico-químicos, a menudo son aisladas juntas. – Gel Electrophoresis.– Iso-Electric focusing in pH Gradient.– 2D Gels– Mass Spectroscopy (o Time-of-flight spectroscopy, más precisa)

requiere masses of polypeptides• MALDI: espectroscopía de masa de péptidos trípticos.• Electrospray: producción de péptidos por ruptura física, seguida de

espectroscopía de masa. • Nano-electrospray: descompone peptidos en los aminoácidos

individuales. Requere composición de amino ácidos y peso molecular para identificar péptidos y proteínas.

• Parámetros clásicos.– pI teórico (punto isoeléctrico) – Peso molecular (Mass Spectroscopy. Con o sin modificaciones

post-traduccionales)– Composición aminoacídica. (Mass Spectroscopy)– Coeficiente de extinción

Page 84: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

89 Fernán Agüero

Parámetros físico-químicos

• Proteinas con características físico-químicas similares pueden estar relacionadas. – motivos relacionados (contenido de aa similar)

• Distribución similar de amino ácidos polares o cargados. – Proteínas de trans-membrana. – Proteínas de membrana.– Proteínas de unión a DNA.– Hidrofóbicas o hidrofílicas.– Señales de localización.

Page 85: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

90 Fernán Agüero

ProtParam

• Calcula parámetros físico-químicos. – Molecular weight– Theoretical pI (isoelectric point pH)– Amino acid composition– Extinction coefficient

• Query simple– SWISS-PROT accession number.– Secuencia ingresada por el usuario.

http://www.expasy.org/tools/protparam.html

Page 86: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

91 Fernán Agüero

ProtParam query

MNGEADCPTDLEMAAPKGQDRWSQEDMLTLLECMKNNLPSNDSSKFKTTESHMDWEKVAFKDFSGDMCKLKWVEISNEVRKFRTLTELILDAQEHVKNPYKGKKLKKHPDFPKKPLTPYFRFFMEKRAKYAKLHPEM...

Compute parameters

Number of amino acids: 727Molecular weight: 84936.8Theoretical pI: 5.44

Amino acid composition:

Ala (A) 35 4.8% Leu (L) 57 7.8%Arg (R) 39 5.4% Lys (K) 97 13.3%Asn (N) 28 3.9% Met (M) 25 3.4%Asp (D) 58 8.0% Phe (F) 18 2.5%Cys (C) 6 0.8% Pro (P) 39 5.4%Gln (Q) 36 5.0% Ser (S) 67 9.2%Glu (E) 98 13.5% Thr (T) 22 3.0%Gly (G) 26 3.6% Trp (W) 11 1.5%His (H) 11 1.5% Tyr (Y) 20 2.8%Ile (I) 18 2.5% Val (V) 16 2.2%

Asx (B) 0 0.0%Glx (Z) 0 0.0%Xaa (X) 0 0.0%

Total number of negatively charged residues (Asp + Glu): 156Total number of positively charged residues (Arg + Lys): 136

Page 87: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

92 Fernán Agüero

PropSearch

• Utiliza la composición de amino ácidos para detectar relaciones entre proteínas.

• Puede ser utilizado para distinguir miembros de la misma familia de proteínas.

• 144 propiedades físicas se utilizan en el análisis (‘vector’)– Molecular weight– Bulky residue content– Average hydrophobicity and charge

• Búsquedas contra la ‘base de datos de vectores’(PIR and SWISS-PROT)http://www.infobiosud.univ-montp1.fr/SERVEUR/PROPSEARCH/propsearch.html

Page 88: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

93 Fernán Agüero

PropSearch query

Rank ID DIST LEN2 POS1 POS2 pI DE_____________________________________________________________________________________________ 1 >p1;s18193 0.00 727 1 727 5.33 autoantigen NOR-90 - human 2 ubf1_human 1.36 764 1 764 5.62 NUCLEOLAR TRANSCRIPTION FACTOR 1 3 ubf1_mouse 1.40 765 1 765 5.55 NUCLEOLAR TRANSCRIPTION FACTOR 1 4 ubf1_rat 1.57 764 1 764 5.61 NUCLEOLAR TRANSCRIPTION FACTOR 1 5 ubf1_xenla 3.95 677 1 677 5.79 NUCLEOLAR TRANSCRIPTION FACTOR 1 6 ubf2_xenla 4.18 701 1 701 6.05 NUCLEOLAR TRANSCRIPTION FACTOR 2 7 >p1;s57552 7.72 606 1 606 6.63 hypothetical protein YPR018w - yeast 8 >p1;i50463 8.49 772 1 772 5.71 protein kinase - chicken 9 >p1;h54024 8.83 768 1 768 5.27 protein kinase (EC 2.7.1.37) cdc2-related 10 >p1;b54024 8.87 777 1 777 5.27 protein kinase (EC 2.7.1.37) cdc2-related 11 >p1;g54024 8.90 766 1 766 5.21 protein kinase (EC 2.7.1.37) cdc2-related 12 >p1;a55817 9.00 783 1 783 5.19 cyclin-dependent kinase p130-PITSLRE - mouse 13 >p1;f54024 9.11 777 1 777 5.30 protein kinase (EC 2.7.1.37) cdc2-related 14 >p1;e54024 9.11 779 1 779 5.42 protein kinase (EC 2.7.1.37) cdc2-related 15 yaa5_schpo 9.45 598 1 598 4.78 HYPOTHETICAL 69.5 KD PROTEIN C22G7.05 16 >p1;s62449 9.45 598 1 598 4.78 hypothetical protein SPAC22G7.05 - fission 17 >f1;i58390 9.45 920 1 920 5.00 retinoblastoma binding protein 1 isoform I 18 >p1;s63193 9.58 590 1 590 6.15 hypothetical protein YNL227c - yeast 19 ynw7_yeast 9.58 590 1 590 6.15 HYPOTHETICAL 68.8 KD PROTEIN IN URE2-SSU72 20 >p1;s49634 9.74 899 1 899 4.79 hypothetical protein YML093w - yeast 21 ymj3_yeast 9.74 899 1 899 4.79 HYPOTHETICAL 103.0 KD PROTEIN IN RAD10-PRS4 22 radi_human 9.76 583 1 583 6.33 RADIXIN. 23 radi_pig 9.81 583 1 583 6.21 RADIXIN (MOESIN B). 24 >f1;i78883 9.83 866 1 866 4.77 retinoblastoma binding protein 1 isoform II 25 >p1;b42997 9.87 754 1 754 5.17 retinoblastoma-associated protein 2 - human 26 >p1;a57467 9.91 647 1 647 5.74 RalBP1 - rat

>S18193 autoantigen NOR-90 - humanMNGEADCPTDLEMAAPKGQDRWSQEDMLTLLECMKNNLPSNDSSKFKTTESHMDWEKVAFKDFSGDMCKLKWVEISNEVRKFRTLTELILDAQEHVKNPYKGKKLKKHPDFPKKPLTPYFRFFMEKRAKYAKLHPEM...

Vector searchDIST Odds< 10 87.0%< 8.7 94.0%< 7.5 99.6%

Page 89: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

94 Fernán Agüero

TGREASE

• Calcula la hidrofobicidad de una proteína – Distingue regiones putativas trans-membranas– Regiones putativas que formarían el core

hidrofóbico de una proteína globular– Parte del paquete FASTA (Pearson, U. Virginia)

Page 90: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

95 Fernán Agüero

Protein sequence analysis

B LA ST

Gapped B LA ST

HomologySearches

Prof ileScan

B LOCK S

PSI-B LA ST

Prof ileA nalysis

Comparat ive M ethods

ProtParam

PropSearch

T GREA SE

PhysicalPropert ies

nnpredict

Pred ictProtein

SignalP

PHDtopology

V A ST

StructuralPropert ies

Predict ive M ethods

Protein Sequence

Page 91: 1Fernán Agüero 2007 Fernán Agüero Instituto de Investigaciones Biotecnológicas Universidad Nacional de General San Martín Protein sequence analysis Structural.

96 Fernán Agüero

Entender los resultados

Secuencia Resultados

Inspección