Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

29
Uso del programa HMMER Búsqueda de familias (dominios) de proteínas

Transcript of Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Page 1: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Uso del programa HMMER

•Búsqueda de familias (dominios) de proteínas

Page 2: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

DOMINIO PROTEICO: porción de una proteína con estructura terciaria definida (40-350 aminoácidos). Unidad modular. En general asociados a una función particular.

Proteínas pequeñas tienen un único dominio, proteínas grandes pueden llegar a tener más de 10 dominios.

FAMILIA DE PROTEINAS: Conjunto de proteínas con dominios o funciones en comúnLa secuencia aminoacídica puede estar conservada en mayor o menor medida. Casos extremos: 25 % de identidad aminoacídica, estructura terciaria idéntica

Page 3: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Dominios

Page 4: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Aplicación de HHMER

Dada una familia de proteínas conocida…..

¿Hay nuevos miembros de esta familia?

Page 5: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Construcción

• A partir de un alineamiento múltiple, se genera un consenso, con matchs, deleciones o inserciones

• Los parámetros del modelo se determinan en base a la frecuencia de aparición de cada aminoácido en una posición particular

• Algoritmos de programación dinámica para la construcción del modelo

• Cálculo de frecuencias de emisión y transición: algoritmos de pesado de secuencias, Plan 7

Page 6: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Características HMMER

• Tres estados principales: Match, Deleción o Inserción

• Se emiten pares de residuos

Page 7: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Modelo Básico

Dpd

Ipi

Mpm

ε

τ

τ

τ

1-ε- τ

1-ε- τ

δ

δ

τ

ε

1-2δ-τ

1-2δ-τ

δ

δ

B E

Page 8: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

PLAN 7

Estados especiales (no dependen de los datos de entrada):S, N, J, C, T

Permiten encontrar matchs en cualquier lugar interno de la secuenciaDominios locales

Page 9: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Globinas

Amplia familia de proteínas (50 secuencias de diferentes especies)

1 secuencia de “globina” de Artemia (micro camarón)

Page 10: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Datos de entrada: Alineamianto múltiple(Clustal o HMMER)

Page 11: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

hmmbuild - build a hidden Markov model from an alignmentHMMER 2.3.2 (Oct 2003)Copyright (C) 1992-2003 HHMI/Washington University School of MedicineFreely distributed under the GNU General Public License (GPL)- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -Alignment file: globins50.msfFile format: MSFSearch algorithm configuration: Multiple domain (hmmls)Model construction strategy: MAP (gapmax hint: 0.50)Null model used: (default)Prior used: (default)Sequence weighting method: G/S/C tree weightsNew HMM file: globin.hmm - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Alignment: #1Number of sequences: 50Number of columns: 308

Determining effective sequence number ... done. [2]Weighting sequences heuristically ... done.Constructing model architecture ... done.Converting counts to probabilities ... done.Setting model name, etc. ... done. [globins50]

Constructed a profile HMM (length 143)Average score: 189.04 bitsMinimum score: -17.62 bitsMaximum score: 234.09 bitsStd. deviation: 53.18 bits

Finalizing model configuration ... done.Saving model to file ... done.

Construcción del modelo

Algortimo de programación dinámicaParámetro x determina la cantidad de residuos en el consenso

Page 12: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

• Generación de secuencias aleatorias en función de

la longitud y composición aminoacídica del

alineamiento múltiple

• Construcción de histograma distribución de los

scores de las secuencias aleatorias

• Seteo de mu y lambda (E-value)

Calibración

Page 13: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Calibración

hmmcalibrate -- calibrate HMM search statisticsHMMER 2.3.2 (Oct 2003)Copyright (C) 1992-2003 HHMI/Washington University School of MedicineFreely distributed under the GNU General Public License (GPL)- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -HMM file: globin.hmmLength distribution mean: 325Length distribution s.d.: 200Number of samples: 5000random seed: 1096635211histogram(s) saved to: histograma- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

HMM : globins50mu : -38.917610lambda : 0.240948max : -6.474000

Page 14: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Búsqueda

Criterios de evaluación de los resultados

Score = log2 P(seq/HMM)

P (seq/null)

E-value = número esperado de falsos positivos (secuencias con score alto por azar)

Page 15: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Búsqueda

hmmsearch - search a sequence database with a profile HMM [HMM has been calibrated; E-values are empirical estimates]

Scores for complete sequences (score includes all domains):Sequence Description Score E-value N -------- ----------- ----- ----- S13421 S13421 GLOBIN - BRINE SHRIMP 474.3 1.7e-143 9

Parsed for domains:Sequence Domain seq-f seq-t hmm-f hmm-t score E-value-------- ------- ----- ----- ----- ----- ----- -------S13421 7/9 932 1075 .. 1 143 [] 76.9 7.3e-24S13421 2/9 153 293 .. 1 143 [] 63.7 6.8e-20S13421 3/9 307 450 .. 1 143 [] 59.8 9.8e-19S13421 8/9 1089 1234 .. 1 143 [] 57.6 4.5e-18S13421 9/9 1248 1390 .. 1 143 [] 52.3 1.8e-16S13421 1/9 1 143 [. 1 143 [] 51.2 4e-16S13421 4/9 464 607 .. 1 143 [] 46.7 8.6e-15S13421 6/9 775 918 .. 1 143 [] 42.2 2e-13S13421 5/9 623 762 .. 1 143 [] 23.9 6.6e-08

Page 16: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Alignments of top-scoring domains:

S13421: domain 7 of 9, from 932 to 1075: score 76.9, E = 7.3e-24

*->eekalvksvwgkveknveevGaeaLerllvvyPetkryFpkFkdLss

+e a vk+ w+ v+ ++ vG +++ l++ +P+ +++FpkF d+

S13421 932 REVAVVKQTWNLVKPDLMGVGMRIFKSLFEAFPAYQAVFPKFSDVPL 978

adavkgsakvkahgkkVltalgdavkkldd...lkgalakLselHaqklr

d++++++ v +h V t+l++ ++ ld++ +l+ ++L+e H+ lr

S13421 979 -DKLEDTPAVGKHSISVTTKLDELIQTLDEpanLALLARQLGEDHIV-LR 1026

vdpenfkllsevllvvlaeklgkeftpevqaalekllaavataLaakYk<

v+ fk +++vl+ l++ lg+ f+ ++ +++k+++++++ +++ +

S13421 1027 VNKPMFKSFGKVLVRLLENDLGQRFSSFASRSWHKAYDVIVEYIEEGLQ 1075

-*

Page 17: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Vale la pena?

para este ejemplo particular:

•50 proteínas de información inicial

•estructura y función perfectamente conocidas

Page 18: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Resultados similares utilizando PSI-BLAST y CDD

Page 19: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Otro caso

•Familia de proteínas específicas de un grupo de organismos alejados

evolutivamente de las especies más estudiadas (hombre, ratón, etc.)

•Poca informacion disponible de proteínas pertencientes a la misma familia

Echinococcus granulosus

Page 20: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Los bancos de datos que utilizan estos programas no son completos (ej. Pfam 5193 flias)

Usamos HMMER.......

Page 21: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

10 20 30 40 50 60 70 80 90. . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | .

EgB2G1/10 MRTYILLSLALVAFVAVVQAKAEPERCKCLITRKLSEVRDFFRSDPLGQRLVALGRDLTAICQKLHLKIHEVLKKYVKDLLEEEEEEDDSKTs -----------ITV..APDDDKGQ.DLNMTVMKQ.G...R..TE....RNVTKQLKEMI..AKVIRHR.RKC.GE.L.G.EN.--------Tc -----------ITV..APTDDKG..DL.KKMMKQ.G...R...E.....KIIDHFQETVS..KAIRER.RKR.GE.L.G.EN.--------Me ----------------ME.ETNPIRAI.KR..SY.KSREE.YDK.....KIAKFYGEWKELVAEVRKRVRARIAA...K.Q..--------Hd ----------------ME.ETNPIR.I.TKAKEYFAARER.YDE....KQIA.HLSKWRE.IRDVRARLRGY.R..LN..QK.YPKA----ASPI1 ------MMFTPLIVLTLLVLATAEHQ.GPNEQWSDCPGCELQCGESD-KPCP.MCG.PKCY.SPDQ-YRRIPDGRCIRKIQCPQH------ASPI2 ------MMFTPLIVLTLLVLATAEHQ.GPNEQWSDCPKCELQCGESD-KPCATICGEPKCY.SPDK-YRRIPDGRCIRKIQCPQH------AsCE1 ----------------------GQ...GPNEVWTECTGCEMKCG..ENTPCPLMC.RPSCE.SPGRGMRRTNDG.CIPASQCP.-------

Datos de entrada

7 proteínas de las misma familia (sospecha por estructura y función)

Datos de búsquedauna secuencia nueva EgB2G1/10

Page 22: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Construcción del modelohmmbuild - build a hidden Markov model from an alignmentHMMER 2.3.2 (Oct 2003)Copyright (C) 1992-2003 HHMI/Washington University School of MedicineFreely distributed under the GNU General Public License (GPL)- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -Alignment file: AgBfam.pirFile format: a2mSearch algorithm configuration: Multiple local (hmmfs)S/W aggregate entry probability: 0.50S/W aggregate exit probability: 0.50Model construction strategy: MAP (gapmax hint: 0.50)Null model used: (default)Prior used: (default)Sequence weighting method: G/S/C tree weightsNew HMM file: Agb.hmm - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -Alignment: #1Number of sequences: 7Number of columns: 86

Determining effective sequence number ... done. [5]Weighting sequences heuristically ... done.Constructing model architecture ... done.Converting counts to probabilities ... done.Setting model name, etc. ... done. [AgBfam]

Constructed a profile HMM (length 86)Average score: 137.09 bitsMinimum score: 115.76 bitsMaximum score: 156.73 bitsStd. deviation: 15.18 bits

Finalizing model configuration ... done.Saving model to file ... done.

Parámetro modificado:-f

busca dominios localmente

(prioriza dominios pequeños)

Page 23: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

hmmcalibrate -- calibrate HMM search statisticsHMMER 2.3.2 (Oct 2003)Copyright (C) 1992-2003 HHMI/Washington University School of MedicineFreely distributed under the GNU General Public License (GPL)- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -HMM file: Agb.hmmLength distribution mean: 325Length distribution s.d.: 200Number of samples: 5000random seed: 1096637147histogram(s) saved to: histograma2- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

HMM : AgBfammu : -10.075376lambda : 0.640866max : 4.144000

Calibración

Page 24: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Búsqueda

10 20 30 40 50 60 70 80 90. . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | .

EgB2G1/10 MRTYILLSLALVAFVAVVQAKAEPERCKCLITRKLSEVRDFFRSDPLGQRLVALGRDLTAICQKLHLKIHEVLKKYVKDLLEEEEEEDDSK

Page 25: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

hmmsearch - search a sequence database with a profile HMM

[HMM has been calibrated; E-values are empirical estimates]

Scores for complete sequences (score includes all domains):Sequence Description Score E-value N -------- ----------- ----- ------- ---P1;EgB2G1/10 22.9 6.8e-10 1

Parsed for domains:Sequence Domain seq-f seq-t hmm-f hmm-t score E-value-------- ------- ----- ----- ----- ----- ----- -------P1;EgB2G1/10 1/1 24 87 .. 19 86 .] 22.9 6.8e-10

Page 26: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Alignments of top-scoring domains:P1;EgB2G1/10: domain 1 of 1, from 24 to 87: score 22.9, E = 6.8e-10 *->qerikkkemkylcereefydeDPlGkkiakhlgepkcicspvRkkri +er+k ++ l e++ f++ DPlG+ + ++ +ic i P1;EgB2G1/ 24 PERCKCLITRKLSEVRDFFRSDPLGQRLVALGRDLTAICQKLHL-KI 69

RkrlGkYlkklQcEehkakkk<-* l kY+k+l +Ee +++ P1;EgB2G1/ 70 HEVLKKYVKDLLEEE---EEE 87

Page 27: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Programas que utilizan HMMPrograma Aplicaciones SitioHMMER“hammer”

Búsqueda de familias de proteínasa partir de un alineamientomúltipleEmisión de secuencias patrón

http://hmmer.wustl.eduhttp://bioweb.pasteur.fr/seqanal/motif/hmmer-uk.html

SAM Idem HMMER http://www.cse.ucsc.edu/research/compbio/sam.htmlMeta-meme

Búsqueda de motivos enalineamientos sin gaps (menosparámetros para ajustar)

http://metameme.sdsc.edu/

HMMPro Programa comercial. IdemHMMER más interface gráfica

http://www.nwtid.com/html/hmmpro.html

Pfam Banco de alineamientos múltiples yHMMs de las familias y dominiosproteicos más comunes (5193 flias)

Tipos de Pfam:- Family- Domain- Repetido (en tandem forma dominio)- Motivo (unidad de secuencia corta por fuera de losdominios)

http://pfam.wustl.edu/http://www.sanger.ac.ak/Software/Pfam/index.shtml

Page 28: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

ReferenciasReferencias

Profile hidden Markov models. Edyy S.R. 1998, Profile hidden Markov models. Edyy S.R. 1998, Bioinformatics Review. Volume : 14,775-763.Bioinformatics Review. Volume : 14,775-763.

What is a hidden Markov model? Eddy S. R. 2004. What is a hidden Markov model? Eddy S. R. 2004. Publication On linePublication On line

Biological Sequence Analysis: Probabilistic Models of Biological Sequence Analysis: Probabilistic Models of Protein and Nucleic Acids. Durbin R., Eddy S. R., Krogh Protein and Nucleic Acids. Durbin R., Eddy S. R., Krogh A. and Mitchison G. J. Cambridge University Press, A. and Mitchison G. J. Cambridge University Press, Cambbridge UK.Cambbridge UK.

Page 29: Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.