Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Uso del programa HMMER

•Búsqueda de familias (dominios) de proteínas

DOMINIO PROTEICO: porción de una proteína con estructura terciaria definida (40-350 aminoácidos). Unidad modular. En general asociados a una función particular.

Proteínas pequeñas tienen un único dominio, proteínas grandes pueden llegar a tener más de 10 dominios.

FAMILIA DE PROTEINAS: Conjunto de proteínas con dominios o funciones en comúnLa secuencia aminoacídica puede estar conservada en mayor o menor medida. Casos extremos: 25 % de identidad aminoacídica, estructura terciaria idéntica

Dominios

Aplicación de HHMER

Dada una familia de proteínas conocida…..

¿Hay nuevos miembros de esta familia?

Construcción

• A partir de un alineamiento múltiple, se genera un consenso, con matchs, deleciones o inserciones

• Los parámetros del modelo se determinan en base a la frecuencia de aparición de cada aminoácido en una posición particular

• Algoritmos de programación dinámica para la construcción del modelo

• Cálculo de frecuencias de emisión y transición: algoritmos de pesado de secuencias, Plan 7

Características HMMER

• Tres estados principales: Match, Deleción o Inserción

• Se emiten pares de residuos

Modelo Básico

Dpd

Ipi

Mpm

ε

τ

τ

τ

1-ε- τ

1-ε- τ

δ

δ

τ

ε

1-2δ-τ

1-2δ-τ

δ

δ

B E

PLAN 7

Estados especiales (no dependen de los datos de entrada):S, N, J, C, T

Permiten encontrar matchs en cualquier lugar interno de la secuenciaDominios locales

Globinas

Amplia familia de proteínas (50 secuencias de diferentes especies)

1 secuencia de “globina” de Artemia (micro camarón)

Datos de entrada: Alineamianto múltiple(Clustal o HMMER)

hmmbuild - build a hidden Markov model from an alignmentHMMER 2.3.2 (Oct 2003)Copyright (C) 1992-2003 HHMI/Washington University School of MedicineFreely distributed under the GNU General Public License (GPL)- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -Alignment file: globins50.msfFile format: MSFSearch algorithm configuration: Multiple domain (hmmls)Model construction strategy: MAP (gapmax hint: 0.50)Null model used: (default)Prior used: (default)Sequence weighting method: G/S/C tree weightsNew HMM file: globin.hmm - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Alignment: #1Number of sequences: 50Number of columns: 308

Determining effective sequence number ... done. [2]Weighting sequences heuristically ... done.Constructing model architecture ... done.Converting counts to probabilities ... done.Setting model name, etc. ... done. [globins50]

Constructed a profile HMM (length 143)Average score: 189.04 bitsMinimum score: -17.62 bitsMaximum score: 234.09 bitsStd. deviation: 53.18 bits

Finalizing model configuration ... done.Saving model to file ... done.

Construcción del modelo

Algortimo de programación dinámicaParámetro x determina la cantidad de residuos en el consenso

• Generación de secuencias aleatorias en función de

la longitud y composición aminoacídica del

alineamiento múltiple

• Construcción de histograma distribución de los

scores de las secuencias aleatorias

• Seteo de mu y lambda (E-value)

Calibración

Calibración

hmmcalibrate -- calibrate HMM search statisticsHMMER 2.3.2 (Oct 2003)Copyright (C) 1992-2003 HHMI/Washington University School of MedicineFreely distributed under the GNU General Public License (GPL)- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -HMM file: globin.hmmLength distribution mean: 325Length distribution s.d.: 200Number of samples: 5000random seed: 1096635211histogram(s) saved to: histograma- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

HMM : globins50mu : -38.917610lambda : 0.240948max : -6.474000

Búsqueda

Criterios de evaluación de los resultados

Score = log2 P(seq/HMM)

P (seq/null)

E-value = número esperado de falsos positivos (secuencias con score alto por azar)

Búsqueda

hmmsearch - search a sequence database with a profile HMM [HMM has been calibrated; E-values are empirical estimates]

Scores for complete sequences (score includes all domains):Sequence Description Score E-value N -------- ----------- ----- ----- S13421 S13421 GLOBIN - BRINE SHRIMP 474.3 1.7e-143 9

Parsed for domains:Sequence Domain seq-f seq-t hmm-f hmm-t score E-value-------- ------- ----- ----- ----- ----- ----- -------S13421 7/9 932 1075 .. 1 143 [] 76.9 7.3e-24S13421 2/9 153 293 .. 1 143 [] 63.7 6.8e-20S13421 3/9 307 450 .. 1 143 [] 59.8 9.8e-19S13421 8/9 1089 1234 .. 1 143 [] 57.6 4.5e-18S13421 9/9 1248 1390 .. 1 143 [] 52.3 1.8e-16S13421 1/9 1 143 [. 1 143 [] 51.2 4e-16S13421 4/9 464 607 .. 1 143 [] 46.7 8.6e-15S13421 6/9 775 918 .. 1 143 [] 42.2 2e-13S13421 5/9 623 762 .. 1 143 [] 23.9 6.6e-08

Alignments of top-scoring domains:

S13421: domain 7 of 9, from 932 to 1075: score 76.9, E = 7.3e-24

*->eekalvksvwgkveknveevGaeaLerllvvyPetkryFpkFkdLss

+e a vk+ w+ v+ ++ vG +++ l++ +P+ +++FpkF d+

S13421 932 REVAVVKQTWNLVKPDLMGVGMRIFKSLFEAFPAYQAVFPKFSDVPL 978

adavkgsakvkahgkkVltalgdavkkldd...lkgalakLselHaqklr

d++++++ v +h V t+l++ ++ ld++ +l+ ++L+e H+ lr

S13421 979 -DKLEDTPAVGKHSISVTTKLDELIQTLDEpanLALLARQLGEDHIV-LR 1026

vdpenfkllsevllvvlaeklgkeftpevqaalekllaavataLaakYk<

v+ fk +++vl+ l++ lg+ f+ ++ +++k+++++++ +++ +

S13421 1027 VNKPMFKSFGKVLVRLLENDLGQRFSSFASRSWHKAYDVIVEYIEEGLQ 1075

-*

Vale la pena?

para este ejemplo particular:

•50 proteínas de información inicial

•estructura y función perfectamente conocidas

Resultados similares utilizando PSI-BLAST y CDD

Otro caso

•Familia de proteínas específicas de un grupo de organismos alejados

evolutivamente de las especies más estudiadas (hombre, ratón, etc.)

•Poca informacion disponible de proteínas pertencientes a la misma familia

Echinococcus granulosus

Los bancos de datos que utilizan estos programas no son completos (ej. Pfam 5193 flias)

Usamos HMMER.......

10 20 30 40 50 60 70 80 90. . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | .

EgB2G1/10 MRTYILLSLALVAFVAVVQAKAEPERCKCLITRKLSEVRDFFRSDPLGQRLVALGRDLTAICQKLHLKIHEVLKKYVKDLLEEEEEEDDSKTs -----------ITV..APDDDKGQ.DLNMTVMKQ.G...R..TE....RNVTKQLKEMI..AKVIRHR.RKC.GE.L.G.EN.--------Tc -----------ITV..APTDDKG..DL.KKMMKQ.G...R...E.....KIIDHFQETVS..KAIRER.RKR.GE.L.G.EN.--------Me ----------------ME.ETNPIRAI.KR..SY.KSREE.YDK.....KIAKFYGEWKELVAEVRKRVRARIAA...K.Q..--------Hd ----------------ME.ETNPIR.I.TKAKEYFAARER.YDE....KQIA.HLSKWRE.IRDVRARLRGY.R..LN..QK.YPKA----ASPI1 ------MMFTPLIVLTLLVLATAEHQ.GPNEQWSDCPGCELQCGESD-KPCP.MCG.PKCY.SPDQ-YRRIPDGRCIRKIQCPQH------ASPI2 ------MMFTPLIVLTLLVLATAEHQ.GPNEQWSDCPKCELQCGESD-KPCATICGEPKCY.SPDK-YRRIPDGRCIRKIQCPQH------AsCE1 ----------------------GQ...GPNEVWTECTGCEMKCG..ENTPCPLMC.RPSCE.SPGRGMRRTNDG.CIPASQCP.-------

Datos de entrada

7 proteínas de las misma familia (sospecha por estructura y función)

Datos de búsquedauna secuencia nueva EgB2G1/10

Construcción del modelohmmbuild - build a hidden Markov model from an alignmentHMMER 2.3.2 (Oct 2003)Copyright (C) 1992-2003 HHMI/Washington University School of MedicineFreely distributed under the GNU General Public License (GPL)- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -Alignment file: AgBfam.pirFile format: a2mSearch algorithm configuration: Multiple local (hmmfs)S/W aggregate entry probability: 0.50S/W aggregate exit probability: 0.50Model construction strategy: MAP (gapmax hint: 0.50)Null model used: (default)Prior used: (default)Sequence weighting method: G/S/C tree weightsNew HMM file: Agb.hmm - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -Alignment: #1Number of sequences: 7Number of columns: 86

Determining effective sequence number ... done. [5]Weighting sequences heuristically ... done.Constructing model architecture ... done.Converting counts to probabilities ... done.Setting model name, etc. ... done. [AgBfam]

Constructed a profile HMM (length 86)Average score: 137.09 bitsMinimum score: 115.76 bitsMaximum score: 156.73 bitsStd. deviation: 15.18 bits

Finalizing model configuration ... done.Saving model to file ... done.

Parámetro modificado:-f

busca dominios localmente

(prioriza dominios pequeños)

hmmcalibrate -- calibrate HMM search statisticsHMMER 2.3.2 (Oct 2003)Copyright (C) 1992-2003 HHMI/Washington University School of MedicineFreely distributed under the GNU General Public License (GPL)- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -HMM file: Agb.hmmLength distribution mean: 325Length distribution s.d.: 200Number of samples: 5000random seed: 1096637147histogram(s) saved to: histograma2- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

HMM : AgBfammu : -10.075376lambda : 0.640866max : 4.144000

Calibración

Búsqueda

10 20 30 40 50 60 70 80 90. . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | .

EgB2G1/10 MRTYILLSLALVAFVAVVQAKAEPERCKCLITRKLSEVRDFFRSDPLGQRLVALGRDLTAICQKLHLKIHEVLKKYVKDLLEEEEEEDDSK

hmmsearch - search a sequence database with a profile HMM

[HMM has been calibrated; E-values are empirical estimates]

Scores for complete sequences (score includes all domains):Sequence Description Score E-value N -------- ----------- ----- ------- ---P1;EgB2G1/10 22.9 6.8e-10 1

Parsed for domains:Sequence Domain seq-f seq-t hmm-f hmm-t score E-value-------- ------- ----- ----- ----- ----- ----- -------P1;EgB2G1/10 1/1 24 87 .. 19 86 .] 22.9 6.8e-10

Alignments of top-scoring domains:P1;EgB2G1/10: domain 1 of 1, from 24 to 87: score 22.9, E = 6.8e-10 *->qerikkkemkylcereefydeDPlGkkiakhlgepkcicspvRkkri +er+k ++ l e++ f++ DPlG+ + ++ +ic i P1;EgB2G1/ 24 PERCKCLITRKLSEVRDFFRSDPLGQRLVALGRDLTAICQKLHL-KI 69

RkrlGkYlkklQcEehkakkk<-* l kY+k+l +Ee +++ P1;EgB2G1/ 70 HEVLKKYVKDLLEEE---EEE 87

Programas que utilizan HMMPrograma Aplicaciones SitioHMMER“hammer”

Búsqueda de familias de proteínasa partir de un alineamientomúltipleEmisión de secuencias patrón

http://hmmer.wustl.eduhttp://bioweb.pasteur.fr/seqanal/motif/hmmer-uk.html

SAM Idem HMMER http://www.cse.ucsc.edu/research/compbio/sam.htmlMeta-meme

Búsqueda de motivos enalineamientos sin gaps (menosparámetros para ajustar)

http://metameme.sdsc.edu/

HMMPro Programa comercial. IdemHMMER más interface gráfica

http://www.nwtid.com/html/hmmpro.html

Pfam Banco de alineamientos múltiples yHMMs de las familias y dominiosproteicos más comunes (5193 flias)

Tipos de Pfam:- Family- Domain- Repetido (en tandem forma dominio)- Motivo (unidad de secuencia corta por fuera de losdominios)

http://pfam.wustl.edu/http://www.sanger.ac.ak/Software/Pfam/index.shtml

ReferenciasReferencias

Profile hidden Markov models. Edyy S.R. 1998, Profile hidden Markov models. Edyy S.R. 1998, Bioinformatics Review. Volume : 14,775-763.Bioinformatics Review. Volume : 14,775-763.

What is a hidden Markov model? Eddy S. R. 2004. What is a hidden Markov model? Eddy S. R. 2004. Publication On linePublication On line

Biological Sequence Analysis: Probabilistic Models of Biological Sequence Analysis: Probabilistic Models of Protein and Nucleic Acids. Durbin R., Eddy S. R., Krogh Protein and Nucleic Acids. Durbin R., Eddy S. R., Krogh A. and Mitchison G. J. Cambridge University Press, A. and Mitchison G. J. Cambridge University Press, Cambbridge UK.Cambbridge UK.

Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.

Documents

Transcript of Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.