Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.
-
Upload
german-soriano-maidana -
Category
Documents
-
view
221 -
download
0
Transcript of Uso del programa HMMER Búsqueda de familias (dominios) de proteínas.
Uso del programa HMMER
•Búsqueda de familias (dominios) de proteínas
DOMINIO PROTEICO: porción de una proteína con estructura terciaria definida (40-350 aminoácidos). Unidad modular. En general asociados a una función particular.
Proteínas pequeñas tienen un único dominio, proteínas grandes pueden llegar a tener más de 10 dominios.
FAMILIA DE PROTEINAS: Conjunto de proteínas con dominios o funciones en comúnLa secuencia aminoacídica puede estar conservada en mayor o menor medida. Casos extremos: 25 % de identidad aminoacídica, estructura terciaria idéntica
Dominios
Aplicación de HHMER
Dada una familia de proteínas conocida…..
¿Hay nuevos miembros de esta familia?
Construcción
• A partir de un alineamiento múltiple, se genera un consenso, con matchs, deleciones o inserciones
• Los parámetros del modelo se determinan en base a la frecuencia de aparición de cada aminoácido en una posición particular
• Algoritmos de programación dinámica para la construcción del modelo
• Cálculo de frecuencias de emisión y transición: algoritmos de pesado de secuencias, Plan 7
Características HMMER
• Tres estados principales: Match, Deleción o Inserción
• Se emiten pares de residuos
Modelo Básico
Dpd
Ipi
Mpm
ε
τ
τ
τ
1-ε- τ
1-ε- τ
δ
δ
τ
ε
1-2δ-τ
1-2δ-τ
δ
δ
B E
PLAN 7
Estados especiales (no dependen de los datos de entrada):S, N, J, C, T
Permiten encontrar matchs en cualquier lugar interno de la secuenciaDominios locales
Globinas
Amplia familia de proteínas (50 secuencias de diferentes especies)
1 secuencia de “globina” de Artemia (micro camarón)
Datos de entrada: Alineamianto múltiple(Clustal o HMMER)
hmmbuild - build a hidden Markov model from an alignmentHMMER 2.3.2 (Oct 2003)Copyright (C) 1992-2003 HHMI/Washington University School of MedicineFreely distributed under the GNU General Public License (GPL)- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -Alignment file: globins50.msfFile format: MSFSearch algorithm configuration: Multiple domain (hmmls)Model construction strategy: MAP (gapmax hint: 0.50)Null model used: (default)Prior used: (default)Sequence weighting method: G/S/C tree weightsNew HMM file: globin.hmm - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Alignment: #1Number of sequences: 50Number of columns: 308
Determining effective sequence number ... done. [2]Weighting sequences heuristically ... done.Constructing model architecture ... done.Converting counts to probabilities ... done.Setting model name, etc. ... done. [globins50]
Constructed a profile HMM (length 143)Average score: 189.04 bitsMinimum score: -17.62 bitsMaximum score: 234.09 bitsStd. deviation: 53.18 bits
Finalizing model configuration ... done.Saving model to file ... done.
Construcción del modelo
Algortimo de programación dinámicaParámetro x determina la cantidad de residuos en el consenso
• Generación de secuencias aleatorias en función de
la longitud y composición aminoacídica del
alineamiento múltiple
• Construcción de histograma distribución de los
scores de las secuencias aleatorias
• Seteo de mu y lambda (E-value)
Calibración
Calibración
hmmcalibrate -- calibrate HMM search statisticsHMMER 2.3.2 (Oct 2003)Copyright (C) 1992-2003 HHMI/Washington University School of MedicineFreely distributed under the GNU General Public License (GPL)- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -HMM file: globin.hmmLength distribution mean: 325Length distribution s.d.: 200Number of samples: 5000random seed: 1096635211histogram(s) saved to: histograma- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
HMM : globins50mu : -38.917610lambda : 0.240948max : -6.474000
Búsqueda
Criterios de evaluación de los resultados
Score = log2 P(seq/HMM)
P (seq/null)
E-value = número esperado de falsos positivos (secuencias con score alto por azar)
Búsqueda
hmmsearch - search a sequence database with a profile HMM [HMM has been calibrated; E-values are empirical estimates]
Scores for complete sequences (score includes all domains):Sequence Description Score E-value N -------- ----------- ----- ----- S13421 S13421 GLOBIN - BRINE SHRIMP 474.3 1.7e-143 9
Parsed for domains:Sequence Domain seq-f seq-t hmm-f hmm-t score E-value-------- ------- ----- ----- ----- ----- ----- -------S13421 7/9 932 1075 .. 1 143 [] 76.9 7.3e-24S13421 2/9 153 293 .. 1 143 [] 63.7 6.8e-20S13421 3/9 307 450 .. 1 143 [] 59.8 9.8e-19S13421 8/9 1089 1234 .. 1 143 [] 57.6 4.5e-18S13421 9/9 1248 1390 .. 1 143 [] 52.3 1.8e-16S13421 1/9 1 143 [. 1 143 [] 51.2 4e-16S13421 4/9 464 607 .. 1 143 [] 46.7 8.6e-15S13421 6/9 775 918 .. 1 143 [] 42.2 2e-13S13421 5/9 623 762 .. 1 143 [] 23.9 6.6e-08
Alignments of top-scoring domains:
S13421: domain 7 of 9, from 932 to 1075: score 76.9, E = 7.3e-24
*->eekalvksvwgkveknveevGaeaLerllvvyPetkryFpkFkdLss
+e a vk+ w+ v+ ++ vG +++ l++ +P+ +++FpkF d+
S13421 932 REVAVVKQTWNLVKPDLMGVGMRIFKSLFEAFPAYQAVFPKFSDVPL 978
adavkgsakvkahgkkVltalgdavkkldd...lkgalakLselHaqklr
d++++++ v +h V t+l++ ++ ld++ +l+ ++L+e H+ lr
S13421 979 -DKLEDTPAVGKHSISVTTKLDELIQTLDEpanLALLARQLGEDHIV-LR 1026
vdpenfkllsevllvvlaeklgkeftpevqaalekllaavataLaakYk<
v+ fk +++vl+ l++ lg+ f+ ++ +++k+++++++ +++ +
S13421 1027 VNKPMFKSFGKVLVRLLENDLGQRFSSFASRSWHKAYDVIVEYIEEGLQ 1075
-*
Vale la pena?
para este ejemplo particular:
•50 proteínas de información inicial
•estructura y función perfectamente conocidas
Resultados similares utilizando PSI-BLAST y CDD
Otro caso
•Familia de proteínas específicas de un grupo de organismos alejados
evolutivamente de las especies más estudiadas (hombre, ratón, etc.)
•Poca informacion disponible de proteínas pertencientes a la misma familia
Echinococcus granulosus
Los bancos de datos que utilizan estos programas no son completos (ej. Pfam 5193 flias)
Usamos HMMER.......
10 20 30 40 50 60 70 80 90. . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | .
EgB2G1/10 MRTYILLSLALVAFVAVVQAKAEPERCKCLITRKLSEVRDFFRSDPLGQRLVALGRDLTAICQKLHLKIHEVLKKYVKDLLEEEEEEDDSKTs -----------ITV..APDDDKGQ.DLNMTVMKQ.G...R..TE....RNVTKQLKEMI..AKVIRHR.RKC.GE.L.G.EN.--------Tc -----------ITV..APTDDKG..DL.KKMMKQ.G...R...E.....KIIDHFQETVS..KAIRER.RKR.GE.L.G.EN.--------Me ----------------ME.ETNPIRAI.KR..SY.KSREE.YDK.....KIAKFYGEWKELVAEVRKRVRARIAA...K.Q..--------Hd ----------------ME.ETNPIR.I.TKAKEYFAARER.YDE....KQIA.HLSKWRE.IRDVRARLRGY.R..LN..QK.YPKA----ASPI1 ------MMFTPLIVLTLLVLATAEHQ.GPNEQWSDCPGCELQCGESD-KPCP.MCG.PKCY.SPDQ-YRRIPDGRCIRKIQCPQH------ASPI2 ------MMFTPLIVLTLLVLATAEHQ.GPNEQWSDCPKCELQCGESD-KPCATICGEPKCY.SPDK-YRRIPDGRCIRKIQCPQH------AsCE1 ----------------------GQ...GPNEVWTECTGCEMKCG..ENTPCPLMC.RPSCE.SPGRGMRRTNDG.CIPASQCP.-------
Datos de entrada
7 proteínas de las misma familia (sospecha por estructura y función)
Datos de búsquedauna secuencia nueva EgB2G1/10
Construcción del modelohmmbuild - build a hidden Markov model from an alignmentHMMER 2.3.2 (Oct 2003)Copyright (C) 1992-2003 HHMI/Washington University School of MedicineFreely distributed under the GNU General Public License (GPL)- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -Alignment file: AgBfam.pirFile format: a2mSearch algorithm configuration: Multiple local (hmmfs)S/W aggregate entry probability: 0.50S/W aggregate exit probability: 0.50Model construction strategy: MAP (gapmax hint: 0.50)Null model used: (default)Prior used: (default)Sequence weighting method: G/S/C tree weightsNew HMM file: Agb.hmm - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -Alignment: #1Number of sequences: 7Number of columns: 86
Determining effective sequence number ... done. [5]Weighting sequences heuristically ... done.Constructing model architecture ... done.Converting counts to probabilities ... done.Setting model name, etc. ... done. [AgBfam]
Constructed a profile HMM (length 86)Average score: 137.09 bitsMinimum score: 115.76 bitsMaximum score: 156.73 bitsStd. deviation: 15.18 bits
Finalizing model configuration ... done.Saving model to file ... done.
Parámetro modificado:-f
busca dominios localmente
(prioriza dominios pequeños)
hmmcalibrate -- calibrate HMM search statisticsHMMER 2.3.2 (Oct 2003)Copyright (C) 1992-2003 HHMI/Washington University School of MedicineFreely distributed under the GNU General Public License (GPL)- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -HMM file: Agb.hmmLength distribution mean: 325Length distribution s.d.: 200Number of samples: 5000random seed: 1096637147histogram(s) saved to: histograma2- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
HMM : AgBfammu : -10.075376lambda : 0.640866max : 4.144000
Calibración
Búsqueda
10 20 30 40 50 60 70 80 90. . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | . . . . | .
EgB2G1/10 MRTYILLSLALVAFVAVVQAKAEPERCKCLITRKLSEVRDFFRSDPLGQRLVALGRDLTAICQKLHLKIHEVLKKYVKDLLEEEEEEDDSK
hmmsearch - search a sequence database with a profile HMM
[HMM has been calibrated; E-values are empirical estimates]
Scores for complete sequences (score includes all domains):Sequence Description Score E-value N -------- ----------- ----- ------- ---P1;EgB2G1/10 22.9 6.8e-10 1
Parsed for domains:Sequence Domain seq-f seq-t hmm-f hmm-t score E-value-------- ------- ----- ----- ----- ----- ----- -------P1;EgB2G1/10 1/1 24 87 .. 19 86 .] 22.9 6.8e-10
Alignments of top-scoring domains:P1;EgB2G1/10: domain 1 of 1, from 24 to 87: score 22.9, E = 6.8e-10 *->qerikkkemkylcereefydeDPlGkkiakhlgepkcicspvRkkri +er+k ++ l e++ f++ DPlG+ + ++ +ic i P1;EgB2G1/ 24 PERCKCLITRKLSEVRDFFRSDPLGQRLVALGRDLTAICQKLHL-KI 69
RkrlGkYlkklQcEehkakkk<-* l kY+k+l +Ee +++ P1;EgB2G1/ 70 HEVLKKYVKDLLEEE---EEE 87
Programas que utilizan HMMPrograma Aplicaciones SitioHMMER“hammer”
Búsqueda de familias de proteínasa partir de un alineamientomúltipleEmisión de secuencias patrón
http://hmmer.wustl.eduhttp://bioweb.pasteur.fr/seqanal/motif/hmmer-uk.html
SAM Idem HMMER http://www.cse.ucsc.edu/research/compbio/sam.htmlMeta-meme
Búsqueda de motivos enalineamientos sin gaps (menosparámetros para ajustar)
http://metameme.sdsc.edu/
HMMPro Programa comercial. IdemHMMER más interface gráfica
http://www.nwtid.com/html/hmmpro.html
Pfam Banco de alineamientos múltiples yHMMs de las familias y dominiosproteicos más comunes (5193 flias)
Tipos de Pfam:- Family- Domain- Repetido (en tandem forma dominio)- Motivo (unidad de secuencia corta por fuera de losdominios)
http://pfam.wustl.edu/http://www.sanger.ac.ak/Software/Pfam/index.shtml
ReferenciasReferencias
Profile hidden Markov models. Edyy S.R. 1998, Profile hidden Markov models. Edyy S.R. 1998, Bioinformatics Review. Volume : 14,775-763.Bioinformatics Review. Volume : 14,775-763.
What is a hidden Markov model? Eddy S. R. 2004. What is a hidden Markov model? Eddy S. R. 2004. Publication On linePublication On line
Biological Sequence Analysis: Probabilistic Models of Biological Sequence Analysis: Probabilistic Models of Protein and Nucleic Acids. Durbin R., Eddy S. R., Krogh Protein and Nucleic Acids. Durbin R., Eddy S. R., Krogh A. and Mitchison G. J. Cambridge University Press, A. and Mitchison G. J. Cambridge University Press, Cambbridge UK.Cambbridge UK.