G R U P O # 4
Bioinformática
Primera Parte
Se nos entregó una lista de secuencias y número de accesospara buscar a qué organismo pertenecían o proteína.
Se utilizó el website de NCBI para hacer este análisis.
Para las secuencias de amino ácidos utilizamos el ProteinBLAST.
Para las secuencias de nucleótidos utilizamos NucleotideBLAST.
Secuencia 1 Resultado
1 caaaaattcc caatttgttt tttcaaacaa acttgctcag atcctcttct tcttagggat61 caatcttcaa atcaattgtt gttaaaataa atgggattaa agcgacctta tgatgctgaa121 gagatgcaaa agtgcaatgc taagcatgca agacagctta gttacaaaaa ccataaccaa181 tttgacgaag ctattccata tcatcatgct tctatggaga agaagacaaa tgttttagag241 gatctgattg gtctctgtga gaatcctacg tggactaatg atgcaaatca cgttgacaag301 ggttttgaaa caaccggttt gtgtcaggaa gattctcagt ctggagtgac gactcagtca361 gatctttctc atcaatcttc tggttcagat ttcacctgga agccagtgga agatgtttat421 acttgtttga tgaatcaacc tcctaggaaa caagttcttg ttgggtctaa tcatcaagcg481 gatattcccg agtttgtcaa ggaagagatt cttgatcagt cagaggctcg aactaaggag541 gacttagaag ggaagctgat gagaaagtgt gtgataccaa tgtctgactc tgacctttgt601 ggaaccggtc aaggaagaaa ggaatgtctt tgcctagata aaggctctat tagatgtgtg661 cggcgacata tcattgaagc cagagagagt ttggttgaaa ctattggata tgaaaggttt721 atggagctag ggttatgtga gatgggggag gaagttgcga gtttatggac agaggaagaa781 gaagatctct ttcacaaggt tgtatactcc aatcctttct cagcgggtcg tgacttctgg841 aagcaattaa agggaacgtt tccttcaaga accatgaagg agttggttag ctactacttc901 aatgtcttca tcttgcggag acggggtatt cagaatcggt tcaaagccct agatgttaac961 agtgatgatg acgagtggca agttgaatac aacattttta acagcaccaa atctttagat1021 gaggaaaaca acaatggaaa tcgctcctca tatgaagata acgaggaaga agaagaaacc1081 agcagcaatg atgatgatga agaagaagaa gaggaagacg actcatcaag taacgatgct1141 cattgtgtag atacggataa ggcttcaaga gacggttttg gtgaagaagt aaatgtggaa1201 gacgactcat gtatgtcctt cgagttacaa gactccaact tgatcttcag tcacaaccca1261 atcaaaaaca gagagtgcca cagatctggt gaagattcat attcatttga tgatcagaaa1321 ttcacatcag attgttggaa caagaacaac gatctactac caacttcaaa cattattgag1381 gagatatttg gtcaagacga ttggggagat aaagatgata ataacttgaa ggagaagtaa1441 ataaaaagtt ttcttctctt ctttcatgga ttctgcagat tttttttttc ttaagtgaat1501 tagataaaga tgcagaagtt tgaaagtttc atctttagga gttttgtgtt ggttaaggtt1561 gaagaagaaa ggacttcctg attgatttga ctctgtaaaa aatgctattc aaatccatga1621 accttttttt ctctagttgt tttagtcctc aagatctcaa tgtacattat tatggtataa1681 aa
Se sometió esta secuenciaa nucleotide BLAST, seescogió la opción deOTHERS para buscar elorganismo a la cualpertenece la secuencia y seencontró que pertenece aArabidopsis thaliana
Resultados
Secuencia 2 Resultado
MKVYFESYGCTLNKRDTLYMQAQIENTTNNLEEADVVVINSCIV
KQPTETKILYRINQLKKMGKKIVLTGCMVSEPYLKYKELQDISLVNIYNQDRIKEAIE
RTYKGERVLFLEKKKIYKEFARPLSKARAIIQIQEGCLWRCTYCGTKLARSMFYSYPP
KLIKREIEEKLKQGIKIFYLTGPDTATYGKDINYSLADLLKDLIEIEGDFYIRVGMAN
PTFFLEQIDELIDVFKSNKIFKFFHLPVQSGSNKVLKDMNRPYTIEEYKELIYKLRKH
FPLATYVTDIIVGYPTETEEDFEQTLELVREIKFDGINISRFWRRPGTIAWNLKQLDP
EIVTNRVKRLKEVFLQGAYERNKLWLNWEGEAIIEEKGKNNTWIAKNEMYKQIIVKGN
YEEGQKIKVKIKKARAIDLIA
MERDLNVTDLELVEKVKSGDRRSFSELVKRHQRSVLRMSLRFVK
DMDTAEDVTQEAFIKAYEKLNTFEGRSSFKSWLFQIAVNTARNKLREWKRDTVDIDDV
QLAVDAEAETTLVHTAVSDILKNEVEKLPFKQKTALVLRVYEDLSFNEIADIMECPYD
TAKANYRHALMKLRQTFEQQAELKNWTEEVGGFFLEVNQRFAEAEG
Se sometió a ProteinBLAST y se encontró que no hay un por ciento de similaridad mayor de 45% en el banco.
Encontramos que la secuencia tiene un 45% de similaridad a la proteína de Thermotogamarítima: S adenosyl-methionine methylthio-transferase.
Resultados
Número de acceso Resultado
NC_005014BX842648 Sometiendo el número encontramos que corresponde 100% a Salmonella entericasubsp. entérica serovarTyphimurium plasmidR64
Resultados
Secuencia 3 Resultado
1 gatgaacgct ggcggcgtgc ttaacacatg caagtcgaac gatgatccca gcttgctggg61 ggattagtgg cgaacgggtg agtaacacgt gagtaacctg cccttaactc tgggataagc121 ctgggaaact gggtctaata ccggatatga ctcctcatcg catggtgggg ggtggaaagc181 tttattgtgg ttttggatgg actcgcggcc tatcagcttg ttggtgaggt aatggctcac241 caaggcgacg acgggtagcc ggcctgagag ggtgaccggc cacactggga ctgagacacg301 gcccagactc ctacgggagg cagcagtggg gaatattgca caatgggcga aagcctgatg361 cagcgacgcc gcgtgaggga tgacggcctt cgggttgtaa acctctttca gtagggaaga421 agcgaaagtg acggtacctg cagaagaagc gccggctaac tacgtgccag cagccgcggt481 aatacgtagg gcgcaagcgt tatccggaat tattgggcgt aaagagctcg taggcggttt541 gtcgcgtctg ccgtgaaagt ccggggctca actccggatc tgcggtgggt acgggcagac601 tagagtgatg taggggagac tggaattcct ggtgtagcgg tgaaatgcgc agatatcagg661 aggaacaccg atggcgaagg caggtctctg ggcattaact gacgctgagg agcgaaagca721 tggggagcga acaggattag ataccctggt agtccatgcc gtaaacgttg ggcactaggt781 gtgggggaca ttccacgttt tccgcgccgt agctaacgca ttaagtgccc cgcctgggga841 gtacggccgc aaggctaaaa ctcaaaggaa ttgacggggg cccgcacaag cggcggagca901 tgcggattaa ttcgatgcaa cgcgaagaac cttaccaagg cttgacatga accggtaata961 cctggaaaac aggtgccccg cttgcggtcg gtttacaggt ggtgcatggt tgtcgtcagc1021 tcgtgtcgtg agatgttggg ttaagtcccg caacgagcgc aaccctcgtt ctatgttgcc1081 agcgcgtgat ggcggggact cataggagac tgccggggtc aactcggagg aaggtgggga1141 cgacgtcaaa tcatcatgcc ccttatgtct tgggcttcac gcatgctaca atggccggta1201 caaagggttg cgatactgtg aggtggagct aatcccaaaa agccggtctc agttcggatt1261 ggggtctgca actcgacccc atgaagtcgg agtcgctagt aatcgcagat cagcaacgct1321 gcggtgaata cgttcccggg ccttgtacac accgcccgtc aagtcacgaa agttggtaac1381 acccgaagcc ggtggcctaa ccccttgtgg gagggagctg tcgaaggtgg gactggcgat1441 tgggactaag tcgtaacaag gta
Se sometió esta secuenciaa nucleotide BLAST, elorganismo a la cualpertenece la secuencia y seencontró que pertenece aArthrobacter sp.
Resultados
Secuencia 4 Resultado
1 aattcgatgc aacgcgaaga accttacctg ggtttgacat gcacaggacg ccggcagaga61 tgtcggttcc cttgtggcct gtgtgcaggt ggtgcatggc tgtcgtcagc tcgtgtcgtg121 agatgttggg ttaagtcccg caacgagcgc aacccttgtc ctatgttgcc agcgggttat181 gccggggact cgtaggagac tgccggggtc aactcggagg aaggtgggga tgacgtcaag241 tcatcatgcc ccttatgtcc agggcttcac acatgctaca atggccggta caaagggctg301 cgatgccgtg aggtggagcg aatcctttca aagccggtct cagttcggat cggggtctgc361 aactcgaccc cgtgaagtcg gagtcgctag taatcgcaga tcagcaacgc tgcggtgaat421 acgttcccgg gccttgtaca caccgcccgt cacgtcatga aagtcggtaa cacccgaagc481 cggtggccta acccttgtgg agggagccgt cgaaggtggg atcggcgatt gg
Organismo encontrado fue Mycobacteriummucogenicum
Resultados
Secuencia 5 Resultado
MSRPRLIVALFLFFNVFVHGENKVKQSTIALALLPLLFTPVTKA RTPEMPVLENRAAQGDITAPGGARRLTADQTAALRDSLSDKPAKNIILLIGDGMGDSE ITAARNYAEGAGGFFKGIDALPLTGQYTHYALNKKTGKPDYVTDSAASATAWSTGVKT YNGALGVDIHEKDHPTILEMAKAAGLATGNVSTAELQDATPAALVAHVTSRKCYGPSA TSEKCPGNALEKGGKGSITEQLLNARADVTLGGGAKTFAETATAGEWQGKTLREQAQA RGYQLVSDAASLNSVTEANQQKPLLGLFADGNMPVRWLGPKATYHGNIDKPAVTCTPN PQRNDSVPTLAQMTDKAIELLSKNEKGFFLQVEGASIDKQDHAANPCGQIGETVDLDE AVQRALEFAKKDGNTLVIVTADHAHASQIVAPDTKAPGLTQALNTKDGAVMVMSYGNS EEDSQEHTGSQLRIAAYGPHAANVVGLTDQTDLFYTMKAALGLK
Se encuentra que para elProtein BLAST, hay un91% de similitud de lasecuencia de una proteínade E. coli – AlkalinePhosphatase
Resultados
Secuencia 6 Resultado
MRLAALLLAALLATPAFAVQPDEILPDPALEARARDISQGLRCL
VCRNENIDDSNAQLARDLRLLVRERLAAGDSDAEVVEFVVDRYGEYVLLNPTTGGANL
ILWIAGPAMLAGGLGLAALYLRRRRTAPDAASAALSDEEQARLPEILKD
Esta secuencia pertenece a una mutación del citocromo c de Rhodobacter sphaeroides
Resultados
Secuencia 7 Resultado
YVEPPPAAFIGIDELGKWSFYRALIAEFIATLLFLYITVLTVIGYKSQSATDPCGGVGILGIAWAFGGMIFVLVYCTAGISGGHINPAVT
Pertenece a aquaporinePIP3-like protein de Apium graveolens
Resultados
Segunda Parte
Ir al Map Viewer del Human Genome en NCBI y determinar lo siguiente: ¿Cuántos cromosomas tiene un perro, una rata y Arabidopsis?
Determine en qué cromosoma(s) se encuentran los genes relacionados con lo siguiente:a. Anemia falciformeb. Parkinsonc. Alzheimerd. fibrosis císticae. Diabetesf. cancer (seleccione uno)
Usando GenBank Número de acceso: AF321136
a. organismo del cual proviene la secuenciab. número de genes presentes en la secuenciac. función sugerida de alguno de el o los genesd. Seleccione 20 nucleótidos de cualquier región de uno de los genes. e. Seleccione los amino ácidos que desee de una de las secuencias de proteínas
presentes. Usando BLAST
Determine a quién pertenece esa secuencia de la parte d y e
a. Realice una búsqueda usando la secuencia de DNA y proteínas quecopio en 2d y 2e (arriba).
b. ¿Cuáles fueron los tres primeros “hits” obtenidos de cada una? Ir a http://expasy.cbr.nrc.ca/tools/scnpsit1.html
a. Seleccione la secuencia completa de CcmH en AF321136 y realice una búsqueda.b. Escriba el primer motif, motivo o secuencia conservada que encuentre y su función.
Cromosomas
Perro: Canis lupus familiaris
40 cromosomas
Rata: Rattus norvegicus21 cromosomas
Thale cress: Arabidopsis thaliana
5 cromosomas
Anemica falciforme Parkinson
Cromosoma 11: 1 hitCromosomas:
1, 2, 4, 5, 6, 8, 9, 11, 12, 17, 18, 22, X: 172 hits
Enfermedades
Fibrosis cística Diabetes
Cromosomas: 1, 7, 13, 19:
241 hits
Cromosomas no relacionados: 21, 2, Y: 259 hits
Enfermedades
Alzheimer Cáncer de la próstata
Cromosomas no relacionados 13,15,16,18, 11, Y: 184 hits
Cromosomas todos excepto Y: 600 hits
Enfermedades
GenBank y Número de acceso AF321136
a. organismo del cual proviene la secuencia: Rhodobacter sphaeroides
b. número de genes presentes en la secuencia: Se encuentran 3 genes en la secuencia
c. función sugerida de los genes:
1. Gen ccmH = maduración de la proteína CcmH.
2. Gen ccmF = maduración de la proteína CcmF.
3. Gen que codifica para la proteína enoyl-CoA-Hydratase
d. Seleccione 20 nucleótidos: Gen ccmH : 1 atgaggctcg cggcgcttct
e. Seleccione los amino ácidos que desee de una de las secuencias de proteínas presentes:
Gen ccmH: MRLAALLLAALLATPAFAVQPDEILPDPALEARARDISQGLRCL VCRNENIDDSNAQLARDLRLLVRERLAAGDSDAEVVEFVVDRYGEYVLLNPTTGGANLILWIAGPAMLAGGLGLAALYLRRRRTAPDAASAALSDEEQARLPEILKD
Buscar la secuencia de DNA y proteínas que copioanteriormente
¿Cuáles fueron los tresprimeros “hits” obtenidos de cada una?
Secuencia de DNA:
29-40 EGF_1(PS00022)
81-96 INTEGRIN_BETA(PS00243)
138-151 INTEGRIN_BETA(PS00243)
Secuencia de aminoácidos:
Rhodobacter sphaeroides
Rhodobacter sphaeroides 2.4.1
Rhodobacter sphaeroides KD131
BLAST
Usando http://expasy.cbr.nrc.ca/tools/scnpsit1.html
a. Seleccione la secuencia completa de CcmH en AF321136 y realice unabúsqueda
b. Escriba el primer motif, motivo o secuencia conservada que encuentrey su función
Resultado:
PDOC00021: EGF-like domain signatures and profile
Descripción:
Secuencia de 30-40 residuos de aminoácidos de largo encontrada en la secuenciadel factor de crecimento epidermal (EGF), el cual se ha encontrado mayormenteen proteínas de animales. EGF es un polipéptido de 50 aminoácidos con 3 puentesdisulfuro internos. Este primero se enlaza con alta afinidad a un receptorespecífico en la superficie de una célula y luego induce su dimerización, la cual esesencial para la activación de la tirosina-kinasa en el dominio citoplasmático delreceptor, iniciando así una señal de transducción que resulta en la síntesis deDNA y proliferación celular. Además ha sido encontrado en el dominioextracelular de todas las proteínas de la membrana o en proteína que sonsecretadas.
The End
Top Related