Download - Bioinformatica

Transcript

G R U P O # 4

Bioinformática

Primera Parte

Se nos entregó una lista de secuencias y número de accesospara buscar a qué organismo pertenecían o proteína.

Se utilizó el website de NCBI para hacer este análisis.

Para las secuencias de amino ácidos utilizamos el ProteinBLAST.

Para las secuencias de nucleótidos utilizamos NucleotideBLAST.

Secuencia 1 Resultado

1 caaaaattcc caatttgttt tttcaaacaa acttgctcag atcctcttct tcttagggat61 caatcttcaa atcaattgtt gttaaaataa atgggattaa agcgacctta tgatgctgaa121 gagatgcaaa agtgcaatgc taagcatgca agacagctta gttacaaaaa ccataaccaa181 tttgacgaag ctattccata tcatcatgct tctatggaga agaagacaaa tgttttagag241 gatctgattg gtctctgtga gaatcctacg tggactaatg atgcaaatca cgttgacaag301 ggttttgaaa caaccggttt gtgtcaggaa gattctcagt ctggagtgac gactcagtca361 gatctttctc atcaatcttc tggttcagat ttcacctgga agccagtgga agatgtttat421 acttgtttga tgaatcaacc tcctaggaaa caagttcttg ttgggtctaa tcatcaagcg481 gatattcccg agtttgtcaa ggaagagatt cttgatcagt cagaggctcg aactaaggag541 gacttagaag ggaagctgat gagaaagtgt gtgataccaa tgtctgactc tgacctttgt601 ggaaccggtc aaggaagaaa ggaatgtctt tgcctagata aaggctctat tagatgtgtg661 cggcgacata tcattgaagc cagagagagt ttggttgaaa ctattggata tgaaaggttt721 atggagctag ggttatgtga gatgggggag gaagttgcga gtttatggac agaggaagaa781 gaagatctct ttcacaaggt tgtatactcc aatcctttct cagcgggtcg tgacttctgg841 aagcaattaa agggaacgtt tccttcaaga accatgaagg agttggttag ctactacttc901 aatgtcttca tcttgcggag acggggtatt cagaatcggt tcaaagccct agatgttaac961 agtgatgatg acgagtggca agttgaatac aacattttta acagcaccaa atctttagat1021 gaggaaaaca acaatggaaa tcgctcctca tatgaagata acgaggaaga agaagaaacc1081 agcagcaatg atgatgatga agaagaagaa gaggaagacg actcatcaag taacgatgct1141 cattgtgtag atacggataa ggcttcaaga gacggttttg gtgaagaagt aaatgtggaa1201 gacgactcat gtatgtcctt cgagttacaa gactccaact tgatcttcag tcacaaccca1261 atcaaaaaca gagagtgcca cagatctggt gaagattcat attcatttga tgatcagaaa1321 ttcacatcag attgttggaa caagaacaac gatctactac caacttcaaa cattattgag1381 gagatatttg gtcaagacga ttggggagat aaagatgata ataacttgaa ggagaagtaa1441 ataaaaagtt ttcttctctt ctttcatgga ttctgcagat tttttttttc ttaagtgaat1501 tagataaaga tgcagaagtt tgaaagtttc atctttagga gttttgtgtt ggttaaggtt1561 gaagaagaaa ggacttcctg attgatttga ctctgtaaaa aatgctattc aaatccatga1621 accttttttt ctctagttgt tttagtcctc aagatctcaa tgtacattat tatggtataa1681 aa

Se sometió esta secuenciaa nucleotide BLAST, seescogió la opción deOTHERS para buscar elorganismo a la cualpertenece la secuencia y seencontró que pertenece aArabidopsis thaliana

Resultados

Secuencia 2 Resultado

MKVYFESYGCTLNKRDTLYMQAQIENTTNNLEEADVVVINSCIV

KQPTETKILYRINQLKKMGKKIVLTGCMVSEPYLKYKELQDISLVNIYNQDRIKEAIE

RTYKGERVLFLEKKKIYKEFARPLSKARAIIQIQEGCLWRCTYCGTKLARSMFYSYPP

KLIKREIEEKLKQGIKIFYLTGPDTATYGKDINYSLADLLKDLIEIEGDFYIRVGMAN

PTFFLEQIDELIDVFKSNKIFKFFHLPVQSGSNKVLKDMNRPYTIEEYKELIYKLRKH

FPLATYVTDIIVGYPTETEEDFEQTLELVREIKFDGINISRFWRRPGTIAWNLKQLDP

EIVTNRVKRLKEVFLQGAYERNKLWLNWEGEAIIEEKGKNNTWIAKNEMYKQIIVKGN

YEEGQKIKVKIKKARAIDLIA

MERDLNVTDLELVEKVKSGDRRSFSELVKRHQRSVLRMSLRFVK

DMDTAEDVTQEAFIKAYEKLNTFEGRSSFKSWLFQIAVNTARNKLREWKRDTVDIDDV

QLAVDAEAETTLVHTAVSDILKNEVEKLPFKQKTALVLRVYEDLSFNEIADIMECPYD

TAKANYRHALMKLRQTFEQQAELKNWTEEVGGFFLEVNQRFAEAEG

Se sometió a ProteinBLAST y se encontró que no hay un por ciento de similaridad mayor de 45% en el banco.

Encontramos que la secuencia tiene un 45% de similaridad a la proteína de Thermotogamarítima: S adenosyl-methionine methylthio-transferase.

Resultados

Número de acceso Resultado

NC_005014BX842648 Sometiendo el número encontramos que corresponde 100% a Salmonella entericasubsp. entérica serovarTyphimurium plasmidR64

Resultados

Secuencia 3 Resultado

1 gatgaacgct ggcggcgtgc ttaacacatg caagtcgaac gatgatccca gcttgctggg61 ggattagtgg cgaacgggtg agtaacacgt gagtaacctg cccttaactc tgggataagc121 ctgggaaact gggtctaata ccggatatga ctcctcatcg catggtgggg ggtggaaagc181 tttattgtgg ttttggatgg actcgcggcc tatcagcttg ttggtgaggt aatggctcac241 caaggcgacg acgggtagcc ggcctgagag ggtgaccggc cacactggga ctgagacacg301 gcccagactc ctacgggagg cagcagtggg gaatattgca caatgggcga aagcctgatg361 cagcgacgcc gcgtgaggga tgacggcctt cgggttgtaa acctctttca gtagggaaga421 agcgaaagtg acggtacctg cagaagaagc gccggctaac tacgtgccag cagccgcggt481 aatacgtagg gcgcaagcgt tatccggaat tattgggcgt aaagagctcg taggcggttt541 gtcgcgtctg ccgtgaaagt ccggggctca actccggatc tgcggtgggt acgggcagac601 tagagtgatg taggggagac tggaattcct ggtgtagcgg tgaaatgcgc agatatcagg661 aggaacaccg atggcgaagg caggtctctg ggcattaact gacgctgagg agcgaaagca721 tggggagcga acaggattag ataccctggt agtccatgcc gtaaacgttg ggcactaggt781 gtgggggaca ttccacgttt tccgcgccgt agctaacgca ttaagtgccc cgcctgggga841 gtacggccgc aaggctaaaa ctcaaaggaa ttgacggggg cccgcacaag cggcggagca901 tgcggattaa ttcgatgcaa cgcgaagaac cttaccaagg cttgacatga accggtaata961 cctggaaaac aggtgccccg cttgcggtcg gtttacaggt ggtgcatggt tgtcgtcagc1021 tcgtgtcgtg agatgttggg ttaagtcccg caacgagcgc aaccctcgtt ctatgttgcc1081 agcgcgtgat ggcggggact cataggagac tgccggggtc aactcggagg aaggtgggga1141 cgacgtcaaa tcatcatgcc ccttatgtct tgggcttcac gcatgctaca atggccggta1201 caaagggttg cgatactgtg aggtggagct aatcccaaaa agccggtctc agttcggatt1261 ggggtctgca actcgacccc atgaagtcgg agtcgctagt aatcgcagat cagcaacgct1321 gcggtgaata cgttcccggg ccttgtacac accgcccgtc aagtcacgaa agttggtaac1381 acccgaagcc ggtggcctaa ccccttgtgg gagggagctg tcgaaggtgg gactggcgat1441 tgggactaag tcgtaacaag gta

Se sometió esta secuenciaa nucleotide BLAST, elorganismo a la cualpertenece la secuencia y seencontró que pertenece aArthrobacter sp.

Resultados

Secuencia 4 Resultado

1 aattcgatgc aacgcgaaga accttacctg ggtttgacat gcacaggacg ccggcagaga61 tgtcggttcc cttgtggcct gtgtgcaggt ggtgcatggc tgtcgtcagc tcgtgtcgtg121 agatgttggg ttaagtcccg caacgagcgc aacccttgtc ctatgttgcc agcgggttat181 gccggggact cgtaggagac tgccggggtc aactcggagg aaggtgggga tgacgtcaag241 tcatcatgcc ccttatgtcc agggcttcac acatgctaca atggccggta caaagggctg301 cgatgccgtg aggtggagcg aatcctttca aagccggtct cagttcggat cggggtctgc361 aactcgaccc cgtgaagtcg gagtcgctag taatcgcaga tcagcaacgc tgcggtgaat421 acgttcccgg gccttgtaca caccgcccgt cacgtcatga aagtcggtaa cacccgaagc481 cggtggccta acccttgtgg agggagccgt cgaaggtggg atcggcgatt gg

Organismo encontrado fue Mycobacteriummucogenicum

Resultados

Secuencia 5 Resultado

MSRPRLIVALFLFFNVFVHGENKVKQSTIALALLPLLFTPVTKA RTPEMPVLENRAAQGDITAPGGARRLTADQTAALRDSLSDKPAKNIILLIGDGMGDSE ITAARNYAEGAGGFFKGIDALPLTGQYTHYALNKKTGKPDYVTDSAASATAWSTGVKT YNGALGVDIHEKDHPTILEMAKAAGLATGNVSTAELQDATPAALVAHVTSRKCYGPSA TSEKCPGNALEKGGKGSITEQLLNARADVTLGGGAKTFAETATAGEWQGKTLREQAQA RGYQLVSDAASLNSVTEANQQKPLLGLFADGNMPVRWLGPKATYHGNIDKPAVTCTPN PQRNDSVPTLAQMTDKAIELLSKNEKGFFLQVEGASIDKQDHAANPCGQIGETVDLDE AVQRALEFAKKDGNTLVIVTADHAHASQIVAPDTKAPGLTQALNTKDGAVMVMSYGNS EEDSQEHTGSQLRIAAYGPHAANVVGLTDQTDLFYTMKAALGLK

Se encuentra que para elProtein BLAST, hay un91% de similitud de lasecuencia de una proteínade E. coli – AlkalinePhosphatase

Resultados

Secuencia 6 Resultado

MRLAALLLAALLATPAFAVQPDEILPDPALEARARDISQGLRCL

VCRNENIDDSNAQLARDLRLLVRERLAAGDSDAEVVEFVVDRYGEYVLLNPTTGGANL

ILWIAGPAMLAGGLGLAALYLRRRRTAPDAASAALSDEEQARLPEILKD

Esta secuencia pertenece a una mutación del citocromo c de Rhodobacter sphaeroides

Resultados

Secuencia 7 Resultado

YVEPPPAAFIGIDELGKWSFYRALIAEFIATLLFLYITVLTVIGYKSQSATDPCGGVGILGIAWAFGGMIFVLVYCTAGISGGHINPAVT

Pertenece a aquaporinePIP3-like protein de Apium graveolens

Resultados

Segunda Parte

Ir al Map Viewer del Human Genome en NCBI y determinar lo siguiente: ¿Cuántos cromosomas tiene un perro, una rata y Arabidopsis?

Determine en qué cromosoma(s) se encuentran los genes relacionados con lo siguiente:a. Anemia falciformeb. Parkinsonc. Alzheimerd. fibrosis císticae. Diabetesf. cancer (seleccione uno)

Usando GenBank Número de acceso: AF321136

a. organismo del cual proviene la secuenciab. número de genes presentes en la secuenciac. función sugerida de alguno de el o los genesd. Seleccione 20 nucleótidos de cualquier región de uno de los genes. e. Seleccione los amino ácidos que desee de una de las secuencias de proteínas

presentes. Usando BLAST

Determine a quién pertenece esa secuencia de la parte d y e

a. Realice una búsqueda usando la secuencia de DNA y proteínas quecopio en 2d y 2e (arriba).

b. ¿Cuáles fueron los tres primeros “hits” obtenidos de cada una? Ir a http://expasy.cbr.nrc.ca/tools/scnpsit1.html

a. Seleccione la secuencia completa de CcmH en AF321136 y realice una búsqueda.b. Escriba el primer motif, motivo o secuencia conservada que encuentre y su función.

Cromosomas

Perro: Canis lupus familiaris

40 cromosomas

Rata: Rattus norvegicus21 cromosomas

Thale cress: Arabidopsis thaliana

5 cromosomas

Anemica falciforme Parkinson

Cromosoma 11: 1 hitCromosomas:

1, 2, 4, 5, 6, 8, 9, 11, 12, 17, 18, 22, X: 172 hits

Enfermedades

Fibrosis cística Diabetes

Cromosomas: 1, 7, 13, 19:

241 hits

Cromosomas no relacionados: 21, 2, Y: 259 hits

Enfermedades

Alzheimer Cáncer de la próstata

Cromosomas no relacionados 13,15,16,18, 11, Y: 184 hits

Cromosomas todos excepto Y: 600 hits

Enfermedades

GenBank y Número de acceso AF321136

a. organismo del cual proviene la secuencia: Rhodobacter sphaeroides

b. número de genes presentes en la secuencia: Se encuentran 3 genes en la secuencia

c. función sugerida de los genes:

1. Gen ccmH = maduración de la proteína CcmH.

2. Gen ccmF = maduración de la proteína CcmF.

3. Gen que codifica para la proteína enoyl-CoA-Hydratase

d. Seleccione 20 nucleótidos: Gen ccmH : 1 atgaggctcg cggcgcttct

e. Seleccione los amino ácidos que desee de una de las secuencias de proteínas presentes:

Gen ccmH: MRLAALLLAALLATPAFAVQPDEILPDPALEARARDISQGLRCL VCRNENIDDSNAQLARDLRLLVRERLAAGDSDAEVVEFVVDRYGEYVLLNPTTGGANLILWIAGPAMLAGGLGLAALYLRRRRTAPDAASAALSDEEQARLPEILKD

Buscar la secuencia de DNA y proteínas que copioanteriormente

¿Cuáles fueron los tresprimeros “hits” obtenidos de cada una?

Secuencia de DNA:

29-40 EGF_1(PS00022)

81-96 INTEGRIN_BETA(PS00243)

138-151 INTEGRIN_BETA(PS00243)

Secuencia de aminoácidos:

Rhodobacter sphaeroides

Rhodobacter sphaeroides 2.4.1

Rhodobacter sphaeroides KD131

BLAST

Usando http://expasy.cbr.nrc.ca/tools/scnpsit1.html

a. Seleccione la secuencia completa de CcmH en AF321136 y realice unabúsqueda

b. Escriba el primer motif, motivo o secuencia conservada que encuentrey su función

Resultado:

PDOC00021: EGF-like domain signatures and profile

Descripción:

Secuencia de 30-40 residuos de aminoácidos de largo encontrada en la secuenciadel factor de crecimento epidermal (EGF), el cual se ha encontrado mayormenteen proteínas de animales. EGF es un polipéptido de 50 aminoácidos con 3 puentesdisulfuro internos. Este primero se enlaza con alta afinidad a un receptorespecífico en la superficie de una célula y luego induce su dimerización, la cual esesencial para la activación de la tirosina-kinasa en el dominio citoplasmático delreceptor, iniciando así una señal de transducción que resulta en la síntesis deDNA y proliferación celular. Además ha sido encontrado en el dominioextracelular de todas las proteínas de la membrana o en proteína que sonsecretadas.