Desarrollo de métodos bioinformáticos para la ... · PDF fileESI...

130
UNIVERSIDAD DE LA HABANA FACULTAD DE BIOLOGÍA Desarrollo de métodos bioinformáticos para la identificación de proteínas en mezclas complejas. Tesis presentada en opción al grado científico de Doctor en Ciencias Biológicas. Autor: Ing. Yasset Pérez Riverol Tutores: Dr. Aniel Sánchez Puentes Dr. Lázaro H. Betancourt Núñez Dr. Juan Antonio Vizcaíno CENTRO DE INGENIERÍA GENÉTICA Y BIOTECNOLOGÍA 2013

Transcript of Desarrollo de métodos bioinformáticos para la ... · PDF fileESI...

Page 1: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

UNIVERSIDAD DE LA HABANA

FACULTAD DE BIOLOGÍA

Desarrollo de métodos bioinformáticos para la identificación de proteínas en mezclas complejas.

Tesis presentada en opción al grado científico de Doctor en Ciencias Biológicas.

Autor: Ing. Yasset Pérez Riverol

Tutores: Dr. Aniel Sánchez Puentes

Dr. Lázaro H. Betancourt Núñez

Dr. Juan Antonio Vizcaíno

CENTRO DE INGENIERÍA GENÉTICA Y BIOTECNOLOGÍA

2013

Page 2: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

ABREVIATURAS EMPLEADAS EN EL DOCUMENTO Por orden alfabético:

2D-PAGE Electroforesis bidimensional BSA Albúmina de suero bovino COFRADIC “Fractional Diagonal Chromatography” DF-PAGE Doble fraccionamiento en geles de poliacrilamida ESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones juzgadas como

correctas HCD Disociación de alta energía realizada en la trampa C HPLC Cromatografía líquida de alta resolución ICAT Marcador de afinidad con marcaje isotópico ICR Resonancia ciclotrónica de iones IEF Focalización isoeléctrica IT Analizador tipo trampa de iones (tridimensional) LC Cromatografía líquida LC-ESI-MS Cromatografía líquida acoplada a espectrometría de masas con ionización por

electronebulización LC-MS/MS Cromatografía líquida acoplada a espectrometría de masas en sucesión LTQ Analizador tipo trampa de iones (en dos dimensiones) LTQ-FT-ICR Analizador híbrido formado por un analizador tipo trampa de iones (en dos dimensiones)

uno de resonancia ciclotrónica de iones con transformada de Fourier LTQ-Orbitrap Analizador híbrido formado por un Orbitrap y uno tipo trampa de iones (en dos

dimensiones) m/z Relación masa/carga MALDI Desorción e ionización por láser asistido por matriz MRM Monitoreo de Reacciones Múltiples MS Espectrometría de masas MS/MS Espectrometría de masas en tándem MudPIT Tecnología multidimensional para la identificación de proteínas OGE Focalización isoeléctrica fuera de gel PAGE Electroforesis en geles de poliacrilamida pI Punto isoeléctrico PITC Isotiocianato de fenilo ppm Partes por millón QQQ Analizador híbrido formado por tres analizadores tipo cuadrupolo QTOF Analizador híbrido formado por un analizador tipo cuadrupolo y uno de tiempo de vuelo RP Cromatografía de fase reversa RP-HPLC Cromatografía líquida de alta eficacia por fase reversa Rt Tiempo de retención SCX Cromatografía de intercambio catiónico fuerte SDS Dodecil sulfato de sodio SDS-FREE-PAGE Electroforesis en geles de poliacrilamida en ausencia de dodecil sulfato de sodio SDS-PAGE Electroforesis en geles de poliacrilamida con dodecil sulfato de sodio TOF Analizador por tiempo de vuelo

Page 3: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Síntesis El presente trabajo describe el desarrollo y aplicación de tres nuevos métodos bioinformáticos

para la identificación de proteínas en mezclas complejas a partir del análisis in silico de bases de

datos de proteínas. El primero de los métodos permitió el diseño y creación de bases de datos

centradas en péptidos en sustitución de las bases de datos de proteínas. Los resultados del

proceso de identificación de péptidos y proteínas de dos líneas celulares humanas (Huh7 –

carcinoma de hígado), (H125 – cáncer de pulmón) demostraron un aumento del número de

proteínas identificadas comparado con los métodos de búsqueda en bases de datos de proteínas.

El segundo método permite la identificación de péptidos modificados con isotiocianato de fenilo,

con la asignación del residuo N- terminal y el empleo también de bases de datos centradas en

péptidos. El desarrollo de dos programas bioinformáticos (SIM y HI-bone) de identificación

posibilita la aplicación del método en experimentos de proteómica de alto flujo. La cantidad de

espectros y proteínas identificadas son superiores a los alcanzados con los programas

informáticos de identificación más utilizados actualmente por la comunidad científica.

A partir de los resultados anteriores se exploraron las bases teóricas de un tercer método de

identificación de péptidos y proteínas con el empleo de diferentes propiedades químico-físicas.

El análisis in silico de seis proteomas y de una muestra compleja de péptidos de Drosophila

melanogaster demuestra que la combinación del punto isoeléctrico, el tiempo de retención, la

masa de los péptidos y el aminoácido N- terminal puede ser empleada como criterio de

identificación. Los resultados indican que el número de identificaciones es significativamente

mayor cuando el método se combina con bases de datos centradas en péptidos.

Page 4: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Índice

Índice

Introducción .....................................................................................................................................1

I. Revisión bibliográfica ....................................................................................................................7

I.1 Introducción a la proteómica .......................................................................................................7

I.2 Métodos electroforéticos ..............................................................................................................7

I.3 Métodos Cromatográficos y de aislamiento selectivo de péptidos.................................................8

I.3.1 Péptidos con cisteína ...................................................................................................................... 9 I.3.2 Péptidos con metionina .................................................................................................................. 9 I.3.3 Péptidos delimitados por residuos de Arginina y que no presentan Lisina ............................ 10 I.3.4 SCAPE: Péptidos no cargados .................................................................................................... 10 I.3.5 Péptidos multicargados ................................................................................................................ 10

I.4 Espectrometría de masas ........................................................................................................... 11

I.4.1 Espectro de Masas ........................................................................................................................ 12 I.4.2 Incremento de la eficiencia de fragmentación a través de modificaciones químicas ............. 15

I.5 Proteómica computacional y bioinformática .............................................................................. 15

I.5.1 Análisis in silico de proteomas .................................................................................................... 16 I.5.2 Diseño de bases de datos centradas en péptidos para estudios de proteómica ....................... 18 I.5.3 Estimación de propiedades químico-físicas de péptidos y proteínas ....................................... 19 I.5.4 Identificación de proteínas basada en la interpretación de espectros de masas ..................... 22 I.5.5 Validación de la identificación de péptidos y proteínas ............................................................ 28 I.5.6 Validación de péptidos identificados empleando propiedades químico-físicas (punto isoeléctrico y tiempo de retención). ..................................................................................................... 29 I.5.7 Estandarización de los datos de proteómica .............................................................................. 31

II. Artículos Originales ................................................................................................................... 33

Artículo I.Charge state-selective separation of peptides by reversible modification of amino groups and strong cation-exchange chromatography: Evaluation in proteomic studies using peptide-centric database searches. ...................................................................................... 33

Artículo II.Peptide fractionation by acid ph SDS-FREE electrophoresis. .......................................... 41 Artículo III.Evaluation of phenylthiocarbamoyl-derivatized peptides by electrospray ionization mass

spectrometry: selective isolation and analysis of modified multiply charged peptides for liquid chromatography-tandem mass spectrometry experiments. ...................................... 47

Artículo IV.Hi-bone: a scoring system for identifying phenylthiocarbamoyl-derivatized peptides based on precursor mass and high intensity b one (b1) fragment ions. ......................................... 57

Artículo V.Effectively addressing complex proteomic search spaces. ............................................... 63 Artículo VI.Pride inspector: a tool to visualize and validate ms proteomics data. .............................. 65 Artículo VII. In silico analysis of accurate proteomics, complemented by selective isolation of

peptides. .............................................................................................................................. 72 Artículo VIII. Isoelectric point optimization using peptide descriptors and support vector machines . 84

III. Discusión General ..................................................................................................................... 89

III.1 Diseño de bases de datos centradas en péptidos para la identificación de proteínas en mezclas complejas ........................................................................................................................................ 91

III.1.1 Optimización de método de aislamiento selectivo de péptidos y aplicación de bases de datos centradas en péptidos. Prueba de concepto en una línea celular humana de carcinoma de hígado ..................................................................................................................................................... 92 III.1.2 Optimización del método de electroforesis en geles de poliacrilamida en ausencia de dodecil sulfato de sodio y aplicación de bases de datos centradas en péptidos. Prueba de concepto en una línea celular humana de cáncer de pulmón ........................................................................... 94

Page 5: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Índice

III.2 Identificación de proteínas con el empleo del ion fragmento b1 de los péptidos multicargados aislados selectivamente y con modificados isotiocianato de fenilo. Prueba de concepto en mezcla compleja de proteínas de Escherichia coli ....................................................................................... 97

III.3 Identificación de proteínas empleando el aminoácido N- terminal e iones fragmentos en el espectro de masas de los péptidos modificados con isotiocianato de fenilo. Prueba de concepto en mezcla compleja de proteínas de Escherichia coli ........................................................................... 99

III.3.1 Identificación empleando patrones de fragmentación y etiquetas de secuencia. Herramienta Bioinformática: HI-bone ............................................................................................. 100 III.3.2 Identificación empleando iones fragmentos teóricos. Herramienta Bioinformática: SIM .............................................................................................................................................................. 102

III.4 Identificación de proteínas empleando métodos de aislamiento selectivo de péptidos en combinación con propiedades químico-físicas de los péptidos. Prueba de concepto en experimento de proteómica sobre mezcla compleja de proteínas de Drosophila melanogaster ........................... 105

III.5 Estimación de punto isoeléctrico de péptidos empleando máquinas de soporte vectorial y propiedades experimentales de aminoácidos ................................................................................. 108

IV. Conclusiones ........................................................................................................................... 111

V. Recomendaciones ..................................................................................................................... 112

VI. Referencias Bibliográficas ....................................................................................................... 113

VII. Bibliografía del Autor............................................................................................................ 122

VII.1 Publicaciones del autor relacionadas con el tema de tesis .......................................................... 122 VII.2 Presentaciones en eventos científicos relacionadas con el tema de tesis .................................... 123 VIII.3 Otras publicaciones del autor ..................................................................................................... 124

Page 6: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Introducción

1

Introducción

El conjunto de proteínas expresadas por una célula o tejido en un estado fisiológico determinado

es conocido como proteoma (Wilkins et al., 1996). La proteómica tiene como objetivo la

caracterización y el análisis del proteoma en cuanto a sus interacciones, sus modificaciones pos-

traduccionales y abundancia relativa. Al igual que la genómica, es una de las nuevas tecnologías

que más desarrollo ha alcanzado en la rama de las investigaciones biomédicas (Nilsson et al.,

2010).

La caracterización del proteoma y sus componentes se realiza mediante la integración de cuatro

herramientas fundamentales: 1) tecnologías analíticas para la separación de péptidos y proteínas,

2) espectrometría de masas, 3) programas computacionales de identificación y 4) herramientas

de visualización y evaluación de la calidad del experimento.

La estrategia más eficiente para el análisis de mezclas complejas de proteínas está basada en la

hidrólisis enzimática de la mezcla compleja de proteínas, la separación y análisis de mezcla de

péptidos resultante mediante cromatografía líquida de alta resolución (HPLC) y espectrometría

de masas en sucesión (LC-MS/MS) (Wolters et al., 2001, Link et al., 1999). Los espectros

generados para cada péptido (espectro MS/MS) son identificados con diferentes estrategias y

algoritmos de identificación. El método más conocido es la identificación de proteínas con la

combinación de programas bioinformáticos y bases de datos de secuencias de proteínas

(Edwards, 2011). Los programas de identificación en bases de datos de secuencias buscan la

mejor correlación entre los espectros experimentales y los MS/MS teóricos generados a partir de

las secuencias de la base de datos seleccionada.

Las bases de datos de secuencias de proteínas son conjuntos de secuencias de aminoácidos

anotadas en ficheros de texto, que han sido obtenidas por algoritmos computacionales o que han

sido secuenciadas a través de técnicas analíticas (Apweiler et al., 2004). Estas bases de datos son

el componente principal en el proceso de identificación debido a que contienen el péptido y

proteína a identificar.

El análisis in silico de las bases de datos de secuencias puede definir el diseño experimental de

las metodologías y técnicas analíticas para el estudio de proteomas. En muchos de los casos han

contribuido de manera decisiva en la creación de métodos analíticos para solucionar

problemáticas asociadas a la complejidad de la mezcla de péptidos analizada y la limitada

capacidad de análisis de los sistemas cromatográficos y los espectrómetros de masas (Cagney et

al., 2003). El estudio in silico de bases de datos permitió dar los elementos necesarios para el

establecimiento de los métodos de aislamiento selectivo de péptidos que simplificaron la mezcla

Page 7: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Introducción

2

de péptidos generada antes de su análisis por LC-MS/MS. Así, es posible la selección de un

pequeño grupo de péptidos (3-5 péptidos/proteína) que representan la mayor cantidad posible de

proteínas presentes en la mezcla inicial (Domon and Aebersold, 2006). Originalmente estos

procedimientos se basaron en la modificación química “selectiva” de la cadena lateral de

aminoácidos poco abundantes y el posterior aislamiento de los péptidos que los contienen,

mediante diferentes principios cromatográficos. Los métodos más establecidos emplean el

aislamiento selectivo de péptidos que contienen Cisteína (Gygi et al., 1999), Metionina (Gevaert

et al., 2002), con Serina o Treonina en el extremo N-terminal (Chelius and Shaler, 2003), y con

Arginina en el extremo C-terminal (Foettinger et al., 2005).

En el departamento de Proteómica del Centro de Ingeniería Genética y Biotecnología (CIGB) se

han desarrollado varias metodologías de aislamiento selectivo de péptidos, basadas en las

diferencias producidas en la composición de carga de los péptidos trípticos después de ser

modificados los grupos amino y la posterior separación por cromatografía de intercambio

catiónico (Betancourt et al., 2005, Sanchez et al., 2006a). Como resultado, la mezcla compleja

puede ser fácilmente clasificada en dos grupos de péptidos: los no cargados y los cargados

positivamente. Por otra parte, los métodos electroforéticos como la electroforesis en geles de

poliacrilamida con dodecil sulfato de sodio (SDS-PAGE) o la focalización isoeléctrica fuera de

gel (OGE) (Ramos et al., 2008); también permiten la separación de las mezclas de péptidos en

subgrupos más simples y han sido aplicados en experimentos de proteómica. Al igual que los

métodos de aislamiento selectivo de péptidos la mezcla de péptidos es dividida en subgrupos más

simples lo que permite el análisis de las proteínas menos abundantes. Como resultado

experimental se obtiene determinada información de las propiedades electrostáticas de los

péptidos identificados (punto isoeléctrico y relación masa/carga). Sin embargo, la utilización de

esta información no ha sido eficientemente utilizada para la reducción del espacio de búsqueda

de las bases de datos, lo cual pudiera incrementar considerablemente el número de péptidos y

proteínas a identificar con los programas de búsqueda.

Adicionalmente, las propiedades químico físicas de los péptidos y proteínas identificados en los

métodos de fraccionamiento y que pueden ser estimadas con la información de las bases de datos

(punto isoeléctrico, relación masa/carga, tiempo de retención, patrón de secuencia del péptido)

no se emplean como información complementaria en las estrategias actuales de identificación.

Otro de los problemas que enfrenta la proteómica es el bajo porcentaje de espectros MS/MS

(obtenidos de una corrida cromatográfica), que pueden ser correctamente asignados. Una de las

posibles razones es que durante el análisis por LC-MS/MS muchos de los péptidos analizados no

se fragmentan eficientemente (Michalski et al., 2011). Los espectros MS/MS de este tipo de

Page 8: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Introducción

3

péptidos por lo general contienen muy pocas señales, por lo que disminuye la eficiencia de los

algoritmos actuales de identificación que dependen de la calidad del espectro MS/MS.

La fragmentación en fase gaseosa mediante disociación inducida por colisiones de péptidos

modificados con isotiocianato de fenilo (PITC) permite observar el ión fragmento b1 en un

espectro MS/MS con independencia de la secuencia del péptido. Este fragmento contiene el

primer residuo de aminoácido (aminoácido N-terminal) y puede ser utilizado como alternativa

para aumentar la eficiencia en el proceso de fragmentación e identificación de péptidos en las

bases de datos (Summerfield et al., 1997).

Sin embargo, la aplicación de esta estrategia como metodología de identificación en

experimentos de proteómica de alto flujo requiere del desarrollo de herramientas bioinformáticas

especializadas que permitan identificar y visualizar eficientemente los espectros de masas de

estos péptidos modificados en bases de datos durante un experimento de proteómica de alto

flujo.

El presente está focalizado en el desarrollo de métodos y herramientas bioinformáticas para la

identificación de proteínas en mezclas complejas por espectrometría de masas. Bajo esta línea de

investigación se formuló la siguiente hipótesis:

Es posible incrementar el número de identificaciones de péptidos modificados o no con

isotiocianato de fenilo mediante la creación de bases de datos centradas en péptidos, el desarrollo

de herramientas bioinformáticas y el uso de propiedades químico-físicas como el punto

isoeléctrico y el tiempo de retención.

A partir de esta hipótesis de trabajo se trazó el siguiente objetivo general:

Desarrollar nuevos métodos bioinformáticos para incrementar la identificación de péptidos y

proteínas en experimentos de proteómica de alto flujo.

Para cumplimentar el objetivo general se diseñaron los siguientes objetivos específicos:

I. Desarrollar herramientas bioinformáticas para el estudio in silico de proteomas, el diseño de

bases de datos centradas en péptidos y el análisis de los resultados de experimentos de

proteómica de alto flujo.

Tareas para darle cumplimiento a este objetivo:

Page 9: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Introducción

4

• Desarrollar una herramienta bioinformática para el estudio in silico de bases de

datos de secuencias y la creación de bases de datos centradas en péptidos.

• Desarrollar una herramienta bioinformática para la visualización y análisis de los

resultados de los experimentos de proteómica.

II. Diseñar y aplicar bases de datos centradas en péptidos a métodos de aislamiento selectivo de

separación por carga y de fraccionamiento de péptidos SDS-Free PAGE.

Tareas para darle cumplimiento a este objetivo:

• Diseñar bases de datos centradas en péptidos a partir de patrones de secuencias

observados en los subgrupos de péptidos aislados selectivamente y de la

distribución teórica del punto isoeléctrico de péptidos fraccionados mediante

SDS-Free PAGE.

• Comparar los resultados del empleo de bases de datos centradas en péptidos con

bases de datos de proteínas para la identificación de un extracto de proteínas

humanas solubles de la línea celular Huh7 de carcinoma de hígado, analizado por

el método de aislamiento selectivo de péptidos y de un extracto de proteínas

humanas de la línea celular H125 de cáncer de pulmón, analizado por el método

SDS-Free PAGE.

III. Desarrollar un método de identificación de péptidos modificados con isotiocianato de fenilo

basados fundamentalmente en la asignación del residuo N- terminal en el espectro MS/MS.

Tareas para darle cumplimiento a este objetivo:

• Desarrollar un método de identificación de péptidos modificados con

isotiocianato de fenilo en experimentos de proteómica de alto flujo.

• Evaluar el método propuesto en una mezcla compleja de proteínas de Escherichia

coli.

− Desarrollar algoritmos de identificación en bases de datos de péptidos

modificados con isotiocianato de fenilo a partir del método propuesto que

empleen:

Etiquetas de secuencia y patrones de fragmentación.

La asignación de todos los fragmentos teóricos del espectro de masas.

• Comparar los algoritmos y herramientas bioinformáticas desarrolladas con las

herramientas bioinformáticas de identificación Mascot, SEQUEST; comúnmente

Page 10: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Introducción

5

utilizadas en experimentos de proteómica en una mezcla compleja de proteínas de

E. coli.

IV. Diseñar un método de identificación de péptidos modificados con isotiocianato de fenilo

mediante la asignación del residuo N- terminal, del punto isoeléctrico, el tiempo de retención

y la masa molecular en combinación con bases de datos centradas en péptidos.

Tareas para darle cumplimiento a este objetivo:

• Analizar proteomas anotados en bases de datos con el empleo del punto

isoeléctrico, tiempo de retención, el aminoácido en el extremo N- terminal, la

masa de los péptidos y bases de datos centradas en péptidos para la identificación

de péptidos modificados con isotiocianato de fenilo en experimentos de

proteómica de alto flujo.

• Desarrollar de una función de estimación de punto isoeléctrico para péptidos,

basada en máquinas de soporte vectorial y propiedades experimentales de los

aminoácidos.

El análisis de los resultados evidencia varios aportes al conocimiento. En primer lugar, el

empleo integrado de los tres métodos de aislamiento selectivo de péptidos (RH0, RH1, RH2) y el

diseño de bases de datos centradas en péptidos sobre un experimento de identificación de

proteínas humanas solubles de la línea celular Huh7 de carcinoma de hígado demostraron por

primera vez la posibilidad de emplear los métodos de aislamiento selectivo en conjunto e

incrementar el número de proteínas identificadas con respecto a las metodologías actuales de

identificación en bases de datos. El desarrollo de un nuevo método de identificación basado en la

asignación de ion fragmento b1, la masa de los péptidos y los métodos de aislamiento selectivo

demostraron la posibilidad de identificar más proteínas que los algoritmos y programas que

existen en la actualidad. El análisis in silico de seis proteomas diferentes evidenció la posibilidad

de identificar péptidos modificados con isotiocianato de fenilo utilizando el punto isoeléctrico, el

tiempo de retención, el aminoácido N- terminal y los métodos de aislamiento selectivo de

péptidos. De igual forma se desarrolló e implementó de un nuevo método de estimación del

punto isoeléctrico de péptidos y proteínas basado en máquinas de soporte vectorial y descriptores

moleculares mucho más preciso que los métodos actuales. Estos hallazgos constituyen

novedades científicas de esta tesis.

Page 11: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Introducción

6

De igual forma, la función de punto isoeléctrico basada en máquinas de soporte vectorial y

descriptores moleculares de los péptidos demostró una mejor precisión en la estimación de esta

propiedad comparada con todos los algoritmos que existes en el estado del conocimiento.

La importancia práctica del trabajo radica en que los métodos y herramientas propuestos son de

fácil implementación en cualquier laboratorio dedicado a la proteómica o a la química de

proteínas. Los algoritmos propuestos para la identificación de proteínas y el cálculo del punto

isoeléctrico superan a todos los de su tipo existentes en la actualidad y se encuentran

implementados en herramientas de código libre y no comerciales disponibles a los laboratorios

de proteómica. Estos métodos se aplicaron exitosamente en el estudio de proteomas de

organismos simples (E. coli) y complejos (Homo sapiens). Las librerías de programas y

herramientas bioinformáticas generadas en este trabajo han sido incluidas dentro de la plataforma

y repositorio de datos de proteómica PRIDE que almacena datos públicos de la comunidad de

proteómica internacional.

Este trabajo de tesis presentado en la modalidad de artículos consta de: Introducción (7 páginas),

Revisión Bibliográfica (22 páginas), Artículos (1 página), Discusión General (15 páginas),

Conclusiones (1 página), Recomendaciones (1 página), Referencias (23 páginas).

Los resultados presentados en esta tesis han sido discutidos en varios Congresos Nacionales e

Internacionales: 7th HUPO World Congress 2008, 8th Siena Meeting from genome to proteome:

Integration and proteome completion, Biotecnología Habana 2009, Biotecnología Habana 2012.

Además, forman parte de ocho publicaciones científicas, en las revistas internacionales de alto

impacto “Nature Biotechnology (1 artículo)”, “Bioinformatics (1 artículo)”, “Journal of

Proteomics (3 artículos)”, “Analytical Chemistry (2 artículos)” y “Electrophoresis (1 artículo)”.

La mayor parte del trabajo experimental y bioinformático se realizó en el Centro de Ingeniería

Genética y Biotecnología (CIGB) de La Habana. El desarrollo de las librerías para la

visualización y lectura de formatos estándares de proteómica se desarrolló en el Instituto

Europeo de Bioinformática en colaboración con el grupo PRIDE.

Page 12: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

7

I. Revisión bibliográfica

I.1 Introducción a la proteómica

El proteoma describe el estado celular o las condiciones externas de la célula. Su análisis puede

ser visto como un amplio ensayo geonómico para diferenciar y estudiar estados celulares y

determinar el mecanismo molecular que los controla (Haynes et al., 1998). La proteómica

constituye el próximo paso, en el esfuerzo por descubrir información acerca de cómo los genes

están relacionados con una función biológica o un estado patológico. Dado que la mayoría de los

blancos farmacológicos son proteínas, existe un gran interés en las potencialidades de la

proteómica en la identificación de nuevos blancos para la intervención y tratamiento de

enfermedades (Miao et al., 2012). Proteínas específicas pueden ser identificadas como

biomarcadores precisos y sensibles para estadios tempranos de enfermedades, lo que puede

asegurar su utilidad en el diagnóstico y pronóstico de las enfermedades (Schirle et al., 2012).

Actualmente, los principales retos de la proteómica lo constituyen: (i) la identificación de las

proteínas presentes en mezclas complejas, (ii) la comparación de los perfiles de expresión de las

proteínas identificadas, (iii) el análisis de las interacciones de las proteínas.

La identificación y validación de las proteínas presentes en una mezcla compleja es uno de los

campos de investigación más dinámico y en desarrollo dentro de la proteómica (Angel et al.,

2012). Las etapas fundamentales para la identificación de proteínas son: (i) la preparación de la

muestra, (ii) la separación de proteínas y péptidos, (iii) su identificación y (iv) el análisis y

validación de los resultados obtenidos. La preparación de la muestra es un paso crítico, que

define las posibilidades de éxito en las etapas posteriores del experimento (Castellanos-Serra and

Paz-Lago, 2002). La mezcla de proteínas y péptidos se pueden separar mediante el uso de

técnicas multidimensionales, entre las que se destacan las electroforéticas y las cromatográficas.

La identificación de las proteínas se lleva a cabo mediante el empleo de la espectrometría de

masas y el uso de herramientas bioinformáticas que posibilitan la identificación de la secuencia

de las proteínas bajo estudio.

I.2 Métodos electroforéticos

La electroforesis bidimensional (2-DE) fue desarrollada independientemente por P. H. O’ Farrel

(O'Farrell, 1975) y J. Klose (Klose, 1975) en el año 1975. La 2-DE permite el análisis de

muestras proteicas complejas debido a su capacidad de separar miles de proteínas en un solo gel.

La metodología se fundamenta con la combinación ortogonal de dos propiedades físico-

Page 13: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

8

químicas: el punto isoeléctrico (pI) y la talla molecular. Cada mancha resultante se corresponde,

generalmente, con una proteína de la muestra biológica (O'Farrell, 1975). Sin embargo, proteínas

con puntos isoeléctricos y pesos moleculares extremos, y las proteínas hidrofóbicas, están poco

representadas en los geles bidimensionales. Se estima que el 30% de las proteínas totales de una

célula son de membrana y solamente un 1% de las proteínas integrales de membranas han sido

identificadas en geles bidimensionales (Santoni et al., 2000). Por este motivo, generalmente las

proteínas hidrofóbicas son separadas mediante electroforesis de geles de poliacrilamida en

presencia de SDS (SDS-PAGE) (Ornstein, 1964, Laemmli, 1970).

En el procedimiento, la mezcla de proteínas se fracciona por SDS-PAGE, el carril se corta en

fragmentos y cada fracción de proteínas se digiere en gel con tripsina. La mezcla de péptidos se

eluye del gel y se analiza por cromatografía líquida en fase reversa acoplada a espectrometría de

masas (RP-LC-MS/MS). El empleo de SDS-PAGE ha demostrado las potencialidades de este

método electroforético para la separación y posterior identificación de proteínas de membrana

(Simpson et al., 2000).

La focalización isoeléctrica fuera del gel (OGE) es un método de reciente aplicación en la

proteómica (Ros et al., 2002). Los péptidos focalizan en la solución contenida en la parte

superior de las tiras de pH inmovilizado. Una vez concluida la corrida, las fracciones se colectan

en cada una de las cámaras en solución y se analizan por LC-MS. Este enfoque permite el

fraccionamiento y la rápida identificación de los componentes de muestras complejas. Los

péptidos identificados son caracterizados con su punto isoeléctrico experimental y esta propiedad

puede ser empleada como criterio de validación de la identificación (Heller et al., 2005, Horth et

al., 2006, Reiter et al., 2009, Krijgsveld et al., 2006).

I.3 Métodos Cromatográficos y de aislamiento selectivo de péptidos

Durante la última década, la cromatografía líquida acoplada a espectrometría de masas (LC-MS)

se ha convertido en una herramienta indispensable para la proteómica (Nilsson et al., 2010). Sin

embargo, separaciones de una sola dimensión carecen de suficiente resolución para resolver

muestras biológicas complejas (Guiochon, 2006). Por esta razón se requiere la combinación de

métodos de separación ortogonales con el fin de proporcionar un análisis exhaustivo de los

componentes de la muestra (Nagaraj et al., 2011). La separación multidimensional de proteínas o

péptidos de una mezcla compleja tiene en cuenta dos o más propiedades físico-químicas, las más

comúnmente utilizadas son la carga, hidrofobicidad e interacciones bioespecíficas. Este enfoque

ayuda a la identificación de especies poco abundantes a partir de la obtención de mezclas más

simples (Wu and MacCoss, 2002).

Page 14: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

9

En 1999 se publicó una metodología conocida en sus inicios como DALPC (del inglés Direct

Analysis of Large Protein Complexes) (Link et al., 1999), que combina la cromatografía de

intercambio catiónico fuerte (SCX) y la fase reversa (RP) para la separación de péptidos.

Optimizaciones posteriores de este sistema resultaron en la forma actual de la metodología

MudPIT (del inglés Multidimensional Protein Identification Technology) (Washburn et al.,

2001).

A pesar de la excelente resolución de las técnicas cromatográficas de RP y SCX para la

separación de péptidos, la complejidad de la muestra excede las capacidades de estos sistemas.

Adicionalmente, el número de péptidos que se detectan en un análisis por LC-MS/MS supera la

capacidad de fragmentación de los espectrómetros de masas actuales. Una alternativa de

simplificación de la muestra surge con la aplicación del concepto de aislamiento selectivo de

pocos péptidos por proteína (3-5 péptidos/proteína) (Gevaert et al., 2003). La mayoría de estos

procedimientos se basan en la modificación química selectiva de la cadena lateral de algunos

aminoácidos y el posterior aislamiento de los péptidos modificados mediante métodos

cromatográficos (Domon and Aebersold, 2006).

I.3.1 Péptidos con cisteína En la metodología ICAT (del inglés Isotope-Coded Affinity Tags) se procede a la derivatización

química de los péptidos con residuos de cisteína en su secuencia. Según el diseño original este

tipo de reactivo consta de tres elementos funcionales: un grupo reactivo específico, un brazo

espaciador isotópicamente codificado y un marcador de afinidad (biotina). La cromatografía de

afinidad biotina-avidina se utiliza para el aislamiento de los péptidos modificados. Esta

metodología permite la simplificación de la mezcla a 3-4 péptidos por proteína y cubre entre el

80-90% de los proteomas (Gygi et al., 1999).

I.3.2 Péptidos con metionina El método conocido como COFRADIC (del inglés COmbined FRActional DIagonal

Chromatography) consiste en dos corridas RP-HPLC de péptidos con una reacción intermedia de

modificación química o enzimática. Los péptidos no modificados eluyen en la misma fracción en

las dos corridas cromatográficas, mientras que los péptidos derivatizados cambian su tiempo de

retención. Este principio puede aplicarse en el aislamiento selectivo de péptidos que contienen

Metionina o Cisteína en sus secuencias o péptidos N-terminal de proteínas. De manera similar, se

Page 15: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

10

pueden seleccionar péptidos con modificaciones pos-traduccionales como los fosfopéptidos o

péptidos N-glicosilados (Gevaert et al., 2002, Van Damme et al., 2009b, Gevaert et al., 2003).

I.3.3 Péptidos delimitados por residuos de Arginina y que no presentan Lisina Sánchez y colaboradores desarrollaron un método para el aislamiento de péptidos delimitados

por residuos de Arginina y que no contienen Lisina interna (RRnK) (Sanchez et al., 2006b). En

este método las proteínas son digeridas con la enzima lisil endopeptidasa, proteasa que hidroliza

específicamente por el extremo C de los residuos de lisina. Los grupos ε- amino de las cadenas

laterales de las lisinas y los α-amino de los péptidos generados por la digestión son biotinilados y

luego digeridos con tripsina, obteniéndose nuevos péptidos con grupos α- amino libres, algunos

de ellos con la presencia de Arginina en el extremo C. Finalmente, se realiza una cromatografía

de afinidad utilizando estreptavidina inmovilizada. Todos los péptidos que contienen al menos

un grupo amino biotinilado son retenidos en la columna de afinidad. Los péptidos no biotinilados

no se retienen y son colectados para su análisis por LC-MS/MS. Esta metodología permite

seleccionar (como promedio) de 4 a 5 péptidos por proteína, representativos del 85% al 87% del

proteoma.

I.3.4 SCAPE: Péptidos no cargados Betancourt y colaboradores propusieron la metodología SCAPE (Betancourt et al., 2005) que se

basa en las diferencias producidas en la carga de los péptidos trípticos después de ser

modificados los grupos amino. Como resultado, la mezcla compleja puede ser fácilmente

clasificada en dos grupos de péptidos: los no cargados y los cargados positivamente. Estos

últimos se protonan por la presencia de residuos de Histidina y Arginina en su secuencia. La

mezcla de péptidos se aplica a una columna de SCX, donde los péptidos con carga positiva son

capturados mientras que las especies no cargadas no se retienen. Los péptidos no retenidos no

contienen residuos de Histidina ni Arginina y se denominan péptidos RH0 o (R+H=0)

(Betancourt et al., 2005).

I.3.5 Péptidos multicargados Sánchez y colaboradores propusieron un método para el aislamiento selectivo de péptidos

conocido como RH2. El método desarrollado se basa en la modificación de los grupos aminos

primarios de los péptidos (α-y ε-NH2) para restringir la presencia de carga positiva. En presencia

de medio ácido, sólo se cargan positivamente los péptidos que contienen Arginina e Histidina, lo

Page 16: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

11

que permite una separación por cromatografía de intercambio catiónico de las especies neutras

(R + H=0) y cargadas (R + H > 1) (Sanchez et al., 2006a).

I.4 Espectrometría de masas

La Espectrometría de Masas es la técnica analítica que permite la generación de iones en fase

gaseosa además de su separación y detección. Los espectrómetros de masas se pueden usar para

determinar la masa molecular de una proteína o un péptido, así como para determinar su

estructura primaria (Aebersold and Mann, 2003). Para ello es necesario seleccionar un ion

específico y someterlo a un proceso de fragmentación, conocido como espectrometría de masas

en sucesión (MS/MS) (Witze et al., 2007). En un primer espectro se obtiene la masa del

compuesto que se ha de analizar, y en un segundo espectro, las masas de los fragmentos

obtenidos. Las partes básicas de un espectrómetro de masas son: el sistema de introducción de

muestras, la fuente de ionización, el analizador de masas y el detector de iones (de Hoffmann,

2007).

En la fuente de ionización, las muestras son llevadas a estado gaseoso y son ionizadas mediante

expulsión de electrones, protonación o deprotonación. Los iones formados, pueden ser

electrostáticamente dirigidos al analizador, separados acorde con su relación masa/carga (m/z) y

finalmente detectados, registrándose el número de iones para cada valor de m/z. El resultado de

la ionización, separación de iones y detección es lo que se conoce como espectro de masas, de

cuyo estudio se puede extraer información acerca de la masa molecular y de la estructura de los

compuestos (de Hoffmann, 2007).

La Ionización por Electronebulización (ESI) (Fenn et al., 1989) y la Ionización y Desorción por

Láser Asistido por Matriz (MALDI) (Karas and Hillenkamp, 1988) son los dos métodos de

ionización más comúnmente usados en el análisis de proteínas y péptidos por espectrometría de

masas. Por su parte, el analizador (separador de iones de acuerdo a su m/z) determina parámetros

claves como son la sensibilidad, la resolución, la exactitud de las masas y la habilidad para

generar información estructural de los péptidos. Los analizadores más comúnmente usados son:

los de trampa de iones (IT) (Cooks et al., 1983), los de tiempo de vuelo (TOF) (Vestal and

Campbell, 2005), los analizadores tipo cuadrupolo (March, 1997), los de resonancia

cincrotrónica de iones con transformada de Fourier (FT-ICR) (Marshall et al., 1998) y los

llamados Orbitrap (Hu et al., 2005). Las combinaciones híbridas de estos analizadores son

comunes, destacándose los triple cuadrupolos y cuadrupolo-tiempo de vuelo (QTOF)

(Chernushevich et al., 2001).

Page 17: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

12

Los analizadores Orbitrap son los primeros introducidos en el mercado en los últimos 30 años,

basado en un nuevo principio físico, la separación de iones en un campo eléctrico oscilante

(Tabla 1). Este instrumento posee valores de resolución y exactitud comparables a los FT-ICR y

generalmente se comercializa como un espectrómetro híbrido en unión a una trampa lineal

(LTQ-Orbitrap).

Tabla 1: Diferentes analizadores de masas y relación de los valores resolución y precisión asociados a

estos.

Cuadrupolo Trampa de iones TOF TOF

reflectron FT-ICR Orbitrap

Resolución 2’000 4’000 5’000 20’000 500’000 100’000

Exactitud 100 ppm 100 ppm 200 ppm 10 ppm < 5

ppm < 5 ppm

Los analizadores de masas poseen dos características fundamentales que determinan su

eficiencia, ellas son: la resolución y la exactitud. Estas dos propiedades son parámetros claves

para seleccionar un espectrómetro de masas y en la definición de los parámetros de la

identificación (Mann and Kelleher, 2008, Zubarev and Mann, 2007). La resolución y el poder de

resolución del analizador son medidas de la capacidad de distinguir dos picos con valores de m/z

muy cercanos (de Hoffmann, 2007). Es deseable un alto poder de resolución para separar iones

fragmentos con m/z muy cercanos en el espectro MS/MS. La masa teórica de cada molécula es

calculada con la sumatoria de las masas monoisotópicas de la composición elemental de la

molécula. El valor de masa experimental consiste en la medición de la masa de cada ion o

molécula. La exactitud de masa es una medida de cuan cercano está el valor de masa

experimental (obtenido con el instrumento) del teórico (de Hoffmann, 2007). Se define como la

relación entre el error de m/z medio y la m/z real, usualmente expresada en partes por millón

(ppm – 10 -6). La exactitud está limitada por el tipo de analizador del espectrómetro empleado, y

depende del método de calibración y procesamiento de los datos para obtener los valores de m/z.

La tabla 1 muestra la exactitud para los diferentes analizadores, donde el valor del Orbitrap (> 5

ppm) es la que ofrece mejores resultados.

I.4.1 Espectro de Masas

Una de las potencialidades de la espectrometría de masas es que permite determinar la secuencia

de péptidos y proteínas. Además posibilita la detección y ubicación de las modificaciones pos-

traduccionales. Para realizar estos análisis es necesario someter a la molécula ionizada a un

Page 18: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

13

proceso de disociación, y de este modo obtener un espectro de masas de los iones fragmentos

(MS/MS). Aunque existe una amplia variedad de métodos de fragmentación, el conocido por

Disociación Inducida por Colisiones (DIC) (Hayes and Gross, 1990), continúa siendo el más

utilizado para analizar este tipo de moléculas. De esta manera en los espectros MS/MS obtenidos

con trampas iónicas y QTOFs, predominan las series de iones y”n y bn, que se producen por la

ruptura del enlace peptídico (Roepstorff and Fohlman, 1984).

Figura 1: Iones fragmentos más comúnmente generados por la disociación de los enlaces del esqueleto

carbonado de un tetrapéptido hipotético.

La Figura 1 muestra los iones fragmentos del esqueleto carbonado de un péptido que pueden

producirse durante un experimento de espectrometría de masas. Estos iones pueden ser

agrupados en dos grandes familias: iones N-terminales e iones C-terminales en dependencia de

cuál de los extremos del péptido ellos conserven. Ambas familias se subdividen en series de

fragmentación según el sitio alrededor del enlace peptídico donde ocurre la disociación del ión

precursor. El subíndice que acompaña a estas series de iones indica la cantidad de residuos que

contiene cada ión fragmento, y los apóstrofes señalan el número de protones ganados por estos

en el proceso de fragmentación.

El espectro de masas representa la frecuencia y la relación masa/carga de los iones fragmentos

detectados por el espectrómetro de masas (de Hoffmann, 2007). Cada altura de pico o señal

(intensidad del pico) es proporcional a la frecuencia del ion fragmento a un valor de masa/carga

determinado (Figura 2). Los espectros de masas son comúnmente representados como un gráfico

R2 R4

a1 b1 c”1 a2 b2 c”2 a3 b3 c”3

NH2 –CH – CO – NH – CH – CO – NH – CH – CO – NH – CH – COOH

x3 y”3 z3 x2 y”2 z2 x1 y”1 z1

R1 R3

Iones N-terminal Iones C-terminal

NH2 – CH – CO – NH – CH

R1

R2

+O C – NH– CH – CO – NH – CH – COOH

R3

R4

+ –––x2 :a2 :

NH2 – CH – CO – NH – CH – C O

R1

R2

+––– NH3 – CH – CO – NH – CH – COOH

R3

R4

+y”2 : b2 :

NH2 – CH – CO – NH – CH – CO – NH3

+R1

R2

CH – CO – NH – CH – COOH

R3

R4

+z2 :c’’2 :

R2 R4

a1 b1 c”1 a2 b2 c”2 a3 b3 c”3

NH2 –CH – CO – NH – CH – CO – NH – CH – CO – NH – CH – COOH

x3 y”3 z3 x2 y”2 z2 x1 y”1 z1

R1 R3

R2 R4

a1 b1 c”1 a2 b2 c”2 a3 b3 c”3

NH2 –CH – CO – NH – CH – CO – NH – CH – CO – NH – CH – COOH

x3 y”3 z3 x2 y”2 z2 x1 y”1 z1

R1 R3

Iones N-terminal Iones C-terminal

NH2 – CH – CO – NH – CH

R1

R2

+O C – NH– CH – CO – NH – CH – COOH

R3

R4

+ –––x2 :a2 : NH2 – CH – CO – NH – CH

R1

R2

+NH2 – CH – CO – NH – CH

R1

R2

++O C – NH– CH – CO – NH – CH – COOH

R3

R4

+ –––O C – NH– CH – CO – NH – CH – COOH

R3

R4

++ ––––––x2 :a2 :

NH2 – CH – CO – NH – CH – C O

R1

R2

+––– NH3 – CH – CO – NH – CH – COOH

R3

R4

+y”2 : b2 : NH2 – CH – CO – NH – CH – C O

R1

R2

+–––NH2 – CH – CO – NH – CH – C O

R1

R2

++–––––– NH3 – CH – CO – NH – CH – COOH

R3

R4

+NH3 – CH – CO – NH – CH – COOH

R3

R4

++y”2 : b2 :

NH2 – CH – CO – NH – CH – CO – NH3

+R1

R2

CH – CO – NH – CH – COOH

R3

R4

+z2 :c’’2 : NH2 – CH – CO – NH – CH – CO – NH3

+R1

R2

NH2 – CH – CO – NH – CH – CO – NH3

++R1

R2

CH – CO – NH – CH – COOH

R3

R4

+CH – CO – NH – CH – COOH

R3

R4

++z2 :c’’2 :

Page 19: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

14

donde el eje de las x representa la relación masa/carga y el eje de las y representa la intensidad

relativa de cada pico. La diferencia de masas entre señales consecutivas de iones

correspondientes a una misma serie, nos indicará la pérdida de un aminoácido, la posición que

ocupa dentro de la secuencia y en el caso en que se obtengan valores de masas inesperados, estos

pudieran relacionarse con aminoácidos modificados. De esta forma es posible localizar

modificaciones post-traduccionales y determinar la secuencia de péptidos de forma bidireccional,

lo que redunda en una mayor confiabilidad en la interpretación del espectro.

Una característica particular de los experimentos de DIC, es que cualquiera sea el régimen de

energía que se utilice, la eficiencia de la fragmentación del péptido o la proteína en estudio, es

dependiente de su secuencia. Esto provoca que aunque se han realizado múltiples esfuerzos, sea

prácticamente impredecible en su mayoría la relación de intensidades y la aparición de los

fragmentos en el espectro de masas.

Figura 2: Espectro de Masas MS/MS obtenido en un analizador TOF de un péptido con secuencia His-

Ala-Ala-Xle-Glu-Val-Ala-Pro-Arg. Los iones fragmentos (bn, an, zn, y”n) se encuentran representados en

color azul. La señal (M+2H)2+ representa la señal del ion precursor. El eje de las x muestra la relación

masa/carga para cada ion fragmento y el eje de las y la intensidad relativa del ion fragmento.

Page 20: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

15

I.4.2 Incremento de la eficiencia de fragmentación a través de modificaciones químicas

Es posible, mediante modificaciones químicas producir algún patrón de fragmentación en

particular o generar iones fragmentos específicos (Wysocki et al., 2005, Michalski et al., 2011).

La mayoría de los métodos de derivatización están diseñados para modificar el extremo N de los

péptidos. Esto se debe a que el grupo amino del N-terminal se puede modificar de manera más

específica que el grupo carboxilo del C-terminal (Ekman et al., 2008). Los grupos aminos α del

extremo N y ε de la lisina pueden ser modificados de manera selectiva en dependencia de las

condiciones del medio. En cambio la modificación de los grupos carboxilos del C-terminal y de

los aminoácidos ácidos Asp y Glu pueden ocurrir en extensiones similares.

La modificación de péptidos empleando PITC es una de las estrategias que se utilizan para la

obtención de iones fragmentos específicos más intensos (Wang et al., 2009). Cuando un péptido

modificado con PITC se fragmenta en fase gaseosa mediante disociación inducida por colisiones

a baja energía, ocurre un proceso análogo a la degradación de Edman en fase líquida

(Summerfield et al., 1997). Esta fragmentación promueve la formación de los iones

complementarios b1 y yn-1, con elevados rendimientos (70-90%) (Diego et al., 2010). Gaskell y

colaboradores emplearon esta reacción para identificar proteínas de levadura presentes en geles

de poliacrilamida (Brancia et al., 2001). En otra aplicación a la proteómica, Yao y colaboradores

propusieron el empleo de los iones b1 y yn-1 para la cuantificación absoluta de proteínas mediante

Monitoreo de Reacciones Múltiples (MRM) (Wang et al., 2009).

I.5 Proteómica computacional y bioinformática

El desarrollo de la proteómica y sus técnicas analíticas han estado estrechamente relacionados

con la evolución de la bioinformática y en especial de la proteómica computacional (Aebersold,

2011). La proteómica computacional es el conjunto de herramientas informáticas y análisis

bioinformáticos que se emplean en los estudios de proteómica (Colinge and Bennett, 2007). Una

simple célula de bacteria puede producir más de 4000 proteínas, mientras que el número de

proteínas expresadas en eucariontes superiores es 10 veces mayor. Por esta razón, intentar

analizar, validar, visualizar y catalogar los datos de proteómica se ha convertido en uno de los

mayores retos de la bioinformática y la proteómica computacional (Aebersold, 2011, Martens,

2011). Eric W. Deutsch y colaboradores describen las etapas donde el empleo de las

herramientas bioinformáticas son cruciales en un experimento de identificación de proteínas

(Deutsch et al., 2008): (i) análisis in silico de proteomas, (ii) identificación de péptidos y

Page 21: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

16

proteínas, (iii) validación de péptidos y proteínas identificadas, (iv) visualización, análisis y

almacenamiento de los datos obtenidos (Figura 3).

El carácter cíclico de este flujo de etapas se debe a la necesidad de optimizar las condiciones del

experimento analítico, conocidos los resultados alcanzados en el experimento. Cuando el diseño

experimental ha sido optimizado y el protocolo analítico es conocido no es necesario realizar

análisis in silico del proteoma estudiado.

Figura 3: Definición de los pasos bioinformáticos más comunes el desarrollo de metodologías de

identificación de proteínas en experimentos de proteómica de alto flujo.

I.5.1 Análisis in silico de proteomas

El análisis in silico de proteomas permite predecir la eficiencia del diseño experimental en

términos de cantidad y calidad de los péptidos y proteínas identificadas. El estudio de las

propiedades de los péptidos y proteínas como la hidrofobicidad, carga eléctrica, masa y punto

isoeléctrico posibilitan ajustar las variables experimentales para producir mejores resultados

(Cagney et al., 2003). Cebrat y colaboradores realizaron un estudio profundo de la relación del

punto isoeléctrico con la taxonomía, el tamaño de las secuencias, y la localización celular de las

proteínas (Kiraga et al., 2007). El estudio demostró la distribución bimodal que presenta el punto

isoeléctrico de proteínas y péptidos para la mayoría de las taxonomías. El análisis in silico de

Experimento Analítico

Análisis in silico de proteomas

Identificación de péptidos y proteínas

Validación de péptidos y proteínas identificadas

Visualización, análisis y almacenamiento de los datos obtenidos

Page 22: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

17

proteomas se subdivide en dos grandes componentes: bases de datos de secuencias de proteínas y

plataformas bioinformáticas que permitan el procesamiento de estas bases de datos (Cagney et

al., 2003, Colinge et al., 2006).

La identificación de proteínas está basada comúnmente en el empleo de programas de búsqueda

en bases de datos (Edwards, 2011). Las bases de datos de secuencias de proteínas son conjuntos

de secuencias de aminoácidos anotadas en ficheros de texto, que han sido obtenidas por

algoritmos computacionales o que han sido secuenciadas a través de técnicas analíticas

(Apweiler et al., 2004). Estas bases de datos son anotadas en ficheros de texto con diferentes

estructuras como los archivos estándares XML o ficheros FASTA (ficheros texto donde se

anotan solo las secuencias de aminoácidos y los identificadores de las proteínas). Entre las bases

de datos de secuencias de proteínas más empleadas en proteómica se encuentran: (i) UniProt

KnowledgeBase (SWISS-PROT/TrEMBL), (ii) la base de datos no redundante de NCBInr (del

inglés National Center for Bioinformatics Information), (iii) el índice internacional de proteínas

(IPI – del inglés International Protein Index) (Kersey et al., 2004).

UniProt (SWISS-PROT/TrEMBL)

El repositorio central de secuencias de proteínas Uniprot está integrado por dos fuentes

fundamentales: (i) SWISS-PROT y (ii) TrEMBL (Magrane and Consortium, 2011). La

diferencia principal entre estas dos bases de datos radica en el proceso de curación manual al

cual es sometida SWISS-PROT. Todas las entradas (secuencias) en SWISS-PROT han pasado

un riguroso control manual por biólogos y curadores expertos. Durante el proceso de curado

diversas fuentes de información son consultadas y verificadas de forma cruzada con el objetivo

de establecer las anotaciones que están claramente soportadas sobre solidas evidencias biológicas

y experimentales. Obviamente, el proceso de curación es intenso en términos de recursos

humanos y tiempo, lo que limita su crecimiento. TrEMBL fue creada con el objetivo de

complementar esta debilidad, lo que hace de forma eficiente. TrEMBL está dividida en dos

secciones, llamadas SP-TrEMBL y REM-TrEMBL. SP-TrEMBL contiene todos los registros

que van a ser incorporados a UniProt/SwissProt. Por el contrario, REM-TrEMBL (del inglés

REMaining TrEMBL) contiene secuencias sintéticas, truncadas, y otros fragmentos de proteínas

que no son anotados por los mantenedores de UniProt/SwissProt. Adicionalmente, para cada

proteína, UniProt contiene un conjunto de anotaciones sobre las modificaciones pos-

traduccionales, función y proceso celular, etc. Otros recursos como las bases de datos UniParc

(Leinonen et al., 2004) y UniRef (Suzek et al., 2007), herramientas de procesamiento y búsqueda

son provistos por este recurso central.

Page 23: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

18

Base de datos no redundante de NCBI

El NCBI provee la base de datos de secuencias de proteínas no redundantes (NCBInr). Esta base

de datos agrupa secuencias de varias fuentes de datos incluidas SWISS-PROT, TrEMBL y

RefSeq. Las secuencias pueden ser anotadas en dos formas básicas distintas: NP y XP. Las

secuencias NP tienen evidencias que corroboran la existencia de la secuencia como son ADN

complementario, mientras que las secuencias XP están basadas puramente en predicciones. El

nivel de anotación para cada secuencia depende de la variabilidad de las fuentes de donde se

tomó la secuencia.

La base de datos es no redundante al nivel de secuencia de proteína, lo que significa que no

existen secuencias completamente idénticas. Empleando la herramienta web Entrez

(http://www.ncbi.nlm.nih.gov/entrez/) se controlan el historial y todas las versiones de la base de

datos.

El índice internacional de proteínas

El índice internacional de proteínas (IPI) es una base de datos de secuencias de proteínas

originalmente creada con el proyecto de secuenciación del proteoma humano (Kersey et al.,

2004). La base de datos fue concebida como una fuente de secuencias de proteínas humanas no

redundantes. Durante los últimos años el crecimiento y expansión de esta base de datos ha dejado

atrás el propósito inicial. En la actualidad IPI contiene una variedad de especies y organismos

incluidos humanos, ratón y rata.

IPI presenta una vista automáticamente curada de las secuencias contenidas en Uniprot, RefSeq y

EnsEMBL utilizando un conjunto de programas y algoritmos computacionales que permiten

desechar las secuencias duplicadas. El programa computacional emplea algoritmos de

agrupamientos (clustering) de secuencia y remueve todas aquellas secuencias los clusters en

donde las secuencias muestran más de un 95% de homología. A cada grupo (cluster) se le asigna

finalmente un identificador IPI y todas las anotaciones de las diferentes fuentes en el grupo son

adicionadas al grupo. IPI de igual forma proporciona el historial de los archivos generados, lo

que permite conocer las modificaciones realizadas a cada secuencia (Kersey et al., 2004).

I.5.2 Diseño de bases de datos centradas en péptidos para estudios de proteómica

El diseño de bases de datos persigue reducir el espacio de búsqueda para los programas

computacionales de identificación, conocidas la condiciones y diseño experimental (Yen et al.,

2006, Gevaert et al., 2002). El ejemplo más sencillo es la reducción del espacio de búsqueda y

Page 24: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

19

creación de una base de datos que solo contenga la taxonomía que se estudia. El procedimiento

permite que el programa de búsqueda no emplee secuencias de proteínas que no están en la

mezcla biológica y por ende reduce la posibilidad de identificar falsos positivos (conocido como

el problema de distracción) (Yen et al., 2006), así como reduce el tiempo de búsqueda e

identificación (Li et al., 2010).

Gevaert y Martens propusieron por primera vez el empleo de bases de datos centradas en

péptidos para el estudio de péptidos N-terminales aislados selectivamente (Gevaert et al., 2003).

La creación de una base de datos centrada en péptidos N-terminales en combinación con el

método de aislamiento selectivo de los péptidos N-terminales de las proteínas, posibilitó el

incremento de 40% de las péptidos y espectros identificados (Martens et al., 2005c, Gevaert et

al., 2003). Martens y colaboradores crearon posteriormente una herramienta de escritorio

DBtoolkit (Martens et al., 2005c) y web “Database on Demand” (Reisinger and Martens, 2009)

para automatizar y facilitar la creación de bases de datos centradas en péptidos. Estas

herramientas fueron empleadas en la generación de bases de datos centradas en péptidos N-

terminales en diferentes estudios de proteómica de alto flujo (Martens et al., 2005b).

De igual forma, Resing y colaboradores desarrollaron bases de datos centradas en péptidos para

incrementar la sensibilidad de los programas de búsqueda dado que bases de datos más pequeñas

resultan en menos distracción para los programas de búsqueda (Yen et al., 2006). En esta

metodología, empleando programas computacionales y un conjunto de reglas, se excluyen las

secuencias de péptidos que se estiman no deben aparecer en la muestra biológica. Resing y

colaboradores pudieron definir que todos los péptidos identificados se encontraban dentro del

intervalo de masa de 950 Da a 4500 Da y que el número máximo de cortes incompletos era 2. El

empleo de esta metodología permitió la reducción entre 3 y 9 veces el tamaño original de la base

de datos de secuencias.

I.5.3 Estimación de propiedades químico-físicas de péptidos y proteínas

Los métodos de separación tanto de electroforesis y cromatografía, así como espectrometría de

masas; emplean propiedades químico-físicas para separar y diferenciar los péptidos y las

proteínas en una mezcla compleja. Las técnicas electroforéticas por ejemplo emplean por lo

general las propiedades electrostáticas de las macromoléculas para su separación: carga, punto

isoeléctrico, relación masa/carga. Por su parte los métodos cromatográficos pueden emplear la

hidrofobicidad o hidrofilicidad, y el estado de carga de las moléculas. La espectrometría de

masas emplea la masa de cada péptido o proteína así como de los iones fragmentos como criterio

Page 25: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

20

de diferenciación (Eidhammer et al., 2008). La estimación teórica precisa de estas propiedades

químico-físicas permite la evaluación de la eficiencia del método de separación e identificación.

Estimación teórica del punto isoeléctrico

El punto isoeléctrico de una proteína o péptido se define como aquel valor de pH al cual la carga

eléctrica neta de la molécula es nula, lo que imposibilita su desplazamiento en un campo

eléctrico (Nelson and Cox, 2004). A este valor de pH, la molécula muestra un mínimo de

solubilidad y no existe repulsión electrostática entre moléculas vecinas. Debido a que las

proteínas difieren en el contenido de aminoácidos con grupos laterales ionizables, estas poseen

diferentes valores de pI, por lo que este parámetro puede ser utilizado como criterio de

separación de proteínas y péptidos (Nelson and Cox, 2004).

La separación de péptidos y proteínas sobre la base de su carga eléctrica depende de sus

propiedades ácido/básicas, las cuales se determinan por el número y tipo de grupos ionizables de

sus cadenas polipeptídicas. El punto isoeléctrico está determinado por el número de grupos que

se ionizan y sus constantes de ionización (pK). Este valor será relativamente elevado (por encima

de pH= 7,0) si la cadena peptídica posee un contenido elevado de aminoácidos básicos (Lisina,

Arginina), y relativamente bajo (inferior a pH=7,0) si la proteína posee aminoácidos ácidos

(Aspártico, Histidina y Glutámico) (Nelson and Cox, 2004).

Los algoritmos y modelos matemáticos que se emplean para la predicción del punto isoeléctrico

de péptidos y proteínas se basan únicamente en la estructura primaria de la proteína (secuencia

de aminoácidos). La ecuación de Henderson-Hasselbach (Nelson and Cox, 2004) es utilizada

para aproximar el valor de pI basado en los pK de los grupos laterales ionizables ácidos

(Ecuación 1) y básicos (Ecuación 2).

[𝐴−] = 10𝑝𝐻−𝑝𝐾𝑎

10𝑝𝐻−𝑝𝐾𝑎+1 Ecuación 1

[𝐻𝐴+] = 110𝑝𝐻−𝑝𝐾𝑎+1

Ecuación 2

Estas ecuaciones proporcionan el modelo matemático para predecir la magnitud de la carga neta

de un péptido a un pH dado. Obteniendo las cargas del total de grupos laterales ionizables

presente en cada especie, es posible determinar el pH al cual la carga neta es nula. Para la

correcta estimación del punto isoeléctrico de péptidos y proteínas existen diferentes conjuntos de

pK que han sido obtenidos bajo diferentes condiciones electroforéticas (Patrickios and

Yamasaki, 1995, Sillero and Ribeiro, 1989, Ribeiro and Sillero, 1990, Righetti, 2004, Shimura et

al., 2000).

Page 26: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

21

Bjellqvist y colaboradores demostraron en 1993 que las constantes de ionización de cada

aminoácido varían dependiendo de la posición en la secuencia (Bjellqvist et al., 1993). El

principal aporte de este trabajo fue definir la constante de ionización del grupo carboxilo (C-

Terminal) y el grupo amino (N- terminal) en dependencia del aminoácido que se encuentra en la

posición C- terminal o N- terminal respectivamente. Varias optimizaciones de las constantes de

ionización han sido nuevamente estudiadas teniendo en cuenta la demostración de Bjellqvist y

colaboradores (Wilkins et al., 1999, Shimura et al., 2000, Gauci et al., 2008).

Recientemente, Cargile y colaboradores (Cargile et al., 2008) establecieron que el valor de la

constante de ionización de un aminoácido depende además de su interacción con los

aminoácidos adyacentes. El modelo desarrollado aplica una corrección a la constante de

ionización de los aminoácidos Glutámico, Aspártico y el extremo C-terminal de los péptidos

dependiendo de los residuos adyacentes. Los autores emplearon un algoritmo genético con 5000

péptidos trípticos correctamente identificados y obtuvieron un conjunto nuevo de valores de pK

para los tres residuos. El algoritmo propuesto permite la estimación del punto isoeléctrico con

una correlación de 0,98 y un error en la estimación menor que 0,15 unidades de pH en la fracción

acida de pH de 3,5 a 4,5 (Cargile et al., 2008).

Estimación del tiempo de retención

A principios de los años 80 fue postulado que el tiempo de retención de los péptidos puede ser

estimado como la suma de los coeficientes de hidrofobicidad de los residuos que conforman la

secuencia del péptido (Meek, 1980). Varios modelos similares han sido desarrollados (Browne et

al., 1982, Guo et al., 1986, Sasagawa et al., 1982), cuyo aporte fundamental es la introducción de

factores de corrección que dependen del tamaño de la secuencia (Mant et al., 1988). En

particular, estos algoritmos han hecho énfasis en el tamaño de la secuencia y la presencia de

estructuras secundarias (Purcell et al., 1993, Sereda et al., 1995).

Petritis y colaboradores con el empleo de 7000 péptidos identificados por HPLC-ESI MS/MS y

un algoritmo genético desarrollaron un modelo matemático capaz de estimar el tiempo de

retención con una desviación estándar por debajo de 0,2 (Petritis et al., 2003). No obstante la

eficiencia del método estaba determinada por el conjunto de datos de entrenamiento y el tiempo

de ejecución del algoritmo era excesivo para experimentos de proteómica.

Krokhin y colaboradores propusieron en el 2006 un modelo de predicción y programa de cálculo

(SSRCalc) del tiempo de retención basado en un modelo aditivo (Krokhin, 2006). Los autores

combinaron el método aditivo con correcciones a los coeficientes de hidrofobicidad dependientes

Page 27: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

22

del tamaño de la secuencia y el aminoácido en el extremo N-terminal. La aplicación de un

algoritmo de aprendizaje y un conjunto de 350 péptidos identificados con una alta confiabilidad

permitieron generar y validar los coeficientes de ajuste del modelo aditivo y predecir el tiempo

de retención teórico con una correlación de R2 de 0,97 (Krokhin, 2006).

Estimación de la masa molecular

El cálculo teórico de la masa molecular de péptidos y proteínas es un método simple que se

resume a la adición de las contribuciones de cada residuo de la secuencia de aminoácidos.

Además se adicionan los valores de masas de los átomos en los extremos N- y C- terminal,

generalmente H y OH, respectivamente. Si la secuencia se encuentra modificada se adicionan las

contribuciones en masa de las modificaciones químicas (Eidhammer et al., 2008).

I.5.4 Identificación de proteínas basada en la interpretación de espectros de masas

El éxito de la espectrometría de masas para la identificación de proteínas en mezclas complejas

depende del desarrollo de herramientas computacionales eficientes que permitan la asignación

del espectro de masas MS/MS a una secuencia de aminoácidos. Las diferentes metodologías de

identificación y herramientas bioinformáticas pueden ser catalogadas en tres grupos

fundamentales: (i) algoritmos de búsqueda en bases de datos que emplean una función de

puntuación que evalúa la concordancia entre el espectro (MS/MS) de masas obtenido

experimentalmente y y los espectros teóricos de todos los péptidos almacenados en bases de

datos (Nesvizhskii, 2007, Edwards, 2011), (ii) los algoritmos de novo y de etiquetas de secuencia

que reconstruyen la secuencia de un péptido a partir del espectro MS/MS y la masa molecular

(Ma and Johnson, 2012, Dancik et al., 1999), y (iii) librerías de espectros (MS/MS) previamente

identificados y anotados (Lam and Aebersold, 2011, Lam et al., 2008).

El espacio de búsqueda de los algoritmos de identificación puede ser representado como tres

grandes de grupos: (i) el espacio que contiene a todos los péptidos posibles a identificar en un

experimento de proteómica, (ii) el espacio que contiene a todos los péptidos de la muestra que

están anotados en bases de datos, (iii) el subconjunto de péptidos que han sido identificados en

experimentos de proteómica previos (Figura 4). En el espacio de búsqueda más amplio se

desarrollan los métodos de novo y de etiquetas de secuencia, los cuales no realizan asunciones

acerca de cuál péptido o proteína se debe encontrar en la muestra (Ma and Johnson, 2012). Estos

algoritmos buscan entre todas las combinaciones posibles de los 20 aminoácidos conocidos que

representan el espectro MS/MS obtenido analíticamente. Los algoritmos de búsqueda en bases de

Page 28: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

23

datos se limitan al espacio de péptidos contenidos en las secuencias de proteínas reportadas en

bases de datos (Edwards, 2011). Los algoritmos de búsqueda en librerías de espectros necesitan

que los péptidos se encuentren identificados previamente bajo las mismas condiciones

experimentales (Lam and Aebersold, 2011).

Figura 4: Espacio de búsqueda para los tres tipos fundamentales de algoritmos de identificación:

algoritmos de novo y etiquetas de secuencia, algoritmos de búsqueda en bases de datos y algoritmos de

búsqueda en librerías de espectros.

Algoritmos de búsqueda en bases de datos

El objetivo principal de los algoritmos de búsqueda en bases de datos es la identificación de la

secuencia de la proteína que mejor identifica un espectro de masas (Edwards, 2011). Los

algoritmos de búsqueda en bases de datos reproducen in silico las etapas de un experimentos de

espectrometría de masas (Figura 5): (i) la bases de datos de proteínas es digerida en péptidos

empleando la enzima que fue utilizada en el experimento analítico, (ii) la masa teórica de todos

los péptidos generados en la base de datos son comparados con el valor de masa experimental del

precursor del espectro MS/MS empleando un error que corresponde con la exactitud del

espectrómetro, (iii) se generan el espectro teórico MS/MS de los péptidos seleccionados que

coinciden en masa con la masa del precursor y son comparados con el espectro experimental

teniendo en consideración los iones fragmentos generados (iv) finalmente se genera una función

de puntuación que cuantifica la correlación entre el espectro teórico y el espectro experimental.

Page 29: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

24

El componente más importante de un algoritmo de búsqueda en bases de datos para la

identificación de proteínas es el desarrollo de un modelo y función de puntuación robusta que

correlacione los espectros MS/MS teórico y experimental (Kapp et al., 2005). Debido a la

variabilidad de patrones de fragmentación, diversidad de espectrómetros de masas e intensidad

de las señales entre diferentes corridas para el mismo modelo de espectrómetro de masas, la

generación de una función de puntuación es un reto matemático y computacional. El consenso

entre la mayoría de los algoritmos existentes es expresar la relación entre el espectro teórico y

experimental, en función de la cantidad de iones fragmentos del espectro teórico que se

encuentran en el espectro experimental empleando para la comparación un valor de error que

depende de la exactitud del espectrómetro (Nesvizhskii, 2007).

Figura 5: Diagrama de flujo de un algoritmo de búsqueda en bases de datos y homología a un

experimento analítico.

Eng y colaboradores en 1994 reportaron el primer algoritmo y herramienta computacional para

identificación de MS/MS basada en modelos de búsqueda en bases de datos (Eng et al., 1994). El

Muestra de Proteínas Base de Datos de Proteínas

Digestión Proteolítica

Digestión enzimática in silico

Análisis MS Selección de péptidos por masa

Fragmentación Fragmentación in silico

Análisis MS/MS Comparación de espectro teórico y espectro MS/MS

Experimento analítico Algoritmo de búsqueda en bases de datos

Page 30: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

25

algoritmo, nombrado SEQUEST, posibilitó la interpretación automática y masiva de espectros de

masas empleando bases de datos de secuencias. La herramienta de búsqueda Mascot basado en el

algoritmo MOWSE (búsqueda de peso molecular) fue desarrollado en 1998 (Perkins et al.,

1999). La función de puntuación del programa Mascot es un modelo de similitud que provee una

probabilidad de que N iones fragmentos sean identificados de forma aleatoria. Otros dos

algoritmos y herramientas computacionales de código abierto son el algoritmo de búsqueda de

espectrometría de masas (OMSSA – del inglés Open Mass Spectrometry Search Algorithm) (Geer

et al., 2004) y el programa X!Tandem distribuidos por el Centro Nacional para la Información

Biotecnológica y la Organización Global del Proteoma (GPMO) (Craig and Beavis, 2004).

Cada algoritmo computacional emplea uno o más funciones de puntuación para evaluar la

calidad de la asignación del espectro experimental MS/MS al espectro teórico de la secuencia.

En todos los casos los resultados también dependen de los parámetros de ejecución del

programa, de la base de datos que se emplea para realizar la búsqueda y de la calidad de los

espectros de masas. El tamaño de la base de datos, la cantidad de cortes incompletos en las

secuencias, la exactitud del espectrómetro (error en ppm) y las modificaciones post-

traduccionales seleccionas para realizar la búsqueda son algunos de los parámetros que más

influencia tienen en la calidad de la búsqueda. Además, la calidad de los espectros MS/MS, en

términos de iones fragmentos generados es determinante. Estos factores han propiciado que

como promedio solo se identifiquen entre el 30-40% de los espectros MS/MS que se generan con

el espectrómetro de masas con estos algoritmos (Michalski et al., 2011).

Balgley y colaboradores demostraron que los tres programas de identificación en bases de datos

más empleados (Mascot, SEQUEST, X!Tandem) comparten más de un 70% de las

identificaciones en un experimento de proteómica (Balgley et al., 2007). El 30% restante de las

proteínas son identificadas por solo uno de los programas de identificación. Los algoritmos de

búsqueda en bases de datos han sido complementados por otras metodologías de identificación

debido a que solo explorar un espacio de soluciones determinado y solo pueden ser empleados en

aquellos experimentos donde la muestra biológica provenga de un organismo de proteoma o

genoma conocido (existencia de base de datos de secuencias).

Algoritmos de novo y de etiquetas de secuencia

Los algoritmos de novo son empleados para predecir la secuencia completa o parcial partiendo

de la información en el espectro de masas (Ma and Johnson, 2012). La característica

fundamental de estos algoritmos es que no necesitan información de la secuencia del péptido

Page 31: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

26

como los algoritmos de búsqueda en bases de datos, sino que emplean la información de los

iones fragmentos contenidos en el espectro de masas para construir la secuencia del péptido.

Los algoritmos de novo emplean una representación de grafos para reducir el espacio de

búsqueda de las posibles soluciones (Figura 6). En el grafo del espectro cada vértice corresponde

con un tipo de ion fragmento (bn, an, yn, etc), mientras que las aristas del grafo corresponden con

el aminoácido que se puede asignar a la diferencia en masa entre los dos vértices (iones

fragmentos). Cada vértice del grafo recibe un valor de puntuación empleando diferentes

funciones y modelos matemáticos. La función de puntuación de la secuencia identificada

(péptido identificado) corresponde con el camino óptimo no cíclico entre el aminoácido N-

terminal (vértice v0) y el C- terminal (vértice vM) de la secuencia (Ma and Johnson, 2012).

Figura 6: Representación en forma de grafos de un espectro de masas MS/MS. Este grafo representa el

espectro MS/MS observado del péptido DAGTIAGLNVLR. Cada ion fragmento y señal del espectro es

representado como un nodo (triángulos y círculos), mientras que las aristas representan los aminoácidos

cuya masa corresponde a la diferencia entre dos señales del espectro (nodos).

El algoritmo PepNovo (Frank and Pevzner, 2005) mejora la función de puntuación del modelo de

grafos empleando coeficientes numéricos dependientes de patrones de fragmentación conocidos.

El modelo de grafos es ineficiente cuando iones fragmentos dentro del espectro de masas no

aparecen, por lo que el algoritmo no puede conectar la secuencia desde el N- terminal al C-

terminal. El algoritmo del programa comercial PEAKS (Ma et al., 2003) emplea programación

dinámica para ajustar los valores de masa en el espectro en contraste con la búsqueda de los

iones fragmentos.

Los algoritmos de novo son la opción computacional más completa para la identificación de

proteínas de genomas desconocidos y para la identificación de nuevas modificaciones post-

Page 32: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

27

traduccionales en las secuencias. No obstante, cuando se emplean en experimentos de

espectrometría de masas suelen reportar muchas soluciones (secuencias) incompletas e

inutilizables. Además, los algoritmos de novo necesitan que la aparición de los iones fragmentos

en los espectros de masas sean completas para poder obtener las secuencias de los péptidos, ya

que no pueden complementar la información con la secuencia en la base de datos.

La obtención de una secuencia completa de un péptido empleando los algoritmos de novo a partir

del espectro MS/MS resulta difícil debido a que muchos iones fragmentos no son generados en el

espectro de masas (Allmer, 2011). Los algoritmos de etiquetas de secuencia (del inglés, sequence

tags) emplean pequeños segmentos de secuencia para identificar los péptidos y proteínas en la

base de datos. Estos algoritmos pueden ser vistos como casos especiales de algoritmos de novo,

donde no se necesita obtener la secuencia total del péptido (Sunyaev et al., 2003). La

determinación de etiquetas de secuencia con un alto valor de puntuación posibilita buscar las

secuencias de péptidos en la base de datos que poseen estas etiquetas; una estrategia varias veces

referida como algoritmos híbridos. El programa computacional GutenTag genera las etiquetas de

secuencia de tamaños (cantidad de aminoácidos) configurables por el usuario y luego identifica

las 25 mejores secuencias de péptidos que puedan ser identificadas en la base de datos (Tabb et

al., 2003). Tabb y colaboradores emplearon con posterioridad un modelo estadístico más

riguroso para generar las etiquetas de secuencias en el algoritmo DirecTag (Tabb et al., 2008).

Los resultados de la comparación del programa DirecTag con los programas Inspect (Tanner et

al., 2005) y Gutentag mostraron una mayor eficiencia en la generación de las etiquetas de

secuencias y en la cantidad de proteínas identificadas.

Algoritmos de búsqueda en librerías de espectros

Los algoritmos de búsqueda en librerías de espectros son un campo emergente en la

identificación de proteínas por espectrometría de masas y una solución híbrida entre los

algoritmos de búsqueda en bases de datos y los algoritmos de novo (Lam and Aebersold, 2011).

La búsqueda en librerías de espectros es una estrategia relativamente nueva en proteómica, pero

tiene una larga historia como método de identificación y análisis de moléculas pequeñas. En

1999 Yates y colaboradores introdujeron por primera vez el concepto de este tipo de algoritmos

en proteómica empleando la demostración de que los espectros MS/MS son lo suficientemente

reproducibles entre diferentes experimentos de proteómica empleando las mismas condiciones

analíticas (Yates et al., 1998). Conceptualmente, estos algoritmos emplean el patrón de

fragmentación del espectro MS/MS de un péptido bajo condiciones experimentales determinadas

Page 33: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

28

como huella de identificación del péptido, permitiendo que el espectro a identificar pueda ser

comparado con los espectros en la librería.

Los programas y herramientas actuales comienzan por la compilación de largas bases de datos de

espectros identificados a través de algoritmos de búsqueda en bases de datos. Estos espectros

identificados son procesados eliminando espectros que sean iguales y obteniendo un espectro

consenso que represente al péptido identificado. Los algoritmos de búsqueda son implementados

finalmente para que comparen los espectros bajo estudio con todos los espectros consenso en la

base de datos y muestren los péptidos identificados (Lam and Aebersold, 2011).

Los programas X!Hunter (Craig et al., 2006), Bibliospec (Frewen et al., 2006) y SpectraST (Lam

et al., 2007) que implementan de forma eficiente algoritmos de búsqueda en librerías de

espectros fueron publicados por primera vez en el año 2006, casi simultáneamente. X!Hunter es

el programa de búsqueda en librería de espectros del grupo de GPM , el mismo grupo de

desarrollo del programa X!Tandem. X!Hunter comparte los mismos métodos estadísticos y

componentes de software que el programa X!Tandem por lo que ambos pueden ser integrados en

un mismo flujo de trabajo. Bibliospec provee su propia librería de espectros e implementa

diferentes funciones de filtrado y similitud entre espectros, incluida la implantación de la función

de correlación del SEQUEST. SpectraST integrado dentro de la plataforma para los estudios de

proteómica TPP (del inglés – Trans-Proteomic Pipeline) (Deutsch et al., 2010) permite la

identificación de péptidos en librerías de espectros y proporciona la plataforma para la validación

estadística de estas identificaciones.

I.5.5 Validación de la identificación de péptidos y proteínas

Todos los algoritmos de identificación de péptidos y proteínas contienen un porciento de error

asociados a cada asignación y relacionado con el modelo matemático empleado y diferentes

factores analíticos (Nesvizhskii, 2010). Entre los factores experimentales que más contribuyen se

encuentran: fragmentación incompleta (espectros MS/MS de poca calidad), presencia de cortes

incompletos y modificaciones post-traduccionales en los péptidos obtenidos luego la digestión

proteolítica de la muestra e inclusión de modificaciones químicas producto del diseño

experimental. Estos factores generan espectros de masas de péptidos que no se encuentran

dentro del espacio de búsqueda del programa de identificación y sin embargo son asignados a

péptidos. Estas asignaciones constituyen falsos positivos dentro del algoritmo de asignación. La

medida del error asociado a cada péptido identificado es una medida estadística que unida a la

Page 34: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

29

función de puntuación, permite la comparación de los resultados entre diferentes experimentos y

ofrece una medida de la calidad de la asignación.

El método más común para la validación de los péptidos asignados es el empleo del valor p (p-

value). La definición del valor p en el contexto de los algoritmos de identificación es la

probabilidad de observar una asignación incorrecta con un valor de puntuación alto, donde un

valor p bajo indica que la probabilidad de identificar un péptido incorrectamente es bajo. Por

ejemplo, un valor p de 0.05 se pueden esperar 500 identificaciones incorrectas dentro de 10’000

péptidos identificados en el experimento de proteómica. Los programas Mascot y X!Tandem

emplean el valor p como criterio de validación de las identificaciones resultantes y como

parámetro de corte los valores de puntuación de cada péptido (Nesvizhskii, 2010).

El porciento de identificaciones incorrectas entre todas las identificaciones juzgadas como

correctas (FDR – del inglés, False Discovery Rate) es otro de los métodos más empleados en el

análisis estadístico de grandes volúmenes de datos como los estudios de proteómica o genómica

(Elias et al., 2005).

I.5.6 Validación de péptidos identificados empleando propiedades químico-físicas (punto

isoeléctrico y tiempo de retención).

Heller y colaboradores (Heller et al., 2005) propusieron por primera vez la combinación del

punto isoeléctrico y el tiempo de retención para la validación de los péptidos identificados por

espectrometría de masas. Estas propiedades químico-físicas pueden ser obtenidas durante el

experimento analítico como resultado de aplicar métodos electroforéticos (pI) o métodos

cromatográficos (Rt). El método de validación propone que aquellos péptidos identificados

deben tener un punto isoeléctrico o tiempo de retención teórico similar a los valores

experimentales. Los autores validaron las identificaciones empleando el punto isoeléctrico y el

tiempo de retención y confirmaron que de 1837 proteínas identificadas inicialmente solo 1130

identificaciones eran correctas (Figura 7).

PeptideProphet es el primer algoritmo de validación y herramienta computacional que integra el

punto isoeléctrico como criterio de validación en la función de puntuación y probabilidad de la

identificación (Keller et al., 2002). Aebersold y colaboradores demostraron que la función de

probabilidad que valida las identificaciones en correctas o incorrectas es más preciso cuando

considera el punto isoeléctrico como criterio de validación. El algoritmo del PeptideProphet

emplea las identificaciones más confiables en cada fracción del experimento de electroforesis

para calcular la media y la desviación estándar de punto isoeléctrico por fracción. Luego

Page 35: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

30

adiciona a la probabilidad del PeptideProphet para cada péptido la probabilidad de que sea falso

positivo por punto isoeléctrico teniendo en cuenta los valores de media y desviación estándar de

la fracción donde focaliza el péptido. La misma metodología fue empleada dentro del algoritmo

MAYU de validación de identificaciones empleando tasa de falsos positivos y punto isoeléctrico

de péptidos (Reiter et al., 2009). El uso del tiempo de retención como criterio de validación ha

sido también muy empleado en experimentos de MS/MS. El principio matemático es similar al

del punto isoeléctrico y consiste en eliminar aquellos péptidos que posean un tiempo de retención

diferente (empleando un error) de la media para cada número de barrido.

El componente clave para obtener resultados más confiables en la validación de identificaciones

empleando variables complementarias es la estimación teórica precisa de estas propiedades

químico-físicas. Los métodos matemáticos y algoritmos computacionales más empleados son los

de Bjellqvist y colaboradores para el punto isoeléctrico y Krokin y colaboradores para el tiempo

de retención (Krokhin, 2006, Heller et al., 2005, Reiter et al., 2009).

Figura 7: Relación de los valores teóricos y experimentales del punto isoeléctrico (A) y el tiempo de retención (B) para los péptidos identificados con el programa SEQUEST.

A

Tr Experimental

T r Teó

rico

pI Experimental

pI T

eóric

o

B

Page 36: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Revisión Bibliográfica

31

I.5.7 Estandarización de los datos de proteómica

Los primeros datos que se generan en un experimento de espectrometría de masas son los

espectros de masas. Cada espectrómetro de masas emplea un tipo diferente de formato

propietario para almacenar y representar los espectros producidos (Yates et al., 2009). La

estructura de estos ficheros depende del instrumento y del tipo de experimento, y típicamente

contiene la información del espectro MS1 y de múltiples espectros MS/MS. La gestión de

experimentos de proteómica en ficheros propietarios origina dos grandes inconvenientes. El

primero de estos problemas es la dependencia para la lectura y escritura de la información de las

aplicaciones informáticas de los propietarios de los formatos de ficheros (Martens et al., 2005a).

Los formatos evolucionan con el tiempo junto con los programas informáticos que los

interpretan, por lo que en muchas ocasiones los experimentos de proteómica antiguos no pueden

ser leídos con los programas propietarios actuales. Este segundo fenómeno se conoce como

envejecimiento de los formatos de ficheros propietarios (Martens et al., 2005a).

La creación de diferentes formatos estándares basados en XML ha permitido resolver estos

problemas y expandir la creación de nuevas herramientas informáticas de visualización y análisis

de los datos de proteómica. Además ha propiciado el intercambio y compartimiento de los datos

entre laboratorios empleando múltiples servicios y bases de datos. mzXML (Pedrioli et al., 2004)

desarrollado por el Instituto de Biología de Sistemas (ISB – del inglés, Insitute for System

Biology) fue el primer formato adoptado por la comunidad e integrado completamente en la

plataforma TPP. Recientemente, la Iniciativa para la Estandarización de los datos de proteómica

(PSI – del inglés, HUPO Proteomics Standards Initiative) ha implementado un conjunto de

ficheros XML para representar los datos de proteómica como: mzML (Martens et al., 2011) para

representar los espectros de masas, mzIdentML (Jones et al., 2012) para representar los péptidos

y proteínas identificados, y mzQuantML para representar la información de cuantificación

(http://code.google.com/p/mzquantml).

mzML define una estructura basada en XML para la organización de los espectros de masas y

provee un vocabulario para la definición de los términos que describen la generación,

procesamiento y análisis de los espectros de masas. mzIdentML estructura la información de los

péptidos y proteínas identificados por diferentes metodologías, así como la descripción de los

protocolos y aplicaciones informáticas empleados para la validación de estos resultados. Estos

formatos están soportados por una amplia definición de términos comúnmente empleados en

experimentos de proteómica, los que constituyen el vocabulario controlado (Cote et al., 2006).

Un término, por ejemplo, define como se referencia y describe el centrado de los espectros de

Page 37: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Technical note

Charge state-selective separation of peptides by reversiblemodification of amino groups and strong cation-exchangechromatography: Evaluation in proteomic studies usingpeptide-centric database searches

Lázaro H. Betancourta,⁎, Aniel Sáncheza, Yasset Péreza, Jorge Fernandez de Cossioa,Jeovanis Gila, Patricia Toledoa, Seiji Iguchib, Saburo Aimotob, Luis J. Gonzáleza,Gabriel Padróna, Toshifumi Takaob, Vladimir Besadaa

aCenter for Genetic Engineering and Biotechnology, Ave. 31 e/158 y 190, Cubanacán, P.O. Box 6162, 10600 Habana, Cubab Institute for Protein Research, Osaka University, Yamadaoka 3-2, Suita, Osaka 565-0871, Japan

A R T I C L E I N F O A B S T R A C T

Article history:Received 16 February 2011Accepted 29 April 2011Available online 9 May 2011

Here we describe an integrated approach for the selective separation of peptides fromcomplex mixtures using strong cation-exchange chromatography. The procedure exploitsthe charge differences produced by reversible modification of primary amino groups inpeptides, enabling their separation into threemajor fractions: 1) neutral peptides 2) peptideswith one positive charge and 3) peptides with 2 or more positive charges. The proceduredemonstrated an excellent selectivity which allowed restricted MS/MS ion searches withpeptide-centric databases.

© 2011 Elsevier B.V. All rights reserved.

Keywords:ProteomicsSelective-peptide-isolationCation-exchangePeptide-centric-database

Comprehensive proteome analysis requires the identificationand quantification of individual species in samples containingthousands of proteins with abundances spanning a range ofseveral orders of magnitude. The currency of proteomeanalysis by mass spectrometry is the peptides generatedfrom the proteolysis of a sample, which results in a significantincrease of complexity. This problem is usually tackledthrough the use of multidimensional liquid chromatographytechniques. Alternative strategies, such as the reduction ofthis complexity by obtaining representative subsets of targetpeptides, selectively isolated on the basis of their low-abundance amino acid content have also been extensivelytested [1–7]. Selective isolation methods, however, usually fail

to produce a peptide subset that is fully representative of theprotein population. Furthermore, non-target peptides arefrequently discarded from the analysis, losing complementaryand potentially valuable information.

Our group has reported several selective isolationmethodsbased on chemical modification of peptide primary aminogroups [8–12]. In this work, an integrating approach of thesemethods into a new separation scheme was developed. Thegeneral workflow is showed in Fig. 1. The mixture of proteinsis digested with trypsin. Then, α- and ε-amino groups of thepeptides are chemically modified through a reversible reac-tion using 2-(Methylsulfonyl)ethyl succinimidyl carbonate(NHS-Msc) [13]. A reversible blocking group was chosen to

J O U R N A L O F P R O T E O M I C S 7 4 ( 2 0 1 1 ) 2 2 1 0 – 2 2 1 3

⁎ Corresponding author. Tel.: +53 7 271 6022.E-mail address: [email protected] (L.H. Betancourt).

1874-3919/$ – see front matter © 2011 Elsevier B.V. All rights reserved.doi:10.1016/j.jprot.2011.04.029

ava i l ab l e a t www.sc i enced i r ec t . com

www.e l sev i e r . com/ loca te / j p ro t

Page 38: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

allow the analysis of unmodified peptides, which improvemass detection and facilitate protein identification withautomatic MS/MS database search engines. The reactioneliminates the positive charge of α- and ε-amino groupsunder acidic conditions, allowing the selective separationwitha strong cation exchanger (SCX) of the mixture of derivatizedpeptides into three groups: 1) RH0 [R+H=0], that is, peptidesdevoid of histidine and arginine; 2) RH1 [R+H=1] representingthose peptides containing either a histidine or an arginine;and 3) RH2 [R+H≥2] which stands for peptides withmore thanone histidine and/or arginine residue. The RH0 peptides arecollected in the flow-through from the SCX step, the RH1peptides are eluted in a single step of increased saltconcentration, and the RH2 peptides are eluted with a steepgradient. Each peptide pool is then subjected to a procedurethat regenerates their free amino groups and, if necessary,further fractionated before LC-MS/MS analysis.

The ability of the proposed method to exclusively separatepeptides according to their charge statewas initially evaluatedon recombinant streptokinase (SKr) as a model protein and onan artificial mixture of four proteins (SKr, p64K, cytochrome cand apotransferrin). All the mass spectrometry-detectedpeptides were successfully sorted into their correspondingSCX fraction (data not shown) indicating the highly selectiveof this method.

A soluble protein extract from human liver carcinomaHuh7 cell line was also studied, using 100 μg of protein (seeSupplementary data: Experimental section). Fig. 2A shows theSCX profile obtained. The three peptide groups RH0, RH1 andRH2 still display a high degree of complexity requiringadditional fractionation. We chose the high pH RP approachsince it is robust and user-friendly system and has shown ahigh degree of orthogonality with low pH RP separations. EachSCX-enriched peptide pool was separated by RP-HPLC at basic

pH into 10 fractions, using an ACN/H2O/NH3 solvent systemthat also works as desalting step, prior LC-MS/MS.

A total of 680 peptide assignments (FDR=1%) were madecorresponding to 415 protein identifications. Approximately22% (92) of the proteins were identified exclusively in the RH0fraction, 20% (83) in the RH1, 29% (121) in the RH2, and the rest29% (119) were found in at least two of the three SCX fractions.The numbers of specific vs. unspecific peptides identified ineach SCX fraction behave as follows: for RH0, 225 vs. 2; for RH1,210 vs. 2; and for RH2, 241 vs. 5; which resulted in a selectivityof at least 98% in every case. This outcome allowed explor-atory searches against peptide-centric databases.

When peptide-centric databases were used, 69% of theproteins were identified in only one of the SCX fractions(distributed as 23% (116) in RH0, 16% (83) in RH1 and 30% (151)in RH2). The remaining 31% (139) was comprised by species

trypsin

Reversible blockingof amino group (*)

Protein mixture

deblocking

LC-MS/MS

Database identification

Downstream fractionation

~~~~ K0

1+

2+

+~~~~R

+~~H~~K

+ +~~H~~R

*

t

RH0 RH1 RH2Abs

SCX

Fig. 1 – Scheme of the procedure for the selective separationand identification of RH0, RH1 and RH2 tryptic peptides froma complex mixture of proteins. The open triangle representsthe reversible blocking group.

(A)

(B)

6 1014095 224675

Peptides Proteins

20 30 40

200

600

1000

t(min)

RH0

RH1

RH2

10

Abs

at 2

15 n

m

(C)

0

100

200

300

RH0 RH1 RH2

241225 209

91

3884

5 2 4

Fig. 2 – Analysis of a soluble protein extract from HuH7 cells.(A) SCX profile of RH0, RH1 and RH2 peptides. (B) Ventdiagram of total number of peptides and proteins identifiedby protein sequence databases (smaller circles) andpeptide-centric database (larger circles) searches. (C)Classification and distribution of peptides identified withpeptide-centric databases. Gray bars (true positives): sameassignment by each search type.White bars (false negatives):same assignment by each search type, but scored below thethreshold in protein sequence database search for an FDR of1%. Black bars (different assignment): represent cases wherethe assignment was different between the two searchstrategies.

2211J O U R N A L O F P R O T E O M I C S 7 4 ( 2 0 1 1 ) 2 2 1 0 – 2 2 1 3

Page 39: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

detected in two or three of the fractions. Protein sequencedatabase searches were clearly outperformed by peptide-centric databases searches, which yielded increases of 41%,17% and 33% for the number of identified peptides andincreases of 36%, 14% and 30% for the number of identifiedproteins in the RH0, RH1 and RH2 fractions, respectively. Inaddition, the use of peptide-centric database searches in-creased the number of proteins identified by two or morepeptides: overall, 95 of the proteins previously identified withprotein sequence database searches gained a total of 115additional peptide identifications. An examination of thepeptide assignments carried out with peptide-centric data-base searches reveals a match with the assignments per-formed with protein sequence database searches in 675 of thecases, with 224 new exclusive assignments and only 5 missedidentifications in the former (Fig. 2B). This translates to 409commonproteins aswell as 101 new identifications and only 6missing identifications for the peptide-centric searches.Combining the results of both searches, a total of 516 proteinswere identified from 904 different peptides. (For details aboutidentifications see Supplementary data: Results from protein(IPI) and peptide (PEP) databases).

Fig. 2C shows the distribution and classification of peptidesidentified by peptide-centric databases according to theirprevious assignment by protein sequence database searches.As expected, the increase of assignments mostly originatesfrom identification of lower scoring peptides (white bars). Theimprovement in identifications agrees with previous reports[14–16]. The search space is smaller in a peptide-centricdatabase compared to a protein database; consequently betterFDRs can be reached with similar peptide scores. This allowedlower scoring peptides to be accepted at the same FDR selectedfor protein database search.

In general, the results from the SCX fractions were highlycomplementary, as 70% of the proteins were identified in asingle fraction for both database search experiments. Conse-quently, the overlap of identified proteins between thedifferent fractions was small; for instance, less than 7% of allproteinswere identified in all three fractions. This implies thatall SCX fractions should always be analyzed.

The number of reports describing approaches similar to theone presented here is not frequent. Martens et al., for instance,used the COFRADIC technology for selection of methionyl,cysteinyl and amino-terminal peptides to characterize theproteome of human platelets [17]. In that study the sample hadto be processed independently 3 times in order to target eachpeptidesubgroup, a time-consumingworkwhichalsodiscardedalarge portion of the sample and potentially valuable information.

More recently, Taouatas et al. separated Lys-N generatedpeptides by SCX into four categories: acetylated N-terminalpeptides; singly phosphorylated peptides containing a singlebasic (Lys) residue; peptides containing a single basic (Lys)residue; and peptides containing more than one basic residue[18]. Thiswork highlighted the potentialities of SCX for charge-selective separation of peptides in complex mixtures.

Several studies have addressed the analysis of rejectedpeptide identifications by “digging” into statistically non-significant hits [19–21]. In this sense, our attention was drawninparticular to thework ofYen et al., whoattempted to increasesensitivity in shotgun proteomics by using peptide-centric

database searches, applying peptide elution rules in SCX, andexcluding unlikely missed tryptic cleavages [20]. However, theoverlap between SCX peptide fractions in their methodologycould have made unfeasible to take full advantage of theproposed procedure, which therefore yields only modestimprovements in thenumberof identified peptide andproteins.

The present study suggested that complex mixtures oftryptic peptides, such as those generated in proteomic exper-iments, could be fractionated by SCX in a single workflow intosubsequent, well-defined and highly enriched peptide subsets,and without discarding any peptide fraction. The proceduresacrifices the resolution that SCX typically displays with un-modified tryptic peptides, but this is compensated by RPseparation at basic pH of each SCX peptide pool. Furthermore,the truly control of charge based separation and gain inselectivity, results in useful information to validate identifica-tions and to effectively use peptide database searches.

The noticeable small numbers of peptide and proteinidentified was attributed to the low performance of the massspectrometer used. It is expected that the use of state-of-artinstrument will yield higher number of peptide and proteinidentifications, which in turn will confirm the high selectivityachievable with the present approach.

Supplementary materials related to this article can befound online at doi:10.1016/j.jprot.2011.04.029.

Acknowledgments

The authorswish to thank INSPUR (China) for the kinddonationof the TS10000 computer cluster used in a large part of thebioinformatics study. We are also grateful to Mr. Alejandro M.Martin (CIGB, Cuba) for English correction of the manuscript.

R E F E R E N C E S

[1] Leitner A, Lindner W. Chemistry meets proteomics: the use ofchemical tagging reactions for MS-based proteomics.Proteomics 2006;6:5418–34.

[2] Olsen JV, Andersen JR, Nielsen PA, NielsenML, Figeys D, MannM, et al. HysTag — a novel proteomic quantification toolapplied to differential display analysis of membrane proteinsfrom distinct areas of mouse brain. Mol Cell Proteomics2004;3:82–92.

[3] Wang H, Qian WJ, Chin MH, Petyuk VA, Barry RC, Liu T, et al.Characterization of the mouse brain proteome using globalproteomic analysis complemented with cysteinyl-peptideenrichment. J Proteome Res 2006;5:361–9.

[4] Fang X, Zhang WWJ. Affinity separation and enrichmentmethods in proteomic analysis. Proteomics 2008;71:284–303.

[5] Gygi SP, Rist B, Gerber SA, Turecek F, Gelb MH, Aebersold R.Quantitative analysis of complex protein mixtures usingisotope-coded affinity tags. Nat Biotechnol 1999;17:994–9.

[6] Gevaert K, Van Damme J, Goethals M, Hoorelbeke B, Demol H,Martens L, et al. Isolation of methionine-containing peptidesfor gel-free proteome analysis: identification ofmore than 800Escherichia coli proteins. Mol Cell Proteomics 2002;1:896–903.

[7] Gevaert K, Goethals M, Martens L, Van Damme J, Staes A,Thomas G, et al. Exploring proteomes and analyzing proteinprocessing by mass spectrometric identification of sortedN-terminal peptides. Nat Biotechnol 2003;21:566–9.

2212 J O U R N A L O F P R O T E O M I C S 7 4 ( 2 0 1 1 ) 2 2 1 0 – 2 2 1 3

Page 40: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

[8] Betancourt L, Gil J, Besada V, González LJ, Fernández-de-CossioJ, García L, et al. SCAPE: a new tool for the Selective CApture ofPEptides in protein identification. J Proteome Res 2005;4:491–6.

[9] Sánchez A, González LJ, Ramos Y, Betancourt L, Gil J, Besada V,et al. Selective isolation of lysine-free tryptic peptidesdelimited by arginine residues: a new tool for proteomeanalysis. J Proteome Res 2006;5:1204–13.

[10] Sánchez A, González-López LJ, Betancourt L, Gil J, Besada V,Fernández-de-Cossío J, et al. Selective isolation of multiplepositively charged peptides for 2-DE-free quantitativeproteomics. Proteomics 2006;16:4444–55.

[11] Gil J, Betancourt LH, Sardiñas G, Yero D, Niebla O, Delgado M,et al. Proteomic study via a non-gel based approach ofmeningococcal outer membrane vesicle vaccine obtainedfrom strain CU385: a road map for discovering new antigens.Hum Vaccin 2009;5:347–56.

[12] Sanchez A, SunW,Wang L,Ma J, Betancourt L, Gil J, et al. Letter:selective isolation-detection of two different positively chargedpeptides groups by strong cation exchange chromatographyand matrix-assisted laser desorption/ionization massspectrometry: application to proteomics studies. Eur J MassSpectrom 2010;16:693–702.

[13] Brik A, Keinan E, Dawson PE. Protein synthesis by solid-phasechemical ligation using a safety catch linker. J Org Chem2000;65:3829–35.

[14] Resing KA, Ahn NG. Proteomics strategies for proteinidentification. FEBS Lett 2005;579:885–9.

[15] Rudnick PA,Wang Y, Evans E, Lee ChS, Balgley BM. Large scaleanalysis of MASCOT results using a mass accuracy-based

threshold (MATH) effectively improves data interpretation.J Proteome Res 2005;4:1353–60.

[16] Martens L, Van Damme P, Van Damme J, Staes A, TimmermanE, Ghesquière B, et al. The human platelet proteome mappedby peptide-centric 207 proteomics: a functional proteinprofile. Proteomics 2005;5:3193-204.

[17] Taouatas N, Maarten Altelaar AF, Drugan MM, Helbig AO,Shabaz M, Heck AJR. Strong cation exchange-basedfractionation of Lys-N-generated peptides facilitates thetargeted analysis of post-translationalmodifications. Mol CellProteomics 2009;8:190–200.

[18] Resing KA, Meyer-Arendt K, Mendoza AM, Aveline-Wolf LD,Jonscher KR, Pierce KG, et al. Improving reproducibility andsensitivity in identifying human proteins by shotgunproteomics. Anal Chem 2004;76:3556–68.

[19] Wielsch N, Thomas H, Surendranath V, Waridel P, Frank A,Pevzner P, et al. Rapid validation of protein identificationswith the borderline statistical confidence via de novosequencing and MS BLAST searches. J Proteome Res 2006;5:2448–56.

[20] Tharakan R, Edwards N, Graham DRM. Data maximization bymultipass analysis of protein mass spectra. Proteomics2010;10:1160–71.

[21] Yen CY, Steve R, Mendoza AM,Meyer-Arendt K, Sun S, Cios KJ,et al. Improving sensitivity in shotgun proteomics using apeptide-centric database with reduced complexity: proteasecleavage and SCX elution rules from data mining of MS/MSspectra. Anal Chem 2006;78:1071–84.

2213J O U R N A L O F P R O T E O M I C S 7 4 ( 2 0 1 1 ) 2 2 1 0 – 2 2 1 3

Page 41: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

SUPPLEMENTARY INFORMATION

EXPERIMENTAL SECTION

Materials and reagents. Lysyl endopeptidase (LEP) and Trypsin were from Wako (Japan) and

Promega (USA) respectively. Horse cytochrome C, human apotransferrin and 2-

(Methylsulfonyl)ethyl succinimidyl carbonate (NHS-Msc) were obtained from SIGMA (USA).

The recombinant proteins (streptokinase (SKr) and p64K) were produced at Center for Genetic

Engineering and Biotechnology (Cuba).

Sample Preparation and Digestion. Huh7 cells were cultured in DMEM supplemented with

10% SFB, 2 mM glutamine, 2 mM sodium pyruvate, and 1% antibiotic-antimycotic solution

until the monolayer reached confluence. For protein extraction the cells were re-suspended in 1

mL of lysis buffer containing 10 mM HEPES, 1mM EDTA and EDTA-free protease inhibitor

cocktail, and were submitted to 3 cycles of freezing and thawing by incubation in liquid nitrogen

and at 37°C, respectively. The soluble protein fraction was obtained by centrifugation at 15000

during 15 min. The supernatant was collected and subjected to protein determination by BCA

assay. An aliquot of 0.5 mg of the lysate was dissolved in 100 L of 4 M urea, 200 mM HEPES,

pH 8.1, and incubated for 2 hours with 10 mM DTT in a nitrogen atmosphere at 37 C.

Iodoacetamide was added to a final concentration of 20 mM, and the reaction proceeded at room

temperature in the dark for 30 minutes. Proteins were diluted two-fold with water and digested

with LEP 12 hours at 37 C. The sample was again diluted two-fold with water, and incubated

with trypsin for another 8 hours at 37 C. The digestions were carried out at an enzyme-to-

substrate mass ratio of 1/100.

Page 42: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Acylation of amino groups with NHS-Msc. The peptide mixture was diluted with 200 L of

500 mM HEPES, pH 7.1, to give a final pH around 7.5. The NHS-Msc reagent, dissolved in

DMSO, was added to the peptide solutions at a 25-fold molar excess over the total concentration

of amino groups, or adding 20 mg of the NHS-Msc per 1 mg of protein. The reaction proceeded

for 15 minutes at 4 C.

Strong Cation Exchange Chromatography. The acylated peptides were first desalted with a

Bond Elut C18 SPS cartridge (Varian). SCX chromatography was performed on an 1100 HPLC

(Agilent) using a Merck Manu-Fix cartridge (4 x 50 mm) packed in-house with Polysulfoethyl A

resin (5 m, 200 Å, PolyLC). The column was equilibrated with 0.01% H3PO4, pH 2.6

containing 20% ACN (buffer solution A). N-acylated peptides were dissolved in 500 L of

buffer A, and loaded onto the column. After 5 minutes, 2 mL of 20 mM KH2PO4, pH 2.6 20%

ACN (buffer solution B) were injected and the column was washed for another 5 minutes with

buffer A. Then, a 10-min gradient was run from 0% to 6% of buffer solution C (5mM KH2PO4,

500 mM KCl, pH 2.5 in 20% ACN) followed by 10 min of 100% buffer C. The collected

fractions were concentrated under vacuum to a volume of 100 L and submitted to the procedure

for the regeneration of amino groups.

Regeneration of amino groups. The Msc groups were released from the peptides by incubation

with 100 mM NaOH at room temperature for 15 minutes. Next, formic acid was used to lower

pH before desalting the samples with C18 ZipTips (Millipore) or basic pH RP-HPLC separation,

respectively.

Page 43: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Rp-HPLC at basic pH. The peptide fractions were injected via an 1100 HPLC (Agilent) into an

Xterra RP-C18 column (50 x 1 mm, Waters) at a flow rate of 50 L/min. The elution was

performed with a mobile 1-60% phase B gradient, over 60 min (A, 10 mM NH3 in water pH 9.5;

B, 10 mM NH3 in ACN). Fractions were collected every 2 min (10 fractions in total), evaporated

under vacuum to dryness and then reconstituted into 15 L of LC-MS/MS solvent A. Six

microliters of each reconstituted fraction were delivered to the NanoFrontier system (detailed

below).

LC-MS/MS experiments. The LC-MS/MS analysis was performed on a NanoFrontier

integrated system (Hitachi) equipped with a nanoLC liquid chromatograph and a Linear Ion

Trap-TOF MS, using 2% ACN / 0.3% HCOOH as solvent A and 98% ACN / 0.3% HCOOH as

solvent B. The injected samples were desalted on a monolithic C18 trap column (15 cm x 50 m

I.D, Kyoto Monotech Co. Ltd.) using 2% solvent B for 10 min. In turn, this column was

connected by valve switching to a monolithic C18 column (30 cm x 50 m I.D, Kyoto Monotech

Co. Ltd.) where separation was performed at 200 nL/min using first an isocratic gradient of 2%

solvent B, followed by a 55 min gradient from 2% to 55% of solvent B.

Online nanoESI-MS survey scan and data-dependent acquisition of CID MS/MS were fully

automated and synchronized with the nanoLC runs under the NanoFrontier LD Data Processing

software. Helium was used as the collision gas for CID-MS/MS. For routine protein

identification analysis, 20 ms-survey scans were acquired over the predefined mass range (m/z

200-1300) and a maximum of 2 concurrent MS/MS acquisitions were triggered for 2+, 3+, 4+

and 5+ charged precursors detected above a threshold intensity of 100 counts. Each MS/MS

Page 44: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

acquisition was completed and switched back to survey scan when precursor intensity fell below

the 100-count threshold or after three consecutive acquisitions for the same precursor.

Protein identification and data analysis. MS/MS spectra were searched against the IPI-Human

database V3.61 (ftp://ftp.ebi.ac.uk/pub/databases/IPI/old/HUMAN/ipi.HUMAN.v3.61.fasta.gz)

concatenated with reversed copies of all protein sequences using MASCOT (version 2.2.0,

Matrix Science). Carbamidomethylation of cysteines were set as fixed, and methionine oxidation

as well as asparagine/glutamine deamidation were set as variable modifications. Peptide mass

and MS/MS ion mass tolerances were set at 0.15 Da and one missed cleavage was allowed.

Similar searches were also performed against peptide-centric databases concatenated with

reversed copies of their sequences. These peptide databases contained separated lists of every

potentially detectable (800 Da - 4000 Da) RH0, RH1 and RH2 peptide derived from all human

protein sequences, and considering complete and one missed cleavage by trypsin. A pre-

computation step was required to digest each protein in silico into peptides and to generate

reversed copies of each peptide sequence. Peptides were sorted into RH0, RH1 or RH2 sets, and

each set was then divided into individual FASTA entries for each peptide, using a common

identifier for peptides derived from the same protein. The databases of RH0, RH1 or RH2

peptides were used as input to Mascot, and in silico proteolysis of peptides with missed cleavage

sites was prevented by specifying a false enzyme cleaving at an unreal amino acid. Maximum

false discovery rates (FDR) for searches at both the protein and peptide levels, were set to 1%.

Page 45: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Short Communication

Peptide fractionation by acid pH SDS-freeelectrophoresis

SDS-free polyacrylamide gel electrophoresis is an effective alternative approach to

peptide fractionation. Here we describe a discontinuous buffer system at acid pH that

improves the separation of acidic peptides from tryptic digestion. MOPS and chloride act

as trailing and leading ions, respectively, in this system, while histidine operates as

counterion and buffers all solutions. In these electrophoretic conditions, peptides with pIbelow 5.5 migrate with low overall electrophoretic mobilities but high differences from

one another, which allows for their efficient resolution. In silico analysis of several

proteomes shows that the acid pH system allows a peptide simplification of 2.5-fold with

respect to the total peptide mixture, and still a proteome coverage of about 95% is

achievable. A straightforward method with a protocol including proteomic studies was

achieved for SDS-PAGE of proteins, enzyme treatment and further peptide fractionation

by SDS-free acid PAGE.

Keywords:

Fractionation / MS / PAGE / ProteomicsDOI 10.1002/elps.201000677

Protein separation via electrophoresis based on their ion

mobilities has evolved since A. Tiselius reported in 1937 the

‘‘Moving Boundary Electrophoresis’’ [1]. For the next two

decades, significant developments in devices and support

media for electrophoresis were described [2–4] and in 1957,

Poulik demonstrated increased resolution in protein separa-

tion using a discontinuous buffer system [5]. In the 1960s,

Ornstein [6] and Davis [7] reported a pioneer work

describing the theory and experimental results of a multi-

phasic buffer system for negatively charged protein separa-

tion based on polyacrylamide gel electrophoresis (PAGE). In

that procedure, proteins and peptides are concentrated in a

very thin starting zone before their separation into the

resolving gel. This phenomenon is based on the ‘‘Kohl-

rausch function’’ [8] that regulates the migration of the

trailing and leading ions (glycinate and chloride, respec-

tively, for the Ornstein system). Ions with electrophoretic

mobilities lower than the leading ion and higher than the

trailing ion mobility stay trapped into the boundary between

these two ionic species. Once the boundary reaches the

resolving gel, this stationary system becomes unstable at a

pH value where the trailing ion increases its electrophoretic

mobility and surpasses most of the proteins. In these

conditions, proteins and peptides migrate to the anode

according to their electrophoretic mobility, which is propor-

tional to their charge and inversely proportional to their size.

On the basis of this theory, several discontinuous buffer

systems for electrophoresis were proposed [9] and their

application has substantially improved the resolution of the

gel-based protein separation techniques [10–12]. Several

years later, Laemmli introduced SDS as the main solubiliz-

ing agent for protein electrophoresis [13]. This detergent

homogenizes the negative charge density of the proteins,

allowing their separation by molecular size. The use of SDS

greatly supported the achievements of this technique.

Despite the high diffusion coefficients of peptides, as

compared with proteins, electrophoretic techniques have

also been successfully applied to peptide separation [14–16]

even in the presence of SDS [17]. Recently, we reported the

use of SDS-free PAGE for peptide fractionation and its

usefulness for proteomic studies [18] in combination with a

first dimension for protein separation via SDS-PAGE.

Peptides fractionated by SDS-free PAGE on the Ornstein gel

system had theoretical isoelectric points ranging between

3.0 and 7.3 [18], which suggested that manipulating the pH

of the buffer should allow fractionating a different subset of

peptides. In the present work, we evaluated the effect of pH

on the migration of peptides and developed a discontinuous

buffer system to select and simultaneously fractionate

peptides with pI lower than 5.5. At lower pH, the disso-

ciating functions of the acidic amino acids are partially

titrated and both surface charge and electrophoretic mobility

Yassel RamosYairet GarciaYasset Perez-RiverolAlejandro LeyvaGabriel PadronAniel SanchezLila Castellanos-SerraLuis J. GonzalezVladimir Besada

Center for Genetic Engineeringand Biotechnology, La Habana,Cuba

Received December 17, 2010Revised January 25, 2011Accepted January 26, 2011

Colour Online: See the article online to view Fig. 1 in colour.

Correspondence: Dr. Vladimir Besada, Center for GeneticEngineering and Biotechnology, Apartado 6162, POB 10600, LaHabana, CubaE-mail: [email protected]: 1573-271-6022

& 2011 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim www.electrophoresis-journal.com

Electrophoresis 2011, 32, 1323–1326 1323

Page 46: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

of the peptides decrease. Under these conditions, peptides

with pI higher than 5.5 (slightly acid, neutral and basic

peptides) are positively charged and would migrate to the

cathode.

The system includes a cathode buffer containing

200 mM MOPS partially titrating to pH 5.5 with histidine.

The stacking gel and sample solutions are buffered with

histidine/HCl, pH 5.0, at concentrations 125 and 62.5 mM,

respectively; the latter additionally contains 12.5% glycerol.

The resolving gel and anode buffer are constituted by

200 mM histidine/HCl, pH 6.5. This discontinuous buffer

system works similar to the Ornstein system. In this case,

the trailing ions from MOPS enter the concentrating gel

after chloride ions, which bring about the formation of a

moving boundary and a concentration effect. Once MOPS

trailing ions arrive at the separating gel, the change in pH

causes an increase in its electrophoretic mobility, leaving

most of the peptides out of the moving boundary. In these

conditions, peptides with pI below 5.5 penetrate the gel,

concentrate and then separate according to their charge-to-

mass ratio. Due to the lower pH of the buffer system,

peptides become partially protonated and therefore less

charged negatively. This effect provokes the slower electro-

phoretic mobility of these peptides into the gel.

After the electrophoresis runs, the lanes of the non-

stained gel are cut in several slices and peptides are recov-

ered by passive diffusion using an appropriate extraction

solution. Typically, for minigel format, the lanes are cut in

6–10 slices and peptides are extracted in 5% formic acid.

Larger format gels have also been successfully used.

Figure 1 compares the electrophoretic separation of

peptides derived from a tryptic digest of streptokinase

(47 kDa) at basic [18] versus acid pH. In this experiment,

lanes were cut into eight slices; peptides from each slice

were eluted independently and analyzed by ESI-MS. Signals

detected in the four fastest migrating fractions (fractions

5–8, Fig. 1) in the Ornstein system [6] are resolved along the

whole lane and may be detected in eight fractions in the

acidic system. For instances, peptides of m/z 567.3, 654.3,

760.4, 888.4 and 1170.9, which were detected in fraction 8

with the basic system, become slower in the acid system and

are now resolved in different fractions (m/z 654.3 in frac-

tions 2 and 3, m/z 567.3 and 760.4 in fraction 5, 1170.9 in

fractions 5 and 6, m/z 888.4 in fraction 7). The fastest tryptic

U

1

2

3

5

6

7

4

basic pH system acid pH system

8

Protein extract

Trypsin digestion

SDS free PAGE (tris/glycine (basic pH) or histidine/MOPS (acid pH)

system)

12345678

Peptide elution

nanoESI-MS/MS analysis

U

1

2

3

5

6

7

4

8

U

1

2

3

5

6

7

4

8

Protein extract

Trypsin digestion

SDS free PAGE (tris/glycine (basic pH) or histidine/MOPS (acid pH)

system)

12345678

12345678

Peptide elution

nanoESI-MS/MS analysis

A B

Figure 1. (A) Schematic representation of the experimental workflow for tryptic peptide fractionation by PAGE. (B) Mass spectra oftryptic peptides from streptokinase separated in a 15% T SDS-free PAGE at basic and acid pH. The lane was cut into eight slices. U:Unfractionated peptide mixture; 1 to 8: peptides obtained from slices 1 to 8, respectively.

Electrophoresis 2011, 32, 1323–13261324 Y. Ramos et al.

& 2011 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim www.electrophoresis-journal.com

Page 47: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

peptide in the new system is 259SGLNEEINNTDLISEK274

(m/z 888.4), which has the highest absolute value for the

charge/mass ratio (2.20 kDa�1 for pH 9.0 and 1.68 kDa�1 for

pH 6.5). In this case, peptide charge is the calculated valence

according to Sillero and Ribeiro [19] equation for each pH.

The pHs used for calculations are the experimental values as

determined for the resolving gel in basic and acid systems

respectively, once the electrophoresis has finished. As

expected, several peptides detected in the four slowest frac-

tions in the basic system are now positively charged and do

not enter into the gel of the acid system.

In model protein mixtures as a, b, and k-casein as well as

egg white, which contain very acidic tryptic peptides includ-

ing phosphopeptides, several signals were identified in the

bands next to bromophenol blue front (Supporting Infor-

mation I). In agreement with the results at basic pH [18], very

acidic peptides and phosphopeptides were detected in the

slice containing the fastest migrating species. Interestingly,

using the new discontinuous buffer system, fewer non-

phosphorylated peptides were detected in this fraction for

both samples (caseins and egg white mixture) and the signal-

to-noise ratio in the spectrum was also improved. We were

able to detect mono- to tetra-phosphorylated peptides in the

fraction with the fastest migration. This effect was probably

due to the slowest migration of the non-phosphorylated

peptides resulting from partial neutralization of aspartic and

glutamic acids, while highly acidic groups like phosphate will

remain negatively charged. However, in a much complex

sample, this fraction is dominated by very acidic non-phos-

phorylated peptides, which make it difficult to detect

substoichiometric phosphorylated peptides (see below).

On this basis, we propose the usefulness of this acid

buffer system for the second dimension of DF-PAGE [18] as

a novel strategy for proteomic studies. In silico analysis of

six proteomes shows that considering only the tryptic

peptides with pI below 5.5 and thus simplifying the peptide

mixture from 21 down to an average of 9 peptides per

protein, an average protein coverage of 95% may be

obtained (Table 1). This is in contrast to the basic pH system

that allows the selection of around 16 peptides per protein

with pI below 7.3, representing a protein coverage of 99%

(Supporting Information II).

A total protein extract (300 g) from a non-small-cell lung

cancer cell line (H125) was fractionated using SDS-PAGE;

the lane was cut into ten slices and in-gel digested with

trypsin. The slice corresponding to the molecular size

ranging between 21 and 45 kDa was applied to the second

gel and the peptide mixture was fractionated using the

histidine/MOPS PAGE system. The lane of the second

dimension was cut into eight fractions (Fig. 2) and the two

fastest fractions were analyzed by LC-MS/MS.

The analysis of two peptide fractions allowed the

assignment of 155 peptides corresponding to 106 proteins.

All peptides have pI values lower than 5.5 and the most

acidic fraction (gel slice 8, cut exactly with the dimensions of

the adjacent bromophenol blue reference) contains peptides

with an average pI of 3.6570.33 (3.8170.20 for the gel slice

7, Supporting Information III). The protein mass ranged

between 20 and 45 kDa (87% of the identified proteins) as

expected for the proteins migrating in the SDS-PAGE slice

selected for the experiment (Supporting Information III).

The protocol described here for SDS-free PAGE does

not include any other solubilizing agent as urea or thiourea.

However, 28 of 155 peptides with positive GRAVY indexes

were detected in our experiments. This result shows that

even hydrophobic peptides can be resolved by this techni-

que. We also evaluated the theoretical distribution of

GRAVY index for peptides with pI value below 5.5. Inter-

estingly, acidic peptides from the in silico tryptic digestion

of the human proteome tend to be slightly more hydrophilic

than the whole tryptic peptides (Supporting Information II);

similar results were obtained for Escherichia coli, Sacchar-omyces cerevisiae, Arabidopsis thaliana, Drosophila melanoga-ster and Mus musculus proteomes (data not shown).

Nevertheless, systematic studies on the influence of

caothropic agents and other components on peptide reso-

lution in PAGE must be made.

Similar to peptide fractionation according to pI value

using such commercial devices as ‘‘off-gel electrophoresis’’

[14], ‘‘free flow electrophoresis’’ [15] or Rotofor [16], SDS-

free PAGE fractionates peptides of a selected pI range but,

in this case, the separation is according to the charge and

peptide size. It can be integrated to the DF-PAGE strategy

[18], allowing a double fractionation at protein and peptide

Table 1. In silico proteome coverage and peptide mixture simplification when using peptide fractionation by acid SDS-free PAGE

Organism Tryptic peptide per proteina) Selected tryptic peptide per proteinb) Simplification factor % coverage

Escherichia coli 13.8 5.7 2.4 93.5

Saccharomyces cerevisiae 21.0 8.9 2.4 92.5

Arabidopsis thaliana 19.2 8.0 2.4 97.3

Drosophila melanogaster 25.5 10.4 2.5 97.1

Mus musculus 23.9 9.7 2.5 97.4

Homo sapiens 24.3 9.8 2.5 95.6

Average 21.3 8.8 2.4 95.6

a) Average of tryptic peptides per protein in the mass range 800–3500 Da.

b) Average of tryptic peptides per protein in the mass range 800–3500 Da and pIo5.5. The pI value of tryptic peptides was calculated with

the InSilicoSpectro pI function [20].

Electrophoresis 2011, 32, 1323–1326 Proteomics and 2-DE 1325

& 2011 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim www.electrophoresis-journal.com

Page 48: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

level that uses only standard slab gel equipment. In this

report, we are introducing the concept of peptide selection

according to their pI value using an appropriate discontin-

uous buffer system in the second dimension.

In conclusion, we were able to select and separate

peptides with pI lower than 5.5 using a discontinuous buffer

system for PAGE, which includes MOPS as trailing ion, Cl�

as leading ion and histidine as counterion. The procedure

has been applied to proteomics studies by combining SDS-

PAGE of proteins, in-gel enzyme treatment, peptide frac-

tionation by SDS-free PAGE and nano-LC-MS/MS analysis.

In silico studies revealed that more than 95% of six

proteomes can be analyzed by selecting peptides with pIlower than 5.5, which simplifies the complex peptide

mixture 2.5 times.

The authors have declared no conflict of interest.

References

[1] Tiselius, A., Trans. Faraday Soc. 1937, 33, 524.

[2] Kohn, J., Nature 1957, 180, 986.

[3] Grabar, P., Williams, C. A., Biochim. Biophys. Acta 1953,10, 193.

[4] Smithies, O., Biochem. J. 1955, 61, 629.

[5] Poulik, M. D., Nature 1957, 180, 1477.

[6] Ornstein, L., Ann. NY Acad. Sci. 1964, 121, 321–349.

[7] Davis, B. J., Ann. NY Acad. Sci. 1964, 121, 404.

[8] Kohlrausch, F., Ann. Phys. Chem. 1897, 62, 209.

[9] Jovin, T., Ann. NY Acad. Sci. 1973, 209, 477–496.

[10] Schagger, H., von Jagow, G., Anal. Biochem. 1987, 166,368–379.

[11] Akins, R. E., Levin, P. M., Tuan, R. S., Anal. Biochem.1992, 202, 172–178.

[12] Tastet, C., Lescuyer, P., Diemer, H., Luche, S., vanDorsselaer, A., Rabilloud, T., Electrophoresis 2003, 24,1787–1794.

[13] Laemmli, U. K., Nature 1970, 227, 680–685.

[14] Heller, M., Michel, P. E., Morier, P., Crettaz, D., Wenz, C.,Tissot, J. D., Reymond, F., Rossier, J. S., Electrophoresis2005, 26, 1174–1188.

[15] Xie, H., Rhodus, N. L., Griffin, R. J., Carlis, J. V., Griffin,T., J. Mol. Cell. Proteomics 2005, 4, 1826–1830.

[16] Xiao, Z., Conrads, T. P., Lucas, D. A., Janini, G. M.,Schaefer, C. F., Buetow, K. H., Issaq, H. J., Veenstra,T. D., Electrophoresis 2004, 25, 128–133.

[17] Zilberstein, G., Korol, L., Shlar, I., Righetti, P. G.,Bukshpan, S., Electrophoresis 2008, 29, 1749–1752.

[18] Ramos, Y., Gutierrez, E., Machado, Y., Sanchez, A.,Castellanos-Serra, L., Gonzalez, L. J., Fernandez-de-Cossio, J., Perez-Riverol, Y., Betancourt, L., Gil, J.,Padron, G., Besada, V., J. Proteome Res. 2008, 7,2427–2434.

[19] Sillero, A., Ribeiro, J. M., Anal. Biochem. 1989, 179, 319.

[20] Colinge, J., Masselot, A., Carbonell, P., Appel, R. D.,J. Proteome Res. 2006, 5, 619–624.

MS/MS data analysis and Data Base Interrogation

……

……

……

……

1 2 3 … …10 slices

12345678

Pep

tides

pI≤

5.5

In gel proteolisis

SDS-PAGE LC-MS/MS

MS/MS data analysis and Data Base Interrogation

Slice 1

Slice 2

Slice 8

……

……

……

……

SDS-free PAGE at acid pH

Figure 2. Schematic representation of the strategy used for proteomic analysis (DF-PAGE). Proteins are separated according to theirmolecular mass in SDS-PAGE. The unstained gel is cut into ten slices, each slice is in-gel digested with trypsin and the peptide mixture istransferred to a second histidine/MOPS SDS-free gel. Peptides are separated according to their charge/mass ratio. This gel is cut into eightslices and peptides eluted from each slice are separated according to their hydrophobic properties in the LC-MS/MS analysis. The databaseinterrogation is then performed using a composite data from the eight LC-MS/MS experiments obtained for each protein fraction.

Electrophoresis 2011, 32, 1323–13261326 Y. Ramos et al.

& 2011 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim www.electrophoresis-journal.com

Page 49: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Supplementary Information

A 1p

tryptic digestion from egg white

A

I

II isolated peptides

B

1p

1p

1p

1p

2p

4p

4p

tryptic digestion from caseins mixture

B

I

II isolated peptides

A 1p

tryptic digestion from egg white

A

I

II isolated peptidesA 1p

tryptic digestion from egg white

A

I

II isolated peptides

B

1p

1p

1p

1p

2p

4p

4p

tryptic digestion from caseins mixture

B

I

II isolated peptidesB

1p

1p

1p

1p

2p

4p

4p

tryptic digestion from caseins mixture

B

I

II isolated peptides

Supplementary information I: Peptide isolated in the fastest migrating fraction of the protein

extract digestion. A: (I) spectra ESI-MS of the tryptic digestion of the protein extract from egg

white and (II) peptides detected in the fastest migration fraction respectively. B: (I) spectra

ESI-MS of the caseins mixture tryptic digestion and (II) peptides detected in the fastest

migration fraction respectively. (p) indicate phosphorylated peptides with the specified number

of phosphate groups.

Page 50: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Escherichia coli

Saccharomyces cerevisiae

Arabidopsis Thaliana

Drosophila melanogaster

Mus musculus

Homo sapiens

Peptide mixture simplification

0

5

10

15

20

25

30

2 4 6 8 10 12pH

Pept

ide/

prot

ein

Proteome coverage

0

20

40

60

80

100

2 4 6 8 10 12pH

% c

over

age

A B

Escherichia coli

Saccharomyces cerevisiae

Arabidopsis Thaliana

Drosophila melanogaster

Mus musculus

Homo sapiens

Peptide mixture simplification

0

5

10

15

20

25

30

2 4 6 8 10 12pH

Pept

ide/

prot

ein

Proteome coverage

0

20

40

60

80

100

2 4 6 8 10 12pH

% c

over

age

Escherichia coli

Saccharomyces cerevisiae

Escherichia coli

Saccharomyces cerevisiae

Arabidopsis Thaliana

Drosophila melanogaster

Arabidopsis Thaliana

Drosophila melanogaster

Mus musculus

Homo sapiens

Mus musculus

Homo sapiens

Peptide mixture simplification

0

5

10

15

20

25

30

2 4 6 8 10 12pH

Pept

ide/

prot

ein

Peptide mixture simplification

0

5

10

15

20

25

30

2 4 6 8 10 12pH

Pept

ide/

prot

ein

Peptide mixture simplification

0

5

10

15

20

25

30

2 4 6 8 10 12pH

Pept

ide/

prot

ein

Proteome coverage

0

20

40

60

80

100

2 4 6 8 10 12pH

% c

over

age

Proteome coverage

0

20

40

60

80

100

2 4 6 8 10 12pH

% c

over

age

Proteome coverage

0

20

40

60

80

100

2 4 6 8 10 12pH

% c

over

age

A B

Supplementary information II: In silico analysis for six proteomes. (A) Average number of

tryptic peptides negatively charged per protein at different pH. (B) Proteome coverage

considering peptides negatively charged at different pH. Blue and red dotted lines indicate

the theoretical values for pH 5.5 and pH 7.3 corresponding to acid and basic pH system for

SDS-free PAGE respectively. (C) Theoretical distribution of GRAVY index for whole

peptides (blue) and peptides with pI below 5.5 (red) from trypsin digestion of H. sapiens

proteome. The pI value of tryptic peptides was calculated with the InSilicoSpectro pI

function20.

Page 51: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Evaluation of Phenylthiocarbamoyl-DerivatizedPeptides by Electrospray Ionization MassSpectrometry: Selective Isolation and Analysis ofModified Multiply Charged Peptides for LiquidChromatography-Tandem Mass SpectrometryExperiments

Aniel Sanchez,† Yasset Perez-Riverol,‡ Luis Javier Gonzalez,† Jesus Noda,† Lazaro Betancourt,†

Yassel Ramos,† Jeovanis Gil,† Roberto Vera,‡ Gabriel Padron,† and Vladimir Besada*,†

Proteomics Department and Bioinformatic Department, Physical-Chemistry Division, Biomedical Research, Center forGenetic Engineering and Biotechnology, P.O. Box 6162, Havana, Cuba

Edman degradation in the gas phase has been observedby collision activated dissociation of N-terminal phenylth-iocarbamoyl (PTC) protonated peptide to yield abundantcomplementary b1 and yn-1 ion pairs. Here, we dem-onstrated the relation between the observed losses ofaniline and/or the entire PTC derivatizing group withthe availability of mobile protons using electrosprayionization mass spectrometry. In order to select thepeptides with more efficient fragmentation, while sim-plifying the mixture of peptides, we extend the phe-nylisotiocyanate (PITC) derivatization of amino groupsto the selective isolation of multiply charged peptides(those having the number of arginines and histidinesresidues higher than one) using a procedure previouslydeveloped in our group. Thus, it was possible toidentify in the filtered protein database the sequenceof the isolated multiply charged peptides derived froma single protein and a complex mixture of proteinsextracted from Escherichia coli using only the molec-ular mass and the N-terminal amino acid information.For this purpose, we developed a novel bioinformatictool for automatic identification of peptides from liquidchromatography-tandemmass spectrometry (LC-MS/MS) experiments, which potentially can be used inhigh-throughput proteomics.

Proteomics based on multidimensional liquid chromatographyand tandem mass spectrometry (MS/MS) to separate and frag-ment peptides have allowed the highest throughput for proteinidentification. This is in spite of the very low percentage of MS/MS spectra from liquid chromatography-mass spectrometry

(LC-MS) that can be correctly assigned.1 However, the measuredpeptide mass acts as a filter that directly reduces the number ofpotential false positive assignments.2,3 With good scoring, highermass accuracy proportionately increases the certainty of identifica-tion, a concept that applies to intact peptide as well as theirfragmentation products.

The peptide molecular mass by itself, even with low ppmaccuracy, is normally considered nonsufficient evidence foridentification of the peptide,4 but their combination with partialsequencing can yield determinant information for identificationof peptide and protein in the database.

Gaskell et al.5 showed that the equivalent of a single Edmandegradation stage can be realized for ions in the gas phase. Thepeptides are coupled in solution with phenylisotiocyanate (PITC)and ionized either in an electrospray ionization (ESI) or a matrix-assisted laser desorption ionization (MALDI) ion source. Afteractivation, the phenylthiocarbamoyl (PTC)-derivatized peptidedissociates specifically to yield the b1 fragment. In consequence,this opens the possibility to determine the peptide mass andits N-terminal residue in a single mass spectrum.

Gaskell and co-workers used this reaction and, supported bybioinformatic tools, identified yeast proteins using gel electro-phoresis and MALDI-MS.6 This procedure was also applied to anapomyoglobin tryptic digestion using a Fourier transform ioncyclotron resonance MS (ESI-FTICR).7 Some PTC-derivatizatedpeptides showed loss of aniline and PITC neutral group instead

* Corresponding author. Vladimir Besada Ph.D., Head of Proteomics Depart-ment, Center for Genetic Engineering and Biotechnology, P.O. Box 6162, Ave31, e/158 y 190, Cubanacan, Playa, Ciudad de la Habana, Cuba. E-mail:[email protected].

† Proteomics Department.‡ Bioinformatic Department.

(1) Yen, C. Y.; Russell, S.; Mendoza, A. M.; Meyer-Arendt, K.; Sun, S.; Cios,K. J.; Ahn, N. G.; Resing, K. A. Anal. Chem. 2006, 78, 1071–1084.

(2) Smith, R. D.; Anderson, G. A.; Lipton, M. S.; Pasa-Tolic, L.; Shen, Y.;Conrads, T. P.; Veenstra, T. D.; Udseth, H. R. Proteomics 2002, 2, 513–523.

(3) Fang, R.; Elias, D. A.; Monroe, M. E.; Shen, Y.; McIntosh, M.; Wang, P.;Goddard, C. D.; Callister, S. J.; Moore, R. J.; Gorby, Y. A.; Adkins, J. N.;Fredrickson, J. K.; Lipton, M. S.; Smith, R. D. Mol. Cell. Proteomics 2006,5, 714–725.

(4) Mann, M.; Kelleher, N. L. Proc. Natl. Acad. Sci. U.S.A. 2008, 105, 18132–18138.

(5) Summerfield, S. G.; Bolgar, M. S.; Gaskell, S. J. J. Mass Spectrom. 1997,32, 225–231.

(6) Brancia, F. L.; Butt, A.; Beynon, R. J.; Hubbard, S. J.; Gaskell, S. J.; Oliver,S. G. Electrophoresis 2001, 22, 552–559.

Anal. Chem. 2010, 82, 8492–8501

10.1021/ac1012738 © 2010 American Chemical Society8492 Analytical Chemistry, Vol. 82, No. 20, October 15, 2010Published on Web 09/20/2010

Page 52: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

of a specific b1 fragment, and the fragmentations were notgeneralized neither completely explained as the authors pointedout in the conclusions of the manuscript.7 Finally, the resultswere attractive for identification of proteins in database onlyfor low parts per million (ppm) accuracy, due fundamentallyto the complexity of the proteomes. In both papers, the authorsdemonstrate the feasibility of the reaction and the potentialapplication for proteome analysis.

In addition, Wohlhueter and co-workers demonstrated thatother isothiocyanate analogues bearing basic moieties can de-rivatize peptides and significantly improve the MS sensitivity oftagged analytes, while promoting Edman fragmentation.8 On theother hand, Yao and co-workers proposed this active chemicalmodification for improving the fragment ion detection in multiplereaction monitoring (MRM) studies.9

In this work, we studied the fragmentation pattern of PTCderivatized peptides using electrospray ionization mass spectrom-etry. We used a mixture of peptides with several charge states,observing a similar behavior for each charge state group explainedby mobile proton theory.

In order to increase the number of PTC-derivatized peptideswith highly efficient fragmentation (considering the abundantcomplementary b1 and yn-1 pairs) while simplifying the mixtureof peptides, we combined the PITC reaction with a selectiveisolation of multiply charged peptides as published previously10

(those which the sum of arginines and histidines residues arehigher than one, RH peptides). Initially, the in silico analysisof PTC-derivatized RH peptides for several proteomes showeda considerable increase in the number of peptides that couldbe identified based on their mass and N-terminal residueinformation only (unique peptides).

Finally, a single mixture of peptides produced by trypticdigestion of streptokinase and a complex mixture of peptides fromEscherichia coli were analyzed, and protein identification wasachieved using only the molecular mass, the N-terminal aminoacid information, and a filtered database composed exclusivelyof RH peptides.

MATERIALS AND METHODSThe sequencing-grade trypsin was purchased from Promega

(WI). Acetonitrile (ACN) and water were HPLC grade and wereobtained from Caledon (Ontario, Canada). The peptides weresynthesized by the Fmoc chemistry, and the recombinant strep-tokinase (rSK) were manufactured at the Center for GeneticEngineering and Biotechnology (Havana, Cuba). TFA, formic acid,and PITC were purchased from Pierce (IL). The bovine serumalbumin (BSA) was obtained from Sigma (MO). E. coli strainW3110 cells were processed by sequential solubilization describedby Molloy,11 and the fraction soluble in Tris was analyzed withthe present procedure.

Reduction and S-Alkylation. The proteins were dissolvedseparately in 50 μL of 200 mM HEPES buffer (pH 8.0) containing2 M of guanidium hydrochloride and were reduced by addingDTT to a final concentration of 10 mM, flushed with nitrogen,and incubated 4 h at 37 °C. The free thiol groups were alkylatedby adding acrylamide to a final concentration of 20 mM, and thereaction proceeded for an additional 60 min at room temperature.

Tryptic Digestions. The proteins, dissolved in the reductionand S-alkylation buffer, were diluted with two volumes of waterand digested with trypsin using an enzyme-substrate ratio of1:100 at 37 °C during 10 h.

PITC Derivatization. After trypsin digestion, the mixture ofpeptides was dried under vacuum centrifugation and then con-verted into a PTC derivative by dissolving the mixture inethanol-water-triethylamine-phenyl isothiocyanate (75/10/10/5by volume). The reaction proceeded for 20 min at 50 °C followedby vacuum centrifugation. The dried, derivatized product was firstdissolved in heptane-ethyl acetate (90:10 v/v; 100 μL), and thenan equal volume of water was added. This mixture was shakenvigorously and centrifuged. The upper phase was discarded, andthe extraction of the aqueous phase was repeated twice beforeESI MS analysis.

Selection of Multiply Charged PTC-Peptides (RH Pep-tides) by Strong Cation Exchange Chromatography. The PTC-derivatized peptides were desalted using ZipTipC18 (Millipore),and the multiply charged peptides (RH peptides) were selectivelycaptured using a SCX minicolumn, NuTip (Glygen Corp). TheNuTip was equilibrated with TFA (0.05%), and peptides wereabsorbed onto the NuTip and extensively washed with the sameequilibration buffer. RH peptides were eluted with a solutioncontaining 1 M NaCl and 20% ACN. The sample was desaltedusing ZipTipC18 (Millipore) previous to the analysis by nanoESI-MS.

MS Analysis. Mass spectrometric measurements were per-formed using a hybrid quadrupole orthogonal acceleration tandemmass spectrometer QTof-2 (Micromass, Manchester, U.K.). Capil-lary and cone voltages were 900 and 35 V, respectively, in thenanoESI experiment. The spectra were acquired in them/z rangefrom 400 to 2000 Th. Data acquisition and processing wereperformed using a Masslynx system (version 3.5) fromMicromass(Manchester, U.K.).

MS/MS Analysis. The solution of multiply charged PTC-derivatized peptides from rSK was injected by infusion mode tothe mass spectrometer QTof-2 (Micromass, Manchester, U.K.)using a metal-coated borosilicate capillary (Micromass, U.K.).

For the analysis of E. coli proteins the LC-MS/MS wereperformed on an integrated nanoLC Agilent 1100 equipped witha microautosampler. The injected peptides from 40 μL weretrapped and desalted on a PS-DVB monolithic trap column (5 mm× 200 μm i.d.) from Dionex (Sunnyvale, CA) during 20 min with0.1% of formic acid delivered by an auxiliary pump at 20 μL/min.With the valve switched, the retained peptides were back-flushedand loaded onto the capillary PS-DVB monolithic column (50 mm× 100 μm i.d.) from Dionex (Sunnyvale, CA). The separationcolumn was previously equilibrated in solution A (formic acid 0.2%in water), and the peptides were eluted with a linear gradientincreasing the concentration of solution B (acetonitrile/water 80/

(7) Van der Rest, G.; He, F.; Emmett, M. R.; Marshall, A. G.; Gaskell, S. J.J. Am. Soc. Mass Spectrom. 2001, 12, 288–295.

(8) Wang, D.; Fang, S.; Wohlhueter, R. M. Anal. Chem. 2009, 81, 1893–900.(9) Diego, P. A.; Bajrami, B.; Jiang, H.; Shi, Y.; Gascon, J. A.; Yao, X. Anal.

Chem. 2010, 82, 23–27.(10) Sanchez, A.; Gonzalez, L. J.; Betancourt, L.; Gil, J.; Besada, V.; Fernandez-

de-Cossio, J.; Rodriguez-Ulloa, A.; Marrero, K.; Alvarez, F.; Fando, R.;Padron, G. Proteomics 2006, 6, 4444–4455.

(11) Molloy, M. P.; Herbert, B. R.; Walsh, B. J.; Tyler, M. I.; Traini, M.; Sanchez,J. C.; Hochstrasser, D. F.; Williams, K. L.; Gooley, A. A. Electrophoresis1998, 19, 837–44.

8493Analytical Chemistry, Vol. 82, No. 20, October 15, 2010

Page 53: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

20 v/v) at 0.75%/min. The eluates at a flow rate of 300 nL/minwere delivery to the QTof-2 mass spectrometer.

For both injection modes, the precursor ions were selected tobe fragmented automatically once their intensity rose above adefined threshold (4 counts s-1), and each MS/MS step wascompleted after two scans of 2 s. The total acquisition timewas 2 min. To acquire the MS/MS spectra, the first quadrupolewas used to select the precursor ion within a window of 4 Th.A pressure of ∼3 × 10-2 Pa collision gas (argon) was used inthe hexapole collision cell to yield the fragment ions. Thecollisions ramps used for PTC-derivatized peptides fragmenta-tion are shown in the Supporting Information, SupplementaryMaterial 2.

Data acquisition and processing were performed using aMasslynx system (version 3.5) from Micromass (Manchester,U.K.). Protein identification was made using the Internet-availablesearch engine MASCOT12 (http://www.matrixscience.com) or anin house program written in Java. The mgf files were obtainedfrom the raw data using the Mascot distiller program.12

Computer in House Programs. AAmanager is a computerprogram coded in Java that was developed for console use to scanthe Swiss-Prot sequence database and calculates (1) the numberof proteins of a given organism that might be identified by isolatingselective RH peptides with molecular masses comprised between800 and 3500 Da, (2) the total number of tryptic peptides perprotein (KR peptides/protein) in the analyzed proteome, and (3)the average number of RH peptides/protein that could be isolatedselectively using the method developed in our group.10

N terminal software was coded in Java that allows theidentification of peptide sequences in the database from theinformation included in the mgf files. The scoring method usedfor each sequence is based on the experimental finding thatapproximately 70-90% of the total intensity of fragment ionsobserved in the MS/MS spectra of PTC-peptides that correspondsto the b1 and its complementary yn-1 ions.9 Generally, the mostintense signal in the low-mass region could be assigned to theb1 fragment. In consequence, with this report9 the score wascalculated as follows

In ) Ii/Imax

score ) In/Oi

where Ii is the intensity of the possible b1 fragment, In isthe normalized intensity of the possible b1 fragment, Imax isthe intensity of the most intense ion in the low mass region(193-322 Da), Oi is the intensity order (sort descending) of Iiamong all possible b1 fragments. Peptide sequences with ascore equal to 1 or equal to In were considered as confidentidentifications or probable identifications, respectively.

Algorithm to Identify Unique Peptides. A decision treealgorithm was developed in Java to compute the identification ofunique peptides based on the above-described theoretical proper-ties. Each node of the tree represents a property of the peptide(Nterm, molecular mass). The algorithm constructs a treerepresenting the possible combinations of the properties to identify

unique peptides in the sequence database. The root node of thetree corresponds to the molecular mass of the peptide because itis the most discriminating property to reduce the number ofpeptides to be analyzed by the remaining nodes of the decisiontree. In each node of the tree, the algorithm takes a set of inputpeptides and calculates the absolute values for a given propertyand stores only those that are unique peptides. Then, it sendsthe child nodes the remaining peptides as input data for furtheranalysis in order to identify other unique peptides after consideringthe next property. The identification function for the uniquepeptides is the following logical expression:

(Vn+1 Vn-1) > 4(error)

A peptide sequence is unique if the property value (Vn) differsfrom its previous value Vn-1 in 2 units of property error and in2 units of error for the next peptide property value Vn+1. Thealgorithm provides as a final result a set of unique peptidesafter combining the N-terminal amino acids and the molecularmass at several parts per million of mass accuracy. In order toknow if the number of unique peptides increases by using theselective isolation methods, the algorithm was run with thewhole tryptic peptide database and the individual subdatabasescontaining the tryptic peptides were selectively isolated (mul-tiply charged peptides).

RESULTS AND DISCUSSIONInfluence of the Charge-State and the Presence of Basic

Amino Acids on the Fragmentation Pattern of PTC- Peptides.Previous studies showed that several PTC-peptides ions do notyield an abundant b1 fragment ion in the ESI-MS/MS, whichseriously limits the information regarding the N-terminal aminoacid because the loss of aniline and/or the entire PTCderivatizing group can compete with the Edman fragmentationpathway.7 Nowadays, no general trend (based on nature of theN-terminal amino-acid, charge-state of the peptide, or availabilityof mobile protons) of these losses have been published toexplain this behavior.7 In this experiment, four syntheticpeptides with sequences SSFSMLR, SSMSTLR, RSSYSTL, andQWISLGDR were derivatized with PITC and analyzed in anESI-QTOF mass spectrometer for studying the influence ofbasic amino acids and the protonation extent of peptide ionsin the gas phase on the fragmentation observed in MS/MSspectra, specifically the pairs b1 and yn-1 fragments and theloss of aniline and/or the entire PTC derivatizing group. Thefragmentation patterns of these peptides were studied usingtwo different charge states: the singly- and the doubly chargedions. For singly charged peptides, similar spectra were ob-served, with predominant signals of the b1 fragment and lossesof aniline and PITC groups (see Figure 1).

According to the theory of the mobile proton for this kind ofpeptide, where the number of charges is equal to the number ofarginine residues in the peptide sequence, the proton is locatedon the guanidinium group (fixed proton).13 In consequence, thecollision energy required to produce the b1 fragment ion fromthe singly charged precursor must be higher than the energyneeded to fragment the corresponding multiply charged forms,thus the collision energy used was higher than 35 eV for all

(12) Perkins, D. N.; Pappin, D. J.; Creasy, D. M.; Cottrell, J. S. Electrophoresis1999, 20, 3551–3567.

8494 Analytical Chemistry, Vol. 82, No. 20, October 15, 2010

Page 54: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

analyzed peptides. In these conditions, only the signals corre-sponding to the loss of aniline and PTC groups appear withsimilar intensities to the b1 fragment ion in the MS/MS spectra.This result suggests that the probability to obtain otherfragment ions in addition to b1 as well as the losses of anilineand the PITC group increases while increasing the collisionenergy; therefore, a more complex MS/MS spectrum isobtained.

However, an additional fragment was observed in the massspectrum of peptide QWISLGDR, corresponding to the y1 frag-ment (m/z ) 174 Da, Figure 1D). It is well-known that thepresence of aspartic acid residues in single charged peptides witha fixed proton (in arginine residues) provokes the C bias fragmentpromoted by the carboxylic proton.14 In this case, the asparticacid is adjacent to the C-terminal arginine residue. For doublycharged peptide analysis, the mass spectrum patterns were similar(see Figure 2). Here, the number of charges is higher than thenumber of arginine residues in each peptide sequence, thereforeone proton is mobile. The energy used was lower than 20 eV,and the most abundant fragment ions were the b1 and theircomplementary yn-1, showing that gas-phase Edman degrada-tion is more efficient for multiple charged peptides ions, aspreviously reported.7 In this analysis, the peptide QWISLGDRwas not observed as double charged ion in the experimentalconditions used. Both results (for singly- and doubly chargedpeptides) demonstrate that it is possible to explain and predictthe most intense signals in the mass spectrum for knownpeptide sequences, including the losses of aniline and/or theentire PTC derivatizing group according to the theory of themobile proton. These findings are very useful to determine thePTC-peptides exhibiting more efficient fragmentation uponcollision induced dissociation yielding intense b1 and yn-1 ions.

PTC-Derivatized Tryptic Digests of Two Model Proteins:Bovine Serum Albumin (BSA) and Recombinant Streptoki-nase (rSK). To increase the number of analyzed PTC-derivatizedpeptides and confirm the regularities observed above, two modelproteins BSA and rSK were digested with trypsin and the resultantpeptides modified with PITC. The reaction proceeded successfullyfor all the tryptic peptides of both proteins, and in some casesmultiple PTC-derivatized peptides were observed due to thepresence of lysine residues. Tryptic peptides (26) were subjectedto MS/MS analysis under different collision energies, and theirassignments are shown in Table 1. The minimum collision energy(MCE) was defined as the minimal energy necessary to obtainthe b1 fragment.

Signals of the PTC-derivatized peptides with one, two, or threepositive charges were observed in the ESI MS spectrum. A moredetailed analysis of the charge state of each peptide allows theclassification of PTC-peptides into two main groups. The first oneis composed by peptides with fixed protons (Table 1, peptides1-9); in which the number of charges is equal to the number ofarginines in their sequences. The peptides in the second group(Table 1, peptides 10-26) have more protons than arginines ineach peptide sequence (mobile protons). The MS/MS spectra ofpeptides belonging to the first group (Table 1, peptides 1-9)showed some common characteristics, such as the intense signalsdue to the losses of aniline (- 93 Da) and the PITC group (- 135Da) from the precursor ions that were obtained in all cases withan MCE greater than 30 eV. These results are in good agreementwith those obtained for singly charged synthetic peptides deriva-tized with PITC described in the previous section. The peptidesYLYEIAR (no. 3, Table 1) and NLDFR (no. 7, Table 1) showed y3and y2 fragment ions, respectively, beside the b1 fragment.These fragments could be easily explained due to the presence

Figure 1. ESI-MS/MS spectra of single charged PTC-derivatized synthetic peptides: (A) SSFSMLR, (B) RSSYSTL, (C) SSMSTLR, and (D)QWISLGDR. The inset in part D showed the expanded low-mass region where the b1 and y1′′ fragments are observed. All MS/MS spectra havea similar pattern, showing the loss of 93 and 135 Da beside the b1 fragment.

8495Analytical Chemistry, Vol. 82, No. 20, October 15, 2010

Page 55: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

of glutamic acid or aspartic acid adjacent to the cleavage sitethat provokes the C bias fragment promoted for its carboxylicproton.13 The same behavior was observed for peptide SEQLL-TASER (no. 8, Table 1), corresponding to the appearance of a y1fragment; however, the fragment b1 was not observed, similar

to the peptide DLYDPR (no. 5, Table 1), where fragment y2 wasthe most intense signal in its MS/MS spectrum. Here, theproline effect15 is added to the role of aspartic acid. Additionally,for peptide C*C*TESLVNR (*, propionamidated cystein resi-due), the b1 fragment was not observed; and for other peptides,

Figure 2. ESI-MS/MS spectra of doubly charged PTC-derivatized peptides: (A) SSFSMLR, (B) RSSYSTL, and (C) SSMSTLR. All spectrashowed similar pattern with the b1 and yn-1 as the most intense backbone fragment ions.

Table 1. Summary of the PTC-Derivatized Tryptic Peptides of Two Model Proteins Studied by ESI-MS/MS

sequence za (R + H)b m/z b1c y n-1

d other fragmentse (Da) proteinf MCEg (eV)1 475C*C*TESLVNR483 h 1 1 1301.55 ndi ndi yn - 93, yn - 135 BSA 452 77VASLR81 1 1 680.36 X ndi yn - 93, yn - 135 BSA 323 137YLYEIAR143 1 1 1062.50 X ndi y1, y3, yn - 93, yn - 135 BSA 454 336RHPEYAVSVLLR347 2 3 787.90 X ndi yn - 93, yn - 135, 273 BSA 405 326DLYDPR331 1 1 913.37 ndi ndi y2, y1 rSK 306 396EVYSYLR402 1 1 1064.47 X ndi y1, 273 rSK 357 321NLDFR325 1 1 799.32 X ndi y1, y2, yn - 93, yn - 135 rSK 358 311SEQLLTASER320 1 1 1268.57 ndi ndi y1 rSK 359 373RPEGENASYHLAYDKDR389 2 3 1145.97 X ndi yn - 93, y - 135, 273 rSK 4010 1DTHK4 1 1 770.28 ndi X yn - 93, yn - 135, yn-1 - 93, yn-1 - 135 BSA 2511 291SHLK294 1 1 754.30 X X yn - 93, yn - 135, [HL] ) 251 rSK 2812 373RPEGENASYHLAYDKDR389 3 3 764.32 X X yn - 93, yn - 135 rSK 2713 373RPEGENASYHLAYDK387 2 2 1010.43 X yn - 93, yn - 135 rSK 2814 243EC*C*HGDLLEBADDR256 h 2 1 963.89 X X ndi BSA 2915 42LVNELTEFAK51 2 0 717.33 X X ndi BSA 1516 459LC*VLHEK461 h 2 1 591.77 X X ndi BSA 1517 286SHC*IAEVEK294 h 2 1 678.80 X X ndi BSA 2318 52TC*VADESHAGBEK64 h 2 1 881.35 X X ndi BSA 1519 413KVPQVSTPTLVEVSR427 2 1 955.51 X X ndi BSA 1820 5SEIAHR10 2 2 424.21 X X ndi BSA 1821 336RHPEYAVSVLLR347 3 3 525.63 X X ndi BSA 1822 234TILPMDQEFTYHVK247 2 1 996.42 X X ndi rSK 2023 123DGSVTLPTQPVQEFLLSGHVR143 2 2 1208.14 X X ndi rSK 2524 221DSSIVTHDNDIFR233 2 2 827.35 X X ndi rSK 2525 211THPGYTIYER220 2 2 686.30 X X ndi rSK 2026 355VEDNHDDTNR364 2 2 675.24 X X ndi rSK 20

a Number of protons of the precursor selected for MS/MS analysis. b Corresponds to the number of positive charges the arginine and histidineresidues bear in the R and ε-amino-blocked peptides dissolved at acidic pH. c X denotes the peptides giving the b1 fragment. d X denotes thepeptides giving the yn-1 fragment. e Additional fragments ions observed in the MS/MS spectra of the PTC-derivatized peptides. f Protein correspondingto the peptide analyzed. g Minimal collision energy (MCE) required for observing the b1 fragment. h C* means propionamidated cystein residue.i nd means that the specified fragment ions were not detected in the MS/MS spectra using the minimal collision energy.

8496 Analytical Chemistry, Vol. 82, No. 20, October 15, 2010

Page 56: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

the y1 fragment and a peak at 273 Da were also detected, whichcannot be explained from this limited set of experimentalresults.

For the second group, some peptides have an interestingcharacteristic (peptides 10, 11, 12, and 13 in Table 1), which isthe presence of histidine and lysine in their sequences. Initially,the mobile proton should be localized in the histidine residue13,16

because of its highly basic properties in the gas phase, but uponcollisionally induced dissociation (CID) this proton is delocalizedalong the peptide backbone inducing additional fragmentations.In spite of this, the b1 fragment is still favored and detected asimportant signal using lower collision energies than the oneused in the first group.

The losses of PITC and the aniline group of the amino groupof lysine are also detected with the collision energy used (lessthan 25 eV). In a previous work, Gaskell reported that the PITCgroup in the ε-amino group of lysine is more labile than in theR-amino group of the peptide.7 Thus, the yn-1 fragment and thelosses yn-1 - 93 and yn-1 - 135 were also observed, in additionto the b1 fragment. On the contrary, in the peptide DTHK (no.10, Table 1) in spite of having a mobile proton at the histidineresidue, the b1 fragment was not observed. The MS/MS spectraof the other peptides in the second group have a similar patternamong them with the b1 fragments and their complementaryyn-1 fragments, with a MEC lesser than 25 eV.

Selective Isolation of Multiply Charged Peptides Blockedwith PITC by Using Strong Cation Exchange Chromatogra-phy. In our group, quantitative blocking of primary amino groupsof tryptic peptides and strong cation exchange chromatography(SCX) have been used to isolate with high selectivity the multiply

charged peptides (named as RH peptides).10 This proceduresimplifies the complexity of peptides mixture considerably byisolating 3-5 RH peptides/protein. The RH peptides are well-represented among proteins of different proteomes and theiranalysis guaranteed high proteome coverage.10 In silico analysisof protein sequences of several proteomes showed that more than90% of the RH peptides have at least one histidine residues andmore than 80% do not contain lysine in their sequences (data notshown).

In RH peptides, the sum of arginine and histidine residues ineach sequence is greater than 1 (no. of R + no. of H > 1) andmost of them produce multiply charged ions (z g 2) and containmobile protons since they contain at least one histidine (see thecolumn (R + H) in Table 1).

Considering that (1) RH peptides are isolated as N-terminalblocked species, (2) they are a family of peptides that generallycontain a mobile proton upon CID, and (3) once they arederivatized with PITC their MS/MS spectra show an abundantb1 ion, we decided to combine the PITC derivatization of trypticpeptides and separation by SCX to selectively isolate the RHpeptides and evaluate whether the combined information ofaccurate molecular mass of peptides and the N-terminal aminoacid extracted from the b1 ion would be sufficient to performreliable identification of proteins in a sequence database.

The ESI-MS spectrum of the tryptic peptides of rSK modifiedwith PITC is shown in Figure 3A, and the signal assignment issummarized in Table 1. The six RH peptides of rSK present inthis mixture (marked with asterisks in Figure 3A) were selectivelyretained into the SCX column, eluted, and analyzed successfullyby ESI-MS (Figure 3B). After SCX chromatography, none of thenon-RH peptides were observed in the mass spectrometric analysisof the retained fraction (see Figure 3B), indicating the highspecificity of the proposed method for isolating only the RHpeptides.10

Identification of rSK in a Protein Sequences DatabaseUsing the Information of Molecular Mass Accuracy and b1Ion.Manual Identification. All the ESI-MS/MS spectra of the RH

(13) Dongre, A. R.; Jones, J. L.; Somogyi, A.; Wysocki, V. H. J. Am. Soc. MassSpectrom. 1996, 118, 8365–8374.

(14) Tsaprailis, G.; Nair, H.; Somogyi, A.; Wysocki, V. H.; Zhong, W.; Futrell,J. H.; Summerfield, S. G.; Gaskell, S. J. J. Am. Soc. Mass Spectrom. 1999,121, 5142–54.

(15) Breci, L. A.; Tabb, D. L.; Yates, J. R., III; Wysocki, V. H. Anal. Chem. 2003,75, 1963–1971.

(16) Huang, Y.; Triscari, J. M.; Tseng, G. C.; Pasa-Tolic, L.; Lipton, M. S.; Smith,R. D.; Wysocki, V. H. Anal. Chem. 2005, 77, 5800–13.

Figure 3. ESI-MS spectra of (A) PTC-peptides derived from the tryptic digestion of rSK. (B) Selective isolation of six multiply charged PTC-derivatized peptides using SCX chromatography.10 The signals labeled with an asterisk represent the six multiply charged peptides (RH peptides).

8497Analytical Chemistry, Vol. 82, No. 20, October 15, 2010

Page 57: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

peptides, except one (see Figure 4F), showed the b1 fragment.Each spectrum was completed after two scans of 2 s each,during the automatic selection of the precursor ions.

The mass values considering 30 ppm of mass accuracy andthe N-terminal amino acids for all the five peptides were suppliedthrough the sequence query option to the MASCOT program forprotein database identification. Four out of five peptides wereautomatically identified and the protein correctly matched withthe expected one. These four MS/MS spectra showed b1 and yn-1fragment ions. The precursor ion m/z 1208.14 only showedthe fragment b1 by manual selection and longer acquisition time(Table 1, peptide no. 23).

Table 2 shows the results of the mass peptide matching againstthe firmicute database containing proteins derived from all grampositive bacteria, (53 028 sequences). It is important to notice thatconsidering the characteristics of the selected peptides (RHpeptides, where no. of R + no. of H > 1), it was possible toconsiderably reduce the number of peptides that matched with agiven molecular mass and the N-terminal amino acid informationconsidering one missed cleavage site for trypsin. As mentionedbefore, four out of five peptide masses were identified as uniquepeptides in the whole database and assigned to the rSK proteinusing a very modest mass accuracy (30 ppm), if we take intoconsideration the state-of-the-art accurate mass measurements ininstruments like FTICR-MS and Orbitrap.

Only the peptide of m/z ) 686.30 (THPGYTIYER) is notunique for 30 ppm accuracy matching with 2 and 3 peptides that

are also classified as RH peptides. This kind of peptide could befurther filtered by improving the mass accuracy or consideringadditional characteristics of peptides such as their pI or retentiontime.17,18 A more detailed in silico analysis was made with theinclusion of other methods for selective isolation of peptides andother properties (manuscript submitted).

Automatic Identification.Manual identification of peptides usingthe MASCOT software was effective but obviously a proceduredeveloped for high-throughput proteomics could be as automaticas possible with almost no intervention of users. Therefore, we

Figure 4. ESI-MS/MS spectra of the six multiply charged PTC-derivatized peptides after automatic precursor selection: (A) VEDNHDDTNR,2+; (B) THPGYTIYER, 2+; (C) RPEGENASYHLAYDKDR, 3+; (D) DSSIVTHDNDIFR, 2+; (E) RPEGENASYHLAYDK, 2+; and (F)DGSVTLPTQPVQEFLLSGHVR, 2+. The b1 fragment was not observed for the peptide shown in part F. The signals labeled with asterisksrepresent the precursor ions of selected PTC-derivatized RH peptides.

Table 2. Number of SWISS-PROT (Firmicute) DatabaseMatches for Candidates Peptides, Based on theMolecular Mass and the N-Terminal Information of theStreptokinase RH Peptides Modified with PITC

N-termAAa

no. ofpeptidesb

no. of RHpeptidesc

no. ofpeptide (1 MCS)d

no. of RHpeptide (1 MCS)e

827.35 D 4 1 9 1675.24 V 1 1 2 1686.30 T 5 2 8 3764.32 R 0 0 1 11010.43 R 1 1 1 1

a The N-terminal amino acid obtained in the analysis of the MS/MS spectrum. b Number of candidate peptides obtained in the normaldatabase after matching. c Number of candidate peptides obtained inthe RH database after matching. d Number of candidate peptidesobtained in the normal database after matching, considering 1 missedcleavage site (MCS). e Number of candidate peptides obtained in theRH peptides database after matching considering 1 missed cleavagesite (MCS).

8498 Analytical Chemistry, Vol. 82, No. 20, October 15, 2010

Page 58: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

developed a program that allowed the identification of peptidesusing the mgf file generated from the MS/MS spectra. Usually,during a standard proteomic experiment the peptides do notnecessarily produce fragments at high yields due to multiplefragment pathways by CID activation. In this proposal, RH peptidesmainly generate two main fragments (b1 and yn-1) with highyields in a sequence-independent manner.9 The mgf file with10 queries was submitted to the Nterminal in house developedsoftware, and the result obtained is presented in the SupportingInformation, Supplementary Material 1. The result was similarto those obtained by manual identification where five trypticpeptides of rSK were successfully identified.

In both cases, the list of precursor peptides and their fragmentions were matched with the peptides from a filtered databasecontaining only the RH peptides. The procedure was as follows:(1) the mass accuracy was fixed at 30 ppm and the candidatepeptides for each precursor submitted were grouped in an initiallist, (2) the masses of the N-terminal amino acids derivatized withPITC (as b1 fragment) were calculated for the peptides gener-ated in silico from the protein database. These mass valueswere matched with the peak masses submitted in the mgf files.Finally, (3) a list of candidates by each precursor ion wasobtained, ordered by a simple score based on the intensity ofthe possible b1 signal (explained in the Materials and Methods).

The efficiency of the assignments was around 50%; this meansthat a confident identification was possible (scores equal to 1 areconsidered as confident candidates) of the N-terminal amino acidfor five peptides in the experiment carried out (SupportingInformation, Supplementary Material 1); however, five out of sixRH peptides were efficiently fragmented, which represent 83%.Obviously, other queries were processed, corresponding to low-intensity signals detected in the MS spectrum and some casesoriginated from the wrong selection of the precursor mass or itscharge states during the automatic selection in the mass spec-trometer. In these cases, none of them were assigned to peptideswith confident scores in the database.

Application to the Analysis of Protein Mixture. Althoughthe use of PTC-derivatized peptides to identify the first amino acidhave been reported previously,6 they have never been used inLC-MS/MS experiments for the analysis of real proteins samples.This is a challenge because it is necessary to combine the optimalconditions to achieve the fragmentation of peptides in a high-throughput experiment with some informatics tool that respondsto the protein database identification. As a proof of concept, theprocedure was applied to the analysis of cytosolic proteins fromE. coli. Two LC-MS/MS experiments were accomplished for theanalysis of PTC-derivatized peptides (1) without any selectiveisolation step of multiply charged peptides and (2) after theselective isolation of the multiply charged PTC-derivatized pep-tides. As previous MS/MS experiments performed in this work,the collision energies used were set according to the obtainedMCE for peptides presented in Table 1 (collision energy rampsused are shown in the Supporting Information, SupplementaryMaterial 2). A total of 116 unique peptides from 106 proteins at20 ppm, which represents 39% of the total signals assigned to

peptide sequences with scores equal to 1 (see the SupportingInformation, Sup. 3), were identified after the analysis of PTC-derivatized peptides (see Table 3).

As expected, in the other experiment, the number of multiplycharged PTC-derivatized peptides identified as unique by massand N-terminal amino acid increased. In total, 151 peptides from136 proteins were correctly identified, based on scores equals to1, which represented the 63% of total signals assigned to possiblesequences (Supporting Information, Sup. 3). The number ofidentified proteins is relatively low (136 out of 4386 for the E. coliproteome), but this is twice the proteins found using nonderiv-itized tryptic peptides.

This result was without proper fractionation at protein orpeptide level. In the present work, the pool of RH peptides, withno additional fractionation, was analyzed in a single LC-MS/MSrun. Obviously, an extensive fractionation, as described by otherauthors19 as well as the use of more sensitive mass spectrometerswill improve the number of identified proteins.20

As we mentioned above, the efficiency or percentage of MS/MS assigned confidently to peptide sequences is around 10-20%in standard applications. Using similar procedures (digestion andLC-MS/MS settings), we analyzed a nonderivatized trypticdigestion of E. coli in a single LC-MS/MS run to evaluate theefficiency of assignments with our analytical system. In thisexperiment were identified 180 peptides with an efficiency of 24%(755 queries) from 69 proteins, considering a FDR less that 2%.The fragmentation efficiency of PTC-derivatized peptides wasgreater than 35% (scores ) 1), considering the total queries inboth experiments, and slightly superior for the total PTC-derivatized peptides (Table 3).

Although the collision ramps used were set in accordance tothe fragmentation patterns of model peptides, it could be im-proved, as well as the number and duration of scans chosen inthe LC-MS/MS runs. During LC-MS/MS experiments, theaccuracy in the molecular mass determination could vary andsome signals may be excluded from the analysis because of thefixed mass window set for the difference between theoretical andexperimental values. The use of some internal standard or thelock-spray system21 could help to overcome this problem.

On the other hand, the reduced m/z range (from m(PTC-Gly)to m(PTC-Trp);m/z 192-321) necessary to obtain the informationof b1 ions is very narrow in comparison with the full MS/MSand it will be the same range for all peptides independent oftheir molecular mass. The size of multiple LC-MS/MS runs

(17) Essader, A. S.; Cargile, B. J.; Bundy, J. L.; Stephenson, J. L., Jr. Proteomics2005, 5, 24–34.

(18) Krokhin, O. V.; Craig, R.; Spicer, V.; Ens, W.; Standing, K. G.; Beavis, R. C.;Wilkins, J. A. Mol. Cell. Proteomics 2004, 3, 908–919.

(19) Corbin, R. W.; Paliy, O.; Yang, F.; Shabanowitz, J.; Platt, M.; Lyons, C. E.,Jr.; Root, K.; McAuliffe, J.; Jordan, M. I.; Kustu, S.; Soupene, E.; Hunt, D. F.Proc. Natl. Acad. Sci. U.S.A. 2003, 100, 9232–9237.

(20) Domon, B.; Aebersold, R. Science 2006, 312, 212–217.(21) Satomi, Y.; Kudo, Y.; Sasaki, K.; Hase, T.; Takao, T. Rapid Commun. Mass

Spectrom. 2005, 19, 540–546.

Table 3. Results Obtained after the Analysis withThree Different Experiments of a E. coli ProteinExtract

experimentuniquepeptides

% uniquepeptides

efficiency(%)

proteinsidentified

nonderivatized peptides 24 69PTC-peptides 116 39 44 107RH-PTC peptides 151 63 37 136

8499Analytical Chemistry, Vol. 82, No. 20, October 15, 2010

Page 59: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

will be considerably reduced and therefore more convenientlystored. Since the scan range can be reduced just to determinethe molecular mass of b1 ions, then using the same scan speed,an inherent improvement in sensitivity could be obtained.

Although the usage of ion traps in proteome analysis havegained in popularity because of their robustness, high-scan speed,sensitivity, versatility, accurate gain control in hybrid instruments,etc., some ion traps still have the limitation of a 1/3 cutoff rulewhich in principle does not permit the detection of ions in thelow-mass region where some b1 ions are detected. Fortunately,more recent advantages of ion trap technology avoid the lossof this valuable information such as the iTRAQ reporter ions(m/z 114-119 and 121-122), and in principle it might occursimilarly for b1 ions.22,23

In Silico Analysis of Unique Peptides in E. coli and Homosapiens Proteomes Based on the Selective Isolation of RHPeptides. The identification of rSK is based on the informationprovided by the MS/MS spectra of RH peptides that wereselectively isolated. These peptides at the same time were uniquepeptides in the sequence databases composed only by this typeof peptide taking into account only the combination of twoproperties: molecular mass and N-terminal amino acid.

A previous in silico analysis revealed that selective isolationof RH peptides considerably simplifies the complex mixture oftryptic peptides by isolating just three RH peptides/protein, andat the same time they represent as average the 84% of the wholeproteomes.10 These data suggest that a considerable part of theproteins in the sequence database can be identified based on theirMS/MS spectra of RH peptides because they are well representedand distributed.

The selective isolation of a particular type of peptides fromthe whole database might have two opposed effects. On one side,it might eliminate unique peptides present in the whole databasethat do not respond to the characteristics of the peptidesselectively isolated (RH peptides), but on the other side, it mightincrease the number of unique peptides since this process couldeliminate some peptides with properties very close or identical toa given RH peptide that could be selectively isolated.

Considering that RH peptides are very efficient to yield thedesired Edman cleavage in the MS/MS spectrum (b1 fragmention) using very low-energy collisions and also taking intoaccount that there are a wide variety of mass spectrometersavailable on the market with different performances, wecalculate in silico the percentage of unique peptides in thewhole database composed by all tryptic peptides of E. coli andH. sapiens and a subdatabase composed only by the RHpeptides considering different mass accuracies and the infor-mation of the N-terminal amino acids. All these results wereconsidering one missed cleavage of trypsin.

A detailed analysis is shown in Figure 5, where the percentageof unique peptides for several mass accuracy levels is shown. Forthe E. coli proteome, around 30% of the tryptic peptides are uniquefor low parts per million accuracy values (1 ppm), while for 5 ppmaccuracy, these percentages decrease considerably. Thus for 20,30, and 50 ppm, the results are very poor.

Considering also the N-terminal amino acid, additionally to theaccurate molecular mass determination, the number of uniquepeptides substantially increases (Figure 5A). If RH peptides areselected, then it would be possible to obtain values close to 90%of unique peptides with 1 and 5 ppm of mass accuracy. In thiscase, even using very modest mass accuracies of 30 and 50 ppm,the results obtained become attractive for identification of proteins,unlike the analysis of general tryptic peptides analysis.

This behavior is similar to the analysis of the human proteome(Figure 5B); however, the percentage of unique peptides for low-mass accuracies (20, 30, and 50 ppm) is very low. Therefore it isrecommended to use mass spectrometers such as the FTICR andOrbitrap to achieve highly accurate mass determination of theprecursor ions (1-5 ppm range).

However, the methods for the selective isolation of peptidesare not 100% effective, and a few percentage of unspecific peptidesare detected. In a previous application of selective isolation ofmultiply charged peptides, we reported less than 5% of non-RHpeptides in the analyzed fraction, specifically the contaminationwith peptides where the sum of arginine and histidine are equalto 1 (no. of R + no. of H ) 1).10 In the proposed procedure, thenumber of non-RH peptides analyzed by mass spectrometry inthe fraction of interest could be reported as positive hits againstthe filtered RH database, in other words, false positive hits.

(22) Schwartz, J. C. High-Q pulsed fragmentation in ion traps. U.S. Patent6,949,743, September 27, 2005.

(23) Schwartz, J. C.; Syka, J. E. P.; Quarmby, S. T. The 53rd ASMS Conferenceon Mass Spectrometry and Allied Topics, San Antonio, TX, June 5-9, 2005.

Figure 5. In silico analysis of unique peptides using the combination of several mass accuracies and the N-terminal information of all trypticpeptides (KR peptides) and the selectively isolated PTC-derivatized RH peptides: (left) E. coli proteome and (right) H. sapiens proteome.

8500 Analytical Chemistry, Vol. 82, No. 20, October 15, 2010

Page 60: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

In this way, we designed an in silico experiment to evaluatethe possibility to obtain false positive hits with non-RH sequences,specifically those where no. of R + no. of H ) 1. We evaluated2728 non-RH peptides that represent the 5% of the total numberof RH peptides contained in the E. coli database. Thus, wesimulated the maximum number of non-RH peptides for a realexperiment. The sequences were chosen randomly three times(replicates, R1, R2, R3) in an E. coli peptide database composedof peptides where the sum of arginine and histidine are equal to1 (no. of R + no. of H ) 1). These sequences were compared,based on its molecular mass and N-terminal amino acid informa-tion, with the filtered RH database at 1 and 20 ppm of massaccuracy. The positively matched were considered as potentialfalse positives at the mass accuracy determined. The percentageobtained was around 20-30%, which represents percentagesbetween 1 and 1.5 if we consider that the initial number of peptidesrepresents 5% of the total peptides (Table 4).

The values were similar among the replicates (R1, R2, and R3)with CV less than 5%. These results suggest that due to thepresence of non-RH peptides, the number of false positive hits,during the identification in the filtered RH database, may be lessthan 2% using 1 and 20 ppm mass accuracy.

CONCLUSIONSAll these results allowed us to conclude that PTC-derivatized

peptides with fixed protons yield fragments different from theexpected b1 and yn-1 ions in the ESI-MS/MS spectra obtained

in an hybrid type QTOF mass spectrometer because highercollision energy is require to fragment these peptides. On thecontrary, peptides with mobile protons produce almost exclu-sively the desired fragments (b1 and yn-1 ions) that provideinformation on the N-terminal amino acid. We also demon-strated that most of the multiply charged peptides derivatizedwith PITC efficiently produce the b1 and yn-1 fragments.

Multiply charged PTC-derivatized peptides can also be selec-tively isolated from complex mixtures of tryptic peptides, com-bining the derivatization of all primary amino group and strongcation exchange chromatography. Accurate molecular massmeasurement and the N-terminal amino acid of RH peptides issufficient for a reliable protein identification in high-throughputproteomics, and it might have a positive impact to increase thenumber of protein identifications in filtered sequence databasescontaining only RH peptides.

ACKNOWLEDGMENTA.S. and Y.P.-R. have contributed equally to this work. The

authors would like to thank the INSPUR Company from Chinafor its kind donation of the computer cluster TS10000 used for allcalculations and the tools developed in this manuscript.

SUPPORTING INFORMATION AVAILABLEOutputs of the automatic identification of peptides from rSK

using the mgf files obtained during the selection of automaticprecursors ions; collision energies ramps used for the fragmenta-tion of PTC-derivatized peptides; and output files obtained fromthe analysis of PTC-derivatized peptides derived from E. coliproteins. This material is available free of charge via the Internetat http://pubs.acs.org.

Received for review May 14, 2010. Accepted September 3,2010.

AC1012738

Table 4. In Silico Analysis of False Positive HitsConsidering 5% of non-Rh Peptides in the SelectiveIsolation of Multiply Charged Peptides

accuracy(ppm)

% false positivehits (R1, R2, R3)

% total falsepositive hits average

CV(%)

1 (22, 21, 21) (1.08, 1.05, 1.07) 1.06 1.220 (32, 30, 31) (1.58, 1.49, 1.54) 1.54 3.3

8501Analytical Chemistry, Vol. 82, No. 20, October 15, 2010

Page 61: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

HI-Bone: A Scoring System for Identifying Phenylisothiocyanate-Derivatized Peptides Based on Precursor Mass and High IntensityFragment IonsYasset Perez-Riverol,†,‡,# Aniel Sanchez,†,⊥,# Jesus Noda,† Diogo Borges,∥ Paulo Costa Carvalho,§

Rui Wang,‡ Juan Antonio Vizcaíno,‡ Lazaro Betancourt,† Yassel Ramos,† Gabriel Duarte,⊥

Fabio C.S. Nogueira,⊥ Luis J. Gonzalez,† Gabriel Padron,† David L. Tabb,@ Henning Hermjakob,‡

Gilberto B. Domont,*,⊥ and Vladimir Besada*,†

†Department of Proteomics, Center for Genetic Engineering and Biotechnology, Ave 31 e/158 y 190, Cubanacan, Playa, Ciudad de laHabana, Cuba‡EMBL Outstation, European Bioinformatics Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge, U.K.§Laboratory for Proteomics and Protein Engineering, Carlos Chagas Institute, Fiocruz-Parana, Brazil∥Systems Engineering and Computer Science Program, COPPE, Federal University of Rio de Janeiro, Rio de Janeiro, Brazil⊥Proteomics Unit, Institute of Chemistry, Federal University of Rio de Janeiro, Rio de Janeiro, Brazil@Department of Biomedical Informatics, Vanderbilt University, Nashville, Tennessee, United States

*S Supporting Information

ABSTRACT: Peptide sequence matching algorithms used forpeptide identification by tandem mass spectrometry (MS/MS)enumerate theoretical peptides from the database, predict theirfragment ions, and match them to the experimental MS/MSspectra. Here, we present an approach for scoring MS/MSidentifications based on the high mass accuracy matching ofprecursor ions, the identification of a high intensity b1fragment ion, and partial sequence tags from phenyl-thiocarbamoyl-derivatized peptides. This derivatization processboosts the b1 fragment ion signal, which turns it into a powerful feature for peptide identification. We demonstrate theeffectiveness of our scoring system by implementing it on a computational tool called “HI-bone” and by identifying mass spectraof an Escherichia coli sample acquired on an Orbitrap Velos instrument using Higher-energy C-trap dissociation. Following thisstrategy, we identified 1614 peptide spectrum matches with a peptide false discovery rate (FDR) below 1%. These results weresignificantly higher than those from Mascot and SEQUEST using a similar FDR.

Protein identification in large-scale shotgun proteomicsexperiments is usually accomplished by automatically

comparing theoretical mass spectra from peptides generatedfrom a protein sequence database to those experimentallyobtained typically by liquid chromatography coupled onlinewith tandem mass spectrometry (LC−MS/MS). Examples ofsoftware tools for automatically performing this peptidespectrum matching (PSM) task are search engines such asSEQUEST,1 Mascot,2 X!Tandem,3 and OMSSA.4

In general terms, the specificity of a PSM algorithm isinversely proportional to the peptide search space size. As such,these strategies are usually more efficient in experimentsaddressing model organisms that have a small and well-annotated protein sequence database derived from its genome(e.g., Escherichia coli). On the other hand, the current PSMalgorithms can frequently use only a small number of all thegenerated high-quality MS/MS spectra in the experiment. Thenumber of peptides generated after the proteolysis of complexsamples still overwhelms the capacity of analysis of the most

advanced LC−MS systems. As a result, unfortunately only arelatively small proportion of the acquired MS/MS spectrayields positive identifications, due either to poor spectrumquality or to insufficiently optimized scoring methods. Takentogether, such aspects might significantly limit the PSMworking models. These limitations motivated us to rethinkhow the experimental design of traditional PSM approaches isaccomplished.

Here, we propose a methodology to ultimately provideincreased sensitivity when analyzing phenylthiocarbamoyl-derivatized peptides (first step of the Edman degradationreaction). This derivatization process boosts the b1 fragmention intensity and simplifies the number of fragments in the MS/MS spectrum, turning it into a powerful feature that can be

Received: November 12, 2012Accepted: February 28, 2013Published: February 28, 2013

Technical Note

pubs.acs.org/ac

© 2013 American Chemical Society 3515 dx.doi.org/10.1021/ac303239g | Anal. Chem. 2013, 85, 3515−3520

Page 62: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

used to facilitate peptide identification. As shown by Gaskell etal.,5,6 the equivalent of a single Edman degradation stage can beperformed for ions in the gas phase. The peptides are coupledin solution with phenylisotiocyanate (PITC) and ionized ineither electrospray ionization (ESI) or matrix-assisted laserdesorption ionization (MALDI) ion sources. After activation inthe collision cell, the phenylthiocarbamoyl (PTC)-derivatizedpeptide dissociates specifically to yield an intense b1 fragment,consequently unlocking the possibility to determine the massand the N-terminal residue of a given peptide in a single massspectrum.7,8 Wohlhueter and colleagues demonstrated thatother isothiocyanate analogues bearing basic moieties canderivatize peptides and significantly improve the MS sensitivityof tagged analytes while promoting Edman fragmentation.9

Another example of its usefulness was proposed by Yao and co-workers: they used this active chemical modification forimproving the fragment ion detection in MRM (MultipleReaction Monitoring) studies.10

Here, we describe a scoring system used by the tool denoted“HI-bone” and demonstrate its efficiency in an E. coli sampleacquired on an Orbitrap Velos instrument using higher-energyC-trap dissociation (HCD). HI-bone generated scores arebased on the intensity of the b1 fragment ion, and in thepresence of four fragmentation patterns and partial sequencetags of the spectrum. We were able to converge to a list of 1614PSMs and 526 proteins, using the proposed algorithm. Thisresult is significantly better when compared to those obtainedfrom Mascot (1185 PSMs) and SEQUEST (1099 PSMs),corresponding to 418 and 421 proteins, respectively. The HI-bone tool also reports a set of complementary subscores thatcan be used in the future for PSM quality assignment.

■ MATERIALS AND METHODSExperimental Data and Database Search. Proteins from

the E. coli strain W3110 cells were converted in a PTC-derivatized peptide mixture and acquired on an Orbitrap Velosinstrument using HCD (see the Supporting Information). Withthe use of the HI-bone algorithm, the spectra file wasdeconvoluted and deisotoped using the “MS-Deconv”application under default parameters.11 The HI-bone algorithmparameters used were 10 ppm tolerance at the precursor leveland 5 ppm at the MS/MS level. For partial sequence tagsgeneration, a minimum of 2 and maximum of 3 amino acidsand a mass error of 0.04 m/z units was used. The resultingtryptic proteome was filtered with the number of argininegreater than 0 (R > 0), using the HI-bone sequence filter.

The Mascot (version 2.3.02) and SEQUEST (version 1.3)search engines and the E. coli subset from UniProtKB/Swiss-Prot (release 11/2011) were used to compare the HI-bonescoring system. Mascot and SEQUEST tolerance parameterswere set to 10 ppm and 0.6 Da for precursor mass and production, respectively. Other parameters used were trypsin digestionwith up to two missed cleavages, a fixed modification of 71.037Da at cysteine residues, another fixed modification of 135.014Da at the protein N-terminal end and lysine (PTC derivatized),and a maximum charge of +3. A shuffled decoy database wasgenerated and joined to the target database for false discoverycalculations.

A non PTC-derivatized E. coli data set was analyzed usingHI-bone with the same configuration using above, including themodified peptides. The PTC data set was analyzed to define thescore threshold for performing confident peptide identifica-tions.

Software Description. The software used in this studyimplementing the HI-bone algorithm is a standalone Javaapplication that ports a Graphical User Interface (GUI) withthree main windows (The source code of the HI-bone isprovided upon mail request to the corresponding author.): (i)search engine configuration parameters; (ii) peptide identi-fication and spectrum query results; and (iii) a mass spectrumvisualization panel. The search engine configuration parameterspanel allows the definition of post-translational modifications,enzymes, and the MS and MS/MS error tolerances. The libraryms-core-api (http://code.google.com/p/pride-toolsuite/) wasused to handle different spectrum file formats and the pride-mod library (http://www.ebi.ac.uk/∼maven/m2repo_snapshots/uk/ac/ebi/pride-mod/pride-mod/) was used forthe handling of post-translational modifications. The spectrumvisualization panel allows the manual inspection of thenonidentified and identified spectra. Using the pride-mzgraph-browser library (http://code.google.com/p/pride-toolsuite/wiki/PRIDEmzGraphBrowser), the spectrum panelcan represent the spectrum fragmentation and the intense b1peak.

■ RESULTS AND DISCUSSIONFragment Scoring Functions. We have developed a novel

empirical scoring scheme based on the presence of high b1 ionintensities for PTC-derivatized peptides. Following the b1fragmentation pattern of the modified peptides, the b1 score(b1Score) represents the rank (order) of the signal assignmentto the b1 ion in a sorted list by signal intensity. Rather thanwork with intensity directly, the software evaluates peaks bytheir intensity ranks. It reflects Bern’s observation that thesignificance of fragment ions may be judged more accurately bytheir intensity ranks than by their relative intensities.12 Also, itshows the relation between the different possible b1 signalsassigned by fragment masses in the low mass region (193−400m/z units):

=O

b1Score1

i (1)

where Oi is the rank of the b1 signal assigned in a list of lowmass signals sorted by intensity in a nonincreasing order. Theb1Score values are in the range of [0−1] and they represent theorder, depending of its intensity, in which the b1 fragment wasassigned to a given theoretical fragment. We observed that forPTC-derivatized peptides, based on peak presence, internalsequences starting by proline and glycine were more commonthan those containing other amino acids. In addition, for thecleavage at the C-terminal amino acid of an internal fragment,there was a significant preference for aspartic and glutamic acid.Similar results were generalized recently by Mann and co-workers for HCD fragmentation.13 Then, for each peakpresence of proline, glycine, aspartic, and glutamic acid, wecomputed the corresponding intensity score:

=O

Score1

Ri (2)

where Oi is the rank of the signal assigned to the amino acid(proline, glycine, aspartic, and glutamic acid).

Sequence Tags Scores. The last score is derived frominferring partial sequence tags directly from observed fragmentions. Sequence tagging comprises a middle path betweendatabase searches and de novo strategies. Our software derives

Analytical Chemistry Technical Note

dx.doi.org/10.1021/ac303239g | Anal. Chem. 2013, 85, 3515−35203516

Page 63: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

partial sequence tags from a tandem mass spectrum, which arethen evaluated against a protein sequence database to interpretthe remainder part of the spectrum.14−16 The HI-bonesequence tag algorithm seeks pairs of peaks that are separatedby known amino acid masses. The spectrum can then beevaluated as a graph, with peaks represented by nodes andamino acid gaps between peaks represented by edges. When aset of peaks is joined by consecutive edges in this graph, the setconstitutes a tag. For each sequence tag the algorithmcomputes the intensity score based on the rank order of theamino acid peaks:

∑==

OTagScore

1

A

i 0

i (3)

where Oi is the rank of the amino acid peaks in the spectrum.This intensity score was also employed previously by Tabb andco-workers, together with a delta mass score.15

Global Score. We also define a global score made by thecombination of the different scores (b1Score, residue ScoreR,and TagScore). We generate a polynomial function:

∑= × +=

RGlobalScore [( Score ) ] TagScoreR

i

R

03

(4)

where R is the number of amino acids found in the peptidesequence candidate and also found in the following set:{proline, glycine, aspartic, and glutamic acid}. The global scoreboosts the contribution of the analyzed residues in combinationwith the partial sequence tags intensity scores. Also, itnormalizes the contribution of each residue compared withpartial sequence tags.The HI-bone algorithm and Score Reporting. HI-bone

stores the inferred PSM sequences into a tab-delimited file withall the previously described subscores. We also report the m/z

fidelity score, which is the sum of squared errors (SSE) of thefirst peak m/z estimates for each tag,15 the precursor delta mass,and the b1 fragment ion delta mass. These variables can be usedin future developments to discriminate correct from incorrectPSMs. For example, the mass spectrum corresponding to thepeptide QAQYNFVGASEQLESAHR (Figure 1) shows clearlythat the b1 ion is the most intense fragment ion in the low massregion [(PITC-Q)exp = 264.0806 Da and experimental mass =264.0803 Da]. In this case, the b1Score = 1, glycine Score =0.33, glutamic acid Score = 0.14, and TagScore = 4.83, allowingthe peptide identification with a global score of 17.67.

The HI-bone algorithm starts by searching a peptide in thedatabase within a given mass accuracy tolerance. The MS/MSsignals are then sorted by intensity and the b1Score and thesignal scores for glycine, proline, glutamic, and aspartic acid.For those peptides with a b1Score above confidence, the partialsequence tags are generated. Finally, the global score iscomputed for each PSM and all the scores are listed in the taboutput (Figure 2).

Evaluation of the Scoring Systems. Threshold Defi-nition of the b1Score. A sample from E. coli containing onlynon-PTC-modified peptides was used as a negative control, toselect a confident b1Score threshold. The LC−MS/MS run andthe HI-bone identification workflow were performed using thesame protocol previously used for the PTC-derivatized peptideanalysis. Only 0.04% of the PSMs were identified with ab1Score ≥ 0.2. In other words, using this confident scorethreshold (b1Score is >0.2), we were able to avoid false positiveassignments associated with non-PITC fragments ions.

Sub-Scores Evaluation and Identification Results.Figure 3 shows a theoretical analysis of unique peptide andprotein coverage, using only the precursor mass, the N-terminalresidue, and different mass accuracies for Homo sapiens and E.coli. Similar to a previous study,8 the number of unique peptides

Figure 1. Example of fragmentation pattern of PTC-derivatized peptides.

Analytical Chemistry Technical Note

dx.doi.org/10.1021/ac303239g | Anal. Chem. 2013, 85, 3515−35203517

Page 64: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

for an E. coli proteome is 40% for low parts per million accuracyvalues (1 ppm). The results for 10, 20, and 50 ppm are verypoor when the precursor mass is only considered. The numberof unique peptides increases when the N- terminal residue isidentified for both proteomes [(A) E. coli and (B) H. sapiens]and all mass accuracies. The human proteome coverage (Figure3C) increases considerably when the precursor mass and N-terminal residue is employed in the poor accuracy region (10,20, and 50 ppm). This theoretical analysis opens the possibilityto a new methodology of peptide and protein identification,using the precursor mass and b1 fragment ion even for lowmass accuracy instruments.

The generated subscores (ScoreR, TagScore) and theGlobalScore were explored independently using the E. colidata set (Figure 4A). Receiver operating characteristic (ROC)curves can be used to determine the value of scoringfunctions.17 The vertical position of the point gives the numberof true peptide spectrum matches passing the FDR threshold,while the horizontal position indicates the number of falsepeptide spectrum matches over the threshold. An idealalgorithm scores all true PSMs higher than all false ones.Therefore, a ROC plot for such an algorithm would be a rightangle. Even when each subscore allows the identification of

peptides by itself, the combination in a GlobalScore guaranteesa higher number of identifications at a low peptide FDR.

Figure 4A shows a 1% FDR line that represents thesensitivity in PSM assignments among the various scoringfunctions. At 1% FDR and in consideration of the b1Score ≥0.2, the number of PSMs increase from 1485 (without b1Scorethreshold) to 1630 PSM. When the b1Score threshold isapplied, the HI-bone score clearly outperforms the results ofGlobalScore and the other subscores. GlobalScore shows thebest results compared with TagScore (1372 PSMs) and ScoreR(1461 PSMs) independently. The use of partial sequence tagsof 2 and 3 residues long worked best for increasing theTagScore sensitivity. Similar to previously obtained results,15

the use of an intensity rank subscore (TagScore) was enough toscore partial sequence tags.

Comparison with PSM Algorithms. Our results indicatedthat arginine-containing peptides were 99% of our confidentPSMs. These findings are aligned with the fact that PITCderivatization increases arginine containing peptides, whichworks to our advantage by simplifying a complex peptidemixture by about 50%. Nevertheless, these arginine-containingpeptides are still representative of the total protein content.18

The simplification of a peptide mixture allows the reduction of

Figure 2. HI-bone algorithm workflow.

Analytical Chemistry Technical Note

dx.doi.org/10.1021/ac303239g | Anal. Chem. 2013, 85, 3515−35203518

Page 65: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

the “database space” for HI-bone searching and increases theprobability of finding unique peptides.

The number of PSMs (Figure 4B), and consequentlyproteins (Table 1), identified using HI-bone for PTC-derivatized PSMs, were higher than those obtained with otherconventional search engines.

Figure 4B presents a Venn diagram of the PSM distributionobtained by Mascot, SEQUEST, and HI-bone. In particular, thenumber of PSMs identified by HI-bone was 1614 (and 526proteins). Approximately, 22.65% (318 proteins) of the PSMswere identified exclusively with HI-bone, whereas 53% were

shared between the three search engines. It is important to notethat the HI-bone software was designed exclusively for theidentification of phenylisothiocyanate-derivatized peptidesbased on the mass accuracy of the most common fragments

Figure 3. Theoretical identification of (A and B) unique peptide and (C and D) protein coverage, using only the precursor mass and the N-terminalresidue for different mass accuracy. (A and B): Percentage of unique peptides H. sapiens and E. coli proteome, respectively. (C and D): Percentage ofproteome coverage for H. sapiens and E. coli, respectively.

Figure 4. (A) ROC curve comparing the number of true positives to the number of false positives for various peptide false discovery rate cutoffsbetween 0 and 6%, for a particular scoring function (GlobalScore, TagScore, ScoreR, GlobalScore, without b1Score threshold). (B) Venn diagramshowing the distribution of PSMs, using HI-bone, Mascot, and SEQUEST.

Table 1. Number of Proteins Identifications from PITCPeptides using HI-bone, Mascot, and SEQUEST,considering a Peptide FDR < 1%

Mascot SEQUEST HI-bone

no. identified protein 418 421 526

Analytical Chemistry Technical Note

dx.doi.org/10.1021/ac303239g | Anal. Chem. 2013, 85, 3515−35203519

Page 66: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

occurring for these peptides, instead of Mascot and others thathave very good results with nonmodified samples. Mass spectraof PTC-derivatized peptides shift intensity to the b1 fragmention, and this may lead to disadvantages for Mascot andSEQUEST as they were tailored to consider different intensitydistributions. The HI-bone application and scoring system aredevoted to PTC-derivatized or other isothiociane-derivatepeptides, where the b1 fragment ion is favored and appearsas the most intense fragment in the low mass region of thespectrum.9,19 Also, the HI-bone algorithm could be applicableto the analysis of samples acquired in other mass spectrometers,such as QTOF and/or FT-ICR, ideally after internal masscalibration to increase the mass accuracy.

■ CONCLUSIONSThe HI-bone software outperformed Mascot and Sequest in theanalysis of PTC-derivatized peptides in an E. coli sample. TheGlobalScore scoring system takes advantage of the presence ofthe most frequent fragments in the mass spectrum and partialsequence tags and discards false positives generated by randomb1 fragments in peptides.

■ ASSOCIATED CONTENT*S Supporting InformationExperimental Data Description. This material is available free ofcharge via the Internet at http://pubs.acs.org.

■ AUTHOR INFORMATIONCorresponding Author*V. B.: e-mail, [email protected]; G.B.D.: e-mail,[email protected]; Tel, 53-7-2718008; Fax, 53-7-2736008.Author Contributions#These authors have contributed equally to the work.NotesThe authors declare no competing financial interest.

■ ACKNOWLEDGMENTSThe authors would like to thank the INSPUR Company fromChina for the kind donation of the computer cluster TS10000,used for all the calculations, and the tools developed in thismanuscript. R.W. is supported by the BBSRC “PRIDEConverter” grant [reference BB/I024204/1]. J.A.V. is sup-ported by the EU FP7 grants, LipidomicNet (Grant 202272),and ProteomeXchange (Grant 260558). G.B.D. thanks CNPq.P.C.C. thanks Fiocruz−PDTIS, CNPq universal, and CDTS forfinancial support. The authors want to thank Tao Xu andProfessor John Yates from Scripts Laboratories for their kindsupport of GutenTag.

■ ABBREVIATIONSESI: electrospray ionizationFDR: False Discovery RateGUI: Graphical User InterfaceHCD: Higher-energy C-trap dissociationHPLC: High Performance Liquid ChromatographyJPL: Java Proteomic LibraryLC−MS/MS: Mass spectrometry/mass spectrometry, i.e.tandem mass spectrometryMALDI: matrix-assisted laser desorptionMC: missed cleavagesMGF: Mascot Generic File MRM: Multiple ReactionMonitoring

PITC: phenylisotiocyanate PTC: phenylthiocarbamoylROC: Receiver Operating CharacteristicSSE: Sum of Squared ErrorsST: Semi tryptic

■ REFERENCES(1) Eng, J.; McCormack, A.; Yates, J. J. Am. Soc. Mass Spectrom. 1994,5 (11), 976−989.(2) Perkins, D. N.; Pappin, D. J.; Creasy, D. M.; Cottrell, J. S.Electrophoresis 1999, 20 (18), 3551−67.(3) Craig, R.; Beavis, R. C. Bioinformatics 2004, 20 (9), 1466−7.(4) Geer, L. Y.; Markey, S. P.; Kowalak, J. A.; Wagner, L.; Xu, M.;

Maynard, D. M.; Yang, X.; Shi, W.; Bryant, S. H. J. Proteome Res. 2004,3 (5), 958−64.(5) Summerfield, S. G.; Bolgar, M. S.; Gaskell, S. J. J. Mass Spectrom.1997, 32 (2), 225−231.(6) van der Rest, G.; He, F.; Emmett, M. R.; Marshall, A. G.; Gaskell,

S. J. J. Am. Soc. Mass Spectrom. 2001, 12 (3), 288−95.(7) Sanchez, A.; Perez-Riverol, Y.; Gonzalez, L. J.; Noda, J.;

Betancourt, L.; Ramos, Y.; Gil, J.; Vera, R.; Padron, G.; Besada, V.Anal. Chem. 2010, 82 (20), 8492−501.(8) Perez-Riverol, Y.; Sanchez, A.; Ramos, Y.; Schmidt, A.; Muller,

M.; Betancourt, L.; Gonzalez, L. J.; Vera, R.; Padron, G.; Besada, V. J.Proteomics 2011, 74 (10), 2071−82.(9) Wang, D.; Fang, S.; Wohlhueter, R. M. Anal. Chem. 2009, 81 (5),

1893−1900.(10) Diego, P. A.; Bajrami, B.; Jiang, H.; Shi, Y.; Gascon, J. A.; Yao, X.Anal. Chem. 2010, 82 (1), 23−27.(11) Liu, X.; Inbar, Y.; Dorrestein, P. C.; Wynne, C.; Edwards, N.;

Souda, P.; Whitelegge, J. P.; Bafna, V.; Pevzner, P. A. Mol. Cell.Proteomics 2010, 9 (12), 2772−82.(12) Bern, M.; Goldberg, D.; McDonald, W. H.; Yates, J. R., 3rdBioinformatics 2004, 20 (Suppl 1), i49−i54.(13) Michalski, A.; Neuhauser, N.; Cox, J.; Mann, M. J. Proteome Res.2012, 11 (11), 5479−91.(14) Sunyaev, S.; Liska, A. J.; Golod, A.; Shevchenko, A. Anal. Chem.2003, 75 (6), 1307−15.(15) Tabb, D. L.; Ma, Z. Q.; Martin, D. B.; Ham, A. J.; Chambers, M.

C. J. Proteome Res. 2008, 7 (9), 3838−46.(16) Tabb, D. L.; Saraf, A.; Yates, J. R., III Anal. Chem. 2003, 75 (23),

6415−21.(17) Baker, S. G. J. Natl. Cancer Inst. 2003, 95 (7), 511−5.(18) Foettinger, A.; Leitner, A.; Lindner, W. J. Mass Spectrom. 2006,41 (5), 623−32.(19) Leng, J.; Wang, H.; Zhang, L.; Zhang, J.; Wang, H.; Cai, T.; Yao,

J.; Guo, Y. J. Am. Soc. Mass Spectrom. 2011, 22 (7), 1204−1213.

Analytical Chemistry Technical Note

dx.doi.org/10.1021/ac303239g | Anal. Chem. 2013, 85, 3515−35203520

Page 67: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

© The Author (2013). Published by Oxford University Press. All rights reserved. For Permissions, please email: [email protected]

Associate Editor: Prof. Martin Bishop

Bioinformatics Advance Access published February 27, 2013 at G

enome R

esearch Ltd on April 15, 2013

http://bioinformatics.oxfordjournals.org/

Dow

nloaded from

Page 68: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

at Genom

e Research Ltd on A

pril 15, 2013http://bioinform

atics.oxfordjournals.org/D

ownloaded from

Page 69: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

NATURE BIOTECHNOLOGY VOLUME 30 NUMBER 2 FEBRUARY 2012 135

To the Editor:Your editorial “Credit where credit is overdue”1 aptly summarized the existing situation in the proteomics field, where full data disclosure remains very much a work in progress. Importantly, it also correctly pointed out that “the software provided by the public repositories for searching and analyzing proteomics data is not as efficient and as user friendly as it could be.” In this context, we introduce to readers PRIDE Inspector (http://code.google.com/p/pride-toolsuite/wiki/PRIDEInspector), a user-friendly, freely available open-source software tool that allows the user to efficiently browse and visualize mass spectrometry (MS) proteomics data. One of the key features of PRIDE Inspector is that it allows the user to carry out an initial assessment on data quality and reliability. PRIDE Inspector can thus be used by researchers before they submit their data, by journal editors and peer reviewers during the manuscript review process and by any interested user in the field after public release of the data in PRIDE (the PRoteomics IDEntifications database; Fig. 1).

Despite the increasing popularity of MS-based proteomics and the overall tendency in the life sciences toward open sharing of biological data, relatively little proteomics data are currently available in the public domain. This situation is changing, however, thanks to stricter data-sharing guidelines by scientific journals and funding agencies. Some proteomics journals (e.g., Proteomics and Molecular and Cellular Proteomics; MCP) recommend, and in some concrete cases mandate, public deposition of MS data in support of manuscripts. Journals from the Nature group also strongly recommend submission of proteomics data to repositories like PRIDE2, PeptideAtlas3 and Tranche4 (http://www.nature.com/authors/policies/availability.html).

Nevertheless, in practical terms, this public data-sharing policy can succeed only if reliable and user-friendly software tools exist to streamline the submission task.

Therefore, the PRIDE Converter5 application (http://code.google.com/p/pride-converter) was developed for data submissions to the PRIDE database2. Not only has PRIDE Converter rapidly become the most popular data submission path for PRIDE (accounting for 77% of all PRIDE experiments submitted since January 2009), its release also corresponded to the start of a very substantial increase in the amount of deposited data in PRIDE (Supplementary Fig. 1). Of course, the availability of data in public repositories is only a first step. The interpretation and validation of proteomics data remain controversial, especially for cases where proteins have been identified on the basis of one unique peptide-to-spectrum match, or if post-translational modifications (PTMs) are reported. The ability to inspect and validate reported results during the review process, as well as after publication, is therefore of

paramount importance. Because of the amount of data involved, such inspections can be undertaken efficiently only with the help of suitable software tools that combine ease of access with effective visualizations.

Although viewers for MS proteomics data are already available6,7, they tend to suffer from different types of limitations. They may have been developed around a single proprietary and/or unique data format, fail to properly handle the very large files that are routinely produced, have only limited visualization and analysis functionality or be costly to license for smaller groups or individuals. We therefore developed PRIDE Inspector as a very user-friendly, freely available tool to browse, inspect and analyze proteomics data from the PRIDE repository or other data presented in standard formats.

PRIDE Inspector is a stand-alone Graphical User Interface (GUI) written in

PRIDE Inspector: a tool to visualize and validate MS proteomics data

Figure 1 PRIDE Inspector helps to perform every stage of the PRIDE submission workflow. The workflow

consists of four stages. (1) Data production. Search engine output results are converted into PRIDE XML

files using PRIDE Converter. Authors can then use the PRIDE Inspector to perform an initial assessment

on data quality and check metadata annotation before submission to PRIDE. (2) Data deposition. The

submitted PRIDE XML files are reviewed by PRIDE’s in-house curators using the PRIDE Inspector.

(3) PRIDE acceptance. The submission is accepted by PRIDE and the data are kept private. Journal

reviewers and editors can access these private PRIDE experiments using the PRIDE Inspector.

(4) Journal acceptance. The submission is made public in the PRIDE database after journal acceptance.

Data miners can extract, download or view PRIDE experiments using the PRIDE Inspector.

1. Data production 2. Data deposition

3. PRIDEacceptance

4. Journalacceptance

Privateaccess

: PRIDE inspector

Publicaccess

Search engineresults

PRIDEconverter PRIDE XML PRIDE XML PRIDE

databasePRIDE

database

Content author

Curator Reviewer Data miner

CORRESPONDENCEnp

201

2 N

atu

re A

mer

ica,

Inc.

All

rig

hts

res

erve

d.

Page 70: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

136 VOLUME 30 NUMBER 2 FEBRUARY 2012 NATURE BIOTECHNOLOGY

see Supplementary Notes) is also provided, which can affect the reliability of the protein identification. In fact, it is then possible to find peptides that originally matched the sequence of the identified protein, but that no longer match the most recent version of the sequence in the database.

The third view then focuses on the peptide identifications themselves. Metadata, such as peptide score (adapted for the search engine used) and observed PTMs, are displayed for each peptide (Supplementary Figs. 10 and 11). In both protein and peptide views, the difference between experimental and theoretical mass-over-charge ratio (delta m/z) is calculated for each peptide precursor and highlighted in the application, which can be useful as an indication for errors or inconsistencies. For both views, it is also possible to filter out the decoy matches and, as such, a straightforward estimation of the peptide false-discovery rate is also provided.

The fourth view is aimed at accessing and visualizing all spectra in the data set, not only the identified ones (Supplementary Fig. 12). For mzML files, chromatograms are displayed here as well (Supplementary Fig. 13). Submitted metadata (e.g., precursor m/z and intensity) are shown for each entry, along with calculated information, such as the number of peaks or the total peak intensity. Manual annotation of spectra is supported as well for quick de novo sequencing.

In its fifth view, PRIDE Inspector provides a collection of summary charts for assessing the overall properties of the data set. At the time of writing, up to eight different charts can be generated per data set, depending on the information available (Supplementary Figs. 14–18). These simple and easily understandable charts can provide a quick overview on data quality and reliability. Importantly, information in the spectrum-related charts can be shown for identified, unidentified or all spectra. Each chart is documented thoroughly in the supplementary information.

Finally, a sixth tab focuses on the quantification information, where available (Supplementary Fig. 19). This kind of data is currently only present in a small number of PRIDE submissions, but it is expected to become more and more popular. Apart from visualizing the quantification values for both protein and peptides, it is also possible to generate histograms where the expression values of up to ten proteins can be compared. Sample metadata for each reagent can also be easily visualized. Ratios can always be recalculated if the user decides to change the control sample.

Java. It is released under the Apache2 open-source license and can be freely downloaded. Furthermore, PRIDE Inspector can also be started through a direct web link from the PRIDE homepage (http://www.ebi.ac.uk/pride). The main features of PRIDE Inspector are listed in the Supplementary Notes, along with a description of its overall software architecture and other technical details.

PRIDE Inspector supports fast loading of PRIDE XML and mzML8 (the community data standard for MS data) files, and it provides direct access to all public PRIDE data through a direct MySQL database connection. Moreover, this software includes an automated data download capability for private PRIDE experiments that allows journal editors and peer reviewers with the correct log-in credentials to assess the relevant experiment(s) during peer review. In addition, the Web Start version available at the PRIDE homepage adds the ability to start the application and access a particular data set through a simple URL.

PRIDE Inspector presents different views to the users, each focusing on a specific aspect of the data (Fig. 2). Depending on the type of information available for a file format or PRIDE data set, some views can remain inactive (Supplementary Fig. 2). For that reason, an ‘Experiment Summary’ overview window is available in the bottom left part of the GUI. A context-sensitive ‘Help’ function is also included, providing tailored documentation for the current view. Currently, there are six views available in PRIDE Inspector. First, the ‘Overview’ tab, which

includes easily readable, uniform experimental metadata. The precise information displayed can vary slightly depending on the file format used and is split into three different views: ‘Experiment General’, ‘Sample and Protocol’ and ‘Instrument and Processing’ (Supplementary Figs. 3–6).

The second view concerns proteins (Supplementary Figs. 7 and 8) and is possibly the most interesting view for biologists. For each identified protein, peptides, PTMs and corresponding spectra are displayed in a concise manner. Metadata related to protein identification (e.g., as search engine or search database) are also provided here. A powerful spectrum viewer is available as well, including an automatic annotation of the spectra based on submitted fragment ions. Combinations of up to three amino acids are indicated next to the mass differences between consecutive peaks (Supplementary Figs. 7 and 9).

PRIDE Inspector also accesses some of the most popular protein databases (UniProtKB, UniParc, IPI (International Protein Index), Ensembl and NCBI nr database) by means of a web service to retrieve the most up-to-date protein sequences and names for the reported identifiers. Using the PRIDE Inspector sequence viewer (Supplementary Figs. 8 and 11), it is possible to highlight different features in the protein sequence, such as identified peptides and PTMs. The updated status of the protein identifier in the database (active, deleted, changed, unknown, merged or demerged;

a d

b

c

e

f

Figure 2 Screenshots showing some of the graphical features of PRIDE Inspector. (a) Section of the

spectrum view tab. (b) Protein view tab, including the spectrum viewer showing MS/MS fragment ion

annotations (only b ion annotations are shown). (c) Quantification view. (d) ‘Search PRIDE’ panel.

(e) Number of peptides identified per protein chart. (f) ‘Delta m/z’ chart.

CORRESPONDENCEnp

201

2 N

atu

re A

mer

ica,

Inc.

All

rig

hts

res

erve

d.

Page 71: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

NATURE BIOTECHNOLOGY VOLUME 30 NUMBER 2 FEBRUARY 2012 137

To the Editor:The US Food and Drug Administration’s (FDA) Adverse Event Reporting System (AERS) makes adverse drug reaction (ADR) data available to the community through the US Freedom of Information Act. Analysis of these data, however, is complicated by the file format and the huge size of the database. An editorial in this journal urged the FDA to update the database and make access “available to all [...] FDA staffers as well as experts from outside the agency”1. Indeed, in a subsequent article, Pratt and Danese2 announced their implementation of an AERS query engine, which they dubbed ‘FDAble’. Unfortunately, like other commercial search engines, FDAble is not free.

As cost is clearly an impediment to investigators at academic institutions

Apart from the six main tabs, the ‘Search PRIDE’ panel gives access to all public data in PRIDE. It is then easy to search for particular experiments filtering by different types of metadata (Supplementary Figs. 20 and 21). In addition to data visualization and analysis functionality, PRIDE Inspector also provides various data export options (Supplementary Fig. 22). First of all, all spectra can be exported to Mascot Generic Format (mgf) files. In addition, details for all protein and/or peptide identifications (including PTMs), and the peptide-to-protein mappings can be output as tables in tab-delimited format. Finally, spectra and chromatograms (including annotations) can be saved as images in various formats.

PRIDE Inspector is fully supported and maintained by the PRIDE team. Moreover, it provides extra application programming interfaces (APIs) and libraries, which can be reused independently by the scientific community: the PRIDE XML JAXB (Java Architecture for XML Binding) library (for rapid and memory-efficient reading of PRIDE XML files) and the PRIDE mzGraph Browser library (for the visualization and annotation of spectra and chromatograms). These libraries are described in the Supplementary Notes. In addition, new features can be easily added to PRIDE Inspector thanks to its modular software architecture and permissive open-source licensing. Currently ongoing extensions include full support of the version 1.1 of the mzIdentML community standard for peptide and protein identifications9 because this format has only just reached stability (v1.1 was released on September 2011). Once mzIdentML is fully supported, it will also be possible to check thoroughly the issues related to protein inference10. This means that researchers need to be aware of this limitation when interpreting protein identifications reported by ambiguous (or shared) peptides. The PRIDE XML format is limited for that aim in the sense that only one of the possible peptide-protein mappings is usually reported.

PRIDE Inspector thus provides a user-friendly, comprehensive tool for the browsing, inspection and evaluation of data in the PRIDE database, or in a compatible standard file format. As such, we believe that PRIDE Inspector will substantially increase the ability of researchers, editors and peer reviewers to explore, review, evaluate and reuse proteomics data.

Note: Supplementary information is available on the Nature Biotechnology website.

AUTHOR CONTRIBUTIONSR.W. did most of the programming of the core components and the GUI. A.F. was mainly responsible for the chart component. D.R. was the main developer behind the access component of the PRIDE MySQL instance. D.O., J.M.F., R.G.C., J.G., A.C., Y.P.-R. and F.R. contributed to multiple areas during the development of the tool and also participated in the writing of the documentation and testing process. L.M. had the original idea and started the project. H.H. and J.A.V. supervised the whole process. J.A.V. and L.M. wrote the manuscript. All authors have agreed to all the content in the manuscript, including the data as presented.

ACKNOWLEDGMENTSThis work was supported by the Wellcome Trust (grant number WT085949MA) and EMBL core funding. R.G.C. is supported by EU FP7 grant SLING (grant number 226073). J.A.V. is supported by the EU FP7 grants LipidomicNet (grant number 202272) and ProteomeXchange (grant number 260558). A.F. was partially supported by the Spanish network COMBIOMED (RD07/0067/0006, ISCIII-FIS). L.M. would like to acknowledge support from the EU FP7 PRIME-XS grant (grant number 262067).

COMPETING FINANCIAL INTERESTSThe authors declare no competing financial interests.

Rui Wang1, Antonio Fabregat1, Daniel Ríos1, David Ovelleiro1, Joseph M Foster1, Richard G Côté1, Johannes Griss1,2, Attila Csordas1, Yasset Perez-Riverol1,3,

with no or low financial budgets available for pharmacovigilance research, we have developed an AERS search engine named

OpenVigil that is publicly available free of charge through the webserver of our university (http://www.uni-kiel.de/pharmacology/pvt). To guarantee that this search option will remain free and available, we have additionally published the source code of the current version on Sourceforge.net under the GNU General Public License (GPL) (http://openvigil.sourceforge.net/).

The usage of raw pharmacovigilance data is limited by several factors, including under- and overreporting, missing denominator (that is, number of doses for a drug), wrong, duplicate and/or missing data in the database. These problems have been discussed and summarized by

OpenVigil—free eyeballs on AERS pharmacovigilance data

Florian Reisinger1, Henning Hermjakob1, Lennart Martens4,5 & Juan Antonio Vizcaíno1

1EMBL Outstation, European Bioinformatics Institute (EBI), Wellcome Trust Genome Campus, Hinxton, Cambridge, UK. 2Department of Medicine I, Medical University of Vienna, Vienna, Austria. 3Department of Proteomics, Center for Genetic Engineering and Biotechnology, Cubanacán, Playa, Ciudad de la Habana, Cuba. 4Department of Medical Protein Research, Ghent, Belgium. 5Department of Biochemistry, Ghent University, Ghent, Belgium. e-mail: [email protected]

1. Anonymous. Nat. Biotechnol. 27, 579 (2009).

2. Vizcaino, J.A. et al. Nucleic Acids Res. 38, D736–

D742 (2010).

3. Deutsch, E.W., Lam, H. & Aebersold, R. EMBO Rep. 9,

429–434 (2008).

4. Hill, J.A., Smith, B.E., Papoulias, P.G. & Andrews, P.C.

J. Proteome Res. 9, 2809–2811 (2010).

5. Barsnes, H., Vizcaino, J.A., Eidhammer, I. & Martens,

L. Nat. Biotechnol. 27, 598–599 (2009).

6. Searle, B.C. Proteomics 10, 1265–1269 (2010).

7. Medina-Aunon, J.A., Carazo, J.M. & Albar, J.P.

Proteomics 11, 334–337 (2011).

8. Martens, L. et al. Mol. Cell Proteomics 10, R110

000133 (2011).

9. Eisenacher, M. Methods Mol. Biol. 696, 161–177

(2011).

10. Nesvizhskii, A.I. & Aebersold, R. Mol. Cell. Proteomics 4, 1419–1440 (2005).

Corrected after print 8 February 2012.

CORRESPONDENCEnp

201

2 N

atu

re A

mer

ica,

Inc.

All

rig

hts

res

erve

d.

Page 72: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Wang et al., PRIDE Inspector: a tool to visualize and validate MS proteomics data, Supp. Information

1

PRIDE Inspector: a tool to visualize and validate MS proteomics data

Rui Wang, Antonio Fabregat, Daniel Ríos, David Ovelleiro, Joseph M. Foster, Richard

G. Côté, Johannes Griss, Attila Csordas, Yasset Perez-Riverol, Florian Reisinger,

Henning Hermjakob, Lennart Martens & Juan Antonio Vizcaíno

Supplementary Information Document Contents

1. PRIDE Inspector Technical Implementation………………………………………....2

1.1. General Information………………………………………………………...2

1.2. Design and Implementation Details………………………………………...2

1.3. New open source libraries made available with PRIDE Inspector………....5

1.4. Updated open source libraries made available with PRIDE Inspector……..7

1.5. PRIDE Inspector Java Web Start.…………………………………………..9

2. PRIDE Inspector feature list…………………………………………………………11

3. PRIDE Inspector charts documentation……………………………………………...18

4. Theoretical isoelectric point documentation……………...……………………….....23

5. Protein status documentation…………………………………………………….…..24

6. Abbreviations………………………………………………………………………...26

7. References...……………………………………………………………………….....27

8. Supplementary Figures……………………………………………………………….28

Nature Biotechnology: doi:10.1038/nbt.2112

Page 73: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Wan

g et

al.,

PR

IDE

Insp

ecto

r: a

tool

to v

isua

lize

and

valid

ate

MS

prot

eom

ics d

ata,

Sup

p. In

form

atio

n

37

Supp

lem

enta

ry F

igur

e 7:

Pro

tein

Vie

w w

ith S

pect

rum

Vie

wer

. The

‘Pro

tein

Vie

w’ t

ab c

onta

ins

thre

e pa

rts: d

etai

ls o

n th

e su

bmitt

ed p

rote

ins

can

be o

bser

ved

in th

e up

per

sect

ion.

Inf

orm

atio

n ab

out t

he c

orre

spon

ding

pep

tide

iden

tific

atio

ns a

re a

vaila

ble

in th

e se

cond

sec

tion.

In

the

botto

m w

indo

w th

e ‘S

pect

rum

V

iew

er’ i

s dis

play

ed.

Nat

ure

Bio

tech

nolo

gy:d

oi:1

0.10

38/n

bt.2

112

Page 74: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Wan

g et

al.,

PR

IDE

Insp

ecto

r: a

tool

to v

isua

lize

and

valid

ate

MS

prot

eom

ics d

ata,

Sup

p. In

form

atio

n

42

Supp

lem

enta

ry F

igur

e 12

: Spe

ctru

m V

iew

. The

‘Spe

ctru

m V

iew

’ tab

sho

ws

all m

ass

spec

tra (i

dent

ified

+ u

nide

ntifi

ed) i

nclu

ded

in th

e ex

perim

ent.

Spec

trum

de

tails

and

the

rel

ated

sca

n an

d pr

ecur

sor

info

rmat

ion

are

acce

ssib

le f

rom

the

upp

er r

ight

win

dow

. It

is p

ossi

ble

to p

erfo

rm d

e no

vo s

eque

ncin

g in

the

‘S

pect

rum

Vie

wer

’ (no

t sho

wn)

.

Nat

ure

Bio

tech

nolo

gy:d

oi:1

0.10

38/n

bt.2

112

Page 75: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Wan

g et

al.,

PR

IDE

Insp

ecto

r: a

tool

to v

isua

lize

and

valid

ate

MS

prot

eom

ics d

ata,

Sup

p. In

form

atio

n

44

Supp

lem

enta

ry F

igur

e 14

: PR

IDE

XM

L ‘S

umm

ary

Cha

rts’ V

iew

.The

PR

IDE

XM

L ‘S

umm

ary

Cha

rts’ t

ab d

ispl

ays

curr

ently

up

to n

ine

diff

eren

t cha

rts th

at

can

help

to

asse

ss t

he q

ualit

y of

the

dat

a: ‘

Del

ta m

/z’,

‘Pep

tides

per

Pro

tein

’, ‘M

isse

d Tr

yptic

Cle

avag

es’,

‘Ave

rage

MS/

MS

Spec

trum

’, ‘P

recu

rsor

Ion

C

harg

e’, ‘

Prec

urso

r Ion

Mas

ses’

, ‘Pe

aks p

er M

S/M

S Sp

ectru

m’ a

nd ‘P

eak

Inte

nsity

’.

Nat

ure

Bio

tech

nolo

gy:d

oi:1

0.10

38/n

bt.2

112

Page 76: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

In silico analysis of accurate proteomics, complemented byselective isolation of peptides

Yasset Perez-Riverola,⁎, Aniel Sáncheza, Yassel Ramosa, Alex Schmidtb, Markus Müllerb,Lázaro Betancourta, Luis J. Gonzáleza, Roberto Veraa, Gabriel Padrona, Vladimir Besadaa,⁎aDepartment of Proteomics, Center for Genetic Engineering and Biotechnology, Ave 31 e/158 y 190, Cubanacán, Playa,Ciudad de la Habana, CubabProteome Informatics Group

3, Swiss Institute of Bioinformatics, CMU - 1, rue Michel Servet CH-1211 Geneva, Switzerland

A R T I C L E I N F O A B S T R A C T

Article history:Received 10 March 2011Accepted 22 May 2011Available online 27 May 2011

Protein identification by mass spectrometry is mainly based on MS/MS spectra and theaccuracy of molecular mass determination. However, the high complexity and dynamicranges for any species of proteomic samples, surpass the separation capacity and detectionpower of the most advanced multidimensional liquid chromatographs and massspectrometers. Only a tiny portion of signals is selected for MS/MS experiments and a stillconsiderable number of them do not provide reliable peptide identification. In this article,an in silico analysis for a novel methodology of peptides and proteins identification isdescribed. The approach is based on mass accuracy, isoelectric point (pI), retention time (tR)and N-terminal amino acid determination as protein identification criteria regardless ofhigh quality MS/MS spectra. When the methodology was combined with the selectiveisolationmethods, the number of unique peptides and identified proteins increases. Finally,to demonstrate the feasibility of the methodology, an OFFGEL-LC–MS/MS experiment wasalso implemented. We compared the more reliable peptide identified with MS/MSinformation, and peptide identified with three experimental features (pI, tR, molecularmass). Also, two theoretical assumptions from MS/MS identification (selective isolation ofpeptides and N-terminal amino acid) were analyzed. Our results show that using theinformation provided by these features and selective isolation methods we could foundthe 93% of the high confidence protein identified by MS/MS with false-positive rate lowerthan 5%.

© 2011 Elsevier B.V. All rights reserved.

Keywords:Isoelectric pointRetention timeAccurate mass proteomicsSelective isolation of peptides

1. Introduction

Proteomics has rapidly grown into one of the most activeresearch areas in life sciences today. Usually, protein mixturesare digested in solution or in-gel with specific proteolyticenzymes and the recovered peptides are separated by one-dimensional or multidimensional chromatography, interfacedon-line to a tandem mass spectrometer [1,2]. A typical acquisi-tion cycle consists of a survey scan that acquires a mass

spectrum or a precursor ion spectrum followed by real-timeselectionof precursorsgenerally basedon their relative intensityfor the series of subsequent MS/MS experiments. These MS/MSspectra are then submitted to database searches by dedicatedsoftware, comparing them to predicted spectra and providingidentification based on a comparisonof the number and relativeabundance of matched and unmatched fragments[3–5].

One of themain problems of this approach is the small figureof high quality MS/MS obtained compared with the number of

J O U R N A L O F P R O T E O M I C S 7 4 ( 2 0 1 1 ) 2 0 7 1 – 2 0 8 2

⁎ Corresponding authors.E-mail address: [email protected] (Y. Perez-Riverol).

1874-3919/$ – see front matter © 2011 Elsevier B.V. All rights reserved.doi:10.1016/j.jprot.2011.05.034

ava i l ab l e a t www.sc i enced i r ec t . com

www.e l sev i e r . com/ loca te / j p ro t

Page 77: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

peptide signals detected. The amount of peptides generatedafter the proteolysis of complex samples still overwhelms thecapacity of analysis of the most advanced liquid chromatogra-phy and mass spectrometry systems, and unfortunately only arelatively small proportion of the acquiredMS/MS spectra yieldspositive identifications due to either poor spectrum quality andalso insufficiently optimized scoring methods [6].

The most well known solution to this problem has beenintroduced in the form of accurate mass tag strategy [7–10].Accurate mass tag (AMT) for identification of peptides wasintroduced as an alternative of MS/MS strategies. Smith andco-workers, who had early access to high-resolution LC–MSequipments, pioneered the approach referred to as accuratemass and time method. Their idea combines LC–MS and LC–MS/MS data, acquired on separate instrumentation, by firstgenerating an organ-specific peptide sequence library withLC–MS/MS information. Subsequent interrogations to thedatabase with LC–MS provide the sequence assignment [11].Multiple samples may be analyzed using LC–MS data withrecently developed advance bioinformatics approaches (msIn-spect [12,13], MapQuant [14]), using only the accurate massand the normalized retention time.

In addition, the peptide fractionation according to theisoelectric point (pI) (a technique with a high resolving power)has been used in combination with accurate mass as analternative to tandem mass spectrometric [15]. Cargile andStephenson reported the theoretical basis for the use of accuratemass and pI as identification criteria of peptides that representeda change in focus from current tandem mass spectrometry-dominated approaches.

Other different strategies have been introduced to combinethe accurate mass measurement with N-terminal amino acidinformation [16]. Gaskell et al., showed that the equivalent of asingleEdmandegradationstepcanbeperformedonpeptide ionsin the gas phase. The authors demonstrated that the combina-tion of this chemical reaction, PSD analysis and bioinformatictools allowed the reliable identification of yeast proteinsseparated by SDS-PAGE [17]. This procedure was also success-fully applied to the analysis of apo-myoglobin-derived trypticpeptides using a Fourier transform ion cyclotron resonance (ESI-FTICR) at mass accuracies in the low ppm range [18]. Recently,our group reported that this strategy could potentially be usedfor LC–MS/MS experiments as well [19].

However, the use of experimental peptide properties (tr, pI,mass, N-term) with the information of MS experiment is notsufficient to achieve an increase in the identification of proteins.One key reason is the complexity of the generated peptidemixtures. Fractionation at protein andpeptide level has shown toincrease the number of protein identifications. The developmentof methods that simply attempt to reduce sample complexity byselectively obtaining representative peptide subsets has emergedas an alternative approach for the analysis of complex samples.[20–24] The selective peptide isolationmethods developed by ourgroup, are based on the modification of abundant functionalgroups such as the α- and ε-amino groups of tryptic fragments incombination with well-established chromatographic techniquessuch as cation exchange [24–26] or affinity chromatography[25,26]. This, while still guaranteeing the isolation of a reducedset of peptides (3–4 per protein), increases the likelihood that allproteins from the original sample will be represented in the

isolated subset, thus increasing proteome coverage. Threemethods have been developed to isolate, with high selectivity,different peptides sharing specific sequence features: (1) pep-tides containing neither arginine nor histidine residues (RH0peptides) [24,26]; (2) multiply-charged peptides where thenumber of arginine and/or histidine residues is higher thanone (R+H>1, RH2peptides) [25]; (3) tryptic peptides devoidof Lysresidues, derived from cleavages at arginine residues (RH1peptides) [26].

In this work, the theoretical aspects of using experimentalinformation (pI, tR, N-Terminal amino acid, mass) available oncurrent experimental protocols as protein identification criteriaareexplored in silico. The combinationof all thesepeptide featureshas never been evaluated as protein identification criteria in MSproteomics. The topics explored include the behavior of percent-ageofuniquepeptidesandproteomecoveragebasedsolelyontheaccurate mass measurement in combination with peptideexperimental features and the use of selective peptide isolationprotocols. The theoretical proteomes of seven species and anexperimental dataset are used to evaluate the efficacy of thisapproach. Present results could also be combined with MS/MSapproaches in order to analysis poor qualityMS/MS spectra usingother information from experiments (pI, tR, N-Terminal aminoacid). These strategies are more advantageous when used incombination with selective isolation of peptides.

2. Materials and methods

2.1. Protein databases

The protein sequences of seven complete proteomes (A. thaliana(8961), C. elegans (3286), D. melanogaster (3065), S. cerevisiae (7008),E. coli (4386), M. musculus (16246) and H. sapiens (20280)) wereobtained from the Protein Uniprot SwissProt Data Bank (release13.4, available in March 2010) [27]. The sequences from theDrosophila proteomewere extracted fromthe FlybaseDrosophiladatabank (19389) (release 4.3, available in June 2007) [28]. Thesequences were digested in silico with trypsin using theInSilicoSpectro library [29] and each peptide was associated toits protein identifier. All redundant peptideswere removed fromthese trypticproteomes.A Javaprogram(calledAAManager)wasused toextract into separated files all trypticpeptides containingcysteine, methionine, and those classified as RH0, RH1 or RH2.

2.2. Estimation of the physical properties of peptidesequences

The isoelectric point and molecular mass of tryptic peptideswere calculated with the InSilicoSpectro pI function [29], usingthe set of pK values of the ionizable group reported by Lehningeret al. [30]. The tR of a peptide was predicted using a function ofthe SSRCalc software [31] with the formic acid model (FA) aftersetting the slope and intercept to 0.386 and 10.8, respectively.

2.3. Algorithm to identify unique peptides

Adecision treealgorithmwasdeveloped in Java to identifyuniquepeptides based on the theoretical properties described above.

2072 J O U R N A L O F P R O T E O M I C S 7 4 ( 2 0 1 1 ) 2 0 7 1 – 2 0 8 2

Page 78: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Each node of the tree represents a property of the peptide (tR, N-term,molecularmass, pI). On eachnode of the tree, the algorithmtakes a set of inputpeptidesandcalculates theabsolute values fora given property, storing only those peptides that are unique.Then, it sends the remaining peptides to the child nodes as inputdata for further analysis inorder to identify otheruniquepeptidesduring the calculation of the next property. The identificationfunction for unique peptides is described by the followingmathematical expression:

Abs Vn+1−Vn−1ð Þ > 4* errorð Þ:

Apeptide sequence isunique if the property value (Vn) differsfrom its previous value Vn−1 in 2 units of property error and in 2units of error for the next peptide property value Vn+1.

The algorithm provides, as a final result, a set of uniquepeptides after combining the previously mentioned properties.

2.4. Experimental data

D. melanogaster Kc167 cells were grown in Schneider's Drosophilamedium (Invitrogen, Auckland, New Zealand) supplementedwith 10% fetal calf serum, 100 U penicillin (Invitrogen, Auckland,NewZealand) and 100 μg/ml streptomycin (Invitrogen, Auckland,New Zealand) in an incubator at 25 °C. Then, the cells werewashed with ice-cold phosphate-buffered saline (PBS) andresuspended in ice-cold lysis buffer containing 10mM HEPES,pH7.9, 1.5 mMMgCl2, 10mMKCl, 0.5 mMdithiothreitol (DTT) anda protease inhibitor mix (Roche, Basel, Switzerland). After a10min incubation on ice, the cells were lysed by douncing. Celldebris and nuclei were removed by centrifugation for 10min at4 °C using 5500 ×g. Then, the cytoplasmic and membranefractions were separated by ultracentrifugation at 100,000 ×g for60minat 4 °C. Theproteins of the cytosolic fraction (supernatant)were subjected to acetone precipitation, solubilizing the proteinpellets in 3mM EDTA, 20mM Tris–HCl pH 8.3 and 8M urea. Thedisulfide bondswere reducedwith tris(2-carboxyethyl)phosphine(TCEP) at a final concentration of 12.5 mM at 37 °C for 1 h, afterwhich the resulting free thiols were alkylated with 40mMiodoacetamide at room temperature for 1 h. The solution wasdiluted with 20mM Tris–HCl (pH 8.3) to a final concentration of1.0 M urea and digested with sequencing-grade modified trypsin(Promega, Madison, Wisconsin) at 20 μg per mg of proteinovernight at 37 °C. The obtained peptides were desalted on aC18 Sep-Pak cartridge (Waters, Milford, Massachusetts) and driedinavacuumconcentrator. Finally, 1 mgof thepeptidesamplewasutilized for the experiment. All chemicals were bought at thehighest available purity from Sigma-Aldrich, Taufkirchen,Germany.

The dried peptides were dissolved to a final concentrationof 1 mg/ml in off-gel electrophoresis buffer containing 6.25%glycerol and 1.25% IPG buffer (GE Healthcare). The peptideswere separated on pH 3–10 IPG strips (GE Healthcare) with a3100 OFFGEL fractionator (Agilent) using a protocol of 1 hrehydration at maximum 500 V, 50 μA and 200 mW followedby the separation at maximum 8000 V, 100 μA and 300 mWuntil 50 kVh were reached. After iso-electric focusing thefractions were concentrated and cleaned up by C18 reversed-phase spin columns according to the manufacturer's (HarvardApparatus) instructions.

The peptide samples were analyzed on an Agilent 1100microflow system (Agilent Technologies) connected to a 7-teslaFinnigan LTQ-FT-ICR instrument (Thermo Electron, Bremen,Germany)equippedwithananoelectrospray ionsource (ThermoElectron, Bremen, Germany). The separation employed an RP-HPLC column (150 μm×15 cm) packed in-house with C18 resin(Magic C18 AQ 5 μm; Michrom BioResources, Auburn, CA, USA)using a linear gradient from 98% solvent A (0.15% formic acid)and 2% solvent B (98% acetonitrile, 2% water, 0.15% formic acid)to 30% solvent B over 60min and 90 min at a flow rate of 1.2 μl/min. Each MS1 scan (acquired in the ICR cell) was followed bycollision-induced dissociation (CID, acquired in the LTQ part) ofthe threemost abundant precursor ionswith dynamic exclusionfor 30 s. Only MS1 signals exceeding 150 counts were allowed totrigger MS2 scans with wideband activation enabled. Total cycletime was approximately 1 to 1.5 s. For MS1, 106 ions wereaccumulated in the ICR cell over amaximum time of 500ms andscanned at a resolution of 100,000 FWHM (at 400m/z). Singlycharged ions and ions with unassigned charge state wereexcluded from triggering MS2 events. The normalized collisionenergywas set to 30%, and onemicroscanwas acquired for eachspectrum.

2.5. Processing of experimental data

MS/MS spectra were interpreted by the X! Tandem software [5]using the Flybase sequence database. Carbamidomethylatedcysteine and methionine sulfoxide were considered as fixedand variable modifications, respectively. The database searchresults were validated using PeptideProphet, [32] whichevaluates and assigns a probability of correct identificationto each X! Tandem match.

This work analyzed only the four isoelectric focusingfractions with the lowest pI having the best agreement betweenthe theoretical and experimental values, according to previousreports [33–35]. In addition, these values are closer to the errorchosen for the pIparameter during the theoretical analysis (0.2 pIunits) and these fractions cover 50% of the identified peptides.Also, we used only highly reliable peptide identifications,filtering out those with a PeptideProphet probability lower than0.97 (FDR=0.01) or with posttranslational modifications. Forexperimental tR analysis theacceptanceerrorwas set at 748.42 s,and mass tolerance was set at 10 ppm.

A tree-based algorithm to identify unique peptides in theexperimental set was constructed in a similar fashion to theone designed for theoretical analysis. The final list of uniquepeptides was validated by using the sequence predicted fromPeptideProphet. In cases where the PeptideProphet sequencesand the sequences identified by our approach did not match,the identifications achieved by our algorithmwere consideredas false positive identification.

3. Results and discussion

3.1. Peptide identification based on mass measurement

The theoretical basis for any mass accurate method issupported by the identification of unique peptides, i.e. peptide

2073J O U R N A L O F P R O T E O M I C S 7 4 ( 2 0 1 1 ) 2 0 7 1 – 2 0 8 2

Page 79: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

sequences with a molecular mass (±4*Error) unparalleled byany other peptide from the whole tryptic proteome[9–11].

Fig. 1A shows the percentage of unique tryptic peptides inseven proteomes as a function of mass measurement accuracyin the 0.5–10 ppm range. As previously reported [11], thepercentage of unique peptides increased with mass accuracy.For a bacteriumwith a relatively simple proteome such as E. coli(~4300 proteins), the number of unique peptides increased fivetimes as mass accuracy increased from 5 to 1 ppm. Highaccuracy measurements (1 ppm) are generally sufficient tomaintain greater than 40% of uniqueness for the simplestproteomes (E. coli, D. melanogaster, C. elegans).

On the other hand, for more accurate measurements (0.5–5 ppm) the percentage of unique is not greater than 20% forcomplex proteomes. For instance, H. sapiens and M. musculusshowed 6.49% and 8.14% of unique peptides at 1 ppm. Also, whilea significant percentage (3.86%) of unique peptides can still befound in the E. coli proteome at low accuracies (10 ppm), thepercentage founded for H. sapiens under the same conditions isnegligible.

Fig. 1 shows the in silico analysis using tryptic peptides withno missed cleavages. But, more than 40% of the identifiedpeptides on proteomics studies has almost one-missedcleavage [36,37]. For this reason, we analyzed all proteomesconsidering one-missed cleavages. The percentage of unique

peptides when one-missed cleavage was considered has asimilar behavior as complete cleavage sites data (Supplemen-tary information). The percentage of unique peptides for theE. coli and H. sapiens proteome after considering only one misscleavage decreased from 43% to 21% and from 6% to 1%,respectively. However, for miss cleavage proteomes when theaccuracy was changed from 5 ppm to 1 ppm the simplestproteomes (E. coli, D. melanogaster, C. elegans) showed anincrease in the percentage of unique peptide of ~2% to ~20%.

This analysis suggests that peptide mass, per se, havelimitations as the only criterion for protein identification evenin simple proteomes such as that of E. coli. Therefore, tocorroborate this finding we determined the number of pro-teins that could be identified in specific proteomes throughthe exclusive use of unique peptides. The results showed thatproteome coverage higher than 60% and 80% could beobtained for all the analyzed organisms at mass accuraciesof 1 ppm and 0.5 ppm, respectively.

Interestingly, relatively high proteome coverage can beobtained (Fig. 1B) even for the lowest percentages of uniquepeptides (Fig. 1A). Proteome coverage higher than 80% wasobtained at 0.5 ppm for H. sapiens, even though uniquepeptides comprised only 13% of the tryptic proteome. Not-withstanding the above results, the number of peptidesdetected in practice is limited by experimental and techno-logical conditions, leading to the identification of only a smallpercentage of the number of predicted unique peptides duringMS runs [38]. Therefore, finding unique peptides, rather thanprocessing the whole peptide population, would be aninteresting approach to achieve high proteome coveragebased on accurate mass determination.

3.2. Influence of the additional determination of theN-terminal residue, isoelectric point, retention time features

Therefore, the use accurate mass measurement combinedwith other parameters that can be readily obtained fromavailable experimental tools, such as retention time in LC andisoelectric point (tR and pI) could increase the number ofunique peptides for all proteomes. Actually, retention time isone of most useful complement variables on proteomicstudies [11,13,39]. Smith and co-workers reported that whenthey included it on the AMT experiments constrain, thepercentage of unique peptides increased even for complexproteomes [11].

Understanding and predicting peptide retention time has alonghistory. Severalmodels assume that peptide retention timeis a function of peptide amino acid composition. However, it isclear from experimental data that two peptides with identicalamino acid composition can be chromatographically separatedfrom one another. Themost accurate and sophisticated peptideretention time predictor is that of Petritis et al. [40]. The largeamountof data required to train theartificial neural network (forPetritis et al., 345 000 nonredundant peptides) makes retrainingfor new chromatography conditions impractical. The approachof Krokin and coworkers [31,41,42] calculates peptide hydropho-bicities basedon themeasurementof the tRof trypticpeptides inthe560–4000 Damass rangederived fromamixture of 17 proteindigests. This model can be applied across diverse data sets andconditions.

60

Percentage of Unique Peptide vsmass accuracy (ppm)

H. sapiens

30

40

50M. musculus

S. cerevisiae

E. coli

D. melanogaster

A. thaliana

C. elegans

H. sapiens

M. musculus

S. cerevisiae

E. coli

D. melanogaster

A. thaliana

C. elegans

0

10

20

5

Uni

que

Pep

tides

(%

)

Proteome Coverage vsmass accuracy (ppm)

0.5 1 10 ppm

1 50.5 10 ppm

60708090

100

1020304050

Pro

teom

e C

over

age

(%)

0

B

A

Fig. 1 – (A) Percentage of unique peptides of whole proteomeof different organisms digested in silico with trypsin,considering only their molecular mass. (B) Theoreticalproteome coverage of different proteomes if only uniquepeptides (defined by molecular mass alone) are considered.The values of X axes correspond with the range of ppmevaluated (0.5, 1, 5, 10).

2074 J O U R N A L O F P R O T E O M I C S 7 4 ( 2 0 1 1 ) 2 0 7 1 – 2 0 8 2

Page 80: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

However, even for this accurate algorithm, in-silico resultsshowedamodest increase from6% to 14%of uniquepeptides forH. sapiens (1 ppm) compare with other variables (pI, N-term).Previous efforts to increase identification confidence usingretention time have been limited to conditions (e.g., column,mobile phase, and gradient) identical to those used to train theretention time predictor [43]. Also, a strong correlation existsbetweenmass and retention time [15,44]. For these reasons, theisoelectric point is beingused as filter criteria to reduce the false-positive identification in proteomics studies [15,45–48].

The in silico analysis demonstrated that with the simulta-neous use of three features (i.e. combinations of mass+pI+ tR),the proportion of unique peptides for H. sapiens and E. coli, canreach more than 49% and 78% respectively at a mass accuracyof 1 ppm and an isoelectric point error of 0.1 unit (Supple-mentary information). For more complex proteomes, such asH. sapiens, more than 24% and 19% of unique peptides could beidentified at 5 ppm with 0.1 and 0.2 error units of pI. Theseerror values of isoelectric point are in the state of the art forcurrent experimental tools [47,49,50]. Formore acidic fractionsof the OFFGEL where most of the peptides migrate the errorvalues are between 0.1 and 0.2 units. For the other fractionsthe error interval should be calibrated for the experimentalsettings.

For a eukaryotes proteomes (i.e. H. humans) the use ofretention time and accurate mass (1 ppm) increase thepercentage of unique peptides from 6.4% to 14%. When weadd the isoelectric point, the percentage of unique peptidesgrew up to 43%. This suggests that isoelectric point orthogo-nality is a relevant factor to increase the percentage of uniquepeptides. Actually, these features can be obtained as supple-mentary information on OFFGEL-LC–MS experiments.

We evaluated the influence of molecular mass and N-termamino acid on reliability of peptide identification to the pointwhere obtaining a high quality MS/MS spectrum is no longernecessary. Fig. 2 shows theoretical analysis of peptideidentification when using the N-terminal amino acid inaddition to molecular mass in the 0.5–10 ppm range. Signifi-cantly, at accuracies of 10 ppm the inclusion of the identity ofthe N-terminal residue as an additional parameter results in aconsiderable increase (higher than 27-fold) in the number ofunique peptides for H. sapiens (Fig. 2A and B). The percentageof unique peptides at 1 ppm for H. Sapiens increased from 6%to 60% (10-fold). Interestingly, for E. coli proteome at loweraccuracies the contribution of the N-terminal information isvery low.

As expected, combining peptide mass with the identity ofthe N-terminal residue results in better proteomic coveragethan relying on mass alone or combined with pI and tR,providing coverage values as high as 78% even for the mostcomplex proteome (H. sapiens) at the poorest accuracy(10 ppm). This combination, (on spectrometers such as Orbi-trap 1, 5, 10 ppm), would provide proteomic coverage higherthan 80% for complex proteomes (H. sapiens, M. musculus).Previously, our group described experimentally the use ofmass and N-terminal for proteomic studies [19], Although,obtaining N-terminal information still requires the acquisitionof MS/MS spectra, their quality requirements are much lower(since only the b1 series is needed for N-terminal assignment),making therefore the use of mass+N-term data a feasible

alternative to the extensive use of high-quality MS/MS spectrafor peptide identification in some settings.

We used the H. sapiens proteome and the combination oftR+mass+N-term+pl (0.2 pI error, 2 tR error, 10 ppm) to studythe distribution of unique peptides per proteins. The distribu-tion average was 12 peptides by proteins and 85% of theproteins have more than 20 unique peptides.

Also we explored the percentage of unique peptides andproteome coverage where the entire proteome is reduced withinformation about protein localization (supplementary infor-mation). Considering only themolecular mass, the percentageof unique peptides and proteome coverage for mitochondrialproteome of H. sapiens are 53% and 98.3%, respectively (1 pm).If the isoelectric point and N-terminal amino acid informationare added to the mass, the percentage of unique peptide andproteome coverage increase to 96.3% and 99.4%, respectively.These results presented an interesting scenario for projectswith knowledge about sub-cellular localization of proteins,pathway or organelles.

60

70

H. sapiens

20

30

40

50mass+N-term

mass

0

10

0.5 1 5 10

0.5 1 5 10

Error Tolerance (ppm)

E. coli

40

50

60

70

80

90

100mass+N-term

mass

0

10

20

30

Per

cent

age

of U

niqu

e P

eptid

es (

%)

Per

cent

age

of U

niqu

e P

eptid

es (

%)

Error Tolerance (ppm)

A

B

Fig. 2 – Effect of the combination of molecular mass andN-terminal residue on the percentage of peptides from the H.sapiens (A) and E. coli (B) proteomes that can be unambiguouslyidentified.

2075J O U R N A L O F P R O T E O M I C S 7 4 ( 2 0 1 1 ) 2 0 7 1 – 2 0 8 2

Page 81: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

On the other hand, the possible analyses of phosphorylatedand glycosylated peptides were explored. Currently, thepreferred strategy is the enrichment for the targeted peptides[51]. Two filtered databases were analyzed 1) peptides withconsensus sites for N-glycosylation (NXS and NXT) and 2)peptides with serine or threonine (the most abundantphosphopeptides) (Supplementary information).

Remarkable results were obtained for N-glycopeptides. The97.4% of unique peptides achieved for mass+pI+N-termsuggested the feasibility of this approach glycosylation studies(1 ppm, pI 0.2 error unit). In case of phosphorylation studies,the results showed 82% of unique peptides (1 ppm, pI 0.2 errorunit) for filtered proteome. This analysis only represents an insilico approximation to the real experimental scenery wheresome important drawbacks are presents, such as, the selec-tivity of the enrichment procedures, the presence of severalsites of phosphorylation in the same peptide among others.

3.3. Selective isolation of peptides increase the proportionof unique peptides

Even, if a proteomic approach uses all these features incombination; the identification of peptides is difficult becauseof the proteome complexity. There are methodologies devisedfor selectively isolating sets of peptides that share a commonsequence motif, such as ICAT[21], COFRADIC[22] and SCAPE[24]. These technologies simplify considerably the complexityof the starting peptide mixture, and are designed to ease theanalysis of complex samples in proteomic studies.

Selective isolation methods can also be potentially used toincrease the power of peptide identification algorithms thatdo not rely solely onMS/MS spectra, since their high selectivityallows the separation of the predicted tryptic peptide onsmaller groups. The peptides isolated would only be searchedagainst their corresponding sub-database, increasing thenumber of unique peptides by virtue of the decreasedcomplexity of the target population. We decided to explorehow the proportion of unique peptides as well as proteomecoverage for different organisms changes when the trypticproteome is simplified after the application of selectiveisolation methods targeting different peptide sets: (1) withcysteine (C) [22]; (2) with methionine (M) [21] and (3) RRnKpeptides (lysine-free tryptic peptides arising from cleavage atarginine residues) [26]. Also, we evaluated tryptic peptideswith reversibly blocked primary amine groups separated bycation exchange chromatography according to their numberof positive charges (manuscript in preparation). These peptidesets are: (4) neutral peptides (previously denominated as nHnR[24] andheredenominatedasRH0,where #R+#H=0): (5) peptidesthat contains either one arginine or one histidine (RH1, where#R+#H=1): and (6) multiply-charged peptides (RH2, where the#R+#H>1) [25].

Fig. 3 depicts the influence on unique peptide percentageand proteome coverage of selective isolation methods, inisolation or combined with the use of peptide features.Logically, Fig. 3A and C shows the curves for isolationmethodsover the curve of thewhole tryptic proteome, as the number ofpeptides is lower for those methods. On the contrary for theproteome coverage (Fig. 3B and D) the KR curve is above theothers as it contains the whole population of peptides. As

expected for E. coli proteome, the use of selectively isolatedCys-containing peptides (C) and peptide mass would increasethe proportion of unique peptides to 37.25%, compared with3.86% for the whole tryptic proteome. The application of theother isolation methods, without combining them with otherpeptide features, increases the proportion of unique peptidesto 10–27% approximately.

When the molecular mass was combined with isoelectricpoint (mass+pI) and isolated Cys-containing peptides uniquepeptides increases to 75.88%, or 41–71% for the other selectiveisolation methodologies. The same analysis, but consideringthe combination of mass+N-terminal amino acid, show andincreased of 67–87% unique peptides. The inclusion of tR hasno significance on unique peptides identification neitherproteome coverage even combined with isolation methods.Finally, if four parameters (tR, pI, mass and N-term) arecombined with selective isolation methods, a percentage ofunique peptides higher than 90% is reached in each case, andthe performance of the isolation methods tends to be muchmore uniform.

Unexpectedly, proteome coverage for the E. coli proteome(Fig. 3 B) when isolation methods was used. Peptide mass donot provide a significant increase in the number of identifiedproteins compared with unfractionated tryptic proteome.Regardless, it should be pointed out that the use of selectiveisolation methods almost doubles the number of identifiedpeptides per protein; and should be therefore a more robustsolution in a real experimental setting by virtue of theincreased probabilities of identification, if peptide mass werethe sole parameter used for identification.

The inclusion of an additional parameter did produce adifference, which was highest for the RH2 peptide set (mass+Nterm [87.21%] and molecular mass+pI [71.19%]) for H. sapiensproteome. These results suggest that the increment in thenumber of unique peptides is more appreciable when a complexproteome is analyzed by selecting a particular set of peptides andtwo properties are combined.

The usage of several isolation methods in the sameexperiment seems non-practical because they follow non-compatible strategies (different chromatographic techniques,different chemical reaction). Also,many chemical derivatizationsteps often lead to an excessive sample handling and undesir-able losses. However, cation exchange chromatography couldimprove the number of protein identifications by separating theentire sample on different peptides group according to thenumber of positive charges. We have demonstrated that oncethe tryptic peptides are blocked at their primary amine groups,they can be separated with high selectivity into three groups:(RH0, RH1, and RH2) in a single experiment. In each group, thenumber of peptides to compare is reduced, without a consider-able reduction of the proteins identifiable with at least onepeptide (80–95% of proteome coverage).

When we analyzed these pools the number of uniquepeptides present in each pool might in principle allows theidentification of approximately 85–98% of the total proteomeusing mass+N-terminal or mass+pI or mass+tR combinationfor H. sapiens. The results on H. sapiens proteome concludedthat the combination of only two properties with the isolatedpeptide methods (RH0+RH1+RH2) could increase the prote-ome coverage 2 or 4 fold.

2076 J O U R N A L O F P R O T E O M I C S 7 4 ( 2 0 1 1 ) 2 0 7 1 – 2 0 8 2

Page 82: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

3.4. Proposed workflow to extract unique peptides fromexperimental data

OFFGEL-LC–MS/MS experimental data set was used to evalu-ate the above theoretical analysis. The goal is to identifypeptides using all their features except theMS/MS informationand then validate these identifications with the MS/MSidentifications in order obtain the false positive identificationhits and true positives identification hits.

The peptide identification workflow is represented in Fig. 4.Initially, an independent database containing tryptic prote-ome from F. drosophila database was generated. The theoret-ical properties (molecular mass, pI, tR, N-term) correspondingto each tryptic peptide. Then, from the experimental Peptide-prophet identifications we extracted the highly reliableidentifications, and their properties determined experimen-

tally (mass, tR and pI). Also, N-terminal amino acid for eachpeptide sequence was extracted artificially to simulate theinformation obtained from the MS/MS analysis of their PTC-derivative and peptide sequences were separated on RH0, RH1or RH2 groups in order to simulate the selective isolationprotocols behavior. The experimental and theoretical proper-ties of PeptideProphet peptide identifications were comparedfollowing the workflow shown in Fig. 4.

Taking into account that molecular mass of peptides is themost discriminating property, it was the first parameter tocompare. This process will generate the first candidates asunique peptides based only on molecular mass criteria. Theremaining tryptic peptides are then filtered simultaneously byconsidering the combination of two properties: (1) molecularmass and (2) second property (either pI, tR or N-term)considering as a matching criterion the absolute value of the

80

100

E. coliRH0

RH1

RH280

100E. coli

RH0

RH1

RH2

40

60

Pro

teom

e C

over

age

(%)

C

M

RRnK20

40

60RH2

C

M

RRnK

KR

20

80

100

40

60

Pro

teom

e C

over

age

(%)

20

KR

0

80

100

20

40

60

0

mas

s

mas

s-rt

mas

s-pl

mas

s-pl

-rtPer

cent

age

of U

niqu

e P

eptid

es (

%)

Per

cent

age

of U

niqu

e P

eptid

es (

%)

mas

s-nT

erm

mas

s-nT

erm

-rts

mas

s-nT

erm

-pls

mas

s-nT

erm

-pl-r

t

Property Combinations

mas

s

mas

s-rt

mas

s-pl

mas

s-pl

-rt

mas

s-nT

erm

mas

s-nT

erm

-rts

mas

s-nT

erm

-pls

mas

s-nT

erm

-pl-r

t

Property Combinations

mas

s

mas

s-rt

mas

s-pl

mas

s-pl

-rt

mas

s-nT

erm

mas

s-nT

erm

-rts

mas

s-nT

erm

-pls

mas

s-nT

erm

-pl-r

t

Property Combinations

mas

s

mas

s-rt

mas

s-pl

mas

s-pl

-rt

mas

s-nT

erm

mas

s-nT

erm

-rts

mas

s-nT

erm

-pls

mas

s-nT

erm

-pl-r

t

Property Combinations

H. sapiensRH0

H. sapiens RH0

RH1

RH2

C

RH1

C

M

M

RRnK

KR

RRnK

KR

RH2

A B

C D

Fig. 3 – Effect of the combination of several peptide properties together with the use of selective isolation methods on thepercentage of unique peptides and protein coverage for amass tolerance of 10 ppm and an error of 0.2 units of isoelectric point.(A) and (B): Percentage of unique peptides and protein coverage for E. coli proteome, respectively. (C) and (D): Percentage ofunique peptides and protein coverage for H. sapiens, respectively. In the legend all tryptic peptides are represented with KR.Sets obtained by selectively isolating Cys- or Met-containing peptides are represented as C and M, respectively. Peptidesselectively isolated on the basis of their charge by SCX are represented as RH0, RH1, RH2 for those with charges 0, 1+, and >2+,respectively. The characteristics of the RRnK set have been previously described.

2077J O U R N A L O F P R O T E O M I C S 7 4 ( 2 0 1 1 ) 2 0 7 1 – 2 0 8 2

Page 83: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

analyzed property±experimental error. This procedure isrepeated until exploring all possible combinations of proper-ties to select all unique peptides.

After the completion of this analysis, the sequences of theextracted unique peptides are then matched to the realsequence identified by PeptideProphet. Finally, the peptidesmatching correctly are annotated as true assignments and theothers as false positive assignments.

3.5. Identification of unique peptides from experimentaldata

Tryptic peptides from D. melanogaster were fractioned usingoff-gel electrophoresis and analyzed by FT-LTQ mass spec-trometer. The averages of pI values with their standarddeviations were calculated for the 21 experimental fractions(Supplementary information). The most acidic fractions are

very close to the expected pH range calculated according to thespecifications of the IPG supplier [52,53]. Precisely, these fourfractions were chosen for the current analysis due also to thelowest values of the standard deviation for the pI calculated ofeach well. Also, the retention time was analyzed using theFormic Acid hidrophobicity Model (FAM) and the ssrcalprogram. After computing the theoretical retention time forall peptides, we removed all the outliers and obtained acorrelation value of R2=0.89. In this approach the calibrationof the system is performed with the best identified peptides.The model obtained could be applied to other samples withthe same experimental settings. Also computed parameters(errors, slop and intercept) must be used to perform searchbased on sequence properties (pI, tR, mass, N-term). As aresult, we used 10408 peptides corresponding to 1760 proteins,with their experimental retention time assigned and masserror equal or lower than 10 ppm, representing 52% of the total

Annotate peptides with

theoretical tR, pI, mass,

N-Term

Create a Insilico tryptic peptide database.

Annotate experimental identifiedsequences from PeptideProphet

output with probabilitymore than 0.97.

(tR, pI, N-term, sequence)

Search precursor masses ofExperimental sequences on

Insilco Database.

Peptides out ofthe ppm range

[Not match any sequence][Match only one sequence]

Search in the input theoreticalList of sequence the peptide

By current property(pI, tR, N-term)

[Match with more than one sequence]

Peptides out ofthe error range for

property

[Not match any sequence]

Compare with MS/MSsequence result

[Match only one sequence]

[Match with more than one sequence]

Annotate as PeptideIdentification

[Match Insilco sequence with MS/MS sequence]

Annotate as a FalsePositive Identification.

[Not Match Insilco sequence with MS/MS sequence]

Fig. 4 –Workflow used to identify unique tryptic peptides based on an experimental data using a tryptic peptides contained inthe F. Drosophila database.

2078 J O U R N A L O F P R O T E O M I C S 7 4 ( 2 0 1 1 ) 2 0 7 1 – 2 0 8 2

Page 84: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

peptides identified in the MS/MS experiment (PeptideProphetprobability >0.97).

Considering only the molecular mass (10 ppm), only 41sequences of 10408 peptides were correctly assigned (Fig. 5).This represents 0.4% of the total analyzed identifications andcorresponds only to 10 proteins annotated in the F. Drosophilasequence database. In silico analysis of this proteome revealedthat using the same mass accuracy (10 ppm) the uniquepeptides represent 0.85% of tryptic proteome and this shouldpermit in principle the identification of 5% of total proteins.This difference in percentage, between the experimental andin silico results could be explained taking to account that all thepredicted peptides may not be observed in a real experiment,and other factors such as, abundance, physical and chemicalproperties related to the analytical techniques used could playan important role in the peptide identification[38,54].

After including other variables (pI, tR, and N-term) in theanalysis, the number of unique peptides considerably in-

creased (Fig. 5). The combination of molecular mass+pI, thepercentage of matched peptide increased to 6%. This resultshowed a linear relation with in silico study evaluation wasaround 12% of unique peptides for mass+pI combination.Although, some peptides were matched as unique peptides adeeper look revealed that they do not coincidewith the correctpeptides; therefore, the assignment was incorrect. In this case,the percent of falsematched peptidewas 5%. The combinationof mass+pI+ tR allows the identification of 27% uniquepeptides and this figure represents 47% of the total proteinsidentified in these four fractions by the MS/MS experiment(Fig. 5). Consequently, if tryptic peptides are separated by SCXin three different pools (RH0, RH1, and RH2), the number ofunique peptides increases to 43% which represents the 67% ofthe total proteins identified in these four fractions by the MS/MS experiment (Supplementary information).

If we assume that these data could be complemented withthe N-terminal amino acid information of each analyzedpeptide, the combination of N-term with the molecular masswould have allowed identifying 18% of total peptides, whilethe combination with the pI, mass and N-terminal it ispossible to yield the 58% of peptides whichmatched correctly.The combination of all variables allowed obtaining 77% ofunique peptides and 88% of the proteins identified by MS/MS.Similarly, the percent of false positive assignment was 5%. Allthese results can be additionally improved if tryptic peptidesare separated with very high selectivity by using SCX in threedifferent pools (RH0, RH1, and RH2).

Unique peptides considerably increase if the identificationof peptides is also based on the characteristic of their aminoacid sequences, N-termini amino acid and isolation methodinformation. The effect is evident when we combined theisolation methods in conjunction with two additional param-eters, for example: mass+pI, mass+tR or molecular mass+N-term. In these cases, the increment in the number of uniquepeptides has approximately increased by two folds (Supple-mentary information).

If all variables are used in combination with RH0, RH1 andRH2, the percentage of identified peptides augments up to86%, which represents a total of 918 peptides more than thepeptides matched without the selective isolation of peptides.At the same time, the number of proteins identified rose to94% of total proteins and permitted the identification of 99additional proteins.

This scenery could be better in a real experiment, becausethe groups of peptides (RH0. RH1, RH2) could be enriched ineach experiment, and the number of peptides will be similarand close to the total number of peptides analyzed in thisexperiment (10 408). In current analysis, the actual percentageof the RH2 peptides is only 10% of total peptides, even with95% of these peptides matching correctly. In real experiment,considering that the sample ismore complex than the fractionanalyzed, the number of selected peptides should be similar ineach group (RH0, RH1, and RH2); hence, the increases in thetotal number of unique peptides should be higher, afterconsidering the contribution of each group of selectedpeptides.

Finally, if we consider that the number of precursors in anLC-MS or the peptides chosen to MS/MS is higher than thenumber of correctly assigned peptides in the database, the

80

100

F. Drosophila

KR

40

60RH0-RH1-RH2

KR

RH0-RH1-RH2

0

20

mas

s

mas

s-rt

mas

s-pI

mas

s-rt

-pI

Per

ceta

ge o

f Ide

ntifi

ed P

eptid

es

mas

s-N

term

mas

s-pI

-Nte

rm

mas

s-rt

-Nte

rm

mas

s-pI

-rt-

Nte

rm

Property Combinations

mas

s

mas

s-rt

mas

s-pI

mas

s-rt

-pI

mas

s-N

term

mas

s-pI

-Nte

rm

mas

s-rt

-Nte

rm

mas

s-pI

-rt-

Nte

rm

Property Combinations

100F. Drosophila

40

60

80

0

20

Iden

tifie

d P

rote

ome

Cov

erag

e

A

B

Fig. 5 – Combined effect of peptide properties and isolationmethods in the percentage of (A) identified peptides and(B) identified proteome coverage for 10 ppm mass tolerance,0.2 units of error for isoelectric point and retention time errorof 748.42 s on an experimental data of F. Drosophila. In thelegend the results without isolation methods process arerepresented with KR and the combination effect of theisolation methods in the same experiment is represented byRH0-RH1-RH2.

2079J O U R N A L O F P R O T E O M I C S 7 4 ( 2 0 1 1 ) 2 0 7 1 – 2 0 8 2

Page 85: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

number of identifications should be higher with the proposedapproach.

For example, if only 16% of signals obtained in a proteomicsexperiment is targeted for MS/MS [55] and a 30–50% issuccessfully assigned, then, it is possible to calculate thenumber of possible identifiable peptides and proteins usingthe following equation:

f possible identifiable peptides = f of assigned peptides= 0:16 × 0:5ð Þ:

where 0.16 is the rate of targeted signals for MS/MS and 0.5 therate of peptides finally assigned (at 1% FDR), and 10408 is thenumber of assigned peptides.

As estimated above, when SCX separation (RH0, RH1, andRH2 peptide pools) is combined with mass, pI and tR thepercentage of unique peptides possible to identify in theexperimental data set only reaches the 43%. Hence, 55943peptides out of 130100 would be identified, which represents9324 proteins for an average of 6 peptides for proteins.

Furthermore, when N-terminal information is considered,two fold increases in MS/MS efficiency may be achieved [56].As was shown before, 86% of peptides wasin silico identifiedwhen all peptide features were included for analyzing theexperimental data. Thus, 17901 peptides out of 20816would beidentified (10408×2×0.86=17901), which represents 2983proteins.

In addition, if we consider that the number of precursors inan LC–MS or the peptides chosen to MS/MS is higher than thenumber of correctly assigned peptides in the database (at leastone order), the number of identifications should be higherwith our approach. This assumption is probable because thefalse positive identifications of this work are close to 5%,similar to the accepted values in common experimentalstudies.

In this way, we designed an in silico experiment to evaluatethe possibility to determine the percentage of false positivehits using and not the selective isolationmethods, in this casewe tested the combination of RH0, RH1 and RH2 procedures asselective isolationmethod.We selected five groups of peptidesnot contained in the original database used for proteinidentification; these groups of peptides could be present inany proteomics sample, for instance 1) Peptides from exoge-nous proteins (keratins, trypsin, etc.) commonly identified inproteomics experiments, called “contaminants” (from GPMcommon Repository of Adventitious Proteins), here namedcontaminant peptides (CP). 2) Peptides from flybase proteinsbut originated with two missed cleavages (MC2), 3) peptidesgenerated by non-specific hydrolysis (NEP), 4) Peptides with

methionine oxidation (Oxidation) and 5) Peptides with onedeamidation (Deamidation).

In this analysis, we selected four random subsetswith sizes3069, 15345, 30692, 61384 corresponding to 1%, 5%, 10% and20% of all tryptic flybase proteome from these five databases(CP, MC2, NEP, Oxidation, Deamidation). These percentageswere chosen assuming that in the studied experimentalsample you can have some “contaminant products”.

These sequence subsets were searched against flybasedatabase using current experimental settings (10 ppm, 0.2 pIerror, and 2 units of tR error and N-termini contribution) andour current combinatorial approach. The positive matcheswere considered as potential false positive. The percentageobtained for the several non-contained peptide subsetsagainst the flybase database were similar between the MC2and NEP database near to the 3% for different database sizes.Contaminant percentage is 10%, which represents 0.1% offalse positives of the flybase peptides. The analysis for post-translation modification (Oxidation, Deamidation) showedhighest percentage of false positive identification. Whenoxidation and deamidation were considered the percentageof false positive identification increases to 9.0% and 10%respectively. However, if selective isolation methods are usedthese values decrease to 5% and 8%.

Table 1 showed a little difference when the isolationmethods were used in comparison with non-isolationmethods. Additionally, the selective isolation methods incombination with other physical-properties of peptides al-ways reduce to less than 1% of the false positive hits duringprotein identifications for each database and size.

4. Conclusions

The use of the information provided by some analytical toolscould help to offset the information contained in the sequenceof peptides, but it is more efficient when a prokaryoteproteome is analyzed.

Somedrawbacksassociated toprecision (accuracy) that canbepredicted are that the variables used may hinder the accuratemass proteomics analysis with the identification of false positivehints. The inclusion of some types of peptides and the reductionof complexity allows increasing the percent of unique peptidescompared to normal analysis. The combination of severalselective methods (RH0, RH1, and RH2) in the same samplecould increase the percent of proteins with unique peptides. Thetheoretical analysis described in this paper does not exclude the

Table 1 – In silico analysis of percentage of false positive hits considering a 1%, 5%, 10% and 20% of the flybase trypticproteome size from three databases (non-enzymatic peptides (NEP), two missed cleavage database MC2 and contaminantpeptide database CP).

Proteomes 1% (RH0+RH1+RH2/non-method)

5% (RH0+RH1+RH2/non-method)

10% (RH0+RH1+RH2/non-method)

20% (RH0+RH1+RH2/non-Method)

CP (10.42%/13.51%) – – -MC2 (3.58%/4.76%) (3.08%/5.11%) (3.10%/4.91%) (3.08%/4.81%)NEP (3.26%/4.76%) (3.02%/4.35%) (3.13%/4.51%) (3.08%/4.45%)Oxidation (4.2%/7.9%) (5.8%/9.7%) (5.4%/9.0%) (3.5%/8.5%)Deamidation (7.1%/9.6%) (7.1%/10.3%) (8.5%/12.2%) (8.8%/12.3%)

2080 J O U R N A L O F P R O T E O M I C S 7 4 ( 2 0 1 1 ) 2 0 7 1 – 2 0 8 2

Page 86: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

possibility of combining it with the MS/MS information obtainedin any proteomic experiment.

Supplementary materials related to this article can befound online at doi:10.1016/j.jprot.2011.05.034.

Acknowledgments

Y.P-R. and A.S. have contributed equally to this work. Theauthors would like to thank the INSPUR Company from Chinafor its kind donation of the computer cluster TS10000 used forall calculations with the tools developed in this manuscript.Also, we thank Prof. Oleg Krokin (Manitoba Centre for forProteomics and System Biology, University of Manitoba) andAlejandro Martin (Center for Genetic Engineering and Biotech-nology) for technical support.

R E F E R E N C E S

[1] Washburn MP, Wolters D, Yates III JR. Large-scale analysis ofthe yeast proteome by multidimensional proteinidentification technology. Nat Biotechnol 2001;19:242–7.

[2] Peng J, Elias JE, Thoreen CC, Licklider LJ, Gygi SP. Evaluation ofmultidimensional chromatography coupled with tandemmass spectrometry (LC/LC-MS/MS) for large-scale proteinanalysis: the yeast proteome. J Proteome Res 2003;2:43–50.

[3] Perkins DN, Pappin DJ, Creasy DM, Cottrell JS. Probability-basedprotein identification by searching sequence databases usingmass spectrometry data. Electrophoresis 1999;20:3551–67.

[4] Colinge J, Masselot A, Giron M, Dessingy T, Magnin J. OLAV:towards high-throughput tandem mass spectrometry dataidentification. Proteomics 2003;3:1454–63.

[5] Craig R, Beavis RC. TANDEM: matching proteins with tandemmass spectra. Bioinformatics 2004;20:1466–7.

[6] Yen CY, Russell S, Mendoza AM, Meyer-Arendt K, Sun S, CiosKJ, et al. Improving sensitivity in shotgun proteomics using apeptide-centric database with reduced complexity: proteasecleavage and SCX elution rules from data mining of MS/MSspectra. Anal Chem 2006;78:1071–84.

[7] Belov ME, Anderson GA, Wingerd MA, Udseth HR, Tang K,Prior DC, et al. An automated high performance capillaryliquid chromatography-Fourier transform ion cyclotronresonance mass spectrometer for high-throughputproteomics. J Am Soc Mass Spectrom 2004;15:212–32.

[8] Lipton MS, Pasa-Tolic L, Anderson GA, Anderson DJ, AuberryDL, Battista JR, et al. Global analysis of the Deinococcusradiodurans proteome by using accurate mass tags. Proc NatlAcad Sci U S A 2002;99:11049–54.

[9] Zimmer JS, Monroe ME, Qian WJ, Smith RD. Advances inproteomics data analysis and display using an accuratemass and time tag approach. Mass Spectrom Rev 2006;25:450–82.

[10] Pasa-Tolic L, Masselon C, Barry RC, Shen Y, Smith RD.Proteomic analyses using an accurate mass and time tagstrategy. Biotechniques 2004;37:621–4 6–33, 36 passim.

[11] Norbeck AD, Monroe ME, Adkins JN, Anderson KK, Daly DS,Smith RD. The utility of accurate mass and LC elution timeinformation in the analysis of complex proteomes. J Am SocMass Spectrom 2005;16:1239–49.

[12] BellewM, CoramM, FitzgibbonM, IgraM, Randolph T,Wang P,et al. A suite of algorithms for the comprehensive analysis ofcomplex protein mixtures using high-resolution LC-MS.Bioinformatics 2006;22:1902–9.

[13] May D, FitzgibbonM, Liu Y, Holzman T, Eng J, Kemp CJ, et al. Aplatform for accurate mass and time analyses of massspectrometry data. J Proteome Res 2007;6:2685–94.

[14] Leptos KC, Sarracino DA, Jaffe JD, Krastins B, Church GM.MapQuant: open-source software for large-scale proteinquantification. Proteomics 2006;6:1770–82.

[15] Cargile BJ, Stephenson Jr JL. An alternative to tandem massspectrometry: isoelectric point and accurate mass for theidentification of peptides. Anal Chem 2004;76:267–75.

[16] Summerfield SG, Bolgar MS, Gaskell SJ. Promotion andstabilization of b1 ions in peptide phenythiocarbamoylderivatives: analogies with condensed-phase chemistry. JMass Spectrom 1997;32:225–31.

[17] Brancia FL, Butt A, Beynon RJ, Hubbard SJ, Gaskell SJ, OliverSG. A combination of chemical derivatisation and improvedbioinformatic tools optimises protein identification forproteomics. Electrophoresis 2001;22:552–9.

[18] van der Rest G, He F, Emmett MR, Marshall AG, Gaskell SJ.Gas-phase cleavage of PTC-derivatized electrosprayed trypticpeptides in an FT-ICR trapped-ion cell: mass-based proteinidentification without liquid chromatographic separation. JAm Soc Mass Spectrom 2001;12:288–95.

[19] Sanchez A, Perez-Riverol Y, González LJ, Noda J, Betancourt L,Ramos Y, et al. Evaluation of phenylthiocarbamoyl-derivatizedpeptides by electrospray ionization mass spectrometry:selective isolation and analysis of modified multiply chargedpeptides for liquid chromatography–tandemmassspectrometry experiments. Anal Chem 2010;82(20):8492–501.

[20] Chelius D, Shaler TA. Capture of peptides with N-terminalserine and threonine: a sequence-specific chemical methodfor Peptide mixture simplification. BioconjugChem 2003;14:205–11.

[21] Gevaert K, Van Damme J, Goethals M, Thomas GR, HoorelbekeB, Demol H, et al. Chromatographic isolation ofmethionine-containing peptides for gel-free proteomeanalysis: identification of more than 800 Escherichia coliproteins. Mol Cell Proteomics 2002;1:896–903.

[22] Gygi SP, Rist B, Gerber SA, Turecek F, Gelb MH, Aebersold R.Quantitative analysis of complex protein mixtures usingisotope-coded affinity tags. Nat Biotechnol 1999;17:994–9.

[23] Foettinger A, Leitner A, Lindner W. Solid-phase capture andrelease of arginine peptides by selective tagging and boronateaffinity chromatography. J Chromatogr A 2005;1079:187–96.

[24] Betancourt L, Gil J, Besada V, Gonzalez LJ,Fernandez-de-Cossio J, Garcia L, et al. SCAPE: a new tool forthe Selective CApture of PEptides in protein identification. JProteome Res 2005;4:491–6.

[25] Sanchez A, Gonzalez LJ, Betancourt L, Gil J, Besada V,Fernandez-de-Cossio J, et al. Selective isolation of multiplepositively charged peptides for 2-DE-free quantitativeproteomics. Proteomics 2006;6:4444–55.

[26] Sanchez A, Gonzalez LJ, Ramos Y, Betancourt L, Gil J, BesadaV, et al. Selective isolation of lysine-free tryptic peptidesdelimited by arginine residues: a new tool for proteomeanalysis. J Proteome Res 2006;5:1204–13.

[27] The universal protein resource (UniProt). Nucleic Acids Res2008;36:D190–5.

[28] Grumbling G, Strelets V. FlyBase: anatomical data, images andqueries. Nucleic Acids Res 2006;34:D484–8.

[29] Colinge J, Masselot A, Carbonell P, Appel RD. InSilicoSpectro:an open-source proteomics library. J Proteome Res 2006;5:619–24.

[30] Lehninger A, Nelson D, Cox M. Lehninger principles ofbiochemistry. W. H. Freeman; 2004.

[31] Krokhin OV, Craig R, Spicer V, Ens W, Standing KG, Beavis RC,et al. An improved model for prediction of retention times oftryptic peptides in ion pair reversed-phase HPLC: itsapplication to protein peptide mapping by off-lineHPLC-MALDI MS. Mol Cell Proteomics 2004;3:908–19.

2081J O U R N A L O F P R O T E O M I C S 7 4 ( 2 0 1 1 ) 2 0 7 1 – 2 0 8 2

Page 87: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

[32] Keller A, Nesvizhskii AI, Kolker E, Aebersold R. Empiricalstatistical model to estimate the accuracy of peptideidentifications made by MS/MS and database search. AnalChem 2002;74:5383–92.

[33] Cargile BJ, Sevinsky JR, Essader AS, Stephenson Jr JL, Bundy JL.ImmobilizedpHgradient isoelectric focusingasa first-dimensionseparation in shotgun proteomics. J Biomol Tech 2005;16:181–9.

[34] Krijgsveld J, Gauci S, Dormeyer W, Heck AJ. In-gel isoelectricfocusing of peptides as a tool for improved proteinidentification. J Proteome Res 2006;5:1721–30.

[35] Essader AS, Cargile BJ, Bundy JL, Stephenson Jr JL. A comparisonof immobilized pH gradient isoelectric focusing andstrong-cation-exchange chromatography as a first dimensionin shotgun proteomics. Proteomics 2005;5:24–34.

[36] McLaughlin T, Siepen JA, Selley J, Lynch JA, Lau KW, Yin H,et al. PepSeeker: a database of proteome peptideidentifications for investigating fragmentation patterns.Nucleic Acids Res 2006;34:D649–54.

[37] Siepen JA, Keevil EJ, Knight D, Hubbard SJ. Prediction ofmissed cleavage sites in tryptic peptides aids proteinidentification in proteomics. J Proteome Res 2007;6:399–408.

[38] SandersWS, Bridges SM,McCarthy FM, Nanduri B, Burgess SC.Prediction of peptides observable by mass spectrometryapplied at the experimental set level. BMC Bioinf 2007;8(Suppl7):S23.

[39] Klammer AA, Yi X, MacCoss MJ, NobleWS. Improving tandemmass spectrum identification using peptide retention timeprediction across diverse chromatography conditions. AnalChem 2007;79:6111–8.

[40] Petritis K, Kangas LJ, Yan B, Monroe ME, Strittmatter EF, QianWJ, et al. Improved peptide elution time prediction forreversed-phase liquid chromatography-MS by incorporatingpeptide sequence information. Anal Chem 2006;78:5026–39.

[41] Krokhin OV. Sequence-specific retention calculator.Algorithm for peptide retention prediction in ion-pairRP-HPLC: application to 300- and 100-A pore size C18sorbents. Anal Chem 2006;78:7785–95.

[42] Krokhin OV, Ying S, Cortens JP, Ghosh D, Spicer V, EnsW, et al.Use of peptide retention time prediction for proteinidentification by off-line reversed-phase HPLC-MALDIMS/MS.Anal Chem 2006;78:6265–9.

[43] Palmblad M, RamstromM, Bailey CG, McCutchen-Maloney SL,Bergquist J, Zeller LC. Protein identification by liquidchromatography-mass spectrometry using retention timeprediction. J Chromatogr B Analyt Technol Biomed Life Sci2004;803:131–5.

[44] Shen Y, Zhao R, Belov ME, Conrads TP, Anderson GA, Tang K,et al. Packed capillary reversed-phase liquid chromatographywith high-performance electrospray ionization Fourier

transform ion cyclotron resonance mass spectrometry forproteomics. Anal Chem 2001;73:1766–75.

[45] Cargile BJ, Talley DL, Stephenson Jr JL. Immobilized pHgradients as a first dimension in shotgun proteomics andanalysis of the accuracy of pI predictability of peptides.Electrophoresis 2004;25:936–45.

[46] Krijgsveld J, Gauci S, Dormeyer W, Heck AJ. In-gel isoelectricfocusing of peptides as a tool for improved proteinidentification. J Proteome Res 2006;5:1721–30.

[47] Horth P, Miller CA, Preckel T, Wenz C. Efficient fractionationand improved protein identification by peptide OFFGELelectrophoresis. Mol Cell Proteomics 2006;5:1968–74.

[48] Heller M, YeM, Michel PE, Morier P, Stalder D, Junger MA, et al.Added value for tandem mass spectrometry shotgunproteomics data validation through isoelectric focusing ofpeptides. J Proteome Res 2005;4:2273–82.

[49] Cargile BJ, Sevinsky JR, Essader AS, Eu JP, Stephenson Jr JL.Calculation of the isoelectric point of tryptic peptides in thepH 3.5-4.5 range based on adjacent amino acid effects.Electrophoresis 2008;29:2768–78.

[50] Gauci S, van Breukelen B, Lemeer SM, Krijgsveld J, Heck AJ. Aversatile peptide pI calculator for phosphorylated andN-terminal acetylated peptides experimentally tested usingpeptide isoelectric focusing. Proteomics 2008;8:4898–906.

[51] Zhang H, Li XJ, Martin DB, Aebersold R. Identification andquantification of N-linked glycoproteins using hydrazidechemistry, stable isotope labeling and mass spectrometry.Nat Biotechnol 2003;21:660–6.

[52] Heller M, YeM, Michel PE, Morier P, Stalder D, Junger MA, et al.Added value for tandem mass spectrometry shotgunproteomics data validation through isoelectric focusing ofpeptides. J Proteome Res 2005;4:2273–82.

[53] Horth P, Miller CA, Preckel T, Wenz C. Efficient fractionationand improved protein identification by peptide OFFGELelectrophoresis. Mol Cell Proteomics 2006;5:1968–74.

[54] Mallick P, Schirle M, Chen SS, Flory MR, Lee H, Martin D, et al.Computational prediction of proteotypic peptides forquantitative proteomics. Nat Biotechnol 2007;25:125–31.

[55] Michalski A, Cox J, Mann M. More than 100,000 detectablepeptide species elute in single shotgun proteomics runs butthe majority is inaccessible to data-dependent LC-MS/MS. JProteome Res 2011;10:1785–93.

[56] Sanchez A, Perez-Riverol Y, Gonzalez LJ, Noda J, Betancourt L,Ramos Y, et al. Evaluation of phenylthiocarbamoyl-derivatizedpeptides by electrospray ionization mass spectrometry:selective isolation and analysis of modified multiply chargedpeptides for liquid chromatography-tandemmassspectrometry experiments. Anal Chem 2010;82:8492–501.

2082 J O U R N A L O F P R O T E O M I C S 7 4 ( 2 0 1 1 ) 2 0 7 1 – 2 0 8 2

Page 88: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Technical Note

Isoelectric point optimization using peptide descriptors andsupport vector machines

Yasset Perez-Riverola, d, Enrique Audainb, Aleli Millana, Yassel Ramosa, Aniel Sancheza,Juan Antonio Vizcaínod, Rui Wangd, Markus Müllerc, Yoan J. Machadob,Lazaro H. Betancourta, Luis J. Gonzáleza, Gabriel Padróna, Vladimir Besadaa,⁎aDepartment of Proteomics, Center for Genetic Engineering and Biotechnology, Ave 31 e/ 158 y 190, Cubanacán, Playa,Ciudad de la Habana, CubabDepartment of Proteomics, Center of Molecular Immunology, Calle 15 esq. 216, Siboney, Playa, Ciudad de la Habana, CubacProteome Informatics Group, Swiss Institute of Bioinformatics, CMU - 1, rue Michel Servet CH-1211 Geneva, SwitzerlanddEMBL Outstation, European Bioinformatics Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge, UK

A R T I C L E I N F O A B S T R A C T

Article history:Received 22 November 2011Accepted 25 January 2012Available online 3 February 2012

IPG (Immobilized pH Gradient) based separations are frequently used as the first step inshotgun proteomics methods; it yields an increase in both the dynamic range and resolutionof peptide separation prior to the LC-MS analysis. Experimental isoelectric point (pI) valuescan improve peptide identifications in conjunction with MS/MS information. Thus, accurateestimation of the pI value based on the amino acid sequence becomes critical to performthese kinds of experiments. Nowadays, pI is commonly predicted using the charge-statemodel [1], and/or the cofactor algorithm [2]. However, none of these methods is capableof calculating the pI value for basic peptides accurately. In this manuscript, we presentan new approach that can significant improve the pI estimation, by using Support VectorMachines (SVM)[3], an experimental amino acid descriptor taken from the AAIndex data-base [4] and the isoelectric point predicted by the charge-state model. Our results haveshown a strong correlation (R2=0.98) between the predicted and observed values, with astandard deviation of 0.32 pH units across the complete pH range.

© 2012 Elsevier B.V. All rights reserved.

Keywords:Isoelectric pointSupport vector machinePeptide descriptors

Isoelectric point can be defined as the point in a titration curveat which the net surface charge of a protein or peptide equalsto zero [5]. The technique of using isoelectric focusing (IEF),where molecules are separated on the basis of their isoelectricpoints, for the separation of protein mixtures has been widelyemployed. Electrophoresis-based separation of peptides in both

free-flow and gel systems (along with the subsequent pI calcula-tions) has been adapted to a wide variety of proteomics plat-forms as the separation step, which reduces the complexity ofthe studied proteome [2,6,7]. In addition to the inherent highresolution (gel IPG-based approach) and dynamic range, com-bining the electrophoretic separation of peptides with MS/MS

J O U R N A L O F P R O T E O M I C S 7 5 ( 2 0 1 2 ) 2 2 6 9 – 2 2 7 4

Abbreviations: FDR, False Discovery Rate; IPG, Immobilized pH Gradient; RMSD, Root-mean-square deviation; SVM, Support VectorMachine.⁎ Corresponding author at: Center for Genetic Engineering and Biotechnology, Apartado 6162, POB 10600, La Habana, Cuba, Fax: +53 1573271 6022.

E-mail address: [email protected] (V. Besada).

1874-3919/$ – see front matter © 2012 Elsevier B.V. All rights reserved.doi:10.1016/j.jprot.2012.01.029

Ava i l ab l e on l i ne a t www.sc i enced i r ec t . com

www.e l sev i e r . com/ loca te / j p ro t

Page 89: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

provides an orthogonal (pI) analysis method for either databasefiltering or validation of the peptide identifications [8] in differ-ent workflows.

Current algorithms for estimating isoelectric points of pep-tides and proteins depends primarily on the model proposedby Bjellqvist and co-workers [1]. This model is based on thedetermination of the pK differences between closely relatedimmobilines, by focusing the same sample in overlappingpH gradients. Some improvements in the methodology (espe-cially in the determination of the pK values) have been pub-lished since [6,9]. As a alternative, Cargile and co-workers [2]has followed another approach: their algorithm accounts forthe effect of adjacent amino acids ±3 residues away from acharged aspartic or glutamic acid, the effects on free C termi-nus, as well as applies a correction term to the correspondingpK values [2]. They also applied genetic optimization methodto a 5000-peptide training set to derive the results, whichhave shown isoelectric point not only depends on individualamino acid, but also on the interactions between differentamino acids present in the peptide sequence. The accuracy

of the new pI values obtained with this method is close tothe error associated with the manufacturer of the IPG strips(±0.03 pI units). However, the algorithm and the adjusted pKvalues were optimized only for the acid pH range (from 3.5to 4.5), where most of peptides are well resolved.

In this manuscript, we introduce a new approach thatimproves the existing methods in the basic pH range (7–14pH units), and can also be used in the acid range (from 3.5to 7). It uses Support Vector Machines (SVM) as predictors,and takes into account both an experimental amino acid de-scriptor from the AAIndex database [4] and the isoelectricpoints predicted by the Bjellqvist model [1].

In recent years, there have been vast interests in studyingSupport Vector Machines (SVMs) approaches in the field ofmachine learning, this is due to their many appealing featuresand promising empirical performances. To date, SVMs havebeen applied successfully to a broad range of regression prob-lems in proteomics, such as identification of protein cleavagesites, amino acid retention time and isoelectric point predic-tion [10–13]. In the case of applying SVMs to the prediction of

Fig. 1 – Matrix correlation of the final features selected to train and tests the model. The top and left axes represent eachproperty. The right gradient represents the correlations from −1 to 1. The matrix cells represent the correlation between a pairof descriptors.

2270 J O U R N A L O F P R O T E O M I C S 7 5 ( 2 0 1 2 ) 2 2 6 9 – 2 2 7 4

Page 90: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

isoelectric point, a concise and meaningful encodings of thepeptide properties are essential. These properties are mainlydetermined by the overall amino acid composition. Then, fromthe set of properties different feature selection algorithms mustbe applied to select the most prominent predictors. Finally,SVMsuse a kernel function to encode distances between individ-ual data points (peptides). The central idea is tomapdata x into ahigher dimensional feature space F via a nonlinearmapping andthen do linear regression in this space [14].

We have adopted the technique used by the ChemAxon(http://www.chemaxon.com) package. Several molecular de-scriptors (such as refractivity index, polarizability, surfacearea, LogP) were carefully studied. In addition, we includedthe physicochemical and biological properties of the aminoacids from the AAIndex database [4]. AAindex is a databaseof numerical indices representing various physicochemicaland biochemical properties of amino acids. For each peptide,all 543 existing descriptors were computed in AAIndex withthe following mathematical expression: PD=(∑AD)/NA , wherethe peptide AAindex descriptor (PD) is the average of all aminoacid AAindex descriptors (AD). We also included the pI valuespredicted with the Bjellqvist [1] and Cargile [2] approaches as apeptide descriptor.

The new SVM based model to predict isoelectric pointwas trained, developed and tested on the peptides from astudy carried out with D. melanogaster Kc167 cells, where anOFFGEL electrophoresis was performed as the first separa-tion step. The peptide samples were then analysed on aLTQ-FT-ICR instrument equipped with a nanoelectrosprayion source (for more details about the study, see Supplemen-tary Information) [8]. For the identification step, X!Tandem[15] and PeptideProphet [16] were used. Identified peptideswere divided in two groups: one group consists of only high-ly reliable peptide identifications, identifications with Pepti-deProphet probability score higher than 0.97 (correspond to0.01 FDR) and another group contains peptide identificationswith PeptideProphet probability lower than 0.97. Peptidescontaining post-translational modifications (PTMs) were notconsidered. Furthermore, the redundant peptide identificationsfor each well were not eliminated in order to prevent overesti-mation in the model.

The first group with 7391 more reliable identifications wasused to train, generate and test the model. After the calcula-tion of all the previously described peptide descriptors, a datareduction step was performed to select the relevant descriptorsthat can describe dependably the property of interest (in thiscase, the pI).

In the first stage, we computed a correlation matrix on thepredictors and then remove the subset of the problematic pre-dictors (more correlated). Consequently, all the descriptorswithpairwise correlations higher than 0.7 were removed (Fig. 1).However, one cluster, represented by five variables (refractivity,polar surface area, wiener index, topological shape, MMFF94energy) was left in intentionally, on the grounds that previ-ous reports have shown the correlation between isoelectricpoint and these molecular properties [10]. Finally, the featureselect algorithm reduces the feature space from 555 to 44descriptors.

The second stage is a feature selection step in combinationwith a SVM algorithm, which were written in R using the caret

package [17]. The 7391 peptides were randomly partitionedinto a training (75%) and test (25%) dataset to construct theSVM model. The feature selection part of the algorithm isbased on simple-recursive backwards method. Let S be a se-quence of ordered numbers which are candidate values forthe number of predictors to retain (S1>S2,…). After each itera-tion of the feature selection, the Si top ranked predictors isretained. In the end, the top Si predictors with the best per-forming Si values are used in the final model. The SVM modelwith a specific kernel function has been applied to evaluatethe selected predictors and to generate the final model.

We have evaluated four different SVMs function kernelswith automated sigma estimation using the kernlab R-package[18]: polynomial, lineal, exponential and radial (Table 1). Thebest results were obtained using the radial function, whichhas shown the Pearson correlation between the experimentaland the theoretical pI valueshigher than (R2=0.98). Furthermore,the RMSD (root-mean-square deviation) was 0.32 units, for thecomplete range of pH. The final model selects only two predic-tors to estimate accurately the isoelectric points of peptides,they are the isoelectric point predicted with the Bjellqvist algo-rithm and the experimental AAindex descriptor from Zimmer-man [19]. The Zimmerman index is related to with the isoelectricpoint of individual amino acids. In contrast with previous re-sults [10], the isoelectric points of peptides are not related tothe polarity, the reactivity or the bulkiness of the molecule.

Our approach does not require huge computing power. Allthe calculations were performed in a standard-spec computer(Intel Core 2 Duo, 2 GB Ram). The time used to compute allpeptide descriptors was 8.56 seconds (s), and the feature se-lection algorithm took 12 s. Training, predicting and generat-ing the final model took 22 min in total.

A direct comparison of the previous developed algorithmsand our SVM based approach is shown in Fig. 2. The overallcorrelation between the experimental and theoretical pI valueswas R2=0.91 (adjacent algorithm), R2=0.96 (charge-state), andR2=0.98 (SVM algorithm). The standard deviation of the SVMmethod decreased to 0.32 pH units compared to 0.37 and 0.38for charge-state and adjacent algorithms, respectively.

In general, small standard deviation in all fractions is ob-served. Particularly, the theoretical and experimental valuesare more correlated in the 3.0–4.0 pH range. This is due thenumber of peptide identifications presents in those fractionsand the fact that the SVM algorithm is an optimization of thecharge-state algorithm (Bjellqvist), by adding an extra experi-mental AAindex descriptor. Similarly, the adjacent algorithm

Table 1 – The 4 kernel functions evaluated with thetraining set. The variable used to select the best kernelwas the RMSD (root-mean-square deviation). (a) Thenumber of variable predictors to generate the model. R2 isthe correlation between the experimental values and thetheoretical.

Kernel function Number of predictorsa RMSD R2

Polynomial 25 0.3387 0.97Lineal 20 0.3866 0.96Exponential 2 0.4 0.96Radial 2 0.32 0.98

2271J O U R N A L O F P R O T E O M I C S 7 5 ( 2 0 1 2 ) 2 2 6 9 – 2 2 7 4

Page 91: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

(Cargile) showed a very good performance in the first fourfractions from the acidic region (on the 3.5–4.5 pH range).This is also the envisaged result as the algorithm was origi-nally trained on 5000 unique tryptic peptides separated on

an 18-cm pI 3.5–4.5 IPG strip. The average of the standard devi-ation for the first five fractions for the SVM model, the charge-state and the adjacent algorithm was 0.26, 0.23 and 0.25respectively.

The results were even better for the last five fractions, themost basic ones (7.65, 7.95, 8.25, 8.55, 9). In these fractionsthe average of the standard deviation (stdv) was 0.20, 0.52,0.32 for the SVM model, the charge-state and the adjacentalgorithm respectively (Fig. 2). The confidence interval (95%of confidence level) is better for the SVM prediction com-pares to the values from the Cargile and Bjellqvist methods.The use of SVM algorithms and machine learning techniquesin general, give the possibility to find a new model to predictthe isoelectric point given some background knowledge (reli-able identifications) from all fractions [20–23]. Another pub-lished dataset was also used to demonstrate that the modelcan predict accurately across diverse dataset and experimentalsettings. We used the PeptideProphet dataset extracted fromthe Heller and cols [7]. The results showed a correlation of0.94 for the generatedmodel comparewith 0.91 from Bjellqvistfunction and standard deviation of 0.37 relative to 0.44 (Sup-plementary Information).

One of the major drawbacks of previously reported algo-rithms is their poor performance in the basic region. This relatesto thenumber of peptide identifications in this region [1,2,7]. Theuse of the SVMalgorithmwithmultiple steps of cross-validationand feature selection improved the pI estimation dramatically,particularly in the basic pH range. When the SVM based algo-rithmwasused (Fig. 2A), even thosewells containing a lownum-ber of identified peptides (at 9.15, 8.85, 8.55, and 8.25 pH units,respectively) presented a low standard deviation (0.37, 0.13,0.27, and 0.12, respectively) in the theoretical pI values. The high-est standard deviation (0.80) was observed in fraction 14 (at 7.6pH units), where only 6 peptides were identified.

The use of isoelectric point as an orthogonal variable tosupport protein and peptide identification has been study re-cently [7,8,24,25]. Cargile and cols reported the theoreticalbasis for a new paradigm for identification. This methodologyemploys the use of accurate mass and peptide isoelectricpoint (pI) as identification criteria, and represents a changein focus from current tandem mass spectrometry-dominatedapproaches [26]. Also our group has previously reported thepossibility of identifying theoretically peptides and proteinsbased on different experimental properties [8]. However, theuse of isoelectric point as complement information to reducethe number of false positive peptide identifications hasn'tbeen extensively exploited so far.

Table 2 shows the relation between the isoelectric pointprediction vs the PeptideProphet probability. The isoelectricpoint range for a fraction is defined as the mean of predictedpI of the fraction ±2 standard deviation (stdev). A previousstudy demonstrated for different search engines that ±2 pIstdev had a stronger effect than ±1 pI stdev [7]. Our resultsshow a low number of peptides (0.2%) with the highest Pepti-deProphet probabilities (1.0) fall outside the predicted range.The opposite effect was found for the peptides with the lowestPeptideProphet probabilities. This means that the isoelectricpoint prediction method can detect the number of possiblefalse positive identifications for each fraction. Heller andcols [7] suggested in a previous study that for identifications

Fig. 2 – Plot of experimental vs theoretical pI for our supportvector machine algorithm (A), Cargile algorithm [2] (B) andcharge-state algorithm from Bjellqvist [1] (C). The x axescorrespond to the experimental isoelectric point range of 3–9(24 fractions).

2272 J O U R N A L O F P R O T E O M I C S 7 5 ( 2 0 1 2 ) 2 2 6 9 – 2 2 7 4

Page 92: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

with high PeptideProphet confidence scores, there are 2.9%false positives when applied the Bjellqvist function as filter.But, when they accounted the retention time additionally,they foundmore than 8.4% false positives [7]. Whenwe appliedthe SVM approach to Heller data, we can detect more than 4.1%false positives for the high confidence identifications, whichthey cannot detect with its isoelectric point prediction alone.

Considering potential errors that can arise in the electropho-resis experimental protocol (focalization time, peptide abun-dance, peptide-peptide interactions, and sample composition,among others). The accuracy of the model allows us to find 44non-redundant peptide identifications as likely false positives,all of which have high PeptideProphet probabilities (probabili-ties: 1, 0.9). Also for low identification probabilities (probabilities:0.8–0.1), the algorithm identified more than 700 peptides in theexperiment with theoretical isoelectric point outside the rangeof its fraction. Therefore, the method described in this manu-script could be used to rank the peptide identifications using or-thogonal information, as suggested by previous studies [8,26].

In conclusion, we combined a SVM approach with only twosimple peptide descriptors to predict the isoelectric point ofidentified peptides, and our results have shown better accura-cy than the existing methods. Furthermore, the ability of cal-culating the pI of peptides to this accurate level is desirablefor peptide pI filtering. We envisage that the same approachcould also be applied to predict the effect of posttranslationalmodifications. The use of SVMs and the approach described inthis work could be useful for these types of analyses.

Supplementary materials related to this article can befound online at doi:10.1016/j.jprot.2012.01.029.

Acknowledgements

The authors would like to thank the INSPUR Company fromChina for its kind donation of the computer cluster TS10000used for all calculations with the tools developed in this man-uscript. JAV is supported by the EU FP7 grants LipidomicNet[grant number 202272] and ProteomeXchange [grant number260558].

R E F E R E N C E S

[1] Bjellqvist B, Hughes GJ, Pasquali C, Paquet N, Ravier F,Sanchez JC, et al. The focusing positions of polypeptides inimmobilized pH gradients can be predicted from their aminoacid sequences. Electrophoresis 1993;14:1023–31.

[2] Cargile BJ, Sevinsky JR, Essader AS, Eu JP, Stephenson Jr JL.Calculation of the isoelectric point of tryptic peptides in thepH 3.5–4.5 range based on adjacent amino acid effects. Elec-trophoresis 2008;29:2768–78.

[3] Vapnik V. The nature of statistical learning theory. Springer-Verlag New York, Inc.; 1995

[4] Kawashima S, Pokarowski P, Pokarowska M, Kolinski A,Katayama T, Kanehisa M. AAindex: amino acid index data-base, progress report 2008. Nucleic Acids Res 2008;36:D202–5.

[5] Righetti PG. Determination of the isoelectric point of proteinsby capillary isoelectric focusing. J Chromatogr A 2004;1037:491–9.

[6] Gauci S, van Breukelen B, Lemeer SM, Krijgsveld J, Heck AJ.A versatile peptide pI calculator for phosphorylated and N-terminal acetylated peptides experimentally tested usingpeptide isoelectric focusing. Proteomics 2008;8:4898–906.

[7] Heller M, Ye M, Michel PE, Morier P, Stalder D, Junger MA,et al. Added value for tandem mass spectrometry shotgunproteomics data validation through isoelectric focusing ofpeptides. J Proteome Res 2005;4:2273–82.

[8] Perez-Riverol Y, Sanchez A, Ramos Y, Schmidt A, Muller M,Betancourt L, et al. In silico analysis of accurate proteomics,complemented by selective isolation of peptides. J Proteomics2011;74:2071–82.

[9] Gasteiger E, Gattiker A, Hoogland C, Ivanyi I, Appel RD,Bairoch A. ExPASy: the proteomics server for in-depth proteinknowledge and analysis. Nucleic Acids Res 2003;31:3784–8.

[10] Liu HX, Zhang RS, Yao XJ, Liu MC, Hu ZD, Fan BT. Prediction ofthe isoelectric point of an amino acid based on GA-PLS andSVMs. J Chem Inf Comput Sci 2004;44:161–7.

[11] Tian F, Yang L, Lv F, Zhou P. Predicting liquid chromato-graphic retention times of peptides from the Drosophila mela-nogaster proteome by machine learning approaches. AnalChim Acta 2009;644:10–6.

[12] Supek F, Peharec P, Krsnik-Rasol M, Smuc T. Enhanced ana-lytical power of SDS-PAGE using machine learning algorithms.Proteomics 2008;8:28–31.

[13] Lo SL, Cai CZ, Chen YZ, Chung MC. Effect of training datasetson support vector machine prediction of protein–proteininteractions. Proteomics 2005;5:876–84.

[14] Burges CJC. A tutorial on support vector machines for patternrecognition. Data Min Knowl Discov 1998;2:121–67.

[15] Craig R, Beavis RC. TANDEM: matching proteins with tandemmass spectra. Bioinformatics 2004;20:1466–7.

[16] Keller A, Nesvizhskii AI, Kolker E, Aebersold R. Empiricalstatistical model to estimate the accuracy of peptideidentifications made by MS/MS and database search. AnalChem 2002;74:5383–92.

[17] Kuhn M. Building predictive models in R using the caretpackage. J Stat Softw 2008;28:1–26.

[18] Karatzoglou A, Feinerer I. Kernel-based machine learning forfast text mining in {R}. Comput Stat Data Anal 2009.

[19] Zimmerman JM, Eliezer N, Simha R. The characterization ofamino acid sequences in proteins by statistical methods. JTheor Biol 1968;21:170–201.

Table 2 – The relation between (a) PeptideProphet probability and the (d) percentage of peptide with isoelectric point fallsoutside the predicted range (mean of the fraction ±2 standard deviation) for SVM Model. Non-redundant identificationsrow (e) is the number in almost one fraction that falls outside the predicted range. Column (b) is the number of identifiedpeptides in each probability and (c) the number of non-redundant peptides in each probability. The total number of peptidesoutside the predicted pI was 750 peptides.

Probabilitya 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1

Identified peptidesb 211687 33492 15960 11244 9780 9540 10200 11556 16212 4344Non-redundant peptidesc 16893 2791 1330 937 815 795 850 963 1351 362% peptidesd 0.2 2.6 5.9 6.1 9.3 14.0 16.4 16.8 22.6 31.2Non-redundante 10 34 39 33 45 68 94 113 228 86

2273J O U R N A L O F P R O T E O M I C S 7 5 ( 2 0 1 2 ) 2 2 6 9 – 2 2 7 4

Page 93: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

[20] Yang D, Ramkissoon K, Hamlett E, Giddings MC. High-accuracy peptide mass fingerprinting using peak intensitydata with machine learning. J Proteome Res 2008;7:62–9.

[21] Timm W, Scherbart A, Bocker S, Kohlbacher O, NattkemperTW. Peak intensity prediction inMALDI-TOFmass spectrometry:a machine learning study to support quantitative proteomics.BMC Bioinformatics 2008;9:443.

[22] Larranaga P, Calvo B, Santana R, Bielza C, Galdiano J, Inza I,et al. Machine learning in bioinformatics. Brief Bioinform2006;7:86–112.

[23] Barla A, Jurman G, Riccadonna S, Merler S, Chierici M,Furlanello C. Machine learning methods for predictiveproteomics. Brief Bioinform 2008;9:119–28.

[24] Horth P, Miller CA, Preckel T, Wenz C. Efficient fractionationand improved protein identification by peptide OFFGELelectrophoresis. Mol Cell Proteomics 2006;5:1968–74.

[25] Cargile BJ, Talley DL, Stephenson Jr JL. Immobilized pHgradients as a first dimension in shotgun proteomics andanalysis of the accuracy of pI predictability of peptides.Electrophoresis 2004;25:936–45.

[26] Cargile BJ, Stephenson Jr JL. An alternative to tandem massspectrometry: isoelectric point and accurate mass for theidentification of peptides. Anal Chem 2004;76:267–75.

2274 J O U R N A L O F P R O T E O M I C S 7 5 ( 2 0 1 2 ) 2 2 6 9 – 2 2 7 4

Page 94: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

89

III. Discusión General

En el presente trabajo se desarrollaron tres métodos y cinco programas bioinformáticos

(AAManager, Pride Inspector, SVM R scripts, HI-bone, SIM) para la identificación y validación

de proteínas en mezclas complejas por espectrometría de masas (Figura 8).

Figura 8: Relación de artículos y herramientas bioinformáticas desarrolladas en el presente trabajo. Los

artículos (color rojo) y las herramientas bioinformáticas (color azul) se encuentran agrupados según las

problemáticas resueltas y métodos bioinformáticos propuestos para incrementar el número de

identificaciones en experimentos de proteómica.

El primer método (artículo I y II) consiste en el diseño racional de bases de datos centradas en

péptidos para ser empleadas por los programas de identificación así como la optimización de dos

métodos analíticos de separación de mezclas complejas de péptidos. El estudio in silico de

Análisis In silico de Bases de Datos y Resultados de Proteómica

RH0-RH1-RH2

SDS-Free PAGE

Bases de Datos Centradas en

Péptidos

Punto Isoeléctrico N- Terminal Tiempo de

Retención

Artículo I Artículo II Artículo III, IV, V Artículo II, VIII Artículo I Artículo I, II, III

Métodos de fraccionamiento y aislamiento selectivo de péptidos.

Propiedades químico-físicas de péptidos.

Diseño de nueva metodología de identificación basada en propiedades químico –físicas.

Artículo VII

Artículo I, II, III, IV, V, VII AAManager, PRIDE Inspector

PRIDE Inspector, HI-bone, SIM

SVM R Scripts AAManager AAManager AAManager, PRIDE Inspector

AAManager

Incremento del número de Identificaciones.

Page 95: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

90

diferentes proteomas y de los métodos de aislamiento selectivo de péptidos desarrollados en el

grupo de proteómica del CIGB y de electroforesis en geles de poliacrilamida en ausencia de

dodecil sulfato de sodio (SDS-Free PAGE), permitió el diseño de las bases de datos centradas en

péptidos. El método se aplicó en la caracterización e identificación de dos líneas celulares

humanas (Huh7), (H125) de carcinoma de hígado y cáncer de pulmón, respectivamente. Los

resultados demostraron un aumento del 10% al 20% del número de proteínas identificadas

comparado con los métodos de búsqueda en bases de datos de proteínas.

El segundo método (artículo III, IV, V) se basa en la identificación de péptidos modificados con

isotiocianato de fenilo, empleando la asignación del residuo N- terminal y bases de datos

centradas en péptidos. Con el objetivo de seleccionar péptidos con una fragmentación más

eficiente, mientras se reduce la complejidad de la mezcla compleja de péptidos; el método

selecciona los péptidos modificados con isotiocianato de fenilo y con más de una carga positiva

(la cantidad de residuos de Histidina y Argininas mayor que uno) para su identificación. El

desarrollo de un programa computacional (N-terminal) para la interpretación e identificación de

péptidos modificados con isotiocianato de fenilo posibilitó la aplicación del método en

experimentos de proteómica de alto flujo. Dos programas bioinformáticos HI-bone (artículo IV)

y SIM (artículo V) de identificación de proteínas fueron desarrollados para optimizar los

resultados obtenidos con el programa NTerminal. La cantidad de espectros y proteínas

identificadas con los programas HI-bone y SIM fueron superiores a los alcanzados con los

programas comerciales de identificación Mascot y SEQUEST. Además, proporcionaron un

novedoso y único método de identificación para analizar mezclas complejas de péptidos sobre

los cuales los algoritmos actuales no ofrecen buenos resultados como: péptidos semi-trípticos,

no-trípticos y de pobre fragmentación. El artículo (VI) muestra una herramienta bioinformática

(PRIDE Inspector) desarrollada para el análisis y validación de la calidad los resultados de

experimentos de proteómica que fue empleada en todos los resultados del presente trabajo.

A partir de los resultados de los dos métodos anteriores, se exploraron las bases teóricas y

experimentales de un nuevo método de identificación de péptidos y proteínas empleando

diferentes propiedades químico-físicas y bases de datos centradas en péptidos (artículo VII). El

análisis in silico de seis proteomas y de una muestra compleja de péptidos de D. melanogaster

demostró teóricamente la posibilidad de establecer un tercer método de identificación con el

empleo del punto isoeléctrico, la masa de los péptidos y el aminoácido N- terminal como criterio

de identificación. Los resultados teóricos indican que el número de identificaciones es

significativamente mayor cuando el método se combina con el aislamiento selectivo de péptidos.

Page 96: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

91

Para obtener mejores resultados se optimizó la función de predicción del punto isoeléctrico

empleando máquinas de soporte vectorial y descriptores moleculares (artículo VIII).

III.1 Diseño de bases de datos centradas en péptidos para la identificación de proteínas en

mezclas complejas

Para el diseño de bases de datos centradas en péptidos es necesario el desarrollo de plataformas

bioinformáticas que posibiliten convertir la base de datos de proteínas a bases de datos de

péptidos (Martens et al., 2005c). Los programas computacionales DBtoolkit (Martens et al.,

2005c) y Database on Demand (Reisinger and Martens, 2009) están diseñados para la

generación de bases de datos centras en péptidos N-terminales de proteínas y su uso ha sido

limitado a la generación de este tipo de bases de datos. Para generar las bases de datos centradas

en péptidos de los artículos I, II, III, VII se desarrollaron un conjunto de programas

(AAManager) en lenguaje de programación Perl y Java, empleando las bibliotecas de programas

InSilicoSpectro (Colinge et al., 2006) y BioPerl (Stajich et al., 2002). Este conjunto de

programas permiten entre otras funcionalidades la digestión proteolítica de bases de datos de

secuencias de proteínas, el cálculo de propiedades químico-físicas de péptidos y proteínas (punto

isoeléctrico, tiempo de retención, masa molecular). A diferencia de DBtoolkit y Database on

Demand, AAManager permite la selección de péptidos según la cantidad de aminoácidos, así

como los péptidos cuya propiedad experimental cumpla una condición especificada por el

usuario. De esta forma es posible crear las bases de datos centradas en péptidos según las

siguientes reglas:

R + H = 0: Péptidos que no contienen Arginina o Histidina en sus secuencias.

R + H > 1: Péptidos que contienen más de un residuo de Arginina o Histidina en su

secuencia.

pI > 5.5 : Péptidos cuyo valor de punto isoeléctrico es mayor que 5,5 unidades de pI.

La biblioteca además permite filtrar las bases de datos por taxonomía, eliminar péptidos

redundantes, exportar a ficheros fasta y crear bases de datos señuelo (del inglés, decoy) para la

validación de las identificaciones.

Page 97: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

92

III.1.1 Optimización de método de aislamiento selectivo de péptidos y aplicación de bases

de datos centradas en péptidos. Prueba de concepto en una línea celular humana de

carcinoma de hígado

Los métodos de aislamiento selectivo RH0 y RH2 desarrollados con anterioridad por Betancourt

y cols. (Betancourt et al., 2005) y Sánchez y cols. (Sanchez et al., 2006a) respectivamente,

permiten seleccionar los péptidos según sus estados de carga en la mezcla compleja. Con el

objetivo de determinar la eficiencia de los métodos de aislamiento selectivo existentes y la

posible combinación de uno o varios de ellos en un mismo método analítico se realizó el estudio

in silico de cuatro proteomas (E. coli, S. cerevisiae, M. Musculus, H. sapiens). La tabla 2 muestra

el promedio de péptidos trípticos por proteína y el porcentaje de proteínas que cubren del

proteoma cuando se emplean diferentes métodos de aislamiento selectivo (Tabla 2).

Tabla 2: Análisis in silico de 4 proteomas y estimación de la eficiencia de simplificación de la mezcla

compleja de péptidos empleando diferentes métodos de aislamiento selectivo. a Proteínas totales en base

de datos. b Porcentaje de péptidos trípticos promedio por Proteína. c Porcentaje de numero de proteínas

que se pueden identificar. Las columnas azules son los tres métodos de aislamiento selectivo de péptidos

aplicados independientemente, mientras que la columna verde es el resultado de la aplicación de los tres

métodos en un mismo experimento.

Organismo Proteínas a

Péptidos Trípticos

Promedio. (Total)

Péptidos Promedio. b (Cobertura del Proteomac)

RH0 RH1 RH2 COFRADIC ICAT RRnK RH0-RH1-RH2

E. coli 4343 14 (59207)

4 (91,5)

7 (96,4)

3 (81,3)

3,9 (90,6)

2,1 (76,6)

4,2 (85,1)

14 (99,5)

S. cerevisiae 6554 20 (129665)

9 (93,4)

8 (94,5)

3 (78,5)

3,2 (82,8)

3,6 (86,3)

3,2 (82,8)

20 (99,6)

M. Musculus 16221 24 391968

8 (96,5)

11 (98,7)

5 (90,5)

4,9 (86,3)

4,9 (91,8)

4,9 (86,3)

24 (99,8)

H. sapiens 19551 23 (450692)

8 (93,1)

10 (96,9)

5 (88,9)

5,4 (87,5)

5,3 (91,9)

5,4 (87,5)

23 (99,7)

Promedio - 20.25 (257883)

7,25 (93,6)

9 (96,6)

4 (84,8)

4,2 (87,9)

3,2 (82,9)

4,5 (84,8)

20,25 (99,7)

La combinación de los métodos RH0, RH2 y el grupo de péptidos que no están incluidos en estas

dos fracciones (RH1), permite cubrir más del 99% del proteoma para todos los organismos

analizados. Además, esta combinación de métodos permite la reducción de la complejidad de la

mezcla compleja, pues cada fracción contiene solo 7,25, 9 y 4 péptidos trípticos por proteínas,

respectivamente. Los resultados del análisis in silico muestran la posibilidad de establecer una

técnica analítica que combine los métodos de aislamiento selectivo RH0 y RH2 y el análisis del

Page 98: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

93

grupo de péptidos resultantes RH1, y de esta forma no desechar ninguna fracción de péptidos

durante el análisis. Los resultados obtenidos en el artículo (I) permitieron proponer por primera

vez la combinación de los métodos de aislamiento selectivo: RH0 (Betancourt et al., 2005), RH1

y RH2 (Sanchez et al., 2006a) para separar una mezcla compleja de péptidos en un solo método

analítico. En este método se separan en un mismo flujo de trabajo tres grupos de péptidos según

sus estados de carga:

1) RH0 (R+H=0): Péptidos neutros. No contienen Arginina o Histidina en sus secuencias.

2) RH1 (R+H=1): Péptidos monocargados. Contienen solo un residuo de Arginina o

Histidina en su secuencia.

3) RH2 (R+H>1): Péptidos multicargados. Contienen más de un residuo de Arginina o

Histidina en su secuencia.

Como resultado de la combinación del método RH0 y RH2 se aísla un nuevo grupo de péptidos

nombrado RH1 (R+H=1) complementario a las dos metodologías anteriores RH0 y RH2 como se

demostró en el análisis in silico (Tabla 2).

La aplicación del método analítico (RH0-RH1-RH2) en un extracto soluble de proteínas de una

línea celular humana de carcinoma de hígado (Huh7) permitió la identificación en bases de datos

de proteínas de 680 péptidos con un 1% de falsos positivos correspondientes a 415 proteínas.

Aproximadamente un 22% (92) de las proteínas fueron identificadas exclusivamente en el grupo

RH0, 20% (83) en RH1, 29% (121) en RH2, y el resto de las proteínas 29% (119) en al menos

dos de las tres fracciones (artículo I).

La selectividad del método analítico cuando se emplearon bases de datos de proteínas en la

búsqueda fue de un 98% en todas las fracciones analizadas. Por esta razón, se diseñaron tres

bases de datos centradas en péptidos para ser utilizadas por el programa de identificación

Mascot (Perkins et al., 1999) similar a los estudios previos de aislamiento selectivo (Martens et

al., 2005b, Gevaert et al., 2003, Van Damme et al., 2009a). Cada péptido en las bases de datos

cumple las siguientes restricciones: entre 800 y 3500 Da de valor de masa y máximo 1 corte

incompleto. Además la suma de la cantidad de residuos de Arginina (R) e Histidina (H) cumplen

la regla: para el método RH0 (R+H=0), para RH1 (R+H=1) y para RH2 (R+H>1).

La figura 9 (figura 2 B del artículo I) muestra el incremento en la cantidad de péptidos asignados

cuando se emplean bases de datos centradas en péptidos con respecto a la estrategia tradicional

de bases de datos de proteínas. Con el empleo de bases de datos centradas en péptidos la cantidad

de péptidos identificados aumentó un 32% con respecto a la búsqueda en bases de datos de

proteínas, incrementando un 24% el número de proteínas identificadas. El diseño bioinformático

de bases de datos para cada una de las fracciones (RH0, RH1, RH2) restringe al programa de

Page 99: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

94

búsqueda al explorar solo las secuencias probables en la muestra biológica, lo que reduce la

introducción de falsos positivos en la identificación (problema de distracción) (Yen et al., 2006)

y aumenta la calidad de las identificaciones (Martens et al., 2005b, Gevaert et al., 2003). En

contraste con otros métodos de aislamiento selectivo (COFRADIC – Metionina, ICAT o

COFRADIC-Cisteína) donde las selectividad del método analítico es menor que 90%, el método

RH0-RH1-RH2 posibilita el empleo de bases de datos centradas en péptidos para incrementar la

cantidad de proteínas identificadas en la muestra biológica.

Figura 9: Péptidos y Proteínas identificadas en una línea celular Huh7 de carcinoma de hígado. Cantidad

de proteínas identificadas cuando se emplean bases de datos de proteínas (círculos pequeños) o centradas

en péptidos (círculos grandes), respectivamente. Cantidad de péptidos identificados cuando se emplean

bases de datos de proteínas (círculos pequeños) o centradas en péptidos (círculos grandes),

respectivamente (Figura 2 B del artículo I).

III.1.2 Optimización del método de electroforesis en geles de poliacrilamida en ausencia de

dodecil sulfato de sodio y aplicación de bases de datos centradas en péptidos. Prueba de

concepto en una línea celular humana de cáncer de pulmón SDS-Free PAGE (Ramos et al., 2008) es un método electroforético recientemente propuesto por

Ramos y colaboradores que permite separar los péptidos por su relación carga/masa es la

electroforesis en geles de poliacrilamida en ausencia de dodecil sulfato de sodio. La metodología

incluye un doble fraccionamiento peor electroforesis de proteínas y péptidos. Posterior a la

separación de proteínas por SDS-PAGE y digestión enzimática en gel, los péptidos resultantes se

transfieren y separan en un gel de poliacrilamida en ausencia de dodecil sulfato de sodio y se

fraccionan en función de su relación carga/masa que poseen al pH de la solución tampón de

separación. Seguidamente los péptidos se separan e identifican por LC-MS/MS. Este método

combina tres principios ortogonales de separación, lo que permite un notable incremento en el

número de proteínas identificadas en cada banda del gel (Ramos et al., 2008).

Page 100: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

95

En al menos dos escenarios sería útil disponer de un sistema discontinuo de soluciones tampón

para SDS-Free PAGE que permita la selección y separación de péptidos en un intervalo de pH

ácido:

1) cuando se desee una mayor simplificación de la mezcla de péptidos sin afectar la

cobertura total del proteoma al aislar una zona en particular de péptidos con una

determinada carga/masa.

2) cuando se desea aumentar la capacidad resolutiva en la zona de mayor migración para

identificar péptidos con modificaciones naturales (fosforilación, sulfatación) o con

modificaciones introducidas por el analista (acetilación de grupos aminos primarios) que

desplazan la distribución de pI de los péptidos hacia valores más ácidos.

Mediante el análisis in silico de varios proteomas (E. coli, S. cerevisiae, A. thaliana, D.

melanogaster, M. musculus y H. sapiens), en el artículo II se estudió la distribución de péptidos

por proteínas para diferentes valores de punto isoeléctrico. El punto isoeléctrico se calculó con la

función obtenida por Bjellqvist y colaboradores (Bjellqvist et al., 1993) y la libraría de

programas en Perl (AAManager) basada en InSilicoSpectro (Colinge et al., 2006). Paralelamente

se calculó el número de proteínas que tienen al menos un péptido para cada valor de punto

isoeléctrico y el porcentaje de este número respecto al proteoma total (cobertura del proteoma).

Figura 10: (A) Distribución de cantidad de péptidos por Proteína y (B) Cobertura del Proteoma para

diferentes valores de punto isoeléctrico en el rango de 2-12 unidades de pH. Estudio sobre seis proteomas

anotados en la base de datos UNIPROT versión 4.3 (Información suplementaria II del artículo II).

Arabidopsis thaliana Drosophila melanogaster Escherichia coli

Homo sapiens Mus musculus Saccharomyces serevisiae

(A) (B)

Page 101: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

96

La Figura 10 (información suplementaria II del artículo II) muestra los resultados para los 6

proteomas en el intervalo de pI 2-12. El estudio in silico demostró que cuando se selecciona

como valor de pI 5,5 se produce una simplificación de la complejidad de la muestra de péptidos,

de 21 péptidos por proteínas (todo el intervalo de pI, de 2 a 12) a 9 (promedio para los 6

proteomas). La selección de este grupo de péptidos permite la identificación de más del 90% de

las proteínas que componen los 6 proteomas. Esta cobertura de proteoma se mantiene hasta

valores de pI superiores a 4,5 (información suplementaria II del artículo II). En las gráficas se

señalan con líneas discontinuas azules y rojas la línea de corte para pI 5,5 y 6,8 (valor de corte

experimental obtenido para el sistema discontinuo de soluciones tampón Tris/glicina)

respectivamente.

Figura 11: Péptidos y Proteínas identificadas en una línea celular H125 de cáncer de pulmón. (A) y (B)

cantidad de proteínas identificadas cuando se emplean bases de datos de proteínas o centradas en

péptidos, respectivamente. (C) y (D) cantidad de péptidos identificados cuando se emplean bases de

datos de proteínas o centradas en péptidos, respectivamente.

Como prueba de concepto un extracto de proteínas de una línea celular humana de cáncer de

pulmón (H125) fue analizada empleando el método analítico PAGE en ausencia de SDS,

seleccionando pH 5,5 para sistema discontinuo de soluciones tampón. La cantidad de péptidos y

proteínas identificadas en bases de datos de proteínas fue de 155 y 106, respectivamente. El

análisis de los péptidos identificados empleando la herramienta PRIDE Inspector demostró que

el 95% de los péptidos tienen punto isoeléctrico menor que 5,5. El diseño de una base de datos

centrada en péptidos con puntos isoeléctricos menores o iguales que 5,5 y 1 corte incompleto se

utilizó para realizar la identificación de los espectros de la línea celular H125. La Figura 11

muestra la cantidad de proteínas (A y B) y péptidos (C y D) identificados cuando se emplearon

bases de datos de proteínas (A y C) y bases de datos centradas en péptidos (B y D). Cuando se

Page 102: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

97

emplearon bases de datos centradas en péptidos la cantidad de proteínas identificadas se

incrementó en un 13%, mientras que la cantidad de péptidos incremento en un 23%. Este

aumento de la cantidad de proteínas y péptidos identificados esta en correlación con la

selectividad del método electroforético y la cantidad de proteínas analizadas.

III.2 Identificación de proteínas con el empleo del ion fragmento b1 de los péptidos

multicargados aislados selectivamente y modificados con isotiocianato de fenilo. Prueba de

concepto en mezcla compleja de proteínas de Escherichia coli

La modificación química de péptidos con PITC ha sido utilizada con éxito en la identificación de

proteínas modelos (Brancia et al., 2001). Esta estrategia se basa en la asignación del primer

residuo de la secuencia (N- terminal) del péptido a partir del ión fragmento b1 del espectro

MS/MS. La fragmentación de péptidos modificados con PITC ha sido descrita en condiciones de

baja energía (~10-20 eV) (Summerfield et al., 1997). Esta energía es suficiente para provocar la

ruptura del primer enlace amida y de esta manera obtener el ión fragmento b1. No obstante, con

esta energía es poco probable que se observen otros fragmentos que correspondan a rupturas del

esqueleto carbonado.

En el artículo III se estudiaron mediante ESI-MS/MS las digestiones trípticas de las proteínas

BSA y estreptoquinasa recombinante (rSK) con el objetivo de validar el patrón de fragmentación

que produce la modificación química con PITC descrito por Gaskell y colaboradores (Diego et

al., 2010). La tabla 1 del artículo III muestra la presencia del ion fragmento b1 y yn-1 en todos los

espectros MS/MS de los péptidos trípticos ambas de proteínas.

Aun cuando se puedan identificar péptidos y proteínas empleando la información del extremo N-

terminal, el desarrollo de un método de identificación en experimentos de proteómica de alto

flujo presenta dos retos fundamentales (Wang et al., 2009). Primero, el empleo de un método de

identificación que utilice la modificación química isotiocianato de fenilo (PITC) necesitaba el

desarrollo de una función de puntuación y algoritmo computacional para identificar los péptidos

modificados. La mayoría de los algoritmos de identificación en bases de datos se basan en la

asignación de los iones fragmentos del espectro de masas (Colinge et al., 2003, Craig and

Beavis, 2004, Eng et al., 1994, Perkins et al., 1999). Segundo, la complejidad de la mezcla de

péptidos en experimentos de proteómica disminuye la posibilidad de identificar secuencias

empleando solamente el residuo N- terminal y la masa de los péptidos.

Page 103: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

98

Figura 12: Cantidad de péptidos únicos para los proteomas trípticos de E. coli (Izquierda) y H. Sapiens

(Derecha) para diferentes valores de exactitud de los espectrómetros de masas (50-1 ppm) (Figura 5 del

artículo III:).

El análisis in silico de la Figura 11 (figura 5 del artículo III) muestra la cantidad de péptidos

únicos cuando se combinan la masa del precursor (péptido), el residuo N- terminal y el método

de aislamiento selectivo RH2, para el proteoma de E. coli y H. sapiens. Para el proteoma de E.

coli alrededor del 20% de los péptidos trípticos RH2 son únicos para un valor de exactitud en

masa de 20 ppm. Cuando adicionalmente se considera el residuo N- terminal de cada péptido la

cantidad de péptidos únicos aumenta hasta 45%. Cuando se emplean espectrómetros de mejor

exactitud (5 ppm – Orbitraps) se pueden obtener un 80% de péptidos únicos en la base de datos.

Esta demostración teórica abrió la posibilidad de identificar péptidos en mezclas complejas

empleando solamente péptidos RH2, la masa molecular y el residuo N- terminal en experimentos

de proteómica de alto flujo.

𝐼𝑛 = 𝐼𝑖𝐼𝑚

Ecuación 3

Score = 𝐼𝑛𝑂𝑖

Ecuación 4

Basándonos en el patrón de fragmentación de los péptidos modificados con PITC se propuso una

función de puntuación empleando las ecuaciones 3 y 4 (ecuaciones 2 y 3 del artículo III) que

utilizan la intensidad del fragmento b1 y la masa de los péptidos como criterio de identificación

en bases de datos centradas en péptidos. El programa computacional nombrado NTerminal fue

implementado en Java y emplea bases de datos de secuencias y ficheros de espectros de masas

para realizar la identificación de los péptidos presentes en la muestra. Con el objetivo de validar

el método de identificación propuesto se analizó una mezcla compleja de proteínas citosólicas de

E. coli empleando un espectrómetro QTOF 2. El programa bioinformático NTerminal identificó

151 péptidos correspondiente a 136 proteínas (tabla 3, artículo III). El mismo procedimiento

Page 104: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

99

experimental se realizó sin separar la muestra compleja con el método RH2 y se identificaron

116 péptidos y 107 proteínas. Mientras, que la cantidad de péptidos identificados cuando no se

modifican los péptidos con PITC, ni se aplica el aislamiento selectivo (RH2) es de 69.

III.3 Identificación de proteínas empleando el aminoácido N- terminal e iones fragmentos

en el espectro de masas de los péptidos modificados con isotiocianato de fenilo. Prueba de

concepto en mezcla compleja de proteínas de Escherichia coli

Los resultados del artículo III demostraron la posibilidad de identificar péptidos modificados con

isotiocianato de fenilo en una mezcla compleja. El sistema de puntuación para la identificación

fue validado con una muestra de péptidos no modificados (control negativo) y un estudio in

silico (artículo III, tabla 4). Sin embargo, en la figura 13 se puede observar que existe

información en el espectro de masas (iones fragmentos), además del ion fragmento b1, que

pueden ser empleados por los algoritmos de identificación, (artículo IV, figura 1) y (artículo V,

figura 1 suplementaria).

Figura 13: Representación del espectro de masas del péptido QAQYNFVGASEQLESAHR modificado

con isotiocianato de fenilo, (artículo IV, figura 1) y (artículo V, figura 1 suplementaria).

Dos estrategias de identificación fueron implementadas para emplear todos los iones fragmentos

del espectro de masas además del ion b1. La primera estrategia y herramienta bioinformática se

basa en algoritmos de etiquetas de secuencia (del inglés, sequence tag) (Mortz et al., 1996, Frank

Page 105: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

100

et al., 2005) y patrones de fragmentación (artículo IV). La segunda estrategia y herramienta

bioinformática se basa en la identificación de los iones fragmentos del espectro de masas

empleando los iones fragmentos teóricos de los péptidos en bases de datos (artículo V).

III.3.1 Identificación empleando patrones de fragmentación y etiquetas de secuencia.

Herramienta Bioinformática: HI-bone

En el artículo IV se desarrolló un método de identificación híbrida basado en algoritmos de

búsqueda en bases de datos, secuenciación de novo y patrones de fragmentación. La plataforma

bioinformática demostró la posibilidad de identificar péptidos y proteínas empleando el

fragmento b1, patrones de iones fragmentos que son altamente probables en los péptidos

modificados con isotiocianato de fenilo, etiquetas de secuencia y búsqueda en bases de datos.

Las ecuaciones 5, 6, 7, 8 (ecuaciones 1, 2, 3 y 4 del artículo IV) permitieron definir la función de

puntuación final para la identificación de péptidos en mezclas complejas.

𝑏1𝑆𝑐𝑜𝑟𝑒 = 1𝑂𝑖

Ecuación 5

𝑆𝑐𝑜𝑟𝑒𝑅 = 1𝑂𝑖

Ecuación 6

𝑇𝑎𝑔𝑆𝑐𝑜𝑟𝑒 = ∑ 1𝑂𝑖

𝐴𝑖=0 Ecuación 7

𝐺𝑙𝑜𝑏𝑎𝑙𝑆𝑐𝑜𝑟𝑒 = �(∑ 𝑆𝑐𝑜𝑟𝑒𝑅 ) × 𝑅3𝑅𝑖=0 � + 𝑇𝑎𝑔𝑆𝑐𝑜𝑟𝑒 Ecuación 8

La ecuación 5 permite la identificación del aminoácido N-terminal empleando el ion fragmento

b1 que siempre aparece en los péptidos modificados con isotiocianato de fenilo. Todas las

ecuaciones de puntuación empleadas en el algoritmo se basan en el orden de la intensidad de los

iones fragmentos empleados (Bern et al., 2004) en contraste con otros algoritmos que utilizan la

intensidad de cada ion (Elias et al., 2004, Gibbons et al., 2004).

El empleo de patrones de fragmentación se basa en el estudio bioinformático de los iones

fragmentos que aparecen en los péptidos modificados con isotiocianato de fenilo. Las series yn”

son más probables cuando el residuo N-terminal es el aminoácido Prolina o Glicina. De igual

forma se produce la ruptura del enlace amida adyacente a los aminoácidos Aspártico y

Glutámico. Similares resultados han sido observados por Mann y colaboradores (Michalski et al.,

2012). La ecuación 6 define la contribución de los patrones de fragmentación presente en el

espectro de masas.

Page 106: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

101

El algoritmo de identificación de etiquetas de secuencia analiza todas las señales del espectro de

masas y encuentra una serie de secuencias de dos o tres aminoácidos que expliquen la diferencia

en masas entre dos señales del espectro de masas asignables a cualquiera de los 20 aminoácidos

existentes. En el algoritmo bioinformático el espectro de masas es representado como un grafo

donde cada nodo es una señal del espectro de masas y los vértices son los aminoácidos que

explican la diferencia en masas entre dos nodos. A diferencia de los algoritmos actuales (Tabb et

al., 2003, Sunyaev et al., 2003, Frank and Pevzner, 2005), la función de puntuación de cada

etiqueta de secuencia depende del orden de las intensidades de las señales.

Figura 14: (A) Las curvas ROC comparan el número de identificaciones positivas y el número de

identificaciones falsas positivas para diferentes valores de FDR. en un rango de 0-6%, para las funciones

de puntuación del programa HI-bone (ScoreR, TagScore, GlobalScore). (B) Diagrama de Venn de la

distribución de espectros identificados empleando los programas HI-bone, Mascot, y SEQUEST (Figura 4

artículo IV).

La figura 14-A (figura 4 A del artículo IV) representa la contribución de cada función de

puntuación del algoritmo bioinformático en la asignación de los péptidos modificados con

isotiocianato de fenilo. El GlobalScore de los péptidos asignados permite la identificación de

1614 espectros de una muestra compleja de proteínas de E. coli. La evaluación independiente de

cada función de puntuación similar a los estudios realizados por Tabb y colaboradores con las

funciones de puntuación del programa de identificación DirecTag (Tabb et al., 2008) abren la

Page 107: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

102

posibilidad de combinación de estas funciones a péptidos modificados con isotiocianato de

fenilo.

El diagrama de Venn de la figura 14-B muestra la comparación entre los programas Mascot,

SEQUEST y HI-bone en la identificación de péptidos modificados con isotiocianato de fenilo. De

los 1614 espectros asignados por el programa bioinformático HI-bone, 393 son identificados

únicamente por este método. Mientras que los programas Mascot y SEQUEST identifican

respectivamente el 2% y 3% de las asignaciones. El solapamiento entre las identificaciones de

los programas Mascot y SEQUEST coinciden con resultados previos obtenidos por Balgley y

colaboradores (Balgley et al., 2007). Los péptidos identificados por el programa HI-bone

resultaron en 100 proteínas más comparadas con los programas SEQUEST y Mascot.

Para realizar el análisis de la calidad de los experimentos de proteómica se desarrolló y empleó

una plataforma bioinformática llamada PRIDE Inspector (artículo VI). El propósito fundamental

de esta herramienta es el análisis y validación de los experimentos de proteómica almacenados

en el repositorio de proteómica PRIDE (Vizcaino et al., 2012) pero puede ser empleada en el

análisis de los resultados de proteómica. La figura 2 del artículo VI muestra los diferentes

gráficos y vistas de la información del experimento. La vista de proteínas “Proteins” muestra

todas las proteínas identificadas, así como sus características (secuencia, valor de la función de

puntuación, punto isoeléctrico, cantidad de péptidos por proteínas). La vista de péptidos

“Peptides” y espectros de masas “Spectrums & Cromatograms” muestran las propiedades de los

péptidos identificados y de los espectros de masas obtenidos durante el experimento LC-MS/MS.

La vista de gráficos “Summary Charts” muestra diferentes gráficos de evaluación de la calidad

del experimento de proteómica.

La plataforma bioinformática PRIDE Inspector permitió analizar diferentes formatos de ficheros

de espectros de masas y resultados de identificación con el empleo de la libraría jmzReader

(Griss et al., 2012) y jmzidml (Reisinger et al., 2012), respectivamente. La estimación de punto

isoeléctrico de las proteínas y péptidos identificados en PRIDE Inspector permitió evaluar y

analizar la calidad de las asignaciones (Heller et al., 2005, Horth et al., 2006). La visualización y

análisis de los espectros de masas y de los patrones de fragmentación del artículo VI fueron

realizados con la plataforma PRIDE Inspector.

III.3.2 Identificación empleando iones fragmentos teóricos. Herramienta Bioinformática:

SIM

En el artículo V se implementó un método de búsqueda en bases de datos para complementar el

espacio de soluciones (péptidos identificados) que no cubre el programa bioinformático HI-bone

Page 108: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

103

(artículo IV). El algoritmo bioinformático propuesto se basa en la identificación del residuo N-

terminal y el acoplamiento entre el espectro teórico del péptido en la base de datos y el espectro

experimental bajo estudio.

Una vez obtenida la lista de péptidos candidatos en la base de datos, se predicen los espectros

teóricos a partir de secuencias contenidas en un banco de datos. Con el objetivo de determinar

los iones fragmentos del espectro teórico se predicen los picos isotópicos teniendo en cuenta las

perdidas neutras. Finalmente la función de puntuación está determinada por el producto de todos

los iones fragmentos similares del espectro teórico y el experimental. La herramienta

bioinformática SIM (del inglés, Spectrum Identification Machine) fue desarrollada y estudiada

para la identificación de péptidos modificados con isotiocianato de fenilo y sin modificar.

La figura 1 del artículo V demuestra que cuando se emplea la combinación de la función de

puntuación e identificación del N- terminal (With PITC logic) en combinación con la función de

búsqueda en bases de datos se identifican 326 espectros más que cuando se emplea solamente la

función de búsqueda en bases de datos para péptidos modificados con isotiocianato de fenilo. La

diferencia es aún mayor cuando se incrementa el espacio de búsqueda a péptidos semi-trípticos

(381) y no-trípticos (1600). La sensibilidad de las herramientas de búsqueda en bases de datos

disminuye con el tamaño de las bases de datos (Yen et al., 2006). SIM permite una mejor

sensibilidad (mayor cantidad de péptidos y proteínas identificadas) con la misma especificidad

(1% FDR) cuando se explora el espacio de búsqueda semi-tríptico y no-tríptico lo que permitirá

un mejor análisis en experimentos de proteómica como los estudios de venenos de serpientes

(Tashima et al., 2012), o estudios de meta-proteómica (Muth et al., 2013).

La comparación de los resultados de la herramienta bioinformática SIM con los programas de

búsqueda en bases de datos Mascot y SEQUEST empleando los datos experimentales de los

artículos V y VI muestran la superioridad en sensibilidad de este método (Figura 15). La

cantidad de espectros identificados con el programa Mascot y SEQUEST fue de 1185 y 1099,

respectivamente (Figura 14-B), mientras que el programa SIM permitió asignar a secuencia más

de 1246 espectros de masas.

El número de espectros identificados es mayor cuando se emplea el programa HI-bone

comparado con los programas de búsqueda en bases de datos (SIM, SEQUEST, Mascot). De

igual forma, las identificaciones realizadas únicamente por el programa HI-bone son seis veces

mayores que los identificados con las otras aplicaciones bioinformáticas. El empleo de tres

estrategias de identificación: etiquetas de secuencia (Tabb et al., 2003, Sunyaev et al., 2003,

Frank and Pevzner, 2005, Tabb et al., 2008), patrones de fragmentación, identificación en bases

de datos empleando el residuo N- terminal propuesto en el artículo III, convierten a HI-bone en

Page 109: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

104

el algoritmo más eficiente para el análisis de los péptidos modificados con isotiocianato de

fenilo. La combinación de los resultados de HI-bone y SIM con lógica de PITC permite

identificar 1754 espectros de masas, mientras que la cantidad de identificaciones compartidas

entre HI-bone y SIM fue de 1106.

Figura 15: Diagrama de Venn de los espectros identificados de una mezcla compleja de péptidos

modificados con isotiocianato de fenilo, empleando cuatro diferentes programas de identificación: HI-

bone (1614 identificaciones), SEQUEST (1099 identificaciones), Mascot (1185 identificaciones) y SIM

con la lógica de PITC (1246 identificaciones).

El número de proteínas identificadas por el programa SIM fue 434, lo que representa un aumento

de más de 10 proteínas comparados con los programas SEQUEST (421) y Mascot (418) (tabla 1

artículo IV). Cuando se combinaron las proteínas identificadas por los dos programas

bioinformáticos desarrollados en este trabajo (SIM y HI-bone) la cantidad de proteínas

identificadas se incrementó hasta 551, más de un 30% de las proteínas identificadas con los

programas SEQUEST y Mascot. La combinación de varias estrategias de identificación y

programas bioinformáticos permiten no solo incrementar el número de proteínas identificadas

sino que también la validación de las identificaciones puesto que por cada proteína se incrementa

además el número de espectros y péptidos identificados (Searle et al., 2008, Kwon et al., 2011).

Un mayor número de proteínas identificadas y de péptidos por proteínas implica la obtención de

mejores resultados en la cuantificación y caracterización de la muestra biológica bajo estudio.

Page 110: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

105

III.4 Identificación de proteínas empleando métodos de aislamiento selectivo de péptidos en

combinación con propiedades químico-físicas de los péptidos. Prueba de concepto en

experimento de proteómica sobre mezcla compleja de proteínas de Drosophila melanogaster

Los artículos I y II demostraron la posibilidad de emplear bases de datos de péptidos para reducir

la complejidad de la muestra de péptidos durante la etapa de identificación de proteínas.

Adicionalmente, los resultados de los artículos III, IV, V demostraron la posibilidad de

identificar péptidos y proteínas empleando el residuo N- terminal, la masa molecular de los

péptidos, así como bases de datos de péptidos en experimentos de proteómica. Pero en la

actualidad en un experimento de proteómica además del espectro MS/MS y de la masa de los

péptidos, se obtienen el punto isoeléctrico, el tiempo de retención y otras propiedades químico

físicas que no han sido de manera integrada empleadas por ningún método de identificación, ni

programa computacional. Empleando este conocimiento se realizó un estudio in silico y

experimento de proteómica para evaluar la posibilidad de desarrollar un nuevo método para

identificar péptidos y proteínas empleando el residuo N- terminal, la masa, el punto isoeléctrico,

el tiempo de retención en combinación con los métodos de aislamiento selectivo.

La masa de los péptidos es el primer criterio que emplean los programas de búsqueda para la

identificación de péptidos en bases de datos. La figura 1 del artículo VII muestra la cantidad de

péptidos únicos (A) y cobertura del proteoma (B) teniendo únicamente como criterio de

identificación la masa de los péptidos; para un rango de exactitud en masa (diferentes

espectrómetros de masas) de 0,5 – 10 ppm. Para un proteoma relativamente simple como E. coli

(4300 proteínas) el número de péptidos únicos aumenta nueve veces al incrementar la exactitud

de 10 ppm a 1 ppm. Empleando 5 ppm de exactitud (Orbitrap) para los proteomas menos

complejos (E. coli, C. elegans, S. cerevisiae) se puede obtener una cobertura de más del 40%,

mientras que para proteomas más complejos como H. sapiens la cobertura del proteoma es

menor de 20%. Es por ello que los programas de búsqueda necesitan la información contenida

en el espectro MS/MS.

Page 111: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

106

Figura 16: Efecto de la combinación de diferentes propiedades químico-físicas en combinación con los

métodos de aislamiento selectivo de péptidos en el porciento de péptidos únicos y cobertura del proteoma

para valor de exactitud de masa 10 ppm y error de punto isoeléctrico 0.2. (A) y (B): Porciento de péptidos

únicos y cobertura del proteoma de E. coli. (C) y (D): Porciento de péptidos únicos y cobertura del

proteoma de H. sapiens (Figura 3 del artículo VI).

La figura 16 (figura 3 del artículo VII) muestra la cantidad de péptidos únicos cuando se emplean

diferentes propiedades químico-físicas de los péptidos en la mezcla compleja (masa, punto

isoeléctrico, N- terminal, tiempo de retención y los métodos de aislamiento selectivo) a valores

de exactitud de 10 ppm para la masa, 0.2 unidades de pI y 2 minutos de Rt. Cuando se emplea la

masa de los péptidos, el residuo N- terminal (nTerm), el método de aislamiento selectivo RH2 se

obtiene para E. coli (figura 16-A) más del 40% de péptidos únicos y un 90% de cobertura del

proteoma. Adicionando el tiempo punto isoeléctrico y el tiempo de retención a la combinación

Page 112: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

107

anterior se puede obtener un 80% de péptidos únicos y casi el 100% de cobertura del proteoma

de E. coli. Mientras que esta misma combinación mass-pI-nTerm-Rt y el método de aislamiento

selectivo RH1 en el proteoma de H. sapiens se obtuvo un 60% de péptidos únicos y una

cobertura de proteoma de 95%.

Cargile y colaboradores (Cargile et al., 2004, Cargile and Stephenson, 2004) estudiaron con

anterioridad la posibilidad teórica de identificar péptidos y proteínas empleando solamente la

masa, el tiempo de retención y el punto isoeléctrico. Los resultados demostraban que era posible

la identificación de péptidos y proteínas para proteomas simples como E. coli, pero cuando la

complejidad de la muestra de péptidos crecía, el método era poco eficiente. La figura 3 del

artículo VII demostró que empleando métodos de aislamiento selectivo para reducir la

complejidad de la muestra de péptidos y el empleo del residuo N- terminal permitiría identificar

casi el 90% del proteoma para H. sapiens. Teóricamente, el método analítico que más proteínas y

péptidos permite identificar es aquel que combina la modificación química de la mezcla de

péptidos con PITC, la separación de la mezcla de péptidos en diferentes fracciones empleando

una técnica electroforética y finalmente la separación de estas fracciones en los tres grupos de

cargas empleando el método de aislamiento selectivo RH0-RH1-RH2 (Figura 16).

El estudio de una mezcla compleja de péptidos trípticos de D. melanogaster fraccionada

mediante OGE y analizada en un espectrómetro de masas FT-LTQ permitió demostrar

experimentalmente la posibilidad de identificar péptidos y proteínas empleando el punto

isoeléctrico, la masa y el tiempo de retención. Los resultados mostrados en la figura 5 del

artículo VII demuestran que empleando solamente la información de la masa, el punto

isoeléctrico y el tiempo de retención de cada péptido se logran identificar los 25% de los

péptidos analizados en el espectrómetro de masas correspondiente con un 50% de las proteínas

identificables. Cuando se incluye la información del residuo N- terminal se pueden identificar el

80% de los péptidos secuenciados en el espectrómetro de masas correspondiente con el 95% de

las proteínas identificables.

Un componente fundamental en el método de identificación propuesta en el artículo VII basada

en empleo del N- terminal, el punto isoeléctrico, la masa, el tiempo de retención y la utilización

de métodos de aislamiento selectivo de péptidos es la selección de las funciones de puntuación

de estas propiedades químico-físicas. El punto isoeléctrico es la propiedad después del residuo

N- terminal que más incrementa el número de péptidos identificados en la muestra biológica

(figura 5 artículo VII). Con el objetivo de disminuir el error de 0,5 en la estimación del punto

isoeléctrico empleando la función desarrollada por Bjellqvist y colaboradores se desarrolló una

Page 113: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

108

nueva función de cálculo de punto isoeléctrico que permitirá estimar de forma más precisa esta

propiedad químico-física.

III.5 Estimación de punto isoeléctrico de péptidos empleando máquinas de soporte

vectorial y propiedades experimentales de aminoácidos

La información del punto isoeléctrico experimental y el valor teórico del péptido identificado ha

sido empleado recientemente como método de validación de los resultados de espectrometría de

masas (Reiter et al., 2009, Heller et al., 2005). Igualmente, la utilización del punto isoeléctrico

como propiedad químico-física en el método de identificación exige el desarrollo de algoritmos

de estimación que correlacionen con mejor precisión el valor experimental y teórico de esta

propiedad.

En el artículo VIII se desarrolló una nueva función de estimación de punto isoeléctrico basada en

la función propuesta por Bjellqvist y colaboradores (Bjellqvist et al., 1993); máquinas de soporte

vectorial y propiedades experimentales de aminoácidos almacenados en la base de datos

AAIndex (Kawashima et al., 2008). Los métodos de optimización basados en máquinas de

soporte vectorial permitieron explorar un total de 555 variables entre las propiedades de

AAindex y diferentes descriptores moleculares como la polaridad, refractividad y la superficie

molecular. Un total de 7391 péptidos identificados de una mezcla compleja de péptidos de D.

melanogaster fraccionada con OGE y analizada en un espectrómetro de masas FT-LTQ se

emplearon para la optimización de la función de estimación.

En una primera etapa del algoritmo, se eliminaron las variables que están altamente

correlacionadas (figura 1 artículo VIII) para reducir la complejidad computacional y la cantidad

de variables a explorar. La función de estimación final se basa en el algoritmo propuesto por

Bjellqvist y colaboradores, así como el descriptor experimental propuesto por Zimmerman

(Kawashima et al., 2008). La función de cálculo obtenida predice el punto isoeléctrico teórico

con una correlación de 0,98 con el valor experimental.

La figura 17 (figura 2 del artículo VIII) muestra la comparación entre el modelo matemático

desarrollado con las funciones de cálculo de Bjellqvist (Bjellqvist et al., 1993) y Cargile (Cargile

et al., 2008). La función de estimación predice el punto isoeléctrico con una correlación de 0,98,

mientras que las funciones de Bjellqvist y Cargile lo hacen con valores de 0,96 y 0,91,

respectivamente. Mientras que la desviación estándar promedio para todo el intervalo de pH fue

de 0,3 comparada con 0,5 para los otros dos métodos de cálculo. Los resultados obtenidos son

considerablemente mejores en las fracciones básicas donde la desviación estándar promedio fue

de 0,2 comparada con 0,52 y 0,4 para los métodos de Bjellqvist y Cargile, respectivamente. Para

Page 114: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

109

demostrar la independencia entre el

modelo matemático propuesto y los

datos analizados en el experimento de

D. melanogaster y la consistencia del

modelo matemático para diferentes

condiciones experimentales; los datos

generados por Heller y colaboradores

(Heller et al., 2005) fueron analizados.

La correlación del modelo propuesto

fue de 0,94, mientras que para las

funciones de Bjellqvist y Cargile

fueron de 0,91 y 0,85,

respectivamente.

La función de cálculo basada en

máquinas de soporte vectorial y

descriptores químico-físicos se empleó

para determinar la cantidad de

asignaciones falso-positivos e

incrementar la confiabilidad de las

identificaciones reportadas en el

experimento de D. melanogaster. Los

resultados de la tabla 2 del artículo VII

posibilitaron identificar 716 péptidos

fuera del rango de punto isoeléctrico

para la fracción donde fueron

identificados. Para el caso de los

péptidos identificados con una mejor

función de puntuación la función de

cálculo de pI solo determino un 2,7%

de péptidos fuera del rango de pI,

mientras que para las identificaciones

con menor valor de función de

puntuación la estimación se determinó un 20% de péptidos fuera del rango de pI. Por lo tanto el

método de algoritmo bioinformático para el cálculo del punto isoeléctrico obtenido en el artículo

Figura 17: Relación de punto isoeléctrico experimental y el valor teórico estimado con las funciones de Maquinas de Soporte Vectorial (A), de Cargile (B) y de Bjellqvist (C) (figura 2 del artículo VIII).

Page 115: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Discusión General

110

VIII puede emplearse como método ortogonal de eliminación de falsos positivos en los

experimentos de focalización isoeléctrica como ha sido sugerido en estudios anteriores (Cargile

et al., 2004, Krijgsveld et al., 2006, Horth et al., 2006, Heller et al., 2005).

Page 116: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Conclusiones

111

IV. Conclusiones

1. La herramienta bioinformática AAManager permite el estudio y la creación de bases de datos

centradas en péptidos.

2. La herramienta bioinformática PRIDE Inspector soporta todos los formatos estándares de

proteómica y visualiza los espectros de masas, las propiedades químico-físicas y el análisis

estadístico de los resultados.

3. La identificación de proteínas se incrementa cuando se emplean bases de datos centradas en

péptidos en comparación con las bases de datos de proteínas en experimentos de aislamiento

selectivo basados en estado de carga (RH0-RH1-RH2) y el método de fraccionamiento SDS-

Free PAGE en fracción ácida.

4. La masa molecular, el aminoácido N- terminal en combinación con bases de datos centradas

en péptidos permite la identificación de péptidos multicargados (RH2) modificados con

isotiocianato de fenilo en experimentos de proteómica de alto flujo.

5. El número de péptidos identificados con las herramientas HI-bone y SIM es superior a los

obtenidos con los programas Mascot, SEQUEST en el análisis de péptidos modificados con

isotiocianato de fenilo.

6. El análisis in silico de seis proteomas en combinación permitió identificar las bases teóricas

para un nuevo método de identificación basada en la asignación del aminoácido N- terminal,

el punto isoeléctrico, el tiempo de retención y el empleo de bases de datos centradas en

péptidos.

7. La estimación del punto isoeléctrico de péptidos basada en máquinas de soporte vectorial y

descriptores moleculares correlaciona en un 0.98 el valor teórico y experimental de punto

isoeléctrico. La correlación obtenida es superior a los métodos algoritmos establecidos en la

actualidad.

Page 117: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Recomendaciones

112

V. Recomendaciones

1. Desarrollar un componente para exportar los resultados de los programas HI-bone y SIM

en un formato que pueda ser utilizado en experimentos de proteómica cuantitativa.

2. Aplicar la estrategia integrada de proteómica cuantitativa.

Page 118: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Referencias Bibliográficas

113

VI. Referencias Bibliográficas

AEBERSOLD, R. 2011. Editorial: from data to results. Mol Cell Proteomics, 10, E111 014787. AEBERSOLD, R. & MANN, M. 2003. Mass spectrometry-based proteomics. Nature, 422, 198-

207. ALLMER, J. 2011. Algorithms for the de novo sequencing of peptides from tandem mass

spectra. Expert Rev Proteomics, 8, 645-57. ANGEL, T. E., ARYAL, U. K., HENGEL, S. M., BAKER, E. S., KELLY, R. T., ROBINSON,

E. W. & SMITH, R. D. 2012. Mass spectrometry-based proteomics: existing capabilities and future directions. Chem Soc Rev, 41, 3912-28.

APWEILER, R., BAIROCH, A. & WU, C. H. 2004. Protein sequence databases. Curr Opin Chem Biol, 8, 76-80.

BALGLEY, B. M., LAUDEMAN, T., YANG, L., SONG, T. & LEE, C. S. 2007. Comparative evaluation of tandem MS search algorithms using a target-decoy search strategy. Mol Cell Proteomics, 6, 1599-608.

BERN, M., GOLDBERG, D., MCDONALD, W. H. & YATES, J. R., 3RD 2004. Automatic quality assessment of peptide tandem mass spectra. Bioinformatics, 20 Suppl 1, i49-54.

BETANCOURT, L., GIL, J., BESADA, V., GONZALEZ, L. J., FERNANDEZ-DE-COSSIO, J., GARCIA, L., PAJON, R., SANCHEZ, A., ALVAREZ, F. & PADRON, G. 2005. SCAPE: a new tool for the Selective CApture of PEptides in protein identification. J Proteome Res, 4, 491-6.

BJELLQVIST, B., HUGHES, G. J., PASQUALI, C., PAQUET, N., RAVIER, F., SANCHEZ, J. C., FRUTIGER, S. & HOCHSTRASSER, D. 1993. The focusing positions of polypeptides in immobilized pH gradients can be predicted from their amino acid sequences. Electrophoresis, 14, 1023-31.

BRANCIA, F. L., BUTT, A., BEYNON, R. J., HUBBARD, S. J., GASKELL, S. J. & OLIVER, S. G. 2001. A combination of chemical derivatisation and improved bioinformatic tools optimises protein identification for proteomics. Electrophoresis, 22, 552-9.

BROWNE, C. A., BENNETT, H. P. & SOLOMON, S. 1982. The isolation of peptides by high-performance liquid chromatography using predicted elution positions. Anal Biochem, 124, 201-8.

CAGNEY, G., AMIRI, S., PREMAWARADENA, T., LINDO, M. & EMILI, A. 2003. In silico proteome analysis to facilitate proteomics experiments using mass spectrometry. Proteome Sci, 1, 5.

CARGILE, B. J., BUNDY, J. L., FREEMAN, T. W. & STEPHENSON, J. L., JR. 2004. Gel based isoelectric focusing of peptides and the utility of isoelectric point in protein identification. J Proteome Res, 3, 112-9.

CARGILE, B. J., SEVINSKY, J. R., ESSADER, A. S., EU, J. P. & STEPHENSON, J. L., JR. 2008. Calculation of the isoelectric point of tryptic peptides in the pH 3.5-4.5 range based on adjacent amino acid effects. Electrophoresis, 29, 2768-78.

CARGILE, B. J. & STEPHENSON, J. L., JR. 2004. An alternative to tandem mass spectrometry: isoelectric point and accurate mass for the identification of peptides. Anal Chem, 76, 267-75.

CASTELLANOS-SERRA, L. & PAZ-LAGO, D. 2002. Inhibition of unwanted proteolysis during sample preparation: evaluation of its efficiency in challenge experiments. Electrophoresis, 23, 1745-53.

CHELIUS, D. & SHALER, T. A. 2003. Capture of peptides with N-terminal serine and threonine: a sequence-specific chemical method for Peptide mixture simplification. Bioconjug Chem, 14, 205-11.

Page 119: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Referencias Bibliográficas

114

CHERNUSHEVICH, I. V., LOBODA, A. V. & THOMSON, B. A. 2001. An introduction to quadrupole-time-of-flight mass spectrometry. J Mass Spectrom, 36, 849-65.

COLINGE, J. & BENNETT, K. L. 2007. Introduction to computational proteomics. PLoS Comput Biol, 3, e114.

COLINGE, J., MASSELOT, A., CARBONELL, P. & APPEL, R. D. 2006. InSilicoSpectro: an open-source proteomics library. J Proteome Res, 5, 619-24.

COLINGE, J., MASSELOT, A., GIRON, M., DESSINGY, T. & MAGNIN, J. 2003. OLAV: towards high-throughput tandem mass spectrometry data identification. Proteomics, 3, 1454-63.

COOKS, R. G., BUSCH, K. L. & GLISH, G. L. 1983. Mass spectrometry: analytical capabilities and potentials. Science, 222, 273-91.

COTE, R. G., JONES, P., APWEILER, R. & HERMJAKOB, H. 2006. The Ontology Lookup Service, a lightweight cross-platform tool for controlled vocabulary queries. BMC Bioinformatics, 7, 97.

CRAIG, R. & BEAVIS, R. C. 2004. TANDEM: matching proteins with tandem mass spectra. Bioinformatics, 20, 1466-7.

CRAIG, R., CORTENS, J. C., FENYO, D. & BEAVIS, R. C. 2006. Using annotated peptide mass spectrum libraries for protein identification. J Proteome Res, 5, 1843-9.

DANCIK, V., ADDONA, T. A., CLAUSER, K. R., VATH, J. E. & PEVZNER, P. A. 1999. De novo peptide sequencing via tandem mass spectrometry. J Comput Biol, 6, 327-42.

DE HOFFMANN, E. 2007. Mass spectrometry: Principles and applications, Masson. DEUTSCH, E. W., LAM, H. & AEBERSOLD, R. 2008. Data analysis and bioinformatics tools

for tandem mass spectrometry in proteomics. Physiol Genomics, 33, 18-25. DEUTSCH, E. W., MENDOZA, L., SHTEYNBERG, D., FARRAH, T., LAM, H., TASMAN,

N., SUN, Z., NILSSON, E., PRATT, B., PRAZEN, B., ENG, J. K., MARTIN, D. B., NESVIZHSKII, A. I. & AEBERSOLD, R. 2010. A guided tour of the Trans-Proteomic Pipeline. Proteomics, 10, 1150-9.

DIEGO, P. A., BAJRAMI, B., JIANG, H., SHI, Y., GASCON, J. A. & YAO, X. 2010. Site-preferential dissociation of peptides with active chemical modification for improving fragment ion detection. Anal Chem, 82, 23-7.

DOMON, B. & AEBERSOLD, R. 2006. Mass spectrometry and protein analysis. Science, 312, 212-7.

EDWARDS, N. J. 2011. Protein identification from tandem mass spectra by database searching. Methods Mol Biol, 694, 119-38.

EIDHAMMER, I., FLIKKA, K., MARTENS, L. & MIKALSEN, S. O. 2008. Computational Methods for Mass Spectrometry Proteomics, John Wiley & Sons.

EKMAN, R., SILBERRING, J., WESTMAN-BRINKMALM, A. M., KRAJ, A., DESIDERIO, D. M. & NIBBERING, N. M. 2008. Mass Spectrometry: Instrumentation, Interpretation, and Applications, Wiley.

ELIAS, J. E., GIBBONS, F. D., KING, O. D., ROTH, F. P. & GYGI, S. P. 2004. Intensity-based protein identification by machine learning from a library of tandem mass spectra. Nat Biotechnol, 22, 214-9.

ELIAS, J. E., HAAS, W., FAHERTY, B. K. & GYGI, S. P. 2005. Comparative evaluation of mass spectrometry platforms used in large-scale proteomics investigations. Nat Methods, 2, 667-75.

ENG, J. K., MCCORMACK, A. L. & YATES III, J. R. 1994. An approach to correlate tandem mass spectral data of peptides with amino acid sequences in a protein database. Journal of the American Society for Mass Spectrometry, 5, 976-989.

FENN, J. B., MANN, M., MENG, C. K., WONG, S. F. & WHITEHOUSE, C. M. 1989. Electrospray ionization for mass spectrometry of large biomolecules. Science, 246, 64-71.

Page 120: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Referencias Bibliográficas

115

FOETTINGER, A., LEITNER, A. & LINDNER, W. 2005. Solid-phase capture and release of arginine peptides by selective tagging and boronate affinity chromatography. J Chromatogr A, 1079, 187-96.

FRANK, A. & PEVZNER, P. 2005. PepNovo: de novo peptide sequencing via probabilistic network modeling. Anal Chem, 77, 964-73.

FRANK, A., TANNER, S., BAFNA, V. & PEVZNER, P. 2005. Peptide sequence tags for fast database search in mass-spectrometry. J Proteome Res, 4, 1287-95.

FREWEN, B. E., MERRIHEW, G. E., WU, C. C., NOBLE, W. S. & MACCOSS, M. J. 2006. Analysis of peptide MS/MS spectra from large-scale proteomics experiments using spectrum libraries. Anal Chem, 78, 5678-84.

GAUCI, S., VAN BREUKELEN, B., LEMEER, S. M., KRIJGSVELD, J. & HECK, A. J. 2008. A versatile peptide pI calculator for phosphorylated and N-terminal acetylated peptides experimentally tested using peptide isoelectric focusing. Proteomics, 8, 4898-906.

GEER, L. Y., MARKEY, S. P., KOWALAK, J. A., WAGNER, L., XU, M., MAYNARD, D. M., YANG, X., SHI, W. & BRYANT, S. H. 2004. Open mass spectrometry search algorithm. J Proteome Res, 3, 958-64.

GEVAERT, K., GOETHALS, M., MARTENS, L., VAN DAMME, J., STAES, A., THOMAS, G. R. & VANDEKERCKHOVE, J. 2003. Exploring proteomes and analyzing protein processing by mass spectrometric identification of sorted N-terminal peptides. Nat Biotechnol, 21, 566-9.

GEVAERT, K., VAN DAMME, J., GOETHALS, M., THOMAS, G. R., HOORELBEKE, B., DEMOL, H., MARTENS, L., PUYPE, M., STAES, A. & VANDEKERCKHOVE, J. 2002. Chromatographic isolation of methionine-containing peptides for gel-free proteome analysis: identification of more than 800 Escherichia coli proteins. Mol Cell Proteomics, 1, 896-903.

GIBBONS, F. D., ELIAS, J. E., GYGI, S. P. & ROTH, F. P. 2004. SILVER helps assign peptides to tandem mass spectra using intensity-based scoring. J Am Soc Mass Spectrom, 15, 910-2.

GRISS, J., REISINGER, F., HERMJAKOB, H. & VIZCAINO, J. A. 2012. jmzReader: A Java parser library to process and visualize multiple text and XML-based mass spectrometry data formats. Proteomics, 12, 795-8.

GUIOCHON, G. 2006. The limits of the separation power of unidimensional column liquid chromatography. J Chromatogr A, 1126, 6-49.

GUO, D., MANT, C. T., TANEJA, A. K., PARKER, J. M. R. & RODGES, R. S. 1986. Prediction of peptide retention times in reversed-phase high-performance liquid chromatography I. Determination of retention coefficients of amino acid residues of model synthetic peptides. Journal of Chromatography A, 359, 499-518.

GYGI, S. P., RIST, B., GERBER, S. A., TURECEK, F., GELB, M. H. & AEBERSOLD, R. 1999. Quantitative analysis of complex protein mixtures using isotope-coded affinity tags. Nat Biotechnol, 17, 994-9.

HAYES, R. N. & GROSS, M. L. 1990. Collision-induced dissociation. Methods Enzymol, 193, 237-63.

HAYNES, P. A., GYGI, S. P., FIGEYS, D. & AEBERSOLD, R. 1998. Proteome analysis: biological assay or data archive? Electrophoresis, 19, 1862-71.

HELLER, M., MICHEL, P. E., MORIER, P., CRETTAZ, D., WENZ, C., TISSOT, J. D., REYMOND, F. & ROSSIER, J. S. 2005. Two-stage Off-Gel isoelectric focusing: protein followed by peptide fractionation and application to proteome analysis of human plasma. Electrophoresis, 26, 1174-88.

Page 121: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Referencias Bibliográficas

116

HORTH, P., MILLER, C. A., PRECKEL, T. & WENZ, C. 2006. Efficient fractionation and improved protein identification by peptide OFFGEL electrophoresis. Mol Cell Proteomics, 5, 1968-74.

HU, Q., NOLL, R. J., LI, H., MAKAROV, A., HARDMAN, M. & GRAHAM COOKS, R. 2005. The Orbitrap: a new mass spectrometer. J Mass Spectrom, 40, 430-43.

JONES, A. R., EISENACHER, M., MAYER, G., KOHLBACHER, O., SIEPEN, J., HUBBARD, S. J., SELLEY, J. N., SEARLE, B. C., SHOFSTAHL, J., SEYMOUR, S. L., JULIAN, R., BINZ, P. A., DEUTSCH, E. W., HERMJAKOB, H., REISINGER, F., GRISS, J., VIZCAINO, J. A., CHAMBERS, M., PIZARRO, A. & CREASY, D. 2012. The mzIdentML data standard for mass spectrometry-based proteomics results. Mol Cell Proteomics, 11, M111 014381.

KAPP, E. A., SCHUTZ, F., CONNOLLY, L. M., CHAKEL, J. A., MEZA, J. E., MILLER, C. A., FENYO, D., ENG, J. K., ADKINS, J. N., OMENN, G. S. & SIMPSON, R. J. 2005. An evaluation, comparison, and accurate benchmarking of several publicly available MS/MS search algorithms: sensitivity and specificity analysis. Proteomics, 5, 3475-90.

KARAS, M. & HILLENKAMP, F. 1988. Laser desorption ionization of proteins with molecular masses exceeding 10,000 daltons. Anal Chem, 60, 2299-301.

KAWASHIMA, S., POKAROWSKI, P., POKAROWSKA, M., KOLINSKI, A., KATAYAMA, T. & KANEHISA, M. 2008. AAindex: amino acid index database, progress report 2008. Nucleic Acids Res, 36, D202-5.

KELLER, A., NESVIZHSKII, A. I., KOLKER, E. & AEBERSOLD, R. 2002. Empirical statistical model to estimate the accuracy of peptide identifications made by MS/MS and database search. Anal Chem, 74, 5383-92.

KERSEY, P. J., DUARTE, J., WILLIAMS, A., KARAVIDOPOULOU, Y., BIRNEY, E. & APWEILER, R. 2004. The International Protein Index: an integrated database for proteomics experiments. Proteomics, 4, 1985-8.

KIRAGA, J., MACKIEWICZ, P., MACKIEWICZ, D., KOWALCZUK, M., BIECEK, P., POLAK, N., SMOLARCZYK, K., DUDEK, M. R. & CEBRAT, S. 2007. The relationships between the isoelectric point and: length of proteins, taxonomy and ecology of organisms. BMC Genomics, 8, 163.

KLOSE, J. 1975. Protein mapping by combined isoelectric focusing and electrophoresis of mouse tissues. A novel approach to testing for induced point mutations in mammals. Humangenetik, 26, 231-43.

KRIJGSVELD, J., GAUCI, S., DORMEYER, W. & HECK, A. J. 2006. In-gel isoelectric focusing of peptides as a tool for improved protein identification. J Proteome Res, 5, 1721-30.

KROKHIN, O. V. 2006. Sequence-specific retention calculator. Algorithm for peptide retention prediction in ion-pair RP-HPLC: application to 300- and 100-A pore size C18 sorbents. Anal Chem, 78, 7785-95.

KWON, T., CHOI, H., VOGEL, C., NESVIZHSKII, A. I. & MARCOTTE, E. M. 2011. MSblender: A probabilistic approach for integrating peptide identifications from multiple database search engines. J Proteome Res, 10, 2949-58.

LAEMMLI, U. K. 1970. Cleavage of structural proteins during the assembly of the head of bacteriophage T4. Nature, 227, 680-5.

LAM, H. & AEBERSOLD, R. 2011. Building and searching tandem mass (MS/MS) spectral libraries for peptide identification in proteomics. Methods, 54, 424-31.

LAM, H., DEUTSCH, E. W., EDDES, J. S., ENG, J. K., KING, N., STEIN, S. E. & AEBERSOLD, R. 2007. Development and validation of a spectral library searching method for peptide identification from MS/MS. Proteomics, 7, 655-67.

Page 122: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Referencias Bibliográficas

117

LAM, H., DEUTSCH, E. W., EDDES, J. S., ENG, J. K., STEIN, S. E. & AEBERSOLD, R. 2008. Building consensus spectral libraries for peptide identification in proteomics. Nat Methods, 5, 873-5.

LEINONEN, R., DIEZ, F. G., BINNS, D., FLEISCHMANN, W., LOPEZ, R. & APWEILER, R. 2004. UniProt archive. Bioinformatics, 20, 3236-7.

LI, Y., CHI, H., WANG, L. H., WANG, H. P., FU, Y., YUAN, Z. F., LI, S. J., LIU, Y. S., SUN, R. X., ZENG, R. & HE, S. M. 2010. Speeding up tandem mass spectrometry based database searching by peptide and spectrum indexing. Rapid Commun Mass Spectrom, 24, 807-14.

LINK, A. J., ENG, J., SCHIELTZ, D. M., CARMACK, E., MIZE, G. J., MORRIS, D. R., GARVIK, B. M. & YATES, J. R., 3RD 1999. Direct analysis of protein complexes using mass spectrometry. Nat Biotechnol, 17, 676-82.

MA, B. & JOHNSON, R. 2012. De novo sequencing and homology searching. Mol Cell Proteomics, 11, O111 014902.

MA, B., ZHANG, K., HENDRIE, C., LIANG, C., LI, M., DOHERTY-KIRBY, A. & LAJOIE, G. 2003. PEAKS: powerful software for peptide de novo sequencing by tandem mass spectrometry. Rapid Commun Mass Spectrom, 17, 2337-42.

MAGRANE, M. & CONSORTIUM, U. 2011. UniProt Knowledgebase: a hub of integrated protein data. Database (Oxford), 2011, bar009.

MANN, M. & KELLEHER, N. L. 2008. Precision proteomics: the case for high resolution and high mass accuracy. Proc Natl Acad Sci U S A, 105, 18132-8.

MANT, C. T., BURKE, T. W. L., BLACK, J. A. & HODGES, R. S. 1988. Effect of peptide chain length on peptide retention behaviour in reversed-phase chromatogrphy. Journal of Chromatography A, 458, 193-205.

MARCH, R. E. 1997. An Introduction to Quadrupole Ion Trap Mass Spectrometry. Journal of Mass Spectrometry, 32, 351-369.

MARSHALL, A. G., HENDRICKSON, C. L. & JACKSON, G. S. 1998. Fourier transform ion cyclotron resonance mass spectrometry: a primer. Mass Spectrom Rev, 17, 1-35.

MARTENS, L. 2011. Bioinformatics challenges in mass spectrometry-driven proteomics. Methods Mol Biol, 753, 359-71.

MARTENS, L., CHAMBERS, M., STURM, M., KESSNER, D., LEVANDER, F., SHOFSTAHL, J., TANG, W. H., ROMPP, A., NEUMANN, S., PIZARRO, A. D., MONTECCHI-PALAZZI, L., TASMAN, N., COLEMAN, M., REISINGER, F., SOUDA, P., HERMJAKOB, H., BINZ, P. A. & DEUTSCH, E. W. 2011. mzML--a community standard for mass spectrometry data. Mol Cell Proteomics, 10, R110 000133.

MARTENS, L., NESVIZHSKII, A. I., HERMJAKOB, H., ADAMSKI, M., OMENN, G. S., VANDEKERCKHOVE, J. & GEVAERT, K. 2005a. Do we want our data raw? Including binary mass spectrometry data in public proteomics data repositories. Proteomics, 5, 3501-5.

MARTENS, L., VAN DAMME, P., VAN DAMME, J., STAES, A., TIMMERMAN, E., GHESQUIERE, B., THOMAS, G. R., VANDEKERCKHOVE, J. & GEVAERT, K. 2005b. The human platelet proteome mapped by peptide-centric proteomics: a functional protein profile. Proteomics, 5, 3193-204.

MARTENS, L., VANDEKERCKHOVE, J. & GEVAERT, K. 2005c. DBToolkit: processing protein databases for peptide-centric proteomics. Bioinformatics, 21, 3584-5.

MEEK, J. L. 1980. Prediction of peptide retention times in high-pressure liquid chromatography on the basis of amino acid composition. Proc Natl Acad Sci U S A, 77, 1632-6.

MIAO, Q., ZHANG, C. C. & KAST, J. 2012. Chemical proteomics and its impact on the drug discovery process. Expert Rev Proteomics, 9, 281-91.

Page 123: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Referencias Bibliográficas

118

MICHALSKI, A., COX, J. & MANN, M. 2011. More than 100,000 detectable peptide species elute in single shotgun proteomics runs but the majority is inaccessible to data-dependent LC-MS/MS. J Proteome Res, 10, 1785-93.

MICHALSKI, A., NEUHAUSER, N., COX, J. & MANN, M. 2012. A systematic investigation into the nature of tryptic HCD spectra. J Proteome Res, 11, 5479-91.

MORTZ, E., O'CONNOR, P. B., ROEPSTORFF, P., KELLEHER, N. L., WOOD, T. D., MCLAFFERTY, F. W. & MANN, M. 1996. Sequence tag identification of intact proteins by matching tanden mass spectral data against sequence data bases. Proc Natl Acad Sci U S A, 93, 8264-7.

MUTH, T., BENNDORF, D., REICHL, U., RAPP, E. & MARTENS, L. 2013. Searching for a needle in a stack of needles: challenges in metaproteomics data analysis. Mol Biosyst, 9, 578-85.

NAGARAJ, N., WISNIEWSKI, J. R., GEIGER, T., COX, J., KIRCHER, M., KELSO, J., PAABO, S. & MANN, M. 2011. Deep proteome and transcriptome mapping of a human cancer cell line. Mol Syst Biol, 7, 548.

NELSON, D. L. & COX, M. M. 2004. Lehninger Principles of Biochemistry, W. H. Freeman. NESVIZHSKII, A. I. 2007. Protein identification by tandem mass spectrometry and sequence

database searching. Methods Mol Biol, 367, 87-119. NESVIZHSKII, A. I. 2010. A survey of computational methods and error rate estimation

procedures for peptide and protein identification in shotgun proteomics. J Proteomics, 73, 2092-123.

NILSSON, T., MANN, M., AEBERSOLD, R., YATES, J. R., 3RD, BAIROCH, A. & BERGERON, J. J. 2010. Mass spectrometry in high-throughput proteomics: ready for the big time. Nat Methods, 7, 681-5.

O'FARRELL, P. H. 1975. High resolution two-dimensional electrophoresis of proteins. J Biol Chem, 250, 4007-21.

ORNSTEIN, L. 1964. Disc Electrophoresis. I. Background and Theory. Ann N Y Acad Sci, 121, 321-49.

PATRICKIOS, C. S. & YAMASAKI, E. N. 1995. Polypeptide amino acid composition and isoelectric point. II. Comparison between experiment and theory. Anal Biochem, 231, 82-91.

PEDRIOLI, P. G., ENG, J. K., HUBLEY, R., VOGELZANG, M., DEUTSCH, E. W., RAUGHT, B., PRATT, B., NILSSON, E., ANGELETTI, R. H., APWEILER, R., CHEUNG, K., COSTELLO, C. E., HERMJAKOB, H., HUANG, S., JULIAN, R. K., KAPP, E., MCCOMB, M. E., OLIVER, S. G., OMENN, G., PATON, N. W., SIMPSON, R., SMITH, R., TAYLOR, C. F., ZHU, W. & AEBERSOLD, R. 2004. A common open representation of mass spectrometry data and its application to proteomics research. Nat Biotechnol, 22, 1459-66.

PERKINS, D. N., PAPPIN, D. J., CREASY, D. M. & COTTRELL, J. S. 1999. Probability-based protein identification by searching sequence databases using mass spectrometry data. Electrophoresis, 20, 3551-67.

PETRITIS, K., KANGAS, L. J., FERGUSON, P. L., ANDERSON, G. A., PASA-TOLIC, L., LIPTON, M. S., AUBERRY, K. J., STRITTMATTER, E. F., SHEN, Y., ZHAO, R. & SMITH, R. D. 2003. Use of artificial neural networks for the accurate prediction of peptide liquid chromatography elution times in proteome analyses. Anal Chem, 75, 1039-48.

PURCELL, A. W., AGUILAR, M. I. & HEARN, M. T. 1993. High-performance liquid chromatography of amino acids, peptides, and proteins. 123. Dynamics of peptides in reversed-phase high-performance liquid chromatography. Anal Chem, 65, 3038-47.

Page 124: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Referencias Bibliográficas

119

RAMOS, Y., GUTIERREZ, E., MACHADO, Y., SANCHEZ, A., CASTELLANOS-SERRA, L., GONZALEZ, L. J., FERNANDEZ-DE-COSSIO, J., PEREZ-RIVEROL, Y., BETANCOURT, L., GIL, J., PADRON, G. & BESADA, V. 2008. Proteomics based on peptide fractionation by SDS-free PAGE. J Proteome Res, 7, 2427-34.

REISINGER, F., KRISHNA, R., GHALI, F., RIOS, D., HERMJAKOB, H., VIZCAINO, J. A. & JONES, A. R. 2012. jmzIdentML API: A Java interface to the mzIdentML standard for peptide and protein identification data. Proteomics, 12, 790-4.

REISINGER, F. & MARTENS, L. 2009. Database on Demand - an online tool for the custom generation of FASTA-formatted sequence databases. Proteomics, 9, 4421-4.

REITER, L., CLAASSEN, M., SCHRIMPF, S. P., JOVANOVIC, M., SCHMIDT, A., BUHMANN, J. M., HENGARTNER, M. O. & AEBERSOLD, R. 2009. Protein identification false discovery rates for very large proteomics data sets generated by tandem mass spectrometry. Mol Cell Proteomics, 8, 2405-17.

RIBEIRO, J. M. & SILLERO, A. 1990. An algorithm for the computer calculation of the coefficients of a polynomial that allows determination of isoelectric points of proteins and other macromolecules. Comput Biol Med, 20, 235-42.

RIGHETTI, P. G. 2004. Determination of the isoelectric point of proteins by capillary isoelectric focusing. J Chromatogr A, 1037, 491-9.

ROEPSTORFF, P. & FOHLMAN, J. 1984. Proposal for a common nomenclature for sequence ions in mass spectra of peptides. Biomed Mass Spectrom, 11, 601.

ROS, A., FAUPEL, M., MEES, H., OOSTRUM, J., FERRIGNO, R., REYMOND, F., MICHEL, P., ROSSIER, J. S. & GIRAULT, H. H. 2002. Protein purification by Off-Gel electrophoresis. Proteomics, 2, 151-6.

SANCHEZ, A., GONZALEZ, L. J., BETANCOURT, L., GIL, J., BESADA, V., FERNANDEZ-DE-COSSIO, J., RODRIGUEZ-ULLOA, A., MARRERO, K., ALVAREZ, F., FANDO, R. & PADRON, G. 2006a. Selective isolation of multiple positively charged peptides for 2-DE-free quantitative proteomics. Proteomics, 6, 4444-55.

SANCHEZ, A., GONZALEZ, L. J., RAMOS, Y., BETANCOURT, L., GIL, J., BESADA, V., FERNANDEZ-DE-COSSIO, J., ALVAREZ, F. & PADRON, G. 2006b. Selective isolation of lysine-free tryptic peptides delimited by arginine residues: A new tool for proteome analysis. J Proteome Res, 5, 1204-13.

SANTONI, V., MOLLOY, M. & RABILLOUD, T. 2000. Membrane proteins and proteomics: un amour impossible? Electrophoresis, 21, 1054-70.

SASAGAWA, T., OKUYAMA, T. & TELLER, D. C. 1982. Prediction of peptide retention times in reversed-phases high-performance liquid chromatography during linear gradient elution. Journal of Chromatography A, 240, 329-340.

SCHIRLE, M., BANTSCHEFF, M. & KUSTER, B. 2012. Mass spectrometry-based proteomics in preclinical drug discovery. Chem Biol, 19, 72-84.

SEARLE, B. C., TURNER, M. & NESVIZHSKII, A. I. 2008. Improving sensitivity by probabilistically combining results from multiple MS/MS search methodologies. J Proteome Res, 7, 245-53.

SEREDA, T. J., MANT, C. T. & HODGES, R. S. 1995. Selectivity due to conformational differences between helical and non-helical peptides in reversed-phase chromatography. J Chromatogr A, 695, 205-21.

SHIMURA, K., ZHI, W., MATSUMOTO, H. & KASAI, K. 2000. Accuracy in the determination of isoelectric points of some proteins and a peptide by capillary isoelectric focusing: utility of synthetic peptides as isoelectric point markers. Anal Chem, 72, 4747-57.

SILLERO, A. & RIBEIRO, J. M. 1989. Isoelectric points of proteins: theoretical determination. Anal Biochem, 179, 319-25.

Page 125: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Referencias Bibliográficas

120

SIMPSON, R. J., CONNOLLY, L. M., EDDES, J. S., PEREIRA, J. J., MORITZ, R. L. & REID, G. E. 2000. Proteomic analysis of the human colon carcinoma cell line (LIM 1215): development of a membrane protein database. Electrophoresis, 21, 1707-32.

STAJICH, J. E., BLOCK, D., BOULEZ, K., BRENNER, S. E., CHERVITZ, S. A., DAGDIGIAN, C., FUELLEN, G., GILBERT, J. G., KORF, I., LAPP, H., LEHVASLAIHO, H., MATSALLA, C., MUNGALL, C. J., OSBORNE, B. I., POCOCK, M. R., SCHATTNER, P., SENGER, M., STEIN, L. D., STUPKA, E., WILKINSON, M. D. & BIRNEY, E. 2002. The Bioperl toolkit: Perl modules for the life sciences. Genome Res, 12, 1611-8.

SUMMERFIELD, S. G., BOLGAR, M. S. & GASKELL, S. J. 1997. Promotion and Stabilization of b1 ions in Peptide Phenythiocarbamoyl Derivatives: Analogies with Condensed-phase Chemistry. Journal of Mass Spectrometry, 32, 225-231.

SUNYAEV, S., LISKA, A. J., GOLOD, A. & SHEVCHENKO, A. 2003. MultiTag: multiple error-tolerant sequence tag search for the sequence-similarity identification of proteins by mass spectrometry. Anal Chem, 75, 1307-15.

SUZEK, B. E., HUANG, H., MCGARVEY, P., MAZUMDER, R. & WU, C. H. 2007. UniRef: comprehensive and non-redundant UniProt reference clusters. Bioinformatics, 23, 1282-8.

TABB, D. L., MA, Z. Q., MARTIN, D. B., HAM, A. J. & CHAMBERS, M. C. 2008. DirecTag: accurate sequence tags from peptide MS/MS through statistical scoring. J Proteome Res, 7, 3838-46.

TABB, D. L., SARAF, A. & YATES, J. R., 3RD 2003. GutenTag: high-throughput sequence tagging via an empirically derived fragmentation model. Anal Chem, 75, 6415-21.

TANNER, S., SHU, H., FRANK, A., WANG, L. C., ZANDI, E., MUMBY, M., PEVZNER, P. A. & BAFNA, V. 2005. InsPecT: identification of posttranslationally modified peptides from tandem mass spectra. Anal Chem, 77, 4626-39.

TASHIMA, A. K., ZELANIS, A., KITANO, E. S., IANZER, D., MELO, R. L., RIOLI, V., SANT'ANNA, S. S., SCHENBERG, A. C., CAMARGO, A. C. & SERRANO, S. M. 2012. Peptidomics of three Bothrops snake venoms: insights into the molecular diversification of proteomes and peptidomes. Mol Cell Proteomics, 11, 1245-62.

VAN DAMME, P., MAURER-STROH, S., PLASMAN, K., VAN DURME, J., COLAERT, N., TIMMERMAN, E., DE BOCK, P. J., GOETHALS, M., ROUSSEAU, F., SCHYMKOWITZ, J., VANDEKERCKHOVE, J. & GEVAERT, K. 2009a. Analysis of protein processing by N-terminal proteomics reveals novel species-specific substrate determinants of granzyme B orthologs. Mol Cell Proteomics, 8, 258-72.

VAN DAMME, P., VAN DAMME, J., DEMOL, H., STAES, A., VANDEKERCKHOVE, J. & GEVAERT, K. 2009b. A review of COFRADIC techniques targeting protein N-terminal acetylation. BMC Proc, 3 Suppl 6, S6.

VESTAL, M. L. & CAMPBELL, J. M. 2005. Tandem time-of-flight mass spectrometry. Methods Enzymol, 402, 79-108.

VIZCAINO, J. A., COTE, R. G., CSORDAS, A., DIANES, J. A., FABREGAT, A., FOSTER, J. M., GRISS, J., ALPI, E., BIRIM, M., CONTELL, J., O'KELLY, G., SCHOENEGGER, A., OVELLEIRO, D., PEREZ-RIVEROL, Y., REISINGER, F., RIOS, D., WANG, R. & HERMJAKOB, H. 2012. The Proteomics Identifications (PRIDE) database and associated tools: status in 2013. Nucleic Acids Res.

WANG, D., FANG, S. & WOHLHUETER, R. M. 2009. N-terminal derivatization of peptides with isothiocyanate analogues promoting Edman-type cleavage and enhancing sensitivity in electrospray ionization tandem mass spectrometry analysis. Anal Chem, 81, 1893-900.

Page 126: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Referencias Bibliográficas

121

WASHBURN, M. P., WOLTERS, D. & YATES, J. R., 3RD 2001. Large-scale analysis of the yeast proteome by multidimensional protein identification technology. Nat Biotechnol, 19, 242-7.

WILKINS, M. R., GASTEIGER, E., BAIROCH, A., SANCHEZ, J. C., WILLIAMS, K. L., APPEL, R. D. & HOCHSTRASSER, D. F. 1999. Protein identification and analysis tools in the ExPASy server. Methods Mol Biol, 112, 531-52.

WILKINS, M. R., PASQUALI, C., APPEL, R. D., OU, K., GOLAZ, O., SANCHEZ, J. C., YAN, J. X., GOOLEY, A. A., HUGHES, G., HUMPHERY-SMITH, I., WILLIAMS, K. L. & HOCHSTRASSER, D. F. 1996. From proteins to proteomes: large scale protein identification by two-dimensional electrophoresis and amino acid analysis. Biotechnology (N Y), 14, 61-5.

WITZE, E. S., OLD, W. M., RESING, K. A. & AHN, N. G. 2007. Mapping protein post-translational modifications with mass spectrometry. Nat Methods, 4, 798-806.

WOLTERS, D. A., WASHBURN, M. P. & YATES, J. R., 3RD 2001. An automated multidimensional protein identification technology for shotgun proteomics. Anal Chem, 73, 5683-90.

WU, C. C. & MACCOSS, M. J. 2002. Shotgun proteomics: tools for the analysis of complex biological systems. Curr Opin Mol Ther, 4, 242-50.

WYSOCKI, V. H., RESING, K. A., ZHANG, Q. & CHENG, G. 2005. Mass spectrometry of peptides and proteins. Methods, 35, 211-22.

YATES, J. R., 3RD, MORGAN, S. F., GATLIN, C. L., GRIFFIN, P. R. & ENG, J. K. 1998. Method to compare collision-induced dissociation spectra of peptides: potential for library searching and subtractive analysis. Anal Chem, 70, 3557-65.

YATES, J. R., RUSE, C. I. & NAKORCHEVSKY, A. 2009. Proteomics by mass spectrometry: approaches, advances, and applications. Annu Rev Biomed Eng, 11, 49-79.

YEN, C. Y., RUSSELL, S., MENDOZA, A. M., MEYER-ARENDT, K., SUN, S., CIOS, K. J., AHN, N. G. & RESING, K. A. 2006. Improving sensitivity in shotgun proteomics using a peptide-centric database with reduced complexity: protease cleavage and SCX elution rules from data mining of MS/MS spectra. Anal Chem, 78, 1071-84.

ZUBAREV, R. & MANN, M. 2007. On the proper use of mass accuracy in proteomics. Mol Cell Proteomics, 6, 377-81.

Page 127: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Bibliografía del Autor

122

VII. Bibliografía del Autor

VII.1 Publicaciones del autor relacionadas con el tema de tesis

− Lázaro H. Betancourt, Aniel Sánchez, Yasset Pérez, Jorge Fernandez de Cossio, Jeovanis Gil,

Patricia Toledo, Seiji Iguchi, Saburo Aimoto, Luis J. González, Gabriel Padrón, Toshifumi Takao,

Vladimir Besada. Charge state-selective separation of peptides by reversible modification of amino

groups and strong cation-exchange chromatography: Evaluation in proteomic studies using peptide-

centric database searches. Journal of Proteomics. 2011;74: 2210–2213.

− Yassel Ramos, Yairet Garcia, Yasset Perez-Riverol, Alejandro Leyva, Gabriel Padron, Aniel

Sanchez, Lila Castellanos-Serra, Luis J. Gonzalez, Vladimir Besada. Peptide fractionation by acid pH

SDS-free electrophoresis. Electrophoresis. 2011; 32: 1323–1326.

− Yasset Perez-Riverol, Aniel Sanchez, Luis Javier Gonzalez, Jesus Noda, Lazaro Betancourt, Yassel

Ramos, Jeovanis Gil, Roberto Vera, Gabriel Padron and Vladimir Besada. Evaluation of

Phenylthiocarbamoyl-Derivatized Peptides by Electrospray Ionization Mass Spectrometry: Selective

Isolation and Analysis of Modified Multiply Charged Peptides for Liquid Chromatography-Tandem

Mass Spectrometry Experiments. Analytical Chemistry. 2010; 82: 8492–8501.

− Yasset Perez-Riverol, Aniel Sánchez, Jesus Noda, Diogo Borges, Paulo Costa Carvalho, Rui Wang,

Juan Antonio Vizcaíno, Lázaro Betancourt, Yassel Ramos, Gabriel Duarte, Fabio C.S. Nogueira,

Luis J. González, Gabriel Padrón, David L. Tabb, Henning Hermjakob, Gilberto B. Domont,

Vladimir Besada. HI-bone: A scoring system for identifying phenylisothiocyanate-derivatized

peptides based on precursor mass and High Intensity fragment ions. Anal. Chem., 2013, 85 (7), pp

3515–3520

− Yasset Perez-Riverol, Diogo Borges, Fabio C S Nogueira, Gilberto B Domont, Jesus Noda, Felipe

Leprevost, Lazaro H. Betancourt, Felipe M G França, Luis Javier Gonzalez, Valmir C Barbosa,

Vladimir Besada, Aniel Sánchez & Paulo C Carvalho. Effectively addressing complex proteomic

search spaces. Bioinformatics. Accepted. 2013

− Rui Wang, Antonio Fabregat, Daniel Ríos, David Ovelleiro, Joseph M Foster, Richard G Côté,

Johannes Griss, Attila Csordas, Yasset Perez-Riverol, Florian Reisinger, Henning Hermjakob,

Lennart Martens, Juan Antonio Vizcaíno. PRIDE Inspector: a tool to visualize and validate MS

proteomics data. Nature Biotechnology. 2012; 30:135-7.

Page 128: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Bibliografía del Autor

123

− Yasset Perez-Riverol, Aniel Sánchez, Yassel Ramos, Alex Schmidt , Markus Müller, Lázaro

Betancourt, Luis J. González , Roberto Vera , Gabriel Padron , Vladimir Besada. In silico analysis of

accurate proteomics, complemented by selective isolation of peptides. Journal of Proteomics.

2011;74:2071-82.

− Yasset Perez-Riverol, Enrique Audain, Aleli Millan, Yassel Ramos, Aniel Sanchez, Juan Antonio

Vizcaíno, Rui Wang, Markus Müller, Yoan J Machado, Lazaro H Betancourt, Luis J González,

Gabriel Padrón, Vladimir Besada. Isoelectric point optimization using peptide descriptors and support

vector machines. Journal of Proteomics. 2012; 75:2269-74.

VII.2 Presentaciones en eventos científicos relacionadas con el tema de tesis

− Proteomics Based on Peptide Fractionation by SDS-Free PAGE. 8th Siena Meeting, From Genome to

Proteome: Integration and Proteome Completion, Siena, Italy, Septiembre 2008.

− Peptide fractionation by SDS-free PAGE for proteomic studies. 7th HUPO World Congress: the

human disease glycomics/proteomics initiative (HGPI), Amsterdan, Holanda, August 2008.

− In silico analysis of accurate proteomics, complemented by selective isolation of peptides. Statistics

Initiative, Special One-Day Meeting, Cambridge, UK, September 2011.

− The PRoteomics IDEntifications (PRIDE) database facilitates the storing, sharing and reuse of MS

proteomics data. 60th ASMS Conference on Mass Spectrometry and Allied Topics. Vancouver,

Canada, May 2012.

− Selective Isolation of peptides by reversible chemical modification and ion exchange

chromatography. Congreso Biotecnología Habana 2012, CIGB, La Habana, Cuba, Noviembre 2012.

− Isoelectric point optimization using peptide descriptors and support vector machines. Congreso

Biotecnología Habana 2012, CIGB, La Habana, Cuba, Noviembre 2012.

− What’s going on at EBI’s MS proteomics PRIDE database. Congreso Biotecnología Habana 2012,

CIGB, La Habana, Cuba, Noviembre 2012.

Page 129: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Bibliografía del Autor

124

VIII.3 Otras publicaciones del autor

− SCX charge state selective separation of tryptic peptides combined with 2D-RP-HPLC allows for

detailed proteome mapping. Betancourt LH, De Bock PJ, Staes A, Timmerman E, Perez-Riverol Y,

Sanchez A, Besada V, Gonzalez LJ, Vandekerckhove J, Gevaert K. Journal of Proteomics. 2013 Jul

11;91C:164-171. doi: 10.1016/j.jprot.2013.06.033.

− JBioWH: an open-source Java framework for bioinformatics data integration. Vera R, Perez-Riverol

Y, Perez S, Ligeti B, Kertész-Farkas A, Pongor S. Database (Oxford). 2013 Jul 11;2013:bat051. doi:

10.1093/database/bat051. Print 2013.

− Pinpointing differentially expressed domains in complex protein mixtures with the cloud service of

PatternLab for Proteomics. F.V. Leprevost, D.B. Lima,J. Crestani, Y. Perez-Riverol, N. Zanchin,

V.C. Barbosa, P.C. Carvalho. Journal of Proteomics. 2013 Aug 26;89:179-82. doi:

10.1016/j.jprot.2013.06.013.

− Yasset Perez-Riverol, Rui Wang, Henning Hermjakob, Markus Müller, Vladimir Besada, Juan

Antonio Vizcaíno. Open source libraries and frameworks for mass spectrometry based proteomics: A

developer's perspective. Biochim Biophys Acta. 2013 Mar 1. 2013.02.032.

− Yasset Perez-Riverol, Henning Hermjakob, Oliver Kohlbacher, Lennart Martens, David Creasy,

Jürgen Cox, Felipe Leprevost, Baozhen Paul Shan, Violeta I. Pérez-Nueno, Michal Blazejczyk,

Marco Punta, Klemens Vierlinger, Pedro A. Valiente, Kalet Leon, Glay Chinea, Osmany Guirola,

Ricardo Bringas, Gleysin Cabrera, Gerardo Guillen, Gabriel Padron, Luis Javier Gonzalez, Vladimir

Besada. Computational proteomics pitfalls and challenges: HavanaBioinfo 2012 Workshop report.

Journal of Proteomics. 2013 Jan 29.

− Juan Antonio Vizcaíno, Richard G. Côté, Attila Csordas, José A. Dianes, Antonio Fabregat, Joseph

M. Foster, Johannes Griss, Emanuele Alpi, Melih Birim, Javier Contell, Gavin O’Kelly, Andreas

Schoenegger, David Ovelleiro, Yasset Pérez-Riverol, Florian Reisinger, Daniel Ríos, Rui Wang and

Henning Hermjakob. The Proteomics Identifications (PRIDE) database and associated tools: status in

2013. Nucleic Acids Res. 2013 Jan;41(Database issue).

− Yasset Perez-Riverol, Roberto Vera, Yuliet Mazola and Alexis Musacchio. A parallel systematic-

Monte Carlo algorithm for exploring conformational space. Curr Top Med Chem. 2012;

12(16):1790-6.

Page 130: Desarrollo de métodos bioinformáticos para la ... · PDF fileESI Ionización por electronebulización FDR Porciento de identificaciones incorrectas entre todas las identificaciones

Bibliografía del Autor

125

− Richard G. Côté, Johannes Griss, José A. Dianes, Rui Wang, James C. Wright, Henk W.P. van den

Toorn, Bas van Breukelen, Albert J. R. Heck, Niels Hulstaert, Lennart Martens, Florian Reisinger,

Attila Csordas, David Ovelleiro, Yasset Perez-Riverol, Harald Barsnes, Henning Hermjakob and

Juan Antonio Vizcaíno. The PRoteomics IDEntification (PRIDE) Converter 2 Framework: An

Improved Suite of Tools to Facilitate Data Submission to the PRIDE Database and the

ProteomeXchange Consortium. Mol Cell Proteomics. 2012 Dec;11(12):1682-9.

− Aniel Sanchez, Wei Sun, Jie Ma, Lazaro Betancourt, Yasset Perez-Riverol, Jorge Fernandez de-

Cossio, Gabriel Padron, Ying Jiang, Fuchu He, Luis Javier Gonzalez and Vladimir Besada. Selective

isolation of multiply charged peptides: a confident strategy to protein identification using a LTQ mass

spectrometer. Eur J Mass Spectrom. 2012;18(6):505–508.

− Yordanka Masforrol, Jeovanis Gil, Luis Javier González, Yasset Pérez-Riverol, Jorge Fernández-de-

Cossío, Aniel Sánchez, Lázaro Hiram Betancourt, Hilda Elisa Garay, Ania Cabrales, Fernando

Albericio, Hongqian Yang, Roman A. Zubarev, Vladimir Besada, and Osvaldo Reyes Acosta.

Introducing an Asp-Pro linker in the synthesis of random one-bead-one-compound hexapeptide

libraries compatible with ESI-MS analysis. ACS Comb Sci. 2012 Mar 12;14(3):145-9.

− Aniel Sanchez, Wei Sun, Lan Wang, Jie Ma, Lazaro Betancourt, Jeovanis Gil, Yasset Perez-

Riverol, Jorge Fernandez de-Cossio, Gabriel Padron, Ying Jiang, Fuchu He, Luis Javier Gonzalez

and Vladimir Besada. Selective isolation-detection of two different positively charged peptides

groups by strong cation exchange chromatography and matrix-assisted laser desorption/ionization

mass spectrometry: application to proteomics studies. Eur J Mass Spectrom. 2010;16(6):693-702.

− Yassel Ramos, Elain Gutierrez, Yoan Machado, Aniel Sánchez, Lila Castellanos-Serra, Luis J.

González, Jorge Fernández-de-Cossio, Yasset Pérez-Riverol, Lázaro Betancourt, Jeovanis Gil,

Gabriel Padrón and Vladimir Besada. Proteomics based on peptide fractionation by SDS-free PAGE.

J Proteome Res. 2008 Jun;7(6):2427-34.