$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
El flujo de trabajo descrito se aplicó a un conjunto de datos de MS disponible en el repositorio de orgullo38,39. El estudio original desarrolló un método (iMixPro), uso de isótopos estables de etiquetado de aminoácidos en cultura de célula (SILAC), para eliminar los falsos positivos de afinidad-purificación MS (AP-MS) experimentos de38. En Resumen, un experimento AP-MS consiste en utilizar anticuerpos enlazado a los granos para obtener una proteína de interés (cebo) y sus interactianos (presas). Las proteínas recogidas luego son digeridas y preparadas para MS. El método de preparación de la muestra y las opciones están descritas en el estudio original y en el repositorio de orgullo (PXD004246). Un desafío en tales experimentos es la abundancia de falsos positivos, en particular de proteínas vinculantes para los granos pero no el anzuelo. Aquí, utilizamos SILAC generar cocientes del isótopo diferente entre presas verdaderos y falsos positivos: 3 muestras de control (sin cebo) cultivadas en medio ligero, 1 muestra expresando el cebo cultivado en medio luz y 1 muestra expresando el cebo cultivado en medio pesado procesado con las cuentas y posterior análisis de espectrometría de masas. Con tal diseño, proteínas no específicas de enlace a las cuentas tendrá una proporción de pesados a ligeros de 1:4; Cuando verdaderas presas tendrá una relación de 1:138.
Nuevamente analizamos sus datos MS AP usando la base de datos de OpenProt; los cebos incluyeron tres proteínas endógenas (PTPN14, JIP3 y IQGAP1), y dos sobre-expresan proteínas (RAF1 RNF41). Puesto que los experimentos utilizan estándar, se utilizó el flujo de trabajo del Galaxy para la cuantificación de la proteína (Complementario de Material de S3, figura 2). El flujo de trabajo se ejecute usando la base de datos entera de OpenProt (OpenProt_all) o una base de datos restringida de OpenProt (OpenProt_2pep, incluyendo sólo las proteínas detectadas previamente con un mínimo de dos péptidos únicos).
Cuantificación e identificación de proteínas fueron buenos y reproducible a través de las diferentes bases de datos utilizados. Como se muestra en la figura 3, la mayoría proteínas identificadas en el documento original también se identificaron utilizando base de datos OpenProt_2pep o OpenProt_all (una lista detallada está disponible en S5 de Material complementario). Este resultado muestra que la tubería aquí descritos y lo OpenProt son capaces de producir identificación de proteínas y cuantificación comparable a la de los procedimientos actuales basados en el de bases de datos de UniProtKB40bases de datos. Sin embargo, el uso de bases de datos de OpenProt tiene la ventaja de que permiten la detección de novela y proteínas previamente indetectables, como se demuestra en este caso de estudio.
11 bien soportadas proteínas (1 isoforma 10 AltProts), sin embargo, actualmente no está anotados en las bases de datos, se identificaron en todo bases de datos, con péptidos de confianza, utilizando la base de datos de OpenProt_2pep (todos adhesiones de proteína, junto con el número de apoyo péptidos, están disponibles en S5 de Material complementario). Esta base de datos permite el uso del tradicional 1% FDR como el aumento del espacio de búsqueda sigue siendo moderada. Estas 11 proteínas no fueron identificadas en el estudio original como estaban ausentes de la base de datos.
29 nuevas proteínas (16 isoformas y 13 AltProts) fueron descubiertas a través de los conjuntos de datos, con péptidos de confianza, utilizando la base de datos de OpenProt_all (todos adhesiones de proteína, junto con el número de péptidos de apoyo, son S6 de Material suplementario disponible en ). Como se muestra en la figura 3, el FDR estricta recomendada no afectó a las identificaciones más seguros de la proteína, aunque él disminuir el número de proteínas identificadas. Comparativamente a la base de datos de OpenProt_2pep, un mayor número de nuevas proteínas puede ser identificado con toda confianza. Todas estas nuevas proteínas están ausentes de la base de datos de OpenProt_2pep. Esto pone de relieve el papel crucial de la base de datos elegido para proteómica basada en la MS.
Una nueva proteína fue descubierta como un interactor de la proteína de RAF1 (IP_637643). Utilizar el sitio de OpenProt, uno puede ver esta proteína no había sido detectada por MS ni por ribosoma perfilado hasta ahora (OpenProt v1.3). La proteína es de 46 aminoácidos de largo y sólo puede dar dos péptidos únicos sobre la digestión tríptica. El péptido detectado en RAF1 AP-MS dataset (fracción 18) tenía un espectro de buena calidad, como se muestra en la figura 4y muestran una proporción de pesados a ligeros de 1.09. La proteína está codificada en el gen NANOGNBP1 , que es un pseudogene de NANOGNB. La transcripción (ENST00000448444), actualmente anotada como no-codificación, fue detectada en varios tejidos según el portal GTEx40. La proteína contiene un dominio funcional previsto asociado con ADN vinculante (Gene Ontology GO: 0003677)41.

Figura 1 : Elección de tabla de análisis de Proteómica de la base de datos. Análisis de datos de MS, en particular la elección de la base de datos, dependen de los objetivos de la investigación. Tres objetivos comunes están señaladas en azul (proteómico clásico pipeline), verde (búsqueda exhaustiva de Proteómica) y naranja (descubrimiento de Proteómica). Cada objetivo depende de una base de datos adecuado y tubería. Una herramienta de identificación solo puede usarse para un proteómica clásica y exhaustiva las tuberías. Para la tubería de descubrimiento proteómicos, recomendamos encarecidamente utilizar múltiples motores de identificación. FDRs recomendadas se indican en rojo, y tamaños de base de datos de proteínas están indicados en cuadros de gris. Haga clic aquí para ver una versión más grande de esta figura.

Figura 2 : Representación gráfica del flujo de trabajo galaxia usada. Representación paso a paso del flujo de trabajo de análisis proteómicos utilizado para re-análisis de datos de Eyckerman et al38. Archivos de entrada, péptido búsqueda y cuantificación de proteínas están indicados por las cajas de naranja. Cajas azules corresponden a las herramientas utilizadas y cajas grises corresponden a los archivos de salida generados. Los motores de búsqueda (MS-GF + y X! Tándem) se indican mediante colores diferentes (rojos y morados respectivamente) así como las flechas que indican sus necesarias entradas y salidas. La caja verde destaca la herramienta de generación de una lista de identificaciones de la proteína. Cuando se generan varias salidas, la que se utiliza para los pasos posteriores se indica como la más cercana a la flecha. Este flujo de trabajo está disponible en S2 Material complementario. ¡La X! Archivo de configuración de parámetros de tándem predeterminado está disponible en S4 de Material complementario. Haga clic aquí para ver una versión más grande de esta figura.

Figura 3 : Comparación de identificación interactor por cebo utilizando diferentes bases de datos. Diagramas de Venn de identificación de proteínas utilizando la OpenProt más seguro de base de datos (en naranja, evidencias de 2 péptidos únicos mínimos, OpenProt_2pep) con un 1% FDR o el OpenProt toda la base de datos (en azul, OpenProt_all) con un 0,001% FDR, o según en el original del documento (en gris)38. Cada diagrama corresponde a interactianos identificados para el cebo mencionado: RAF1, RNF41, JIP3 y PTPN14, IQGAP1. Haga clic aquí para ver una versión más grande de esta figura.

Figura 4 : Espectro MS/MS de identificado MDNLWAK(6 de 13) péptido de proteína novel IP_637643. La intensidad es relativa (0 a 100%). Las cumbres están indicados en rojo, y anotaciones de los iones están en oscuro rojo y b iones las anotaciones en color verde. Extraído del software de TOPPview34. Precursor Error = 2,70 ppm, cuenta PEP = 0,12. Haga clic aquí para ver una versión más grande de esta figura.
| Plazo | Definición | Referencia |
| Alternativa ORF (AltORF) | ORF no canónico actualmente no está anotado en las anotaciones del genoma, pero anotado en OpenProt. | 15 |
| Referencia ORF (RefORF) | ORF canónico anotado en las anotaciones del genoma y OpenProt. | 15 |
| Proteínas alternativas (AltProt) | nueva proteína codificada por un AltORF, con ninguna semejanza significativa con un RefProt. Prefijo de número de adhesión: IP_. | 15 |
| Proteína de referencia (RefProt) | proteína anotada actualmente en bases de datos de secuencia proteína como UniProtKB, Ensembl o NCBI RefSeq y también en OpenProt. | 15 |
| Isoforma novela | nueva proteína codificada por un AltORF, con una similitud importante con un RefProt. Prefijo de número de adhesión: II_. | 15 |
| OpenProt_2pep la base de datos | contiene la secuencia de todos los RefProts y nuevas proteínas predichas por OpenProt, ya detectado con un mínimo de 2 péptidos únicos. | 15 |
| OpenProt_1pep la base de datos | contiene la secuencia de todos los RefProts y nuevas proteínas predichas por OpenProt, ya detectado con un mínimo de 1 único péptido. | 15 |
| OpenProt_all la base de datos | contiene la secuencia de todas las nuevas proteínas predichas por OpenProt y RefProts. | 15 |
Tabla 1: Definición de términos utilizados en OpenProt y en el protocolo
S1 de Material complementario: flujo de trabajo de galaxia para manejo de base de datos. Esto agregará las secuencias CRAPome y señuelo (inversas) a la base de datos de entrada. Salida es un archivo Fasta. Haga clic aquí para descargar.
S2 Material complementario: flujo de trabajo de galaxia para identificación de proteínas. Esto permitirá identificar proteínas a partir de un fichero de datos de espectrometría de masas con dos motores de búsqueda (MS-GF + y X! Tándem). Cada parámetro se puede ajustar como desee antes de ejecutar el flujo de trabajo. Haga clic aquí para descargar.
S3 Material complementario: flujo de trabajo de galaxia para cuantificación de proteína utilizando isótopos estables etiquetado (SIL). Esto será identificar y cuantificar proteínas a partir de un fichero de datos de espectrometría de masas con dos motores de búsqueda (MS-GF + y X! Tándem). Cada parámetro se puede ajustar como desee antes de ejecutar el flujo de trabajo. Haga clic aquí para descargar.
S4 Material complementario : X! Archivo de configuración de parámetros de defecto de tándem. Este archivo es necesario para el funcionamiento de la X! TandemAdapter herramienta en la plataforma de la galaxia. Haga clic aquí para descargar.
S5 de Material complementario: cuantifican proteínas a partir de conjuntos de datos de iMixPro. Archivos de datos de Eyckerman et al 201638 se procesaron utilizando bases de datos de OpenProt y proteínas cuantificadas se enumeran para cada condición. Los cebos son PTPN14, JIP3, IQGAP1, RAF1 y RNF41. Nombres de gen indicados en verde corresponden a proteínas identificadas también en el papel original38. Nombres de gene indicados en color naranja corresponden a interactianos conocidos según BioGrid que no fueron reportados en el documento original. Nombres de gene indicados en azul claro corresponden a nuevas proteínas identificadas como interactianos (el número correspondiente de la adhesión de proteínas se indica entre corchetes). Nombres de genes indicaron en gris claro y cursiva corresponde a probables contaminantes (proteínas de la queratina). Haga clic aquí para descargar.
S6 de Material complementario: identificar nuevas proteínas de conjuntos de datos de iMixPro. Archivos de datos de Eyckerman et al 201638 se procesaron utilizando bases de datos de OpenProt y nuevas proteínas identificadas se indican para cada condición. Los cebos son PTPN14, JIP3, IQGAP1, RAF1 y RNF41. Proteína de adhesión números aparecen, a partir de II_ para nuevas isoformas de una proteína conocida y con IP_ para nuevas proteínas de un ORF alternativo (AltProt). El número de péptidos de apoyo se indican entre corchetes. Haga clic aquí para descargar.