$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
O fluxo de trabalho descrito acima foi aplicado a um conjunto de dados do MS disponível sobre o repositório de orgulho38,39. O estudo original desenvolveu um método (iMixPro), utilizando o isótopo estável rotulagem de aminoácidos na cultura de pilha (SILAC), para eliminar falsos positivos de afinidade-purificação MS (AP-MS) experimentos38. Em breve, um experimento de AP-MS consiste no uso de anticorpos ligados a grânulos para buscar uma proteína de interesse (isca) e suas interactianos (presas). As proteínas coletadas são então digeridas e preparadas para MS. O método de preparação de amostra e as configurações do instrumento são descritas no estudo original e no repositório do orgulho (PXD004246). Um desafio em tais experiências é a abundância de falsos positivos, nomeadamente de proteínas de ligação para as contas, mas não a isca. Aqui, usamos SILAC para gerar diferentes isótopos entre presas verdadeiras e falsos positivos: são 3 amostras de controle (sem isca) cultivadas em luz médio, 1 amostra expressando a isca cultivada num meio de luz e 1 amostra expressando a isca cultivada em meio pesado processado com os grânulos e posterior análise de espectrometria de massa. Com tal projeto, proteínas não-específica vinculação aos talões terá uma relação de pesados-à-luz de 1:4; Quando verdadeiras presas terá uma proporção de 1:1,38.
Re-analisamos seus AP-MS dados usando o banco de dados OpenProt; as iscas incluíam três proteínas endógenas (PTPN14, JIP3 e IQGAP1), e dois over expressaram proteínas (RAF1 e RNF41). Desde os experimentos usado SILAC, utilizou-se o fluxo de trabalho do Galaxy para quantificação de proteína (S3 de Material complementar, Figura 2). O fluxo de trabalho foi executado usando o inteiro OpenProt banco de dados (OpenProt_all) ou um restrito OpenProt (OpenProt_2pep, incluindo apenas proteínas anteriormente detectadas com um mínimo de dois peptídeos exclusivos).
Quantificação e identificação de proteínas foram bons e podem ser reproduzidos através dos diferentes bancos de dados usados. Como mostrado na Figura 3, a maioria das proteínas identificadas no livro original também foram identificados usando o OpenProt_2pep ou OpenProt_all de banco de dados (uma lista detalhada está disponível em S5 de Material complementar). Este resultado mostra que o pipeline descrito aqui e o OpenProt de bancos de dados são capazes de produzir proteína identificação e quantificação comparável dos atuais procedimentos baseados na40UniProtKB bancos de dados. No entanto, o uso de bancos de dados de OpenProt tem a vantagem de permitir a deteção de romance e proteínas anteriormente indetectáveis, conforme demonstrado neste caso estudar.
11 proteínas bem suportadas (1 Isoform e 10 AltProts), no entanto, atualmente não anotados em bancos de dados, foram identificados através de todos os conjuntos de dados, com peptídeos confiantes, usando o banco de dados OpenProt_2pep (todas as adesões de proteína, juntamente com o número de apoio peptídeos, estão disponíveis em S5 de Material complementar). Este banco de dados permite o uso de um tradicional 1% FDR como o aumento do espaço de busca continua a ser moderado. Estas 11 proteínas não foram identificadas no estudo original, como eles estavam ausentes do banco de dados.
29 novas proteínas (16 isoformas e 13 AltProts) foram descobertas através de todos os conjuntos de dados, com peptídeos confiantes, usando o banco de dados OpenProt_all (todas as adesões de proteína, juntamente com o número de peptídeos de apoio, são S6 de Material complementar disponível em ). Como mostrado na Figura 3, o FDR rigorosa recomendado não afetou as identificações de proteína mais confiantes, embora ele diminuir o número total de proteínas identificadas. Comparativamente ao banco de OpenProt_2pep, um maior número de novas proteínas pode ser confiantemente identificado. Todas estas novas proteínas estão ausentes do banco de dados OpenProt_2pep. Isto ressalta o papel crucial do banco de dados escolhido para proteômica baseada em MS.
Uma nova proteína foi descoberta como um interactiano da proteína RAF1 (IP_637643). Usando o site OpenProt, pode-se ver esta proteína não foram detectada pelo MS nem Ribossoma perfilamento até agora (OpenProt v 1.3). A proteína é 46 aminoácidos longos e só pode dar dois peptídeos exclusivos mediante digestão tryptic. O peptídeo detectado em AP-MS a RAF1 dataset (fração 18) tinha um espectro de boa qualidade, como mostrado na Figura 4e exibido um rácio de pesados-à-luz de 1,09. A proteína é codificada no gene NANOGNBP1 , que é um pseudogene da NANOGNB. A transcrição (ENST00000448444), atualmente anotada como não-codificantes, foi detectada em vários tecidos de acordo com o portal GTEx40. A proteína contém um domínio funcional previsto associado com DNA de ligação (Gene Ontology GO: 0003677)41.

Figura 1 : Escolha para gráfico de análise proteômica do banco de dados. Análises de dados do MS, nomeadamente a escolha do banco de dados, dependem dos objectivos de investigação. Três objectivos comuns são descritos em azul (pipeline de proteomic clássico), verde (busca exaustiva proteomic) e laranja (descoberta proteomic). Cada objectivo depende de um banco de dados apropriado e pipeline. Uma ferramenta de identificação único pode ser utilizada para uma exaustiva e clássica proteomics pipelines. Para o pipeline de descoberta proteomic, recomendamos usar vários mecanismos de identificação. FDRs recomendados são indicados em vermelho, e tamanhos de banco de dados de proteínas são indicados nas caixas cinzentas. Clique aqui para ver uma versão maior desta figura.

Figura 2 : Representação gráfica do fluxo de trabalho do Galaxy usado. Passo a passo representação do fluxo de trabalho análise proteômica usado para re-análise de dados de Eyckerman et al.38. Arquivos de entrada, peptídeo pesquisa e quantificação de proteína são indicadas por caixas de laranja. Caixas azuis correspondem as ferramentas utilizadas e caixas cinzentas correspondem os arquivos de saída gerados. Os motores de busca diferentes (MS-GF + e X! Tandem) são indicados por cores diferentes (respectivamente vermelhas e roxas), bem como as setas indicando sua necessárias entradas e saídas. Caixa verde destaca a ferramenta para gerar uma lista de identificações de proteína. Quando são geradas várias saídas, usada para obter as etapas a jusante é indicada como o mais próximo para a seta. Este fluxo de trabalho está disponível gratuitamente no S2 de Material complementar. O X! Arquivo de configuração de parâmetros em tandem padrão está disponível em S4 de Material complementar. Clique aqui para ver uma versão maior desta figura.

Figura 3 : Comparação de identificação Interagente por isca usando diferentes bancos de dados. Diagramas de Venn de identificações de proteína usando o OpenProt mais confiante do banco de dados (em laranja, comprovativos de mínimos 2 peptídeos originais, OpenProt_2pep) com um 1% FDR, ou o OpenProt todo banco de dados (em azul, OpenProt_all) com um 0.001% FDR, ou conforme relatado o original de papel (em cinza)38. Cada diagrama corresponde a interactianos identificados para a isca mencionado: RAF1, RNF41, PTPN14, JIP3 e IQGAP1. Clique aqui para ver uma versão maior desta figura.

Figura 4 : MS/MS espectro de identificado MDNLWAK(6 de 13) peptídeo da proteína romance IP_637643. Intensidade é relativa (% de 0 a 100). Picos seleccionados são indicadas em vermelho, as anotações de íons de y são no escuro vermelho e b íons as anotações em verde. Extraído do TOPPview software34. Erro de precursor = 2,70 ppm, pontuação de PEP = 0,12. Clique aqui para ver uma versão maior desta figura.
| Termo | Definição | Referência |
| ORF alternativo (AltORF) | não-canônicos ORF atualmente não anotados em anotações do genoma, mas anotados em OpenProt. | 15 |
| Referência ORF (RefORF) | ORF canônico anotado no genoma anotações e OpenProt. | 15 |
| Proteína alternativa (AltProt) | novela proteína codificada por um AltORF, com nenhuma similaridade significativa com um RefProt. Prefixo de adesão: IP_. | 15 |
| Proteína de referência (RefProt) | proteína atualmente anotada em bancos de dados de sequência de proteínas como UniProtKB, Ensembl ou RefSeq NCBI e também em OpenProt. | 15 |
| Isoform romance | novela proteína codificada por um AltORF, com uma semelhança significativa com um RefProt. Prefixo de adesão: II_. | 15 |
| OpenProt_2pep banco de dados | contém a sequência de todos os RefProts e novas proteínas previstas pela OpenProt, já detectado com um mínimo de 2 peptídeos exclusivos. | 15 |
| OpenProt_1pep banco de dados | contém a sequência de todos os RefProts e novas proteínas previstas pela OpenProt, já detectado com um mínimo de 1 único peptídeo. | 15 |
| OpenProt_all banco de dados | contém a sequência de todos os RefProts e novas proteínas previstas por OpenProt. | 15 |
Tabela 1: Definição de termos usados em OpenProt e em todo o protocolo
S1 de Material complementar: galáxia fluxo de trabalho para manipulação de banco de dados. Isto irá anexar as sequências CRAPome e engodo (reversos) no banco de dados de entrada. Saída é um arquivo Fasta. Clique aqui para baixar.
S2 de Material complementar: galáxia fluxo de trabalho para identificação de proteínas. Isto irá identificar as proteínas de um arquivo de dados de espectrometria de massa usando dois motores de busca (MS-GF + e X! Tandem). Cada parâmetro pode ser ajustado como desejado antes de executar o fluxo de trabalho. Clique aqui para baixar.
S3 de Material complementar: galáxia fluxo de trabalho para quantificação de proteína utilizando o isótopo estável rotulagem (SIL). Isto irá identificar e quantificar as proteínas de um arquivo de dados de espectrometria de massa usando dois motores de busca (MS-GF + e X! Tandem). Cada parâmetro pode ser ajustado como desejado antes de executar o fluxo de trabalho. Clique aqui para baixar.
S4 de Material complementar: X! Arquivo de configuração de parâmetros de padrão em tandem. XML este arquivo é necessário para executar o X! Ferramenta de TandemAdapter na plataforma da galáxia. Clique aqui para baixar.
S5 de Material complementar: quantificar proteínas de conjuntos de dados iMixPro. Arquivos de dados de Eyckerman et al. 201638 foram processados usando bancos de dados OpenProt e proteínas quantificadas são listadas para cada condição. As iscas são PTPN14, JIP3, IQGAP1, RAF1 e RNF41. Nomes de gene indicados em verde correspondem às proteínas também identificadas o papel original38. Nomes de gene indicados em laranja correspondem aos interactianos conhecidos de acordo com BioGrid que não foram relatados no livro original. Nomes de gene indicados em azul claro correspondem às novas proteínas identificadas como interactianos (o correspondente número de adesão de proteína é indicado entre parênteses). Nomes de gene indicaram em cinza claro e itálico corresponde aos prováveis contaminantes (proteínas de queratina). Clique aqui para baixar.
S6 de Material complementar: identificou novas proteínas de conjuntos de dados iMixPro. Arquivos de dados de Eyckerman et al. 201638 foram processados usando bancos de dados OpenProt e novas proteínas identificadas são listadas para cada condição. As iscas são PTPN14, JIP3, IQGAP1, RAF1 e RNF41. Números de adesão de proteína são listados, começando com II_ para romance isoformas de uma proteína conhecida e com IP_ para novas proteínas de uma alternativa ORF (AltProt). O número de peptídeos de apoio são indicadas entre parênteses. Clique aqui para baixar.