$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Il flusso di lavoro descritto in precedenza è stato applicato a un oggetto dataset MS disponibile sui repository orgoglio38,39. Lo studio originale ha sviluppato un metodo (iMixPro), mediante marcatura a isotopi stabili di amminoacidi nella coltura delle cellule (SILAC), per eliminare i falsi positivi da MS di purificazione di affinità (AP-MS) esperimenti38. In breve, un esperimento di AP-MS consiste di usando gli anticorpi associati a perline per recuperare una proteina di interesse (esca) e suoi interattori (prede). Le proteine raccolte sono poi digerite e preparate per MS. Il metodo di preparazione del campione e le impostazioni dello strumento sono descritti nello studio originale e sul repository di orgoglio (PXD004246). Una sfida in tali esperimenti è l'abbondanza di falsi positivi, in particolare dalle proteine leganti le perle ma non l'esca. Qui, abbiamo usato SILAC per generare rapporti isotopici diversi tra prede veri e falsi positivi: sono 3 campioni di controllo (nessun esca) coltivati in chiaro e medio, 1 campione esprimendo l'esca coltivata in medium leggero e 1 campione esprimendo l'esca coltivato nel mezzo pesante elaborato con le perline e ulteriori analisi di spettrometria di massa. Con tale disegno, non specifiche proteine leganti ai talloni avrà un pesante-to-light in rapporto di 1:4; Quando vere prede avrà un rapporto di 1:138.
Abbiamo analizzato nuovamente i dati AP-MS utilizzando il database di OpenProt; le esche incluso tre proteine endogene (PTPN14, JIP3 e IQGAP1), e due sovra-espresse proteine (RAF1 e RNF41). Poiché gli esperimenti utilizzato SILAC, il flusso di lavoro di Galaxy per quantificazione della proteina è stato usato (S3 materiale complementare, Figura 2). Il flusso di lavoro è stato eseguito utilizzando l'intero database di OpenProt (OpenProt_all) o un database riservato di OpenProt (OpenProt_2pep, tra cui solo proteine precedentemente rilevati con un minimo di due peptidi unici).
Quantificazione e identificazione delle proteine erano buoni e riproducibili attraverso i diversi database utilizzati. Come mostrato nella Figura 3, la maggior parte delle proteine identificate nel documento originale inoltre sono state identificate usando il OpenProt_2pep o il OpenProt_all database (un elenco dettagliato è disponibile in S5 materiale supplementare). Questo risultato dimostra che la pipeline descritta qui e il OpenProt database sono in grado di produrre la proteina identificazione e quantificazione paragonabile a quella delle attuali procedure basate sul database UniProtKB40. Tuttavia, l'utilizzo di database di OpenProt ha il vantaggio unico di permettendo la rilevazione di romanzo e proteine precedentemente non rilevabili, come dimostrato in questo caso di studio.
11 proteine ben supportati (1 isoforma e 10 AltProts), ma attualmente non annotato nel database, sono stati identificati attraverso tutti i DataSet, con peptidi fiduciosi, utilizzando il database di OpenProt_2pep (tutte le adesioni di proteina, insieme al numero di supporto peptidi, sono disponibili in S5 materiale supplementare). Questo database consente l'utilizzo di un tradizionale 1% FDR come l'aumento di spazio di ricerca rimane moderato. Queste 11 proteine non sono state identificate nello studio originale come erano assenti dal database.
29 nuove proteine (16 isoforme e 13 AltProts) sono stati scoperti attraverso tutti i DataSet, con peptidi fiduciosi, utilizzando il database di OpenProt_all (tutte le adesioni di proteina, insieme al numero di peptidi di supporto, sono disponibili in supplementari materiale S6 ). Come mostrato nella Figura 3, il FDR rigorose consigliati non ha colpito le identificazioni di proteine più fiduciosa, anche se esso ha fatto diminuire il numero totale di proteine identificate. Comparativamente al database OpenProt_2pep, un numero maggiore di nuove proteine possa essere identificato con sicurezza. Tutte queste proteine romanzo sono assenti dal database di OpenProt_2pep. Questo sottolinea il ruolo cruciale del database selezionato per proteomica basata su MS.
Una nuova proteina è stata scoperta come un'interazione della proteina RAF1 (IP_637643). Usando il sito Web OpenProt, si può vedere questa proteina non è stata rilevata da MS né ribosoma profilatura fino ad ora (OpenProt v. 1.3). La proteina è 46 aminoacidi lunghe e può solo dare due peptidi unici sulla digestione trittica. Il peptide rilevato in RAF1 AP-MS dataset (frazione 18) ha avuto un spettro di buona qualità, come mostrato nella Figura 4e visualizzato un rapporto di pesante-to-light di 1,09. La proteina è codificata nel gene NANOGNBP1 , che è uno pseudogene di NANOGNB. La trascrizione (ENST00000448444), attualmente annotata come non-codificazione, è stata rilevata in parecchi tessuti secondo il sesso portale40. La proteina contiene un dominio funzionale previsto associato con DNA binding (Gene Ontology GO: 0003677)41.

Figura 1 : Database scelta per grafico analisi proteomica. Analisi dei dati di MS, in particolare la scelta del database, dipendono gli obiettivi della ricerca. Tre obiettivi comuni sono delineati in blu (proteomica classica pipeline), verde (ricerca esaustiva proteomica) e arancio (proteomica scoperta). Ogni obiettivo dipende da un database appropriato e pipeline. Uno strumento di identificazione unico può essere utilizzato per una proteomica classica ed esaustivo condotte. Per la pipeline di scoperta di proteomica, si consiglia di utilizzare più motori di identificazione. FDRs consigliati sono indicati in rosso, e dimensioni del database di proteine sono indicati nelle caselle grigie. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 2 : Rappresentazione grafica del flusso di lavoro Galaxy usato. Rappresentazione dettagliata del flusso di lavoro di analisi proteomica utilizzato per ri-analisi di dati di Eyckerman et al.38. File di input, la ricerca del peptide e quantificazione della proteina sono indicati da scatole arancioni. Scatole blu corrispondono agli strumenti usati e grigi caselle corrispondono al file di output generati. I motori di ricerca diversi (MS-GF + e X! Tandem) sono indicati da colori differenti (rispettivamente rossi e viola) così come le frecce che indicano loro necessari ingressi e uscite. Casella verde mette in evidenza lo strumento di generazione di un elenco di identificazioni di proteina. Quando uscite multiple vengono generati, quello utilizzato per la procedura a valle è indicato come la più vicina alla freccia. Questo flusso di lavoro è liberamente disponibile in S2 materiale supplementare. La X! File di configurazione dei parametri di impostazione predefinita tandem è disponibile in S4 materiale supplementare. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 3 : Confronto di interactor identificazione per esca usando diversi database. Diagrammi di Venn di identificazioni di proteina utilizzando il OpenProt più fiducioso del database (in arancione, elementi di prova di minimi 2 unici peptidi, OpenProt_2pep) con un 1% FDR, o il OpenProt intero database (in blu, OpenProt_all) con un 0,001% FDR, o come riportato in originale carta (in grigio)38. Ogni diagramma corrisponde a interattori identificati per l'esca accennato: RAF1, RNF41, PTPN14, JIP3 e IQGAP1. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 4 : Spettro MS/MS di identificato MDNLWAK(13 6) peptide da proteina novella IP_637643. L'intensità è relativa (0-100%). Picchi selezionati sono evidenziati in rosso, le annotazioni di ioni y sono nelle annotazioni di ioni scure rosso e b in verde. Estratti dal software di TOPPview34. Errore di precursore = 2,70 ppm, il Punteggio di PEP = 0.12. Clicca qui per visualizzare una versione più grande di questa figura.
| Termine | Definizione | Riferimento |
| ORF alternativi (AltORF) | ORF non canonico attualmente non annotata nelle annotazioni di genoma, ma annotati in OpenProt. | 15 |
| Riferimento ORF (RefORF) | canonico ORF annotato nel genoma annotazioni e OpenProt. | 15 |
| Alternativi della proteina (AltProt) | nuova proteina codificata da un AltORF, con nessuna somiglianza significativa con un RefProt. Prefisso di adesione: IP_. | 15 |
| Proteina di riferimento (RefProt) | proteina attualmente annotata nelle banche dati di sequenza della proteina come UniProtKB, Ensembl o NCBI RefSeq e anche in OpenProt. | 15 |
| Isoforma romanzo | nuova proteina codificata da un AltORF, con una somiglianza significativa con un RefProt. Prefisso di adesione: II_. | 15 |
| OpenProt_2pep database | contiene la sequenza di tutti i RefProts e nuove proteine preveduti di OpenProt, già rilevato con un minimo di 2 peptidi unici. | 15 |
| OpenProt_1pep database | contiene la sequenza di tutte le RefProts e le nuove proteine preveduti di OpenProt, già rilevato con un minimo di 1 peptide unico. | 15 |
| OpenProt_all database | contiene la sequenza di tutti i RefProts e nuove proteine preveduti da OpenProt. | 15 |
Tabella 1: Definizione dei termini utilizzati in OpenProt e in tutto il protocollo
Complementare materiale S1: flusso di lavoro Galaxy per la gestione del database. Questo aggiungerà le sequenze CRAPome e decoy (inversione) al database di input. Output è un file Fasta. Per favore clicca qui per scaricare.
Complementare materiale S2: flusso di lavoro Galaxy per identificazione della proteina. Questo identificherà proteine da un file di dati di spettrometria di massa utilizzando due motori di ricerca (MS-GF + e X! Tandem). Ogni parametro può essere sintonizzato come desiderato prima di eseguire il flusso di lavoro. Per favore clicca qui per scaricare.
Complementare materiale S3: flusso di lavoro Galaxy per quantificazione della proteina usando isotopo stabile etichettatura (SIL). Questo identificare e quantificare le proteine da un file di dati di spettrometria di massa utilizzando due motori di ricerca (MS-GF + e X! Tandem). Ogni parametro può essere sintonizzato come desiderato prima di eseguire il flusso di lavoro. Per favore clicca qui per scaricare.
S4 materiale complementare: X! File di configurazione di parametri di default di tandem. Questo file XML è necessario per l'esecuzione di X! TandemAdapter strumento sulla piattaforma Galaxy. Per favore clicca qui per scaricare.
Complementare materiale S5: quantificato proteine da DataSet iMixPro. File di dati da Eyckerman et al 201638 sono stati elaborati utilizzando i database OpenProt e proteine quantificati sono elencati per ogni condizione. Le esche sono PTPN14, JIP3, IQGAP1, RAF1 e RNF41. Nomi di gene indicati in verde corrispondono alle proteine identificate anche nella carta originale38. Nomi di gene indicati in arancio corrispondono al noti Interactiani secondo BioGrid che non sono stati segnalati nel documento originale. Nomi di gene indicati in blu chiaro corrispondono a nuove proteine identificate come Interactiani (il corrispondente numero di adesione di proteine è indicato tra parentesi). Nomi di gene indicata in grigio chiaro e corsivo corrisponda alla probabile contaminanti (proteine di cheratina). Per favore clicca qui per scaricare.
Complementare materiale S6: identificare nuove proteine da DataSet iMixPro. File di dati da Eyckerman et al 201638 sono stati elaborati utilizzando i database OpenProt e romanzo proteine identificate sono elencati per ogni condizione. Le esche sono PTPN14, JIP3, IQGAP1, RAF1 e RNF41. Numeri di accessione della proteina sono elencati, a partire con II_ per le isoforme di romanzo di una proteina conosciuta e con IP_ per nuove proteine da un'alternativa ORF (AltProt). Il numero di peptidi di supporto sono indicati tra parentesi. Per favore clicca qui per scaricare.