$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
De workflow die hierboven beschreven werd toegepast op een MS dataset beschikbaar op de trots repository38,39. De originele studie ontwikkelde een methode (iMixPro), met behulp van stabiele isotoop labeling van aminozuren in de cultuur van de cel (SILAC), om valse positieven van affiniteit-zuivering MS (AP-MS) experimenten38. Kortom, bestaat een AP-MS experiment uit het gebruik van kralen-gebonden antilichamen op te halen van een proteïne van belang (aas) en haar interactors (prooien). De verzamelde eiwitten zijn vervolgens verteerd en MS voorbereid. De sample voorbereiding methode en de instrumentele instellingen worden beschreven in de oorspronkelijke studie en op de trots-repository (PXD004246). Een uitdaging in dergelijke experimenten is de overvloed van valse positieven, met name van eiwitten binden aan de kralen, maar niet het aas. Hier, wordt SILAC gebruikt voor het genereren van verschillende isotopenverhoudingen tussen echte prooien en valse positieven: 3 controlemonsters (geen aas) gekweekt in lichte medium, 1 monster uiting geven aan het aas gekweekt in lichte medium, en 1 monster uiting geven aan het aas gekweekt in zware medium zijn verwerkt met de kralen en de verdere analyse van de Spectrometrie van de massa. Met dergelijke ontwerp, zal niet-specifieke proteïnen binden aan de parels hebben een zware-to-light ratio van 1:4; Wanneer zal ware prooien hebben een verhouding van 1:138.
We geanalyseerd opnieuw hun AP-MS-gegevens met behulp van de OpenProt database; de aas opgenomen drie endogene eiwitten (PTPN14, JIP3 en IQGAP1) en twee uitgedrukt teveel eiwitten (RAF1 en RNF41). Aangezien de experimenten SILAC gebruikt, de Galaxy workflow voor eiwit kwantificering werd gebruikt (Aanvullend materiaal S3, Figuur 2). De werkstroom werd uitgevoerd met behulp van de gehele database voor OpenProt (OpenProt_all) of een beperkte OpenProt database (OpenProt_2pep, met inbegrip van alleen eiwitten al eerder gedetecteerd met een minimum van twee unieke peptides).
Eiwit identificatie en kwantificering waren goed en reproduceerbare over de verschillende gebruikte databases. Zoals blijkt uit Figuur 3, werden de meeste eiwitten die zijn geïdentificeerd in het oorspronkelijke document ook geïdentificeerd met behulp van de OpenProt_2pep of de OpenProt_all database (een gedetailleerde lijst is beschikbaar in Aanvullende materiaal S5). Dit resultaat toont aan dat de pijpleiding die hier worden beschreven en de databases kunnen produceren eiwit identificatie en kwantificering vergelijkbaar met die van de huidige procedures op basis van de UniProtKB databases40OpenProt. Echter, het gebruik van OpenProt databases heeft het unieke voordeel dat detectie van roman en eerder niet detecteerbaar eiwitten, zoals in dit geval blijkt bestuderen.
11 goed ondersteunde eiwitten (1 isovorm en 10 AltProts), maar op dit moment niet geannoteerde in databases, werden geïdentificeerd over alle datasets, met vertrouwen peptides, met behulp van de OpenProt_2pep database (alle eiwit toetredingen, samen met het aantal steunen peptides, zijn beschikbaar in Aanvullende materiaal S5). Deze database maakt het gebruik van een traditionele 1% FDR als de verhoging van de ruimte zoeken blijft matig. Deze 11 proteïnen in de originele studie werden niet geïdentificeerd zoals ze afwezig waren uit de database.
29 nieuwe eiwitten (16 isoforms en 13 AltProts) werden ontdekt over alle datasets, met vertrouwen peptides, met behulp van de OpenProt_all database (alle eiwit toetredingen, samen met het nummer ondersteunen peptiden, zijn beschikbaar in aanvullend materiaal S6 ). Zoals blijkt uit Figuur 3, beïnvloedde de aanbevolen strenge FDR niet de meest vertrouwen eiwit identificaties, hoewel het het afnemen van het totaal aantal geïdentificeerde eiwitten. Relatief aan het gegevensbestand van de OpenProt_2pep, kan een groter aantal nieuwe eiwitten vol vertrouwen worden geïdentificeerd. Deze roman proteïnen allemaal afwezig uit de OpenProt_2pep database. Dit benadrukt de cruciale rol van de gekozen database voor proteomics op basis van MS.
Een roman eiwit werd ontdekt als een interactor van het eiwit RAF1 (IP_637643). Gebruik van de website van OpenProt, kan men dit eiwit was niet ontdekt door MS noch ribosoom profilering tot nu (OpenProt v1.3). Het eiwit is van 46 lange aminozuren en kan slechts geven twee unieke peptiden op al spijsvertering. De peptide ontdekt in de RAF1 AP-MS dataset (deel 18) had een spectrum van goede kwaliteit, zoals weergegeven in Figuur 4, en een zware-to-light ratio van 1,09 weergegeven. Het eiwit is gecodeerd in het NANOGNBP1 -gen, dat een pseudogene van NANOGNB is. Het transcript (ENST00000448444), momenteel als niet-coderende, geannoteerde werd ontdekt in verschillende weefsels volgens de GTEx portal40. De eiwit bevat een voorspelde functionele domein gekoppeld aan DNA-bindende (Gene Ontology GO: 0003677)41.

Figuur 1 : Database keuze voor proteomics analyses grafiek. Analyses van MS gegevens, met name de database keuze, is afhankelijk van de onderzoekdoelstellingen. Drie gemeenschappelijke doelstellingen zijn beschreven in blauw (klassieke proteomic pijpleiding), groen (uitputtende Proteoom Onderzoek) en oranje (proteomic ontdekking). Elke doelstelling is afhankelijk van een geschikte databank en de pijpleiding. Een hulpprogramma voor één identificatie kan worden gebruikt voor een uitputtend en klassieke proteomics pijpleidingen. Voor de proteomic ontdekking pijpleiding raden wij met behulp van meerdere identificatie motoren. Aanbevolen FDRs in het rood zijn aangeduid en eiwit database maten worden aangeduid in grijze vakken. Klik hier voor een grotere versie van dit cijfer.

Figuur 2 : Grafische weergave van de Galaxy-werkstroom gebruikt. Stapsgewijze weergave van de Proteoom analyse werkstroom gebruikt voor re-analyse van Eyckerman et al. gegevens38. Invoerbestanden, peptide zoeken en kwantificering van de proteïne worden aangegeven door de oranje dozen. Blauwe vakken komen overeen met de instrumenten die gebruikt worden en grijze vakken komen overeen met de output bestanden gegenereerd. De verschillende onderzoeksmotoren (MS-GF + en X! Tandem) worden aangegeven met verschillende kleuren (respectievelijk rode en paarse) evenals de pijlen met vermelding van hun noodzakelijke inputs en outputs. Het groene vak benadrukt het genereren van een lijst van eiwit identificaties gereedschap. Wanneer meerdere uitgangen worden gegenereerd, gebruikt voor downstream stappen wordt aangegeven als het dichtst de pijl. Deze workflow is vrij beschikbaar in Aanvullende materiaal S2. De X! Tandem standaard parameters configuratiebestand is beschikbaar in Aanvullende materiaal S4. Klik hier voor een grotere versie van dit cijfer.

Figuur 3 : Vergelijking van gegevensstroomdiagrammen identificatie per aas met behulp van verschillende databases. Venn-diagrammen van eiwit identificaties met behulp van de meest vertrouwen OpenProt database (in oranje, ondersteunend bewijsmateriaal van minimum 2 unieke peptiden, OpenProt_2pep) met een 1% FDR, of de hele OpenProt database (in blauw, OpenProt_all) met een 0,001% FDR, of zoals gerapporteerd in de oorspronkelijke papier (in grijs)38. Elk diagram komt overeen met de geïdentificeerde interactors voor de genoemde aas: RAF1, RNF41, PTPN14, JIP3 en IQGAP1. Klik hier voor een grotere versie van dit cijfer.

Figuur 4 : MS/MS spectrum van geïdentificeerd MDNLWAK(13C 6) peptide uit nieuwe eiwitten IP_637643. Intensiteit is (0 tot 100%) relatieve. Geselecteerde pieken zijn aangegeven in rood, y ionen annotaties zijn in donker rood en b ionen aantekeningen in het groen. Gewonnen uit de TOPPview software34. Voorloper fout = 2.70 ppm, PEP score = 0.12. Klik hier voor een grotere versie van dit cijfer.
| Termijn | Definitie | Referentie |
| Alternatieve ORF (AltORF) | niet-canonieke ORF momenteel niet geannoteerd in genoom aantekeningen, maar geannoteerde in OpenProt. | 15 |
| Referentie ORF (RefORF) | canonieke ORF geannoteerde in genoom aantekeningen en OpenProt. | 15 |
| Alternatieve eiwitten (AltProt) | nieuwe eiwit gecodeerd door een AltORF, met geen grote gelijkenis met een RefProt. Toetreding voorvoegsel: IP_. | 15 |
| Referentie-eiwit (RefProt) | eiwit momenteel geannoteerde in eiwit sequentie databases zoals UniProtKB, Ensembl of NCBI RefSeq, en ook in OpenProt. | 15 |
| Roman isovorm | nieuwe eiwit gecodeerd door een AltORF, met een grote gelijkenis met een RefProt. Toetreding voorvoegsel: II_. | 15 |
| OpenProt_2pep database | bevat de volgorde van alle RefProts en nieuwe eiwitten voorspeld door OpenProt, al ontdekt met een minimum van 2 unieke peptiden. | 15 |
| OpenProt_1pep database | de volgorde van alle RefProts en nieuwe eiwitten voorspeld door OpenProt, al ontdekt met een minimum van 1 unieke peptide bevat. | 15 |
| OpenProt_all database | bevat de volgorde van alle RefProts en nieuwe eiwitten voorspeld door OpenProt. | 15 |
Tabel 1: Definitie van termen die worden gebruikt in OpenProt en in het gehele protocol
Aanvullende materiaal S1: Galaxy workflow voor database handling. Dit zal de CRAPome en lokvogel sequenties (achteruit) aan de ingang database toevoegen. Uitvoer is een Fasta bestand. Klik hier om te downloaden.
Aanvullende materiaal S2: Galaxy workflow voor eiwit identificatie. Dit zal het identificeren van eiwitten uit een gegevensbestand van de Spectrometrie van de massa met twee motoren van het onderzoek (MS-GF + en X! Tandem). Elke parameter kan worden afgesteld als gewenste voordat u de werkstroom. Klik hier om te downloaden.
Aanvullende materiaal S3: Galaxy workflow voor eiwit kwantificering met behulp van stabiele isotoop labeling (SIL). Dit zal identificeren en kwantificeren van eiwitten uit een gegevensbestand van de Spectrometrie van de massa met twee motoren van het onderzoek (MS-GF + en X! Tandem). Elke parameter kan worden afgesteld als gewenste voordat u de werkstroom. Klik hier om te downloaden.
Aanvullende materiële S4: X! Tandem standaard parameters configuratiebestand. Dit XML-bestand is nodig voor het uitvoeren van de X! TandemAdapter tool op het Galaxy-platform. Klik hier om te downloaden.
Aanvullende materiaal S5: eiwitten uit iMixPro datasets gekwantificeerd. Gegevensbestanden van Eyckerman et al. 201638 werden verwerkt met behulp van OpenProt databases en gekwantificeerde eiwitten worden vermeld voor elke voorwaarde. Lokaas zijn PTPN14, JIP3, IQGAP1, RAF1 en RNF41. Gene familienamen in groen overeen met eiwitten ook geïdentificeerd in het oorspronkelijke papier38. Gene familienamen in oranje komen overeen met de bekende interactors volgens BioGrid die niet in het oorspronkelijke papier werden gerapporteerd. Gene familienamen in lichtblauw overeen met nieuwe eiwitten geïdentificeerd als interactors (het nummer van de overeenkomstige eiwit toetreding wordt aangegeven in vierkante haken). Gene namen aangegeven in lichtgrijs en cursief corresponderen met waarschijnlijk contaminanten (keratine eiwitten). Klik hier om te downloaden.
Aanvullende materiaal S6: roman eiwitten uit iMixPro datasets geïdentificeerd. Gegevensbestanden van Eyckerman et al. 201638 werden verwerkt met behulp van OpenProt databases en roman geïdentificeerde eiwitten worden vermeld voor elke voorwaarde. Lokaas zijn PTPN14, JIP3, IQGAP1, RAF1 en RNF41. Eiwit toetreding nummers worden weergegeven, beginnend met II_ voor roman isoforms van een bekende eiwit, en met IP_ voor nieuwe eiwitten uit een alternatieve ORF (AltProt). Het nummer ondersteunen peptiden haakjes worden aangegeven. Klik hier om te downloaden.