Genetics

Massa spectrometrie gebaseerde Proteomics Analyses met behulp van de OpenProt Database te onthullen nieuwe eiwitten vertaald uit niet-canonieke Open lezing Frames

Published: April 11, 2019 doi: 10.3791/59589

¹Department of Biochemistry, Université de Sherbrooke, ²PROTEO, Quebec Network for Research on Protein Function, Structure, and Engineering

Summary

OpenProt is een vrij toegankelijke databank die wordt afgedwongen door een polycistronic model van eukaryotische genomen. Hier presenteren we een protocol voor het gebruik van OpenProt databases wanneer ondervragen massaspectrometrie datasets. Met behulp van OpenProt zorgt database voor analyse van proteomic experimenten voor de ontdekking van de roman en eerder niet detecteerbaar eiwitten.

Abstract

Genoom-annotatie staat centraal in de hedendaagse Proteoom onderzoek, omdat het de contouren van het landschap van proteomic vestigt. Traditionele modellen van open lezen aantekening met kader (ORF) leggen twee willekeurige criteria: een minimale lengte van 100 codonen en een enkele ORF per transcript. Echter, een groeiend aantal studies verslag uitdrukking van eiwitten uit naar verluidt niet-coderende regio's, de nauwkeurigheid van de huidige genoom aantekeningen uitdagend. Deze roman eiwitten bleken gecodeerd in niet-coderende RNAs 5' en 3' niet-vertaalde regio's (UTRs) of mRNAs, overlappende een bekende codering opeenvolging (CDS) in een alternatief ORF. OpenProt is de eerste database die wordt afgedwongen door een polycistronic model voor eukaryotische genomen, waardoor annotatie van meerdere ORFs per transcript. OpenProt is vrij toegankelijk en biedt aangepaste downloads van proteïne sequenties tussen 10 soorten. Met behulp van OpenProt database voor proteomic experimenten kan nieuwe eiwitten ontdekking en hoogtepunten van de polycistronic aard van eukaryotische genen. De grootte van OpenProt database (alle voorspelde eiwitten) is aanzienlijk en in aanmerking voor de analyse moet worden genomen. Echter, met passende valse detectie tarief (FDR)-instellingen of het gebruik van een beperkte OpenProt-database, zal krijgen gebruikers een meer realistisch beeld van het landschap van proteomic. OpenProt is over het algemeen een vrij beschikbaar hulpmiddel dat proteomic ontdekkingen zullen bevorderen.

Introduction

In de afgelopen decennia, is proteomics massaspectrometrie (MS-) gebaseerd geworden de gouden techniek te ontcijferen proteomes van eukaryotische cellen¹^,²^,³^,⁴^,⁵. Deze methode is gebaseerd op de huidige genoom aantekeningen voor het genereren van een eiwit sequentie referentiedatabank die het toepassingsgebied van mogelijkheden⁶^,⁷^,^{8 schetst}. Genoom aantekeningen houden echter willekeurige criteria voor ORF aantekening, zoals een minimale lengte van 100 codonen en een enkele ORF per transcript⁹^,¹⁰. Een toenemend aantal studies uitdaging van het huidige model van de aantekening en ontdekkingen van unannotated functionele ORFs in eukaryotische genoom⁸^,¹¹^,¹²^,¹³^{, verslag} ¹⁴. Deze roman proteïnen in gecodeerde naar verluidt niet-coderende RNAs zijn gevonden, in de 5' of 3' onvertaald (UTR) of delen van mRNAs, overlappen de canonieke codering volgorde (CCD's) in een alternatieve frame. Hoewel de meeste van deze ontdekkingen serendipitous zijn, aantonen zij dat het voorbehoud van huidige genoom aantekeningen en de aard van de polycistronic van eukaryotische genen⁸.

We benadrukken hier, het gebruik van OpenProt databases voor proteomics op basis van MS. OpenProt is de eerste database te houden een polycistronic aantekening model voor eukaryotische transcriptomes. Het is vrij beschikbaar op www.openprot.org¹⁵. Een deel van deze voorspelde dat ORFS zou willekeurige en niet-functionele, dat is waarom OpenProt cumulates experimentele en functionele bewijs om vertrouwen te vergroten. Experimenteel bewijs omvatten eiwit expressie (door MS) en vertaling bewijsverkrijging (door het ribosoom profiling)¹⁵. Functionele bewijs bevatten eiwit orthology (met een In-Paranoid zoals aanpak) en domein met het domeinfunctionaliteitsniveau voorspelling¹⁵.

OpenProt biedt de mogelijkheid om te downloaden van verschillende databases, uit die alleen goed ondersteunde eiwitten tot op maat gemaakte databases bevatten. Hier presenteren we een pijpleiding voor het gebruik van OpenProt databases en biedt inzicht in welke database te kiezen gezien de experimentele doel. De pijpleiding van proteomics analyse hier gepresenteerd wordt ondersteund door het Galaxy-kader zoals het is open-access en easy-to-use, maar de databases met elke werkstroom¹⁶^,¹⁷^,^{18 werken kunnen}. We zullen ook het gebruik van de website OpenProt voor verdere informatie te verzamelen over nieuwe eiwitten ontdekt door MS. Using OpenProt databases voor een meer volledig uitzicht over het landschap van proteomic zorgt en proteomics en biomarkers ontdekkingen in zal bevorderen presenteren een meer systematische wijze dan de huidige methoden.

Dit protocol onderstreept het gebruik van OpenProt databases¹⁵ bij het ondervragen van MS datasets; het zal niet het controleren van het ontwerp van het experiment zelf, die grondig is herzien elders²⁰^,²¹^,²². In een poging te blijven volledig open-source, is het protocol vrij beschikbaar (Aanvullend materiaal S1-S4). Voor een betere leesbaarheid, zijn alle termen die worden gebruikt in OpenProt, en hierbij in dit protocol omschreven in tabel 1.

Protocol

1. OpenProt-database downloaden

Opmerking: Aangepaste databases op basis van RNA-seq gegevens bijvoorbeeld kunnen ook worden verkregen en de procedure is gedetailleerd in het tweede gedeelte van dit protocol. Als een aangepaste database nodig is, kunt u verdergaan met de volgende sectie.

Ga naar de OpenProt website: www.openprot.org en open de Downloads-pagina via de link in het menu bovenaan pagina.
Klik op de soorten van belang op basis van de geanalyseerde experimentele gegevens.
Klik op het type van de eiwitten gewenst.
Opmerking: OpenProt biedt drie categorieën: RefProt, Isoforms en AltProt. Zoals blijkt uit Figuur 1, zal deze parameter afhankelijk van het doel van het onderzoek.
1. Klik op RefProt alleen bestanden alleen bekende eiwitten bevattende diervoeders te genereren.
2. Klik op AltProt en Isoforms bestanden bevatten alleen nieuwe eiwitten - beide roman isoforms van bekende eiwitten (Isoforms) of gecodeerd door een alternatief ORF (AltProts) te genereren. Houd er rekening mee dat OpenProt afdwingt dat een minimale lengte van de ORF van 30 codonen¹⁵.
3. Klik op AltProts, Isoforms en RefProts te genereren bestanden met allerlei eiwitten aanwezig in de OpenProt database - bekende en nieuwe eiwitten.
Indien beschikbaar, klik op de aantekening uit welke proteïne sequenties zijn getrokken.
Opmerking: OpenProt biedt een meer uitputtende proteomic landschap door het combineren van meerdere aantekeningen. Transcriptome aantekeningen hebben een minimale overlap; de geselecteerde aantekening kan dus wezenlijke invloed op de gevisualiseerde proteomic profiel¹⁵^,²³.
Klik op het niveau van ondersteunend bewijsmateriaal nodig voor proteïne behandeling. Zoals blijkt uit Figuur 1, zal deze parameter afhankelijk van het doel van het onderzoek.
1. Klik op minimaal twee unieke peptiden gedetecteerd bestanden met alleen de meest vertrouwen eiwitten te genereren.
  Opmerking: Een criterium van twee unieke peptiden wordt momenteel beschouwd als een gouden standaard in proteomics voor eiwit expressie. Als de experimentele bedoeling is om op te sporen van de bekende en goed ondersteunde eiwitten, wordt het gebruik van deze parameter aanbevolen.
2. Klik op minimaal één unieke peptiden gedetecteerd bestanden die eiwitten bevatten die reeds ten minste eenmaal onder de experimenten van de Spectrometrie van de massa opnieuw geanalyseerd door OpenProt waargenomen zijn te genereren.
  Opmerking: Dit zorgt voor de behandeling van de kortere lengte van AltProts en de kans dat een aantal van hen slechts één unieke al peptide⁸^,^{11 bevat kan}.
3. Klik op alle voorspelde bestanden met alle OpenProt-voorspellingen te genereren.
  Opmerking: Deze instelling wordt alleen aanbevolen als het experimentele doel is om te ontdekken van nieuwe eiwitten (Figuur 1). De daaropvolgende aanzienlijke toename van de oproepen van de ruimte zoeken voor een aangepast analyse pijpleiding zoals besproken onder⁷^,¹⁵.
Klik op de gewenste bestandsindeling te downloaden. Kies voor proteomic de analyses, de Fasta (eiwit)-bestand. Het Leesmij-bestand bevat alle noodzakelijke informatie over de bestandsindeling.

2. aangepaste OpenProt-database downloaden

Opmerking: Deze sectie details het verkrijgen van een aangepaste database. Als er geen aangepaste database nodig is, gaat u naar de volgende sectie.

Ga naar de website van de OpenProt (www.openprot.org) en open de pagina zoeken via de link in het menu bovenaan pagina.
Klik op de soorten van belang op basis van de experimentele gegevens geanalyseerd.
Geef een lijst van genen of afschriften van belang.
1. Wanneer u een lijst van genen, invoeren in het vak Gene query.
2. Wanneer u een lijst met afschriften van, invoeren in het vak van de query Transcript .
Elke Vink die voor de gewenste database geldt.
1. Klik niet op elke doos te verkrijgen van een tabel met alle soorten eiwit ondersteund door OpenProt: RefProt, Isoforms en AltProts.
2. Klik op Toon alleen eiwitten met experimenteel bewijs te verkrijgen van een tabel met alle soorten eiwitten (Isoforms, RefProts en AltProts) ten minste eenmaal heeft waargenomen door MS en/of voor welke vertaling bewijs is verzameld van ribosoom profilering van gegevens.
3. Ook, klik op Toon alleen eiwitten gedetecteerd door MS of op Toon alleen eiwitten gedetecteerd door het ribosoom profilering te verkrijgen van een tabel met alle soorten eiwitten die hebben ten minste eenmaal is gedetecteerd door MS of ribosoom respectievelijk profilering.
4. Klik op Toon alleen AltProts of op Toon alleen isoforms te verkrijgen van een tabel met alleen AltProts of alleen Isoforms respectievelijk.
5. Klik op zowel Toon alleen AltProts en tonen alleen Isoforms te verkrijgen van een tabel met beide soorten eiwitten.
  Opmerking: Alle combinaties van filters zijn mogelijk.
Wanneer alle gewenste parameters zijn ingesteld, klikt u op zoeken. De uitvoer van de tabel worden weergegeven onder de zoekvelden voor de query.
Klik op de knop Downloaden Fasta op de juiste hoogste hoek van de uitvoertabel geplaatst. Hierdoor genereert u een bestand van de Fasta die alle eiwitten bevatten als gevolg van de opgevraagde lijst van genen of afschriften.
Houd er rekening mee dat omwille van de computationele OpenProt een maximum van 2.000 elementen houdt worden opgevraagd (genen of afschriften) tegelijk. In het geval van een lijst boven die grens, kan verschillende fasta worden gegenereerd en vervolgens samengevoegd (zoals hieronder); of download de gehele OpenProt database en het verkregen bestand desgewenst filteren.
1. Bin de hele lijst van genen of afschriften in sub lijsten van 2.000 posten of minder. Voor elke sub lijst door een Fasta-bestand te downloaden, zoals eerder beschreven (stap 3.3 tot en met 3.6).
2. Meld u aan bij de Europese Galaxy-exemplaar (of elke andere instantie waar proteomics hulpprogramma's beschikbaar zijn), https://usegalaxy.eu/.
3. Maak een nieuwe geschiedenis en importeer alle gedownloade OpenProt databases (één per sub lijst van genen of afschriften) door te klikken op het logo van de upload aan de linker bovenkant van het scherm.
4. Gebruik het hulpprogramma Fasta samenvoegen bestanden en unieke reeksen met Filter ontwikkeld door de ontwikkelaars van de GalaxyP (https://github.com/galaxyproteomics/). Selecteer de optie samenvoegen alle Fasta en input van alle geïmporteerde OpenProt databases.
  Opmerking: Elk gereedschap kan worden gezocht met behulp van de query vak aan de linkerkant van het scherm
5. Selecteer de optie van de toetreding alleen te beoordelen reeks unicity en de OpenProt-id parse regel kopiëren (>(.*) \ |), klik op uitvoeren.
6. Merk op dat alle bestanden aaneengeschakeld zijn in een unieke Fasta bestand met geen redundantie, die nu wordt weergegeven in het deelvenster Historie aan de rechterkant van het scherm. Dit vormt de werkdatabase.

3. database handling

Opmerking: voortaan de Galaxy-platform zal worden gebruikt, maar kunnen dezelfde principes worden toegepast op andere proteomic software.

Meld u aan bij de Europese Galaxy-exemplaar (of elke andere instantie waar proteomics hulpprogramma's beschikbaar zijn), https://usegalaxy.eu/.
Maak een nieuwe geschiedenis en de gedownloade OpenProt database importeren door te klikken op het logo van de upload aan de linker bovenkant van het scherm.
Ga naar de pagina workflow en de Database Handling workflow (Aanvullend materiaal S1) importeren door te klikken op het logo van de upload aan de linker bovenkant van het middelste deelvenster.
Klik op het uitvoeren van de werkstroom en selecteert u de geïmporteerde OpenProt-database als input.
Opmerking: Deze werkstroom zal toevoegen van de repository CRAPome aan de OpenProt fasta en lokvogel sequenties (omgekeerde sequenties)²⁴te genereren. Als u wilt een shuffle lokvogel lijst, kan het worden gedaan door het veranderen van deze parameter op de DecoyDatabase-tool.
Wijzig de naam van de verkregen Fasta bestand naar iets zinvols. De database is klaar om te worden gebruikt voor analyses van proteomics.

4. massaspectrometrie bestand voorbereiding

Opmerking: Allermeest naar de proteomics hulpmiddelen beschikbaar op Galaxy gevallen gebruikt u de notatie van de mzML en de motoren van het onderzoek van de peptide liever gegevens in centroid modus.

Open de vrij beschikbare hulpmiddel van de MSConvert uit de ProteoWizard suite en uploaden van het gegevensbestand zodanig geanalyseerd²⁵.
Kies de map voor de output en de gewenste bestandsindeling te mzML.
Stel een piek-filter door middel van de wavelet-gebaseerd algoritme (CWT) op MS1 en MS2 niveaus plukken en start de conversie²⁶.

5. peptide en proteïne identificatie/kwantificering

Opmerking: Dit deel van de pijpleiding maakt gebruik van hulpprogramma's van de OpenMS suite, een veelzijdig en easy-to-use kader¹⁸.

Meld u aan bij de Europese Galaxy-exemplaar (of elke andere instantie waar proteomics hulpprogramma's beschikbaar zijn), https://usegalaxy.eu/.
Maak een nieuwe geschiedenis en de eerder gemaakte database (stap 3.5) overbrengen in deze nieuwe geschiedenis met een drag-and-drop.
Het gegevensbestand van de getransformeerde mzML (stap 4.3) importeren door te klikken op het logo uploaden aan de linker bovenkant van het scherm.
Ga naar de pagina workflow en de gewenste workflow importeren door te klikken op het logo van de upload aan de linker bovenkant van het middelste deelvenster.
Opmerking: MS experimenten zijn anders ontworpen op basis van het gewenste eindresultaat. Werkstromen zijn hier beschikbaar voor twee frequente ontwerpen: eiwit identificatie en kwantificering van de eiwitten op basis van stabiele isotoop labeling (SIL). De Galaxy-exemplaar bevat echter vele andere hulpmiddelen die andere soorten proteomic analyses²⁷^,²⁸zal ondersteunen.
1. Importeren voor een eiwit identificatie ontwerp, de workflow waarin Aanvullende materiaal S2. Bij het gebruik van deze workflow, te gebruiken gelieve niet de compressie van de zlip bij het converteren van uw bestanden (stap 4.2)
2. Importeren voor een eiwit kwantificering op basis van stabiele isotoop labeling ontwerp, de workflow waarin Aanvullende materiaal S3.
Selecteer run van de werkstroom en Bekijk de verschillende parameters.
1. Selecteer het gegevensbestand ingevoerde mzML als input en de eerder gemaakte database (stap 3.5) als het databasebestand Fasta.
2. Omdat de werkstroom de X gebruikt! Tandem zoek zoekmachine, de X importeren! Tandem standaard configuratie bestand (voorzien in Aanvullende materiaal S4)²⁹ door te klikken op het logo van de upload aan de linker bovenkant van het scherm.
3. De werkstroom gebruikt veelvoudige onderzoeksmotoren (MS-GF + en X! Tandem). Andere zoekmachines toevoegen of kies één gewoon door het toevoegen of verwijderen van de hulpmiddelen van de werkstroom³⁰^,³¹.
  Opmerking: Gebruik van meerdere zoekmachines wordt aanbevolen aangezien het verhoogt de gevoeligheid en de gevoeligheid van het analyse-³².
4. Gebruiken om de rekening voor de aanzienlijke toename van de grootte bij het gebruik van de gehele database van de OpenProt, een strenge FDR¹⁵. De meegeleverde workflow is standaard ingesteld voor een 0,001% FDR, geschikt voor het gebruik van de gehele OpenProt database. Voor andere databases, kan dit worden bewerkt op een andere gewenste waarde.
  Opmerking: Zorg ervoor dat het aanpassen van de parameters van de verschillende hulpmiddelen afhankelijk van de massaspectrometer gebruikt en de experimentele protocol (voorloper van ion en fragment fout, vaste en variabele wijzigingen, gebruikte enzym, etc.).
Optioneel, output voor elke stap van de werkstroom voor opslag of kwaliteit controleanalyse downloaden door te klikken op de gekozen stap vanuit het paneel Historie en vervolgens te klikken op het Save -logo dat verschijnt onder.

6. kwaliteitscontrole

Opmerking: Omdat op basis van MS proteomics het resultaat van een complex proces waarin elke stap worden geoptimaliseerd is moet om reproduceerbare resultaten, kwaliteitscontrole is een noodzakelijke procedure in de werkstroom³³.

Diverse maatstelsels zijn gemeenschappelijke maatstaf voor prestaties, zoals het aantal peptide-spectrum wedstrijden (PSM), het aantal geïdentificeerde peptides en proteïnen. De File Info -hulpprogramma uitvoeren op de uitvoer van de IDFilter (aangegeven in het groen in Figuur 2) om dergelijke statistieken.
Hoewel niet van toepassing op elke identificatie, vooral met grote datasets, moeten verslagen van nieuwe eiwitten altijd zorgvuldig worden beoordeeld. Inspectie van de eiwit-score, de dekking van de volgorde en de spectra ter ondersteuning van de bevinding is van vitaal belang. Gebruik het hulpprogramma TOPPview uit het OpenMS kader hiervoor; het is vrij beschikbaar en goed gedocumenteerd¹⁸^,³⁴^,³⁵.

7. OpenProt database mijnbouw

Opmerking: Zodra een vertrouwen identificatie van een roman eiwit voorspeld door OpenProt (toetreding nummers beginnen met IP_ voor AltProts en II_ voor roman Isoforms) geboekt, meer biologische informatie kan worden verzameld uit de OpenProt website¹⁵.

Ga naar de OpenProt website: www.openprot.org en open de pagina zoeken via de link aan de top pagina menu.
Klik op de soorten van belang (hetzelfde als degene waarin de proteïne werd geïdentificeerd) en het eiwit toetreding nummer invoert in het vak van de query eiwit .
Klik op zoeken en een tabel met basisinformatie over het opgevraagde eiwit zal verschijnen. De tabelfuncties: de lengte van de proteïne (in aminozuur), moleculair gewicht (kDa) en elektrisch punt, experimentele bewijsmateriaal door MS of ribosoom profiling (vertaling bewijs, TE) en functionele voorspellingen, zoals voorspeld domeinen en eiwit orthology (over de 10 soorten ondersteund door OpenProt, v1.3). De tabel bevat ook gegevens over het verwante gen en afschrift en de lokalisatie van het eiwit binnen het transcript.
Klik op de link Details verder om informatie te verzamelen. De onlangs geopende pagina bevat een genoom-browser die is gecentreerd op de aangevraagde eiwit, en informatie zoals de genomische transcriptomic coördinaten en de aanwezigheid van een Kozak of hoogrenderende vertaling Inleiding site (TIS) motief³⁶^, ³⁷.
Klik op het eiwit of DNA links van het tabblad info te verkrijgen eiwit of DNA-sequenties respectievelijk.
Gedetailleerde informatie over MS bewijs, ribosoom profilering van detectie-, instandhoudings- en geïdentificeerde eiwit domeinen door te klikken op de bovenste tabbladen¹⁵bladeren.

Representative Results

De workflow die hierboven beschreven werd toegepast op een MS dataset beschikbaar op de trots repository³⁸^,³⁹. De originele studie ontwikkelde een methode (iMixPro), met behulp van stabiele isotoop labeling van aminozuren in de cultuur van de cel (SILAC), om valse positieven van affiniteit-zuivering MS (AP-MS) experimenten³⁸. Kortom, bestaat een AP-MS experiment uit het gebruik van kralen-gebonden antilichamen op te halen van een proteïne van belang (aas) en haar interactors (prooien). De verzamelde eiwitten zijn vervolgens verteerd en MS voorbereid. De sample voorbereiding methode en de instrumentele instellingen worden beschreven in de oorspronkelijke studie en op de trots-repository (PXD004246). Een uitdaging in dergelijke experimenten is de overvloed van valse positieven, met name van eiwitten binden aan de kralen, maar niet het aas. Hier, wordt SILAC gebruikt voor het genereren van verschillende isotopenverhoudingen tussen echte prooien en valse positieven: 3 controlemonsters (geen aas) gekweekt in lichte medium, 1 monster uiting geven aan het aas gekweekt in lichte medium, en 1 monster uiting geven aan het aas gekweekt in zware medium zijn verwerkt met de kralen en de verdere analyse van de Spectrometrie van de massa. Met dergelijke ontwerp, zal niet-specifieke proteïnen binden aan de parels hebben een zware-to-light ratio van 1:4; Wanneer zal ware prooien hebben een verhouding van 1:1³⁸.

We geanalyseerd opnieuw hun AP-MS-gegevens met behulp van de OpenProt database; de aas opgenomen drie endogene eiwitten (PTPN14, JIP3 en IQGAP1) en twee uitgedrukt teveel eiwitten (RAF1 en RNF41). Aangezien de experimenten SILAC gebruikt, de Galaxy workflow voor eiwit kwantificering werd gebruikt (Aanvullend materiaal S3, Figuur 2). De werkstroom werd uitgevoerd met behulp van de gehele database voor OpenProt (OpenProt_all) of een beperkte OpenProt database (OpenProt_2pep, met inbegrip van alleen eiwitten al eerder gedetecteerd met een minimum van twee unieke peptides).

Eiwit identificatie en kwantificering waren goed en reproduceerbare over de verschillende gebruikte databases. Zoals blijkt uit Figuur 3, werden de meeste eiwitten die zijn geïdentificeerd in het oorspronkelijke document ook geïdentificeerd met behulp van de OpenProt_2pep of de OpenProt_all database (een gedetailleerde lijst is beschikbaar in Aanvullende materiaal S5). Dit resultaat toont aan dat de pijpleiding die hier worden beschreven en de databases kunnen produceren eiwit identificatie en kwantificering vergelijkbaar met die van de huidige procedures op basis van de UniProtKB databases⁴⁰OpenProt. Echter, het gebruik van OpenProt databases heeft het unieke voordeel dat detectie van roman en eerder niet detecteerbaar eiwitten, zoals in dit geval blijkt bestuderen.

11 goed ondersteunde eiwitten (1 isovorm en 10 AltProts), maar op dit moment niet geannoteerde in databases, werden geïdentificeerd over alle datasets, met vertrouwen peptides, met behulp van de OpenProt_2pep database (alle eiwit toetredingen, samen met het aantal steunen peptides, zijn beschikbaar in Aanvullende materiaal S5). Deze database maakt het gebruik van een traditionele 1% FDR als de verhoging van de ruimte zoeken blijft matig. Deze 11 proteïnen in de originele studie werden niet geïdentificeerd zoals ze afwezig waren uit de database.

29 nieuwe eiwitten (16 isoforms en 13 AltProts) werden ontdekt over alle datasets, met vertrouwen peptides, met behulp van de OpenProt_all database (alle eiwit toetredingen, samen met het nummer ondersteunen peptiden, zijn beschikbaar in aanvullend materiaal S6 ). Zoals blijkt uit Figuur 3, beïnvloedde de aanbevolen strenge FDR niet de meest vertrouwen eiwit identificaties, hoewel het het afnemen van het totaal aantal geïdentificeerde eiwitten. Relatief aan het gegevensbestand van de OpenProt_2pep, kan een groter aantal nieuwe eiwitten vol vertrouwen worden geïdentificeerd. Deze roman proteïnen allemaal afwezig uit de OpenProt_2pep database. Dit benadrukt de cruciale rol van de gekozen database voor proteomics op basis van MS.

Een roman eiwit werd ontdekt als een interactor van het eiwit RAF1 (IP_637643). Gebruik van de website van OpenProt, kan men dit eiwit was niet ontdekt door MS noch ribosoom profilering tot nu (OpenProt v1.3). Het eiwit is van 46 lange aminozuren en kan slechts geven twee unieke peptiden op al spijsvertering. De peptide ontdekt in de RAF1 AP-MS dataset (deel 18) had een spectrum van goede kwaliteit, zoals weergegeven in Figuur 4, en een zware-to-light ratio van 1,09 weergegeven. Het eiwit is gecodeerd in het NANOGNBP1 -gen, dat een pseudogene van NANOGNB is. Het transcript (ENST00000448444), momenteel als niet-coderende, geannoteerde werd ontdekt in verschillende weefsels volgens de GTEx portal⁴⁰. De eiwit bevat een voorspelde functionele domein gekoppeld aan DNA-bindende (Gene Ontology GO: 0003677)⁴¹.

Figuur 1 : Database keuze voor proteomics analyses grafiek. Analyses van MS gegevens, met name de database keuze, is afhankelijk van de onderzoekdoelstellingen. Drie gemeenschappelijke doelstellingen zijn beschreven in blauw (klassieke proteomic pijpleiding), groen (uitputtende Proteoom Onderzoek) en oranje (proteomic ontdekking). Elke doelstelling is afhankelijk van een geschikte databank en de pijpleiding. Een hulpprogramma voor één identificatie kan worden gebruikt voor een uitputtend en klassieke proteomics pijpleidingen. Voor de proteomic ontdekking pijpleiding raden wij met behulp van meerdere identificatie motoren. Aanbevolen FDRs in het rood zijn aangeduid en eiwit database maten worden aangeduid in grijze vakken. Klik hier voor een grotere versie van dit cijfer.

Figuur 2 : Grafische weergave van de Galaxy-werkstroom gebruikt. Stapsgewijze weergave van de Proteoom analyse werkstroom gebruikt voor re-analyse van Eyckerman et al. gegevens³⁸. Invoerbestanden, peptide zoeken en kwantificering van de proteïne worden aangegeven door de oranje dozen. Blauwe vakken komen overeen met de instrumenten die gebruikt worden en grijze vakken komen overeen met de output bestanden gegenereerd. De verschillende onderzoeksmotoren (MS-GF + en X! Tandem) worden aangegeven met verschillende kleuren (respectievelijk rode en paarse) evenals de pijlen met vermelding van hun noodzakelijke inputs en outputs. Het groene vak benadrukt het genereren van een lijst van eiwit identificaties gereedschap. Wanneer meerdere uitgangen worden gegenereerd, gebruikt voor downstream stappen wordt aangegeven als het dichtst de pijl. Deze workflow is vrij beschikbaar in Aanvullende materiaal S2. De X! Tandem standaard parameters configuratiebestand is beschikbaar in Aanvullende materiaal S4. Klik hier voor een grotere versie van dit cijfer.

Figuur 3 : Vergelijking van gegevensstroomdiagrammen identificatie per aas met behulp van verschillende databases. Venn-diagrammen van eiwit identificaties met behulp van de meest vertrouwen OpenProt database (in oranje, ondersteunend bewijsmateriaal van minimum 2 unieke peptiden, OpenProt_2pep) met een 1% FDR, of de hele OpenProt database (in blauw, OpenProt_all) met een 0,001% FDR, of zoals gerapporteerd in de oorspronkelijke papier (in grijs)³⁸. Elk diagram komt overeen met de geïdentificeerde interactors voor de genoemde aas: RAF1, RNF41, PTPN14, JIP3 en IQGAP1. Klik hier voor een grotere versie van dit cijfer.

Figuur 4 : MS/MS spectrum van geïdentificeerd MDNLWAK^{(13C 6)} peptide uit nieuwe eiwitten IP_637643. Intensiteit is (0 tot 100%) relatieve. Geselecteerde pieken zijn aangegeven in rood, y ionen annotaties zijn in donker rood en b ionen aantekeningen in het groen. Gewonnen uit de TOPPview software³⁴. Voorloper fout = 2.70 ppm, PEP score = 0.12. Klik hier voor een grotere versie van dit cijfer.

Termijn	Definitie	Referentie
Alternatieve ORF (AltORF)	niet-canonieke ORF momenteel niet geannoteerd in genoom aantekeningen, maar geannoteerde in OpenProt.	15
Referentie ORF (RefORF)	canonieke ORF geannoteerde in genoom aantekeningen en OpenProt.	15
Alternatieve eiwitten (AltProt)	nieuwe eiwit gecodeerd door een AltORF, met geen grote gelijkenis met een RefProt. Toetreding voorvoegsel: IP_.	15
Referentie-eiwit (RefProt)	eiwit momenteel geannoteerde in eiwit sequentie databases zoals UniProtKB, Ensembl of NCBI RefSeq, en ook in OpenProt.	15
Roman isovorm	nieuwe eiwit gecodeerd door een AltORF, met een grote gelijkenis met een RefProt. Toetreding voorvoegsel: II_.	15
OpenProt_2pep database	bevat de volgorde van alle RefProts en nieuwe eiwitten voorspeld door OpenProt, al ontdekt met een minimum van 2 unieke peptiden.	15
OpenProt_1pep database	de volgorde van alle RefProts en nieuwe eiwitten voorspeld door OpenProt, al ontdekt met een minimum van 1 unieke peptide bevat.	15
OpenProt_all database	bevat de volgorde van alle RefProts en nieuwe eiwitten voorspeld door OpenProt.	15

Tabel 1: Definitie van termen die worden gebruikt in OpenProt en in het gehele protocol

Aanvullende materiaal S1: Galaxy workflow voor database handling. Dit zal de CRAPome en lokvogel sequenties (achteruit) aan de ingang database toevoegen. Uitvoer is een Fasta bestand. Klik hier om te downloaden.

Aanvullende materiaal S2: Galaxy workflow voor eiwit identificatie. Dit zal het identificeren van eiwitten uit een gegevensbestand van de Spectrometrie van de massa met twee motoren van het onderzoek (MS-GF + en X! Tandem). Elke parameter kan worden afgesteld als gewenste voordat u de werkstroom. Klik hier om te downloaden.

Aanvullende materiaal S3: Galaxy workflow voor eiwit kwantificering met behulp van stabiele isotoop labeling (SIL). Dit zal identificeren en kwantificeren van eiwitten uit een gegevensbestand van de Spectrometrie van de massa met twee motoren van het onderzoek (MS-GF + en X! Tandem). Elke parameter kan worden afgesteld als gewenste voordat u de werkstroom. Klik hier om te downloaden.

Aanvullende materiële S4: X! Tandem standaard parameters configuratiebestand. Dit XML-bestand is nodig voor het uitvoeren van de X! TandemAdapter tool op het Galaxy-platform. Klik hier om te downloaden.

Aanvullende materiaal S5: eiwitten uit iMixPro datasets gekwantificeerd. Gegevensbestanden van Eyckerman et al. 2016³⁸ werden verwerkt met behulp van OpenProt databases en gekwantificeerde eiwitten worden vermeld voor elke voorwaarde. Lokaas zijn PTPN14, JIP3, IQGAP1, RAF1 en RNF41. Gene familienamen in groen overeen met eiwitten ook geïdentificeerd in het oorspronkelijke papier³⁸. Gene familienamen in oranje komen overeen met de bekende interactors volgens BioGrid die niet in het oorspronkelijke papier werden gerapporteerd. Gene familienamen in lichtblauw overeen met nieuwe eiwitten geïdentificeerd als interactors (het nummer van de overeenkomstige eiwit toetreding wordt aangegeven in vierkante haken). Gene namen aangegeven in lichtgrijs en cursief corresponderen met waarschijnlijk contaminanten (keratine eiwitten). Klik hier om te downloaden.

Aanvullende materiaal S6: roman eiwitten uit iMixPro datasets geïdentificeerd. Gegevensbestanden van Eyckerman et al. 2016³⁸ werden verwerkt met behulp van OpenProt databases en roman geïdentificeerde eiwitten worden vermeld voor elke voorwaarde. Lokaas zijn PTPN14, JIP3, IQGAP1, RAF1 en RNF41. Eiwit toetreding nummers worden weergegeven, beginnend met II_ voor roman isoforms van een bekende eiwit, en met IP_ voor nieuwe eiwitten uit een alternatieve ORF (AltProt). Het nummer ondersteunen peptiden haakjes worden aangegeven. Klik hier om te downloaden.

Discussion

Bij het analyseren van gegevens van massaspectrometers, wordt de kwaliteit van het eiwit identificatie gedeeltelijk afhankelijk is op de juistheid van de gebruikte database⁶^,²⁰. Huidige benaderingen traditioneel UniProtKB databases gebruiken, maar deze steun het genoom aantekening model voor een enkele ORF per afschrift en een minimale lengte van 100 codonen (met uitzondering van de eerder bewezen voorbeelden)⁴⁰. Meerdere studies hebben betrekking op de tekortkomingen van deze databanken met de ontdekking van functionele ORFs van naar verluidt niet-coderende regio's⁸^,¹¹^,¹²^,¹³. Nu, OpenProt maakt meer uitputtende eiwit identificatie omdat het proteïne sequenties van meerdere transcriptome aantekeningen vestigt. OpenProt haalt NCBI RefSeq (GRCh38.p7) en Ensembl (GRCh38.83) transcriptomes en UniProtKB aantekeningen (UniProtKB-SwissProt, 27-09-2017)⁴⁰^,⁴²^,⁴³. Als huidige aantekeningen aanwezig weinig overlappen, geeft OpenProt dus een meer uitputtende weergave van het potentiële proteomic landschap dan wanneer beperkt tot één annotatie¹⁵.

Bovendien, zoals OpenProt een polycistronic model dwingt, het staat voor meerdere eiwit aantekeningen per transcript. Omwille van de statistische en computationele houdt OpenProt nog steeds de drempel van een minimale lengte van 30 codonen¹⁵. Het voorspelt echter duizenden nieuwe proteïne sequenties, waardoor de uitbreiding van het toepassingsgebied van de mogelijkheden voor eiwit identificatie. Met deze benadering steunt OpenProt proteomic ontdekkingen in een meer systematische wijze.

De kwaliteit van het eiwit identificatie kan ook worden beïnvloed door de parameters die worden gebruikt. Op basis van MS proteomics analyses houden meestal een 1% eiwit FDR. Echter, de gehele OpenProt database bevat ongeveer 6 keer meer items (Figuur 1). Om deze substantiële stijging in de zoekruimte te verklaren, raden we een strengere FDR van 0,001%. Deze parameter is geoptimaliseerd door het gebruik van de benchmark-studies en handmatige evaluatie van willekeurig geselecteerde spectra¹⁵. Vals positief zijn nog steeds een mogelijkheid, hoewel, en we moedigen grondige inspectie en validatie van ondersteunend bewijsmateriaal voor een roman eiwit. Een aanbevolen standaard zou de identificatie van een eiwit van twee verschillende MS runs, zoals achtergrondgegevens en valse positieven tussen datasets^{15 variëren}.

De pijpleiding hier verstrekte en gebruikte voor de case-study kan zo graag fit de proefopzet en parameters worden gewijzigd. Wij raden het gebruik van meerdere zoekmachines zoals het verhoogt de gevoeligheid en de gevoeligheid van peptide identificatie³². Bovendien stimuleren we met behulp van de database die is best overeenkomt met de experimentele doel (Figuur 1). Als het gebruik van de hele OpenProt database wordt geleverd met een strenge FDR, kunnen ware identificaties worden verloren. Dus moet de gehele database bestemd zijn voor ontdekking van nieuwe eiwitten, terwijl de klassieke proteomics profiling moet gebruik maken van de kleinere OpenProt databases (zoals OpenProt_2pep gebruikt in de case study hierboven).

OpenProt voorspelt momenteel sequenties die beginnen met een ATG-codon, overwegende dat verscheidene studies vertaling inleiding op andere codonen⁴⁴^,^{45 blijkt}. Wanneer een nieuwe eiwit wordt aangeduid door één of meerdere unieke peptiden, is het mogelijk dat de ware initiatie codon is niet de vermoedelijke ATG. Gebruikers kunnen bekijken voor vertaling bewijs op de OpenProt website. Momenteel meldt OpenProt alleen vertaling gebeurtenissen als zij betrekking hebben op de gehele voorspelde eiwit sequentie (100% overlap)¹⁵. Dus, gebrek aan bewijzen van de vertaling zou niet het eiwit is niet vertaald, maar dat de start codon mogelijk niet de vermeende ATG.

Ondanks de huidige beperkingen biedt OpenProt een meer uitputtende weergave van eukaryotische genomen codering potentieel. OpenProt databases bevorderen proteomic ontdekkingen en het begrip van proteomic functies en interacties. Toekomstige ontwikkelingen van de OpenProt database houdt aantekening van andere soorten, vertaling bewijs van niet-ATG start codon en ontwikkeling van een pijpleiding naar de nieuwe eiwitten in het hele genoom en exome sequencing studies omvatten.

Disclosures

De auteurs verklaren geen belangenconflict.

Acknowledgments

Wij danken Vivian Delcourt voor zijn hulp, discussies en advies op dit werk. X.R. is een lid van het Fonds de Recherche du Québec Santé FRQS-ondersteunde Centre de Recherche du Centre Hospitalier Universitaire de Sherbrooke. Dit onderzoek werd gesteund door een Canada Research Chair in functionele Proteomics en ontdekking van de eiwitten van de roman tot X.R. en CIHR verlenen MOP-137056. Wij danken het team van Calcul Québec en Compute Canada voor hun ondersteuning bij het gebruik van de supercomputer mp2 van de Université de Sherbrooke. Werking van de supercomputer mp2 wordt gefinancierd door het Canada Stichting van innovatie (GEA), le ministère de l'Économie, de la science et de l'innovation du Québec (MESI) en les Fonds de Recherche du Québec - Nature et technologieën (FRQ-NT). De Galaxy-server die werd gebruikt voor sommige proteomics berekeningen wordt gedeeltelijk gefinancierd door Collaborative Research Centrum 992 Medische epigenetica (DFG grant SFB 992/1-2012) en Duitse federale ministerie van onderwijs en onderzoek (goedgekeurd verleent 031 RBC A538A/A538C, 031L0101B /031L0101C de. NBI-epi, 031L 0106 de. TRAP (de. NBI)).

Materials

Name	Company	Catalog Number	Comments
OpenProt website	open source	n/a	www.openprot.org
Galaxy Server	open source	n/a	https://usegalaxy.eu/
TOPPview software	open source	n/a	www.openms.de

DOWNLOAD MATERIALS LIST

References

Kim, M. S., et al. A draft map of the human proteome. Nature. 509 (7502), 575-581 (2014).
Wilhelm, M., et al. Mass-spectrometry-based draft of the human proteome. Nature. 509 (7502), 582-587 (2014).
Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163 (3), 712-723 (2015).
Huttlin, E. L., et al. The BioPlex Network: A Systematic Exploration of the Human Interactome. Cell. 162 (2), 425-440 (2015).
Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545 (7655), 505-509 (2017).
Kumar, D., Yadav, A. K., Dash, D. Choosing an Optimal Database for Protein Identification from Tandem Mass Spectrometry Data. Proteome Bioinformatics. , 17-29 (2017).
Jeong, K., Kim, S., Bandeira, N. False discovery rates in spectral identification. BMC Bioinformatics. 13 (Suppl 16), (2012).
Brunet, M. A., Levesque, S. A., Hunting, D. J., Cohen, A. A., Roucou, X. Recognition of the polycistronic nature of human genes is critical to understanding the genotype-phenotype relationship. Genome Research. , (2018).
Brent, M. R. Genome annotation past, present, and future: how to define an ORF at each locus. Genome Research. 15 (12), 1777-1786 (2005).
Harrow, J., et al. GENCODE: The reference human genome annotation for The ENCODE Project. Genome Research. 22 (9), 1760-1774 (2012).
Samandi, S., et al. Deep transcriptome annotation enables the discovery and functional characterization of cryptic small proteins. eLife. 6, e27860 (2017).
Saghatelian, A., Couso, J. P. Discovery and characterization of smORF-encoded bioactive polypeptides. Nature Chemical Biology. 11 (12), 909-916 (2015).
Delcourt, V., Staskevicius, A., Salzet, M., Fournier, I., Roucou, X. Small Proteins Encoded by Unannotated ORFs are Rising Stars of the Proteome, Confirming Shortcomings in Genome Annotations and Current Vision of an mRNA. Proteomics. , (2017).
Plaza, S., Menschaert, G., Payre, F. In Search of Lost Small Peptides. Annual Review of Cell and Developmental Biology. 33 (1), (2017).
Brunet, M. A., et al. OpenProt: a more comprehensive guide to explore eukaryotic coding potential and proteomes. Nucleic Acids Research. , (2018).
Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Research. 44 (W1), W3-W10 (2016).
Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2018 update. Nucleic Acids Research. 46, W537-W544 (2018).
Sturm, M., et al. OpenMS – An open-source software framework for mass spectrometry. BMC Bioinformatics. 9 (1), 163 (2008).
Carithers, L. J., et al. A Novel Approach to High-Quality Postmortem Tissue Procurement: The GTEx Project. Biopreservation and Biobanking. 13 (5), 311-319 (2015).
Aebersold, R., Mann, M. Mass spectrometry-based proteomics. Nature. 422 (6928), 6928 (2003).
Domon, B., Aebersold, R. Mass Spectrometry and Protein Analysis. Science. 312 (5771), 212-217 (2006).
Hu, J., Coombes, K. R., Morris, J. S., Baggerly, K. A. The importance of experimental design in proteomic mass spectrometry experiments: Some cautionary tales. Briefings in Functional Genomics. 3 (4), 322-331 (2005).
Wu, P. Y., Phan, J. H., Wang, M. D. Assessing the impact of human genome annotation choice on RNA-seq expression estimates. BMC Bioinformatics. 14 (11), S8 (2013).
Mellacheruvu, D., et al. The CRAPome: a contaminant repository for affinity purification-mass spectrometry data. Nature Methods. 10 (8), 730-736 (2013).
Adusumilli, R., Mallick, P. Data Conversion with ProteoWizard msConvert. Proteomics: Methods and Protocols. , 339-368 (2017).
French, W. R., et al. Wavelet-Based Peak Detection and a New Charge Inference Procedure for MS/MS Implemented in ProteoWizard’s msConvert. Journal of Proteome Research. 14 (2), 1299-1307 (2015).
Kuenzi, B. M., et al. APOSTL: An Interactive Galaxy Pipeline for Reproducible Analysis of Affinity Proteomics Data. Journal of Proteome Research. 15 (12), 4747-4754 (2016).
Hoekman, B., Breitling, R., Suits, F., Bischoff, R., Horvatovich, P. msCompare: a framework for quantitative analysis of label-free LC-MS data for comparative candidate biomarker studies. Molecular & Cellular Proteomics: MCP. 11 (6), (2012).
Bjornson, R. D., et al. X!!Tandem, an improved method for running X!tandem in parallel on collections of commodity computers. Journal of Proteome Research. 7 (1), 293-299 (2008).
Kim, S., Pevzner, P. A. MS-GF+ makes progress towards a universal database search tool for proteomics. Nature Communications. 5, 5277 (2014).
Vaudel, M., Barsnes, H., Berven, F. S., Sickmann, A., Martens, L. SearchGUI: An open-source graphical user interface for simultaneous OMSSA and X!Tandem searches. Proteomics. 11 (5), 996-999 (2011).
Shteynberg, D., Nesvizhskii, A. I., Moritz, R. L., Deutsch, E. W. Combining results of multiple search engines in proteomics. Molecular & Cellular Proteomics: MCP. 12 (9), 2383-2393 (2013).
Bittremieux, W., et al. Quality control in mass spectrometry-based proteomics. Mass Spectrometry Reviews. 37 (5), 697-711 (2018).
Bertsch, A., Gröpl, C., Reinert, K., Kohlbacher, O. OpenMS and TOPP: Open Source Software for LC-MS Data Analysis. Data Mining in Proteomics: From Standards to Applications. , 353-367 (2011).
Pfeuffer, J., et al. OpenMS – A platform for reproducible analysis of mass spectrometry data. Journal of Biotechnology. 261, 142-148 (2017).
Kozak, M. Pushing the limits of the scanning mechanism for initiation of translation. Gene. 299 (1-2), 1-34 (2002).
Noderer, W. L., et al. Quantitative analysis of mammalian translation initiation sites by FACS-seq. Molecular Systems Biology. 10, 748 (2014).
Eyckerman, S., et al. Intelligent Mixing of Proteomes for Elimination of False Positives in Affinity Purification-Mass Spectrometry. Journal of Proteome Research. 15 (10), 3929-3937 (2016).
Vizcaíno, J. A., et al. 2016 update of the PRIDE database and its related tools. Nucleic Acids Research. 44 (D1), D447-D456 (2016).
Bateman, A., et al. UniProt: the universal protein knowledgebase. Nucleic Acids Research. 45 (D1), D158-D169 (2017).
The Gene Ontology Consortium Expansion of the Gene Ontology knowledgebase and resources. Expansion of the Gene Ontology knowledgebase and resources. Nucleic Acids Research. 45 (D1), D331-D338 (2017).
O’Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research. 44, D733-D745 (2016).
Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Research. 46 (D1), D754-D761 (2018).
Andreev, D. E., et al. Translation of 5’ leaders is pervasive in genes resistant to eIF2 repression. eLife. 4, e03971 (2015).
Jackson, R., et al. The translation of non-canonical open reading frames controls mucosal immunity. Nature. 564, 434-438 (2018).

Genetics

Massa spectrometrie gebaseerde Proteomics Analyses met behulp van de OpenProt Database te onthullen nieuwe eiwitten vertaald uit niet-canonieke Open lezing Frames

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.