Mass Spectrometry-baserad proteomik analyser med hjälp av databasen OpenProt att avslöja nya proteiner översatt från icke-kanoniska öppen läsning ramar

Genetics
 

Summary

OpenProt är en fritt tillgänglig databas som verkställer en polycistronic modell av eukaryota genom. Här presenterar vi ett protokoll för användning av OpenProt databaser när förhör masspektrometri datamängder. Använda OpenProt möjliggör databas för analys av proteomiska experiment upptäckten av romanen och tidigare omätbara proteiner.

Cite this Article

Copy Citation | Download Citations

Brunet, M. A., Roucou, X. Mass Spectrometry-Based Proteomics Analyses Using the OpenProt Database to Unveil Novel Proteins Translated from Non-Canonical Open Reading Frames. J. Vis. Exp. (146), e59589, doi:10.3791/59589 (2019).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Genomet annotation är central för dagens proteomiska forskning eftersom det fäster konturerna av proteomiska landskapet. Traditionella modeller av öppna läsning ram (ORF) anteckning införa två godtyckliga kriterier: en minsta längd på 100 kodon och en enda ORF per utskrift. Ett växande antal studier rapporterar dock uttrycket av proteiner från påstås ha icke-kodande regioner, utmanande riktigheten av nuvarande genomet anteckningar. Dessa roman proteiner hittades kodas antingen inom icke-kodande RNAs, 5' eller 3' oöversatta regioner (utr) av mRNA eller överlappande en känd kodande sekvens (CDS) i ett alternativ ORF. OpenProt är den första databasen som verkställer en polycistronic modell för eukaryota genomen, låter annotering av flera ORFs per utskrift. OpenProt är fritt tillgängliga och erbjuder anpassade nedladdningar av proteinsekvenser över 10 arter. Använda OpenProt databas för proteomiska experiment gör romanen proteiner upptäckten och belyser polycistronic beskaffenhet eukaryota gener. Storleken på OpenProt databasen (alla förutspådde proteiner) är betydande och behöver tas i konto för analys. Dock med lämpliga falsk upptäckten hastighet (FDR) inställningar eller användning av en begränsad OpenProt databas, kommer användare att få en mer realistisk syn på proteomiska landskapet. Sammantaget är OpenProt ett fritt tillgängliga verktyg som främjar proteomiska upptäckter.

Introduction

Under de senaste decennierna blivit masspektrometri (MS-) baserad proteomik gyllene tekniken att dechiffrera proteom av eukaryota celler1,2,3,4,5. Denna metod förlitar sig på nuvarande genomet anteckningar att generera en referensdatabas protein sekvens som beskriver omfattningen av möjligheter6,7,8. Dock hålla genomet anteckningar godtyckliga kriterier för ORF annotering, såsom en minsta längd på 100 kodon och en enda ORF per avskrift9,10. Ett ökande antal studier utmana den nuvarande anteckning-modellen och rapportera fynd av arter utan not funktionella ORFs i eukaryota genomen8,11,12,13, 14. Dessa nya proteiner finns kodade i påstås ha icke-kodande RNAs, i 5' eller 3' translaterade regioner (UTR) av mRNA eller överlappande den kanoniska kodande sekvensen (CCD: er) i en alternativ ram. Även om de flesta av dessa upptäckter har varit serendipitous, visar de förbehåll av nuvarande genomet annoteringar och eukaryota gener8polycistronic karaktär.

Här belyser vi användningen av OpenProt databaser för MS-baserad proteomik. OpenProt är den första databasen att hålla en polycistronic anteckning modell för eukaryota transcriptomes. Det är fritt tillgängliga på www.openprot.org15. En del av dessa förutspådde ORFs skulle vara slumpmässiga och icke-funktionella, varför OpenProt cumulates experimentella och funktionella bevis att öka förtroende. Experimentella bevis inkluderar proteinuttryck (MS) och översättning bevis (av Ribosomen profilering)15. Funktionella bevis inkluderar proteinet ortologiprediktion (med en i-Paranoid som strategi) och funktionell domän förutsägelse15.

OpenProt erbjuder möjligheten att ladda ner flera databaser, från innehållande endast väl stöds proteiner till skräddarsydda databaser. Här kommer vi att presentera en pipeline för användning av OpenProt databaser och kommer att erbjuda insikter om vilken databas som ska välja med tanke på syftet experimentella. Rörledningen proteomik analys presenteras här stöds av Galaxy ramen som det är öppna och lätt-till-använda, men databaserna kan arbeta med någon arbetsflöde16,17,18. Vi kommer också att presentera hur du använder webbplatsen OpenProt för insamling av ytterligare information om romanen proteiner upptäcks av MS. Using OpenProt databaser kommer att ge ett mer uttömmande bild av proteomiska landskapet och kommer att främja Proteomik och biomarkörer upptäckter i ett mer systematiskt sätt än nuvarande metoder.

Detta protokoll belyser användningen av OpenProt databaser15 när förhör MS datamängder; Det kommer inte att granska utformningen av experimentet själv, som har varit grundligt granskat någon annanstans20,21,22. I ett försök att förbli helt öppen källkod, är protokollet fritt tillgängliga (Kompletterande Material S1S4). För lättare läsning definieras alla termer som används i OpenProt och härmed i hela detta protokoll i tabell 1.

Protocol

1. OpenProt databas nedladdning

Obs: Anpassade databaser baserade på RNA-seq data till exempel kan också erhållas och förfarandet är detaljerad i andra delen av detta protokoll. Om en anpassad databas behövs, hoppa till nästa avsnitt.

  1. Gå till webbplatsen OpenProt: www.openprot.org och öppna sidan nedladdade filer med hjälp av länken i menyn överst på sidan.
  2. Klicka på arterna av intresse utifrån de analyserade experimentella data.
  3. Klicka på protein typ önskas.
    Obs: OpenProt erbjuder tre klassificeringar: RefProt, isoformer och AltProt. Som visas i figur 1, kommer att denna parameter variera beroende på syftet forskning.
    1. Klicka på RefProt ensam att generera filer som innehåller endast kända proteiner.
    2. Klicka på AltProt och isoformer att generera filer som innehåller endast romanen proteiner - antingen roman isoformer av kända proteiner (isoformer) eller kodad genom ett alternativ ORF (AltProts). Observera att OpenProt tillämpar en minimiperiod ORF 30 kodon15.
    3. Klicka på AltProts, isoformer och RefProts att generera filer som innehåller alla protein typer förekommer i databasen OpenProt - kända och nya proteiner.
  4. Om tillgängligt, klicka på anteckningen från vilket protein sekvenser dras.
    Obs: OpenProt erbjuder ett mer uttömmande proteomiska landskap genom att kombinera flera anteckningar. Transkriptom anteckningar har en minimal överlappning; den valda anteckningen kan således väsentligen påverka den visualiserade proteomiska profil15,23.
  5. Klicka på nivån av underlagen nödvändiga protein vederlag. Som visas i figur 1, kommer att denna parameter variera beroende på syftet forskning.
    1. Klicka på minst två unika peptider upptäckt att generera filer som innehåller endast de mest självsäker proteinerna.
      Obs: Ett kriterium av två unika peptider anses för närvarande vara en guldmyntfot i Proteomik för proteinuttryck. Om experimentell syftar till att upptäcka kända och väl stöds proteiner, rekommenderas användning av den här parametern.
    2. Klicka på minst en unik peptider upptäckt att generera filer som innehåller proteiner som har redan setts minst en gång bland masspektrometri experimenten åter analyseras av OpenProt.
      Obs: Detta ger övervägande av den korta längden av AltProts och sannolikheten för att vissa av dem kan innehålla endast en unik tryptic peptid8,11.
    3. Klicka på alla förutspådde att generera filer som innehåller alla OpenProt förutsägelser.
      Obs: Denna inställning rekommenderas bara om experimentell syftar till att upptäcka nya proteiner (figur 1). Den efterföljande betydande ökningen Sök utrymme samtal för en anpassad analys pipeline som diskuteras nedan7,15.
  6. Klicka på önskat filformat att ladda ner. För proteomiska analyser, välja den Fasta (protein)-fil. Filen readme innehåller all nödvändig information om formatet.

2. anpassade OpenProt databasen ladda ner

Obs: Detta avsnitt beskriver hur du skaffar en anpassad databas. Om ingen anpassad databas behövs, hoppa till nästa avsnitt.

  1. Gå till webbplatsen OpenProt (www.openprot.org) och öppna sidan sökning med hjälp av länken i menyn överst på sidan.
  2. Klicka på arterna av intresse baserat på experimentella data som analyseras.
  3. Ange en lista av gener eller avskrifter av intresse.
    1. När du använder en lista över gener, ange det i rutan gen fråga.
    2. När du använder en lista över utskrifter, ange det i rutan avskrift .
  4. Markera en ruta som gäller för den önska databasen.
    1. Klicka inte på någon låda att få en tabell som innehåller alla typer av protein som stöds av OpenProt: RefProt, isoformer och AltProts.
    2. Klicka på Visa endast proteiner med experimentella bevis för att få en tabell som innehåller alla typer av proteiner (RefProts, isoformer och AltProts) som upptäckts minst en gång av MS eller för vilka översättning bevis har samlats in från Ribosomen profilering data.
    3. På samma sätt, klicka på Visa endast proteiner upptäcks av MS eller på Visa endast proteiner upptäcks av Ribosomen profilering att få en tabell som innehåller alla typer av proteiner som har upptäckts minst en gång av MS eller av Ribosomen profilering respektive.
    4. Klicka på Visa endast AltProts eller på Visa endast isoformer att få en tabell som innehåller endast AltProts eller endast isoformer respektive.
    5. Klicka på både visar endast AltProts och visar endast isoformer att få en tabell som innehåller båda typerna av proteiner.
      Obs: Alla kombinationer av filter är möjliga.
  5. När alla önskade parametrar har ställts in, klicka på Sök. Tabell utdata visas under Sök frågefälten.
  6. Klicka på knappen Hämta Fasta på det övre högra hörnet i utdatatabellen. Detta genererar en Fasta fil som innehåller alla proteiner som härrör från listan efterfrågade av gener eller avskrifter.
  7. Observera att OpenProt för computational skäl, innehar högst 2.000 element som ska frågas (gener eller avskrifter) i taget. I händelse av en lista över denna gräns, kan flera fasta genereras och sedan sammanfogas (enligt nedan). eller helt enkelt ladda ner hela OpenProt databasen och filtrera den erhållna filen som önskas.
    1. Bin i hela listan av gener eller avskrifter i sub listor av högst 2 000 poster. För varje sub lista, hämta en Fasta fil som beskrivs ovan (steg 3.3 till 3.6).
    2. Logga in på den europeiska Galaxy-instansen (eller någon annan instans där det finns proteomik verktyg), https://usegalaxy.eu/.
    3. Skapa en ny historia och importera alla nedladdade OpenProt databaser (en per underlista gener eller avskrifter) genom att klicka på ladda upp logotypen vänster överst på skärmen.
    4. Använda verktyget Fasta sammanfoga filer och Filter unika sekvenser som utvecklats av GalaxyP utvecklare (https://github.com/galaxyproteomics/). Markera alternativet sammanfoga alla Fasta och mata in alla de importerade OpenProt databaserna.
      Obs: Varje verktyg kan sökas med hjälp av query-rutan på vänster sida av skärmen
    5. Välj alternativet anslutning endast att bedöma sekvens unicity och kopiera OpenProt identifierare parse regeln (>(.*) \ |), klicka på Execute.
    6. Observera att alla filer har varit sammanfogas till en unik Fasta-fil med ingen redundans som nu visas i historikpanelen på höger sida av skärmen. Detta utgör arbetsdatabasen.

3. databasen hantering

Obs: från nu på, Galaxy plattformen ska användas, men samma principer kan tillämpas på andra proteomiska programvara.

  1. Logga in på den europeiska Galaxy-instansen (eller någon annan instans där det finns proteomik verktyg), https://usegalaxy.eu/.
  2. Skapa en ny historia och importera den nedladdade OpenProt-databasen genom att klicka på ladda upp logotypen vänster överst på skärmen.
  3. Gå till sidan arbetsflöde och importera arbetsflödet databas hantering (Kompletterande Material S1) genom att klicka på ladda upp logotypen vänster överst på panelen mellersta.
  4. Klicka på kör arbetsflödet och markera den importera OpenProt databasen som indata.
    Obs: Detta arbetsflöde kommer att bifoga CRAPome databasen till den OpenProt fasta och generera decoy sekvenser (omvänd sekvenser)24. Om en shuffle decoy lista önskas, kan det göras genom att ändra parametern på verktyget DecoyDatabase.
  5. Byt namn på den erhållna Fasta-fil till något meningsfullt. Databasen är den klar att användas för proteomik analyser.

4. masspektrometri filförberedelse

Obs: De flesta proteomik verktyg tillgängliga på Galaxy instanser använder formatet mzML och peptid sökmotorer föredrar data i centroiden läge.

  1. Öppna verktyget fritt tillgängliga MSConvert från ProteoWizard suite och ladda upp filen för att vara analyserade25.
  2. Välj katalogen för utdata och önskat filformat till mzML.
  3. Ange en topp plocka filter med wavelet baserad algoritm (CWT) på MS1 och MS2 nivåer och starta konvertering26.

5. peptid- och identifiering/kvantifiering

Obs: Denna del av rörledningen använder verktyg från OpenMS suite, en mångsidig och lätt-till-använda ram18.

  1. Logga in på den europeiska Galaxy-instansen (eller någon annan instans där det finns proteomik verktyg), https://usegalaxy.eu/.
  2. Skapa en ny historia och överför tidigare skapade databasen (steg 3.5) till denna nya historia med en dra-och-släpp.
  3. Importera filen transformerade mzML (steg 4,3) genom att klicka på ladda upp logotypen vänster överst på skärmen.
  4. Gå till sidan arbetsflöde och importera önskad arbetsflödet genom att klicka på ladda upp logotypen vänster överst på panelen mellersta.
    Obs: MS experiment utformas annorlunda utifrån önskad slutresultatet. Arbetsflöden är här föreskrivs två täta mönster: protein identifiering och protein kvantifiering baserat på stabil isotop märkning (SIL). Den Galaxy-instansen innehåller dock många andra verktyg som kommer att stödja andra typer av proteomiska analyser27,28.
    1. För en protein identifiering design, importera arbetsflödet i Kompletterande Material S2När du använder arbetsflödet, vänligen använd inte zlip komprimering när du konverterar dina filer (steg 4,2)
    2. För protein kvantifiering utifrån stabil isotop märkning design, importera arbetsflödet i Kompletterande Material S3.
  5. Välj kör arbetsflödet och granska de olika parametrarna.
    1. Välj den importera mzML datafilen som indata och tidigare skapade databasen (steg 3.5) som Fasta databasfilen.
    2. Eftersom arbetsflödet använder X! Tandem Sök motor, importera X! Tandem standard configuration filen (finns Kompletterande Material S4)29 genom att klicka på ladda upp logotypen vänster överst på skärmen.
    3. Arbetsflödet använder flera sökmotorer (MS-GF + och X! Tandem). Lägga till andra sökmotorer eller välja en enda helt enkelt genom att lägga till eller ta bort verktyg från arbetsflödet30,31.
      Obs: Flera sökmotorer rekommenderar eftersom det ökar känslighet och lyhördhet av analys32.
    4. För att beakta den betydande ökningen storlek när du använder hela OpenProt databasen, använder du en stränga FDR15. Som standard tillhandahålls arbetsflödet är inställd för en 0,001% FDR, tillräcklig för att utnyttja hela OpenProt databasen. För andra databaser, kan detta redigeras till någon önskat värde.
      Obs: Glöm inte att anpassa parametrarna för de olika verktyg beroende på den masspektrometer som används och det experimentellt protokollet (föregångare ion och fragment fel, fast och rörlig modifieringar, används enzym, etc.).
  6. Du kan också hämta utdata för varje steg i arbetsflödet för lagring eller kvalitetskontroll analys genom att klicka på det valda steget från historikpanelen och sedan på Spara logotypen som visas under.

6. kvalitetskontroll

Obs: Eftersom MS-baserad Proteomik är resultatet av en komplex process där varje steg måste optimeras för att producera reproducerbara resultat, kvalitetskontroll är ett nödvändigt förfarande i den arbetsflöde33.

  1. Flera mätvärden är gemensamt riktmärke prestanda, såsom antalet peptid-spektrum matcher (PSM), antalet identifierade peptider och proteiner. Kör verktyget File Info på IDFilter utgång (indikeras med grönt i figur 2) för att tillhandahålla sådana mätvärden.
  2. Även om inte tillämpliga på varje identifiering, särskilt med stora datamängder, bör rapporter av romanen proteiner alltid utvärderas noggrant. Inspektion av den protein-poängen, sekvens täckningen och spektra stödja konstaterandet är av avgörande betydelse. Använd verktyget TOPPview från den OpenMS ramen för att göra detta; Det är fritt tillgänglig och dokumenterade väl18,34,35.

7. OpenProt databas gruvdrift

Obs: När en säker identifiering av en roman protein som förutsägs av OpenProt (anslutningen nummer som börjar med IP för AltProts och II_ för romanen isoformer) har gjorts, kan mer biologisk information samlas in från den OpenProt hemsida15.

  1. Gå till webbplatsen OpenProt: www.openprot.org och öppna sidan sökning med hjälp av länken i menyn överst på sidan.
  2. Klicka på arterna av intresse (samma som den som identifierades proteinet) och numret protein anslutningen i rutan Protein .
  3. Klicka på Sök och en tabell som innehåller grundläggande information om det efterfrågade proteinet visas. Tabell funktioner: protein längden (i aminosyra), dess molekylvikt (kDa) och isoelektrisk punkt, stödja experimentella bevis av MS eller Ribosomen profilering (översättning bevis, TE) och funktionella förutsägelser som förutspådde domäner och protein ortologiprediktion (över 10 arter stöds av OpenProt, v1.3). Tabellen innehåller även information om relaterade genen och avskrift och lokaliseringen av proteinet inom avskriften.
  4. Klicka på länken Detaljer att samla ytterligare information. Nyöppnade sidan innehåller en genomet-webbläsare som är centrerad på efterfrågade protein och information såsom den genomiska och transcriptomic koordinater och förekomsten av en Kozak eller högeffektiv översättning inledande webbplats (TIS) motiv36, 37.
  5. Klicka på Protein eller DNA länkar från fliken info att få protein eller DNA-sekvenser respektive.
  6. Bläddra detaljerad information om MS bevis, Ribosom profilering detektering, bevarande och identifierade proteinet domäner genom att klicka på de övre flikar15.

Representative Results

Arbetsflödet ovan tillämpades en MS dataset tillgänglig på den stolthet repository38,39. Ursprungliga studien utvecklades en metod (iMixPro), med stabil isotop märkning av aminosyror i cellkultur (SILAC), för att eliminera falsklarm från affinitet-rening MS experiment (AP-MS)38. I korthet består ett AP-MS experiment av att använda pärlor-bundna antikroppar för att hämta ett protein av intresse (bete) och dess interactmedlemmar (bytesorganismer). De insamlade proteinerna är sedan smält och förberett för MS. De prov förberedelse metoden och instrumentinställningar beskrivs i den ursprungliga undersökningen och på databasen stolthet (PXD004246). En utmaning i sådana experiment är överflödet av falska positiva resultat, särskilt från proteiner som binder till pärlorna men inte betet. Här, vi använde SILAC för att generera olika isotopen relationstal mellan sant bytesorganismer och falska positiva: 3 kontrollprover (inget bete) odlade i ljus medium, 1 prov uttrycker betet odlade i ljus medium och 1 prov uttrycker betet odlade i tunga medium är behandlas med pärlor och ytterligare masspektrometri analys. Med sådan design, kommer att icke-specifika proteiner binder till pärlor ha en tung-to-light förhållandet 1:4; När sanna bytesorganismer kommer att ha ett förhållande på 1:138.

Vi analyserade åter sin AP-MS data med hjälp av databasen OpenProt; beten ingår tre endogena proteiner (PTPN14, JIP3 och IQGAP1), och två uttryckt alltför proteiner (RAF1 och RNF41). Eftersom experimenten används SILAC, Galaxy arbetsflödet för protein kvantifiering användes (Kompletterande Material S3, figur 2). Arbetsflödet kördes använder hela OpenProt databasen (OpenProt_all) eller en begränsad OpenProt databas (OpenProt_2pep, inklusive endast proteiner tidigare upptäckt med ett minimum av två unika peptider).

Protein identifiering och kvantifiering var bra och reproducerbara över olika används databaser. I figur 3visas de flesta proteiner identifierades i det ursprungliga papperet identifierades med hjälp av antingen OpenProt_2pep eller OpenProt_all databas (en detaljerad lista finns i Kompletterande Material S5). Detta resultat visar att rörledningen beskrivs här och den OpenProt databaser är kunna producera protein identifiering och kvantifiering jämförbar med nuvarande förfaranden som grundas på UniProtKB databaser40. Men har användningen av OpenProt databaser den unika fördelen att upptäckt av romanen och tidigare omätbara proteiner, som visat i det här fallet studera.

11 väl stöds proteiner (1 isoformen och 10 AltProts), men för närvarande inte kommenterad i databaser, identifierades över alla datamängder, med säker peptider, med hjälp av databasen OpenProt_2pep (alla protein anslutningarna, tillsammans med antal stödja peptider, är tillgängliga i Kompletterande Material S5). Denna databas tillåter användning av en traditionell 1% FDR som Sök utrymme ökar fortsatt måttlig. Dessa 11 proteiner identifierades inte i den ursprungliga undersökningen som de var frånvarande från databasen.

29 nya proteiner (16 isoformer och 13 AltProts) upptäcktes över alla datamängder, med säker peptider, med hjälp av databasen OpenProt_all (alla protein anslutningarna, tillsammans med antalet stödja peptider, är tillgängliga i kompletterande Material S6 ). I figur 3visas de rekommenderade stränga FDR påverkade inte identifiering av mest självsäker protein, även om det minskar det totala antalet identifierade proteiner. Jämförelsevis till databasen OpenProt_2pep, kan ett högre antal nya proteiner tryggt identifieras. Alla dessa nya proteiner är frånvarande från databasen OpenProt_2pep. Detta understryker den avgörande rollen som den valda databasen för MS-baserad proteomik.

En roman protein upptäcktes som en datadestination av proteinet RAF1 (IP_637643). Använda webbplatsen för OpenProt, kan man se detta protein inte hade upptäckts av MS heller Ribosomen profilering tills nu (OpenProt v1.3). Proteinet är 46 aminosyror lång och kan bara ge två unika peptider vid tryptic matsmältningen. Peptiden upptäcktes i RAF1 AP-MS datamängden (fraktion 18) hade ett bra kvalitet spektrum, som visas i figur 4och visas ett heavy-to-light förhållande på 1,09. Proteinet är kodad i genen NANOGNBP1 , som är en pseudogene av NANOGNB. Avskriften (ENST00000448444), för närvarande kommenterade som icke-kodande, upptäcktes över flera vävnader enligt GTEx portal40. Proteinet innehåller en förväntad funktionell domän är associerad med DNA bindande (Gene Ontology gå: 0003677)41.

Figure 1
Figur 1 : Databas val för proteomik analyser diagrammet. Analyser av MS data, särskilt databas valet, beror på forskningsmål som. Tre gemensamma målen beskrivs i blått (klassiska proteomiska pipeline), grönt (uttömmande proteomiska Sök) och orange (proteomiska discovery). Varje mål beror på en lämplig databas och pipeline. Ett enda identifiering verktyg kan användas för en uttömmande och klassisk proteomik rörledningar. För proteomiska discovery rörledningen rekommenderar vi att du använder flera identifiering motorer. Rekommenderade FDRs anges i rött, och protein databasstorlekar indikeras i grå rutor. Klicka här för att se en större version av denna siffra.

Figure 2
Figur 2 : Grafisk representation av Galaxy arbetsflödet används. Stegvisa representation av proteomiska analys arbetsflöde används för re-analys av Eyckerman et al. data38. Indatafiler, peptid Sök och protein kvantifiering markeras med orange rutorna. Blå rutor motsvarar de verktyg som används och grå rutorna motsvarar utdatafiler genereras. Olika sökmotorer (MS-GF + och X! Tandem) markeras med olika färger (respektive röda och lila) samt de pilar som visar deras nödvändiga in- och utgångar. Den gröna rutan belyser verktyget genererar en lista över protein identifieringar. När flera utgångar genereras, den som används för efterföljande steg är indicerat som närmast på pilen. Arbetsflödet är fritt tillgänglig i Kompletterande Material S2. På X! Tandem standard parametrar konfigurationsfil finns i Kompletterande Material S4. Klicka här för att se en större version av denna siffra.

Figure 3
Figur 3 : Jämförelse av Interactmedlemmen identifiering per bete använder olika databaser. Venndiagram protein identifieringar med hjälp av den mest självsäker OpenProt databas (i orange, stödjande bevis av minsta 2 unika peptider, OpenProt_2pep) med 1% FDR eller den hela OpenProt databas (i blått, OpenProt_all) med 0,001% FDR, eller som rapporterats i de ursprungliga papper (i grått)38. Varje diagram motsvarar identifierade interactmedlemmar för nämnda betet: RAF1, RNF41, PTPN14, JIP3 och IQGAP1. Klicka här för att se en större version av denna siffra.

Figure 4
Figur 4 : MS/MS spektrum av identifierade MDNLWAK(13C 6) peptid från romanen protein IP_637643. Intensitet är relativ (0 till 100%). Markerade toppar indikeras i rött, y joner anteckningar är mörkt röd och b joner anteckningar i grönt. Ur den TOPPview programvara34. Föregångaren fel = 2.70 ppm, PEP poäng = 0,12. Klicka här för att se en större version av denna siffra.

Sikt Definition Referens
Alternativa ORF (AltORF) icke-kanoniska ORF för närvarande inte kommenterad i genomet anteckningar, men annotated i OpenProt. 15
Referens ORF (RefORF) kanoniska ORF kommenterad i genomet anteckningar och OpenProt. 15
Alternativa protein (AltProt) romanen protein som kodas av en AltORF, med ingen betydande likhet med en RefProt. Anslutning prefix: IP. 15
Jämförelseproteinet (RefProt) protein för närvarande kommenterade i protein sequence databaser såsom UniProtKB, häckning eller NCBI RefSeq, och också i OpenProt. 15
Romanen Isoform romanen protein som kodas av en AltORF, med en betydande likhet med en RefProt. Anslutning prefix: II_. 15
OpenProt_2pep databas innehåller alla RefProts och romanen proteiner förutsägs av OpenProt, med ett minimum av 2 unika peptider redan upptäckts. 15
OpenProt_1pep databas innehåller alla RefProts och romanen proteiner förutsägs av OpenProt, med ett minimum av 1 unika peptid redan upptäckts. 15
OpenProt_all databas innehåller alla RefProts och romanen proteiner förutsägs av OpenProt. 15

Tabell 1: Definition av termer som används i OpenProt och hela protokollet

Kompletterande Material S1: Galaxy arbetsflöde för databas hantering. Detta kommer att lägga till CRAPome och decoy sekvenser (bakåt) till databasen ingång. Utdata är en Fasta fil. Vänligen klicka här för att ladda ner.

Kompletterande Material S2: Galaxy arbetsflöde för protein identifiering. Detta kommer att identifiera proteiner från en masspektrometri datafilen med hjälp av två sökmotorer (MS-GF + och X! Tandem). Varje parameter kan ställas in efter önskemål innan du kör arbetsflödet. Vänligen klicka här för att ladda ner.

Kompletterande Material S3: Galaxy arbetsflöde för protein kvantifiering med hjälp av stabila isotoper märkning (SIL). Detta kommer att identifiera och kvantifiera proteiner från en masspektrometri datafilen med hjälp av två sökmotorer (MS-GF + och X! Tandem). Varje parameter kan ställas in efter önskemål innan du kör arbetsflödet. Vänligen klicka här för att ladda ner.

Kompletterande materiella S4: X! Tandem Standardkonfigurationsfilen parametrar. Den här XML-filen behövs för att köra X! TandemAdapter verktyg på Galaxy plattformen. Vänligen klicka här för att ladda ner.

Kompletterande Material S5: kvantifieras proteiner från iMixPro datamängder. Datafiler från Eyckerman et al. 201638 bearbetades med OpenProt databaser och kvantifierade proteiner listas för varje villkor. Beten är PTPN14, JIP3, IQGAP1, RAF1 och RNF41. Gen namn anges i grönt motsvarar proteiner även angivna i den ursprungliga papper38. Gen namn anges i orange motsvarar kända interactmedlemmar enligt BioGrid som inte rapporterades i det ursprungliga papperet. Gen namn anges i ljusblå motsvarar roman proteiner identifierats som interactmedlemmar (motsvarande protein anslutningen nummer anges inom parentes). Gen namn anges i ljus grå och kursiv text motsvarar sannolika föroreningar (keratinproteiner). Vänligen klicka här för att ladda ner.

Kompletterande Material S6: identifierade nya proteiner från iMixPro datamängder. Datafiler från Eyckerman et al. 201638 bearbetades med OpenProt databaser och romanen identifierade proteiner listas för varje villkor. Beten är PTPN14, JIP3, IQGAP1, RAF1 och RNF41. Protein anslutningen nummer anges, börjar med II_ för romanen isoformer av en känd protein, och IP för romanen proteiner från en alternativ ORF (AltProt). Numrera av stödjande peptider anges inom parentes. Vänligen klicka här för att ladda ner.

Discussion

När man analyserar data från masspektrometrar, bygger kvaliteten på proteinet identifiering delvis på riktigheten av den använda databas6,20. Nuvarande metoder använder traditionellt UniProtKB databaser, men dessa stödja genomet annotation modellen för en enda ORF per utskrift och en minsta längd på 100 kodon (med undantag för tidigare visat exempel)40. Flera studier gäller bristerna i sådana databaser med upptäckten av funktionella ORFs från påstås ha icke-kodande regioner8,11,12,13. OpenProt gör nu, för mer uttömmande protein identifiering eftersom det fäster proteinsekvenser från flera transkriptom kommentarer. OpenProt hämtar NCBI RefSeq (GRCh38.p7) och häckning (GRCh38.83) transcriptomes och UniProtKB anteckningar (UniProtKB-SwissProt, 2017-09-27)40,42,43. Som nuvarande anteckningar presenterar liten överlappning, visar OpenProt således en mer uttömmande av potentiella proteomiska landskap än när begränsad till en anteckning15.

Dessutom som OpenProt verkställer en polycistronic modell, möjliggör det flera protein anteckningar per utskrift. Statistiska och computational skäl innehar OpenProt fortfarande en minimilängd tröskel 30 kodon15. Ändå förutspår det tusentals nya proteinsekvenser, därmed utvidgning av möjligheterna för protein identifiering. Med den här metoden stöder OpenProt proteomiska upptäckter på ett mer systematiskt sätt.

Kvaliteten på proteinet identifiering kan också påverkas av de parametrar som används. MS-baserad proteomik analyser håller vanligtvis en 1% protein FDR. Men innehåller hela OpenProt databasen ca 6 gånger fler poster (figur 1). För att beakta denna betydande ökning i Sök utrymme, rekommenderar vi att du använder en strängare FDR av 0,001%. Denna parameter har optimerats med hjälp av jämförande undersökningar och manuell utvärdering av slumpmässigt utvalda spectra15. Falsk positiv är fortfarande en möjlighet, dock, och vi uppmuntrar grundlig kontroll och validering av underlagen för ett nytt protein. En rekommenderad standard kunde vara identifiering av ett protein från två olika MS körs, eftersom bakgrundsdata och falska positiva variera mellan datauppsättningar15.

Rörledningen som ges här och används för fallstudien kan ändras lika nöjd att passa experimentell design och parametrar. Vi skulle rekommendera att använda flera sökmotorer eftersom det ökar känslighet och känsligheten för peptid identifiering32. Vi uppmuntrar dessutom använder databasen bäst motsvarar syftet experimentella (figur 1). Som använder den hela OpenProt databas kommer med en stränga FDR, förloras sanna identifieringar. Alltså bör hela databasen vara avsedda för upptäckten av nya proteiner, medan klassisk proteomik profilering bör använda de mindre OpenProt databaserna (till exempel OpenProt_2pep som används i ovanstående fallstudien).

OpenProt förutspår för närvarande sekvenser som börjar med en ATG kodon, flera studier belyst översättning initiering vid andra kodon44,45. När ett nytt protein identifieras av en eller flera unika peptider, är det möjligt i sann initiering kodon inte är den förmodade ATG. Användare kan leta efter översättning bevis på webbplatsen OpenProt. För närvarande rapporterar OpenProt bara översättning händelser om de avser hela förutspådda protein sequence (100% överlappning)15. Således skulle saknas översättning bevis inte innebära proteinet inte är översatt, men att den start-kodon inte kanske den påstådda ATG.

Trots dess nuvarande begränsningar erbjuder OpenProt en mer uttömmande bild av eukaryota genomen kodning potential. OpenProt databaser främja proteomiska upptäckter och förståelsen av proteomiska funktioner och interaktioner. Framtida utvecklingen av OpenProt-databasen kommer att innehålla annotering av andra arter, översättning bevis från icke-ATG börjar codon och utveckling av en pipeline till inkluderar roman proteiner i hela genomet och exome sekvensering studier.

Disclosures

Författarna förklarar någon intressekonflikt.

Acknowledgments

Vi tackar Vivian Delcourt för hans hjälp, diskussioner och råd på detta arbete. X.R. är medlem av Fonds de Recherche du Québec Santé FRQS-stödda Centre de Recherche du Centre Hospitalier Universitaire de Sherbrooke. Denna forskning stöddes av en Kanada forskning professur i funktionell Proteomik och upptäckten av romanen proteiner till X.R. och CIHR grant MOP-137056. Vi tackar teamet på Calcul Québec och beräkna Kanada för deras stöd med hjälp av en superdator mp2 från Université de Sherbrooke. Drift av superdatorn mp2 finansieras av den Kanada Stiftelsen av Innovation (CFI), le ministère de l'Économie, de la science et de l'innovation du Québec (MESI) och les Fonds de Recherche du Québec - natur et technologies (FRQ-NT). Den Galaxy server som användes för vissa proteomik beräkningar är delvis finansierat av Collaborative Research Centre 992 medicinsk epigenetik (DFG grant SFB 992/1 2012) och tyska förbundsministeriet för utbildning och forskning (BMBF beviljar 031 A538A/A538C RBC, 031L0101B /031L0101C de. NBI-epi, 031L 0106 de. TRAPPA (de. NBI)).

Materials

Name Company Catalog Number Comments
OpenProt website open source n/a www.openprot.org
Galaxy Server open source n/a https://usegalaxy.eu/
TOPPview software open source n/a www.openms.de

DOWNLOAD MATERIALS LIST

References

  1. Kim, M. S., et al. A draft map of the human proteome. Nature. 509, (7502), 575-581 (2014).
  2. Wilhelm, M., et al. Mass-spectrometry-based draft of the human proteome. Nature. 509, (7502), 582-587 (2014).
  3. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, (3), 712-723 (2015).
  4. Huttlin, E. L., et al. The BioPlex Network: A Systematic Exploration of the Human Interactome. Cell. 162, (2), 425-440 (2015).
  5. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, (7655), 505-509 (2017).
  6. Kumar, D., Yadav, A. K., Dash, D. Choosing an Optimal Database for Protein Identification from Tandem Mass Spectrometry Data. Proteome Bioinformatics. 17-29 (2017).
  7. Jeong, K., Kim, S., Bandeira, N. False discovery rates in spectral identification. BMC Bioinformatics. 13, (Suppl 16), (2012).
  8. Brunet, M. A., Levesque, S. A., Hunting, D. J., Cohen, A. A., Roucou, X. Recognition of the polycistronic nature of human genes is critical to understanding the genotype-phenotype relationship. Genome Research. (2018).
  9. Brent, M. R. Genome annotation past, present, and future: how to define an ORF at each locus. Genome Research. 15, (12), 1777-1786 (2005).
  10. Harrow, J., et al. GENCODE: The reference human genome annotation for The ENCODE Project. Genome Research. 22, (9), 1760-1774 (2012).
  11. Samandi, S., et al. Deep transcriptome annotation enables the discovery and functional characterization of cryptic small proteins. eLife. 6, e27860 (2017).
  12. Saghatelian, A., Couso, J. P. Discovery and characterization of smORF-encoded bioactive polypeptides. Nature Chemical Biology. 11, (12), 909-916 (2015).
  13. Delcourt, V., Staskevicius, A., Salzet, M., Fournier, I., Roucou, X. Small Proteins Encoded by Unannotated ORFs are Rising Stars of the Proteome, Confirming Shortcomings in Genome Annotations and Current Vision of an mRNA. Proteomics. (2017).
  14. Plaza, S., Menschaert, G., Payre, F. In Search of Lost Small Peptides. Annual Review of Cell and Developmental Biology. 33, (1), (2017).
  15. Brunet, M. A., et al. OpenProt: a more comprehensive guide to explore eukaryotic coding potential and proteomes. Nucleic Acids Research. (2018).
  16. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Research. 44, (W1), W3-W10 (2016).
  17. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2018 update. Nucleic Acids Research. 46, W537-W544 (2018).
  18. Sturm, M., et al. OpenMS – An open-source software framework for mass spectrometry. BMC Bioinformatics. 9, (1), 163 (2008).
  19. Carithers, L. J., et al. A Novel Approach to High-Quality Postmortem Tissue Procurement: The GTEx Project. Biopreservation and Biobanking. 13, (5), 311-319 (2015).
  20. Aebersold, R., Mann, M. Mass spectrometry-based proteomics. Nature. 422, (6928), 6928 (2003).
  21. Domon, B., Aebersold, R. Mass Spectrometry and Protein Analysis. Science. 312, (5771), 212-217 (2006).
  22. Hu, J., Coombes, K. R., Morris, J. S., Baggerly, K. A. The importance of experimental design in proteomic mass spectrometry experiments: Some cautionary tales. Briefings in Functional Genomics. 3, (4), 322-331 (2005).
  23. Wu, P. Y., Phan, J. H., Wang, M. D. Assessing the impact of human genome annotation choice on RNA-seq expression estimates. BMC Bioinformatics. 14, (11), S8 (2013).
  24. Mellacheruvu, D., et al. The CRAPome: a contaminant repository for affinity purification-mass spectrometry data. Nature Methods. 10, (8), 730-736 (2013).
  25. Adusumilli, R., Mallick, P. Data Conversion with ProteoWizard msConvert. Proteomics: Methods and Protocols. 339-368 (2017).
  26. French, W. R., et al. Wavelet-Based Peak Detection and a New Charge Inference Procedure for MS/MS Implemented in ProteoWizard’s msConvert. Journal of Proteome Research. 14, (2), 1299-1307 (2015).
  27. Kuenzi, B. M., et al. APOSTL: An Interactive Galaxy Pipeline for Reproducible Analysis of Affinity Proteomics Data. Journal of Proteome Research. 15, (12), 4747-4754 (2016).
  28. Hoekman, B., Breitling, R., Suits, F., Bischoff, R., Horvatovich, P. msCompare: a framework for quantitative analysis of label-free LC-MS data for comparative candidate biomarker studies. Molecular & Cellular Proteomics: MCP. 11, (6), (2012).
  29. Bjornson, R. D., et al. X!!Tandem, an improved method for running X!tandem in parallel on collections of commodity computers. Journal of Proteome Research. 7, (1), 293-299 (2008).
  30. Kim, S., Pevzner, P. A. MS-GF+ makes progress towards a universal database search tool for proteomics. Nature Communications. 5, 5277 (2014).
  31. Vaudel, M., Barsnes, H., Berven, F. S., Sickmann, A., Martens, L. SearchGUI: An open-source graphical user interface for simultaneous OMSSA and X!Tandem searches. Proteomics. 11, (5), 996-999 (2011).
  32. Shteynberg, D., Nesvizhskii, A. I., Moritz, R. L., Deutsch, E. W. Combining results of multiple search engines in proteomics. Molecular & Cellular Proteomics: MCP. 12, (9), 2383-2393 (2013).
  33. Bittremieux, W., et al. Quality control in mass spectrometry-based proteomics. Mass Spectrometry Reviews. 37, (5), 697-711 (2018).
  34. Bertsch, A., Gröpl, C., Reinert, K., Kohlbacher, O. OpenMS and TOPP: Open Source Software for LC-MS Data Analysis. Data Mining in Proteomics: From Standards to Applications. 353-367 (2011).
  35. Pfeuffer, J., et al. OpenMS – A platform for reproducible analysis of mass spectrometry data. Journal of Biotechnology. 261, 142-148 (2017).
  36. Kozak, M. Pushing the limits of the scanning mechanism for initiation of translation. Gene. 299, (1-2), 1-34 (2002).
  37. Noderer, W. L., et al. Quantitative analysis of mammalian translation initiation sites by FACS-seq. Molecular Systems Biology. 10, 748 (2014).
  38. Eyckerman, S., et al. Intelligent Mixing of Proteomes for Elimination of False Positives in Affinity Purification-Mass Spectrometry. Journal of Proteome Research. 15, (10), 3929-3937 (2016).
  39. Vizcaíno, J. A., et al. 2016 update of the PRIDE database and its related tools. Nucleic Acids Research. 44, (D1), D447-D456 (2016).
  40. Bateman, A., et al. UniProt: the universal protein knowledgebase. Nucleic Acids Research. 45, (D1), D158-D169 (2017).
  41. The Gene Ontology Consortium Expansion of the Gene Ontology knowledgebase and resources. Expansion of the Gene Ontology knowledgebase and resources. Nucleic Acids Research. 45, (D1), D331-D338 (2017).
  42. O’Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research. 44, D733-D745 (2016).
  43. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Research. 46, (D1), D754-D761 (2018).
  44. Andreev, D. E., et al. Translation of 5’ leaders is pervasive in genes resistant to eIF2 repression. eLife. 4, e03971 (2015).
  45. Jackson, R., et al. The translation of non-canonical open reading frames controls mucosal immunity. Nature. 564, 434-438 (2018).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics