Massespektrometri-baseret Proteomics analyser ved hjælp af OpenProt Database til at afsløre nye proteiner oversat fra ikke-kanoniske åbne læserammer

Genetics
 

Summary

OpenProt er en frit tilgængelig database, der gennemtvinger en polycistronic model af eukaryote genomer. Vi præsenterer her, en protokol til brug af OpenProt databaser når spørgekriterierne massespektrometri datasæt. Ved hjælp af OpenProt database til analyse af proteom eksperimenter giver mulighed for opdagelsen af romanen og tidligere målbart proteiner.

Cite this Article

Copy Citation | Download Citations

Brunet, M. A., Roucou, X. Mass Spectrometry-Based Proteomics Analyses Using the OpenProt Database to Unveil Novel Proteins Translated from Non-Canonical Open Reading Frames. J. Vis. Exp. (146), e59589, doi:10.3791/59589 (2019).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Genom anmærkning er central for dagens proteom forskning som det tegner konturerne af proteom landskab. Traditionelle modeller af åbne læsning ramme (ORF) anmærkning pålægge to vilkårlige kriterier: en mindstelængde på 100 kodon og en enkelt ORF pr. udskrift. Men, et stigende antal undersøgelser rapport udtryk af proteiner fra angiveligt ikke-kodende regioner, udfordrende nøjagtigheden af nuværende genom anmærkninger. Disse roman proteiner fandtes kodet enten inden for ikke-kodende RNA'er, 5' eller 3' utranslaterede regioner (UTRs) af mRNAs eller overlappende en kendt kodende sekvens (cd'er) i en alternativ ORF. OpenProt er den første database, der gennemtvinger en polycistronic model for eukaryote genomer, tillader anmærkning af flere ORFs pr. udskrift. OpenProt er frit tilgængeligt og tilbyder brugerdefinerede downloads af protein-sekvenser på tværs af 10 arter. Ved hjælp af OpenProt database for proteom eksperimenter giver mulighed for nye proteiner opdagelse og fremhæver polycistronic karakteren af eukaryote gener. Størrelsen af OpenProt database (alle forudsagt proteiner) er væsentlig og skal tages i konto for analysen. Men med passende falsk opdagelse sats (FDR) indstillinger eller brug af en begrænset OpenProt database, brugere vil få en mere realistisk visning af proteom landskab. Samlet set er OpenProt et frit tilgængeligt værktøj, der vil fremme proteom opdagelser.

Introduction

I de seneste årtier blevet massespektrometri (MS-) baseret proteomics den gyldne teknik til at dechifrere proteomes i eukaryote celler1,2,3,4,5. Denne metode bygger på aktuelle genom anmærkninger til at generere en protein sekvens-referencedatabase, der opridser muligheder6,7,8. Dog hold genom anmærkninger vilkårlige kriterier for ORF anmærkning, såsom en mindstelængde på 100 kodon og en enkelt ORF pr. udskrift9,10. Et stigende antal undersøgelser udfordre den nuværende anmærkning model og rapportere opdagelser af unannotated funktionelle ORFs i eukaryote genomer8,11,12,13, 14. Disse nye proteiner er fundet kodet i angiveligt ikke-kodende RNA'er, i 5' eller 3' utranslaterede regioner (UTR) af mRNAs eller overlappende den kanoniske kodende sekvens (CCD'er) i en alternativ ramme. Selv om de fleste af disse opdagelser har været serendipitous, viser de forbehold af nuværende genom anmærkninger og polycistronic karakter af eukaryote gener8.

Her, fremhæve vi brugen af OpenProt databaser til MS-baseret proteomics. OpenProt er den første database til at holde en polycistronic anmærkning model til eukaryote transcriptomes. Det er frit tilgængelige på www.openprot.org15. En del af disse forudsagt ORFs ville være tilfældig og ikke-funktionelle, hvilket er grunden til OpenProt cumulates eksperimentelle og funktionelle beviser til at øge tilliden. Eksperimentelle beviser omfatter protein udtryk (af MS) og oversættelse beviser (af ribosomet profilering)15. Funktionelle beviser omfatter protein orthology (med en In-Paranoid som tilgang) og funktionelle domæne forudsigelse15.

OpenProt tilbyder muligheden for at hente flere databaser, der indeholder kun godt understøttet proteiner til skræddersyede databaser. Her vil vi præsentere en pipeline til brugen af OpenProt databaser og vil tilbyde indsigt i hvilken database at vælge overvejer det eksperimentelle formål. Proteomics analyser rørledningen præsenteres her understøttes af Galaxy ramme, som det er åben adgang og nem at bruge, men databaserne kan arbejde med enhver arbejdsproces16,17,18. Vi vil også præsentere, hvordan at bruge webstedet OpenProt, for indsamling af yderligere oplysninger om nye proteiner opdaget af MS. Using OpenProt databaser vil give et mere udtømmende billede af proteom landskabet og vil fremme proteomics og biomarkører opdagelser i en mere systematisk måde end nuværende metoder.

Denne protokol fremhæver anvendelsen af OpenProt databaser15 når spørgekriterierne MS datasæt; det vil ikke gennemgå designet af forsøget sig selv, som er blevet grundigt gennemgået andetsteds20,21,22. I et forsøg på at være fuldt ud open source, er protokollen frit tilgængelige (Supplerende materiale S1-S4). For lettere læsning, er alle begreber, der anvendes i OpenProt og hermed hele denne protokol defineret i tabel 1.

Protocol

1. OpenProt database download

Bemærk: Brugerdefinerede databaser baseret på RNA-seq data for eksempel kan også fås og proceduren er detaljeret i den anden del af denne protokol. Hvis en brugerdefineret database er nødvendig, skal du springe til næste afsnit.

  1. Gå til OpenProt hjemmeside: www.openprot.org og åbne den downloader side ved hjælp af link fra menuen øverst side.
  2. Klik på arter af interesse baseret på den analyserede eksperimentelle data.
  3. Klik på typen protein ønskes.
    Bemærk: OpenProt tilbyder tre klassificeringer: RefProt, isoformer og AltProt. Som vist i figur 1, vil denne parameter variere baseret på forskning mål.
    1. Klik på RefProt alene til at generere filer, der indeholder kun kendte proteiner.
    2. Klik på AltProt og isoformer til at generere filer der indeholder kun roman proteiner - enten roman isoformer af kendte proteiner (isoformer) eller kodet af en alternativ ORF (AltProts). Bemærk venligst at OpenProt gennemtvinger en minimum ORF længde 30 kodon15.
    3. Klik på AltProts, isoformer og RefProts til at generere filer, der indeholder alle protein typer findes i OpenProt database - kendte og nye proteiner.
  4. Hvis det er tilgængeligt, klik på anmærkningen fra hvilken protein sekvenser er trukket.
    Bemærk: OpenProt giver en mere udtømmende proteom landskab ved at kombinere flere anmærkninger. Transkriptom anmærkninger har en minimal overlapning; således kan den valgte anmærkning betydelig indflydelse visualiseret proteom profil15,23.
  5. Klik på niveauet af dokumentation herfor nødvendige protein vederlag. Som vist i figur 1, vil denne parameter variere baseret på forskning mål.
    1. Klik på mindst to unikke peptider opdaget at generere filer, der indeholder kun de mest sikker proteiner.
      Bemærk: Et kriterium af to unikke peptider er i øjeblikket betragtes som en guld standard i proteomics for protein udtryk. Hvis den eksperimentelle formål er at påvise kendte og godt understøttet proteiner, anbefales brugen af denne parameter.
    2. Klik på mindst én unik peptider opdaget at generere filer, der indeholder proteiner, der er allerede blevet set mindst én gang blandt de massespektrometri eksperimenter re-analyseres af OpenProt.
      Bemærk: Dette giver mulighed for overvejelse af den kortere længde af AltProts og sandsynligheden for at nogle af dem kan indeholde kun én unik tryptic peptid8,11.
    3. Klik på alle forudsagt til at generere filer, der indeholder alle OpenProt forudsigelser.
      Bemærk: Denne indstilling anbefales kun hvis den eksperimentelle formål er at opdage nye proteiner (figur 1). Den efterfølgende betydelige stigning i søgning plads kræver en tilpasset analyse rørledningen som drøftet nedenfor7,15.
  6. Klik på det ønskede filformat til download. Proteom analyser, vælge filen Fasta (protein). Readme-filen indeholder alle nødvendige oplysninger om filformat.

2. custom OpenProt database download

Bemærk: Dette afsnit detaljer Sådan anskaffes en brugerdefineret database. Hvis der kræves ingen brugerdefineret database, springe til næste afsnit.

  1. Gå til OpenProt hjemmeside (www.openprot.org) og åbne søgesiden ved hjælp af link fra menuen øverst side.
  2. Klik på arter af interesse baseret på den eksperimentelle data analyseret.
  3. Angiv en liste over gener eller udskrifter af interesse.
    1. Når du bruger en liste over gener, Skriv det i boksen gen forespørgsel.
    2. Når du bruger en liste over udskrifter, skal du indtaste den i boksen udskrift forespørgsel.
  4. Krydse en boks, der gælder for den ønskede database.
    1. Klik ikke på enhver for at opnå en tabel, der indeholder alle typer af protein understøttes af OpenProt: RefProt, isoformer og AltProts.
    2. Klik på Vis kun proteiner med eksperimentelle bevismateriale til at få en tabel, der indeholder alle typer af proteiner (RefProts, isoformer og AltProts), der er konstateret mindst én gang ved MS og/eller for hvilken oversættelse beviser er blevet indsamlet fra ribosomet profilering data.
    3. På samme måde, klik på Vis kun proteiner opdaget af MS eller Vis kun proteiner opdaget af ribosomet profilering til få en tabel, der indeholder alle typer af proteiner, der er konstateret mindst en gang af MS eller af ribosomet profilering henholdsvis.
    4. Klik på Vis kun AltProts eller Vis kun isoformer til få en tabel, der indeholder kun AltProts eller kun isoformer henholdsvis.
    5. Klik på både viser kun AltProts og Vis kun isoformer til få en tabel, der indeholder begge typer af proteiner.
      Bemærk: Alle kombinationer af filtre er muligt.
  5. Når alle ønskede parametre er angivet, skal du klikke på Søg. Tabel output vises under forespørgsel søgefelter.
  6. Klik på knappen Download Fasta på det øverste højre hjørne af outputtabellen. Dette vil generere en Fasta fil indeholdende alle proteiner som følge af den forespurgte liste over gener eller afskrifter.
  7. Bemærk venligst at for computational grunde, OpenProt holder op til 2.000 elementer, der skal forespørges (gener eller afskrifter) ad gangen. I tilfælde af en liste over denne grænse, kan flere fasta genereres og derefter sammenføjet (som beskrevet nedenfor); eller simpelt hen dataoverføre den hele OpenProt database og filtrere den opnåede fil som ønsket.
    1. Bin hele listen af gener eller udskrifter i sub lister over 2.000 poster eller mindre. Hver sub liste, hente en Fasta fil som beskrevet ovenfor (trin 3.3 til 3.6).
    2. Log ind til den europæiske Galaxy forekomst (eller andre tilfælde hvor proteomics værktøjer er tilgængelige), https://usegalaxy.eu/.
    3. Opret en ny historie og importere alle de downloadede OpenProt databaser (én pr. sub liste over gener eller afskrifter) ved at klikke på upload logo på venstre øverst på skærmen.
    4. Brug værktøjet Fasta flette filer og Filter enestående sekvenser udviklet af GalaxyP udviklere (https://github.com/galaxyproteomics/). Vælg indstillingen Flet alle Fasta og input alle de importerede OpenProt databaser.
      Bemærk: Hvert værktøj kan gennemsøges ved hjælp af boksen forespørgsel på venstre side af skærmen
    5. Vælg indstillingen tiltrædelse kun at vurdere sekvens unicity og kopiere OpenProt id parse regel (>(.*) \ |), klik derefter på Udfør.
    6. Bemærk, at alle filer har blevet sammenføjet til en unik Fasta fil med ingen redundans, der nu vises i oversigtspanelet på højre side af skærmen. Dette udgør arbejdsdatabasen.

3. databasen håndtering

Bemærk: fra nu af Galaxy platform vil blive brugt, men de samme principper kan anvendes til andre proteom software.

  1. Log ind til den europæiske Galaxy forekomst (eller andre tilfælde hvor proteomics værktøjer er tilgængelige), https://usegalaxy.eu/.
  2. Opret en ny historie og importere den downloadede OpenProt database ved at klikke på upload logo på venstre øverst på skærmen.
  3. Gå til siden arbejdsprocesser og importere databasen håndtering arbejdsprocessen (Supplerende materiale S1) ved at klikke på upload logo på venstre toppen af det midterste panel.
  4. Klik på Kør arbejdsprocessen og vælg den importerede OpenProt database som input.
    Bemærk: Denne arbejdsproces vil føje arkivet CRAPome til OpenProt fasta og generere lokkedue sekvenser (reverse sekvenser)24. Hvis en shuffle lokkedue liste ønskes, kan det gøres ved at ændre denne parameter på værktøjet DecoyDatabase.
  5. Omdøb filen opnåede Fasta til noget meningsfuldt. Databasen er klar til at blive brugt til proteomics analyser.

4. massespektrometri fil forberedelse

Bemærk: De fleste af de tilgængelige på Galaxy forekomster proteomics værktøjer bruge formatet mzML, og peptid ransage maskine foretrækker data i barycentrum tilstand.

  1. Åbn værktøjet frit tilgængelige MSConvert fra ProteoWizard pakken og uploade datafilen for at være analyseret25.
  2. Vælg mappen for output og det ønskede filformat til mzML.
  3. Angive en peak picking filter ved hjælp af wavelet baserede algoritme (CWT) på MS1 og MS2 niveauer, og starte konverteringen26.

5. peptid og protein identifikation/kvantitativ bestemmelse

Bemærk: Denne del af rørledningen bruger værktøjer fra OpenMS suite, en alsidig og nem at bruge rammer18.

  1. Log ind til den europæiske Galaxy forekomst (eller andre tilfælde hvor proteomics værktøjer er tilgængelige), https://usegalaxy.eu/.
  2. Opret en ny historie og overføre den tidligere oprettet database (trin 3.5) til denne nye historie med en træk-og-slip.
  3. Import filen transformerede mzML data (trin 4.3) ved at klikke på den uploade logo på venstre øverst på skærmen.
  4. Gå til siden arbejdsprocesser og importere den ønskede arbejdsprocessen ved at klikke på upload logo på venstre toppen af det midterste panel.
    Bemærk: MS eksperimenter er anderledes designet baseret på det ønskede endelige output. Arbejdsprocesser er her fastsat to hyppige design: protein identifikation og protein kvantificering baseret på stabile isotop mærkning (SIL). Galaxy forekomst indeholder imidlertid mange andre værktøjer, der skal understøtte andre typer af proteom analyser27,28.
    1. Et protein identifikation design, importere arbejdsprocessen omhandlet i Supplerende materiale S2Når du bruger denne arbejdsproces, skal du ikke bruge zlip kompression når du konverterer dine filer (trin 4.2)
    2. Protein kvantificering baseret på stabile isotop mærkning design, importere arbejdsprocessen omhandlet i Supplerende materiale S3.
  5. Vælg Kør arbejdsprocessen og gennemgå de forskellige parametre.
    1. Vælg den importerede mzML datafil som input, og den tidligere oprettet database (trin 3.5) som Fasta databasefil.
    2. Da arbejdsgangen bruger X! Tandem search engine, importere X! Tandem standard konfiguration fil (omhandlet i Supplerende materiale S4)29 ved at klikke på upload logo på venstre øverst på skærmen.
    3. Arbejdsgangen bruger flere søgemaskiner (MS-GF + og X! Tandem). Føje andre søgemaskiner eller vælge en enkelt blot ved at tilføje eller fjerne værktøjerne fra arbejdsprocessen30,31.
      Bemærk: Ved hjælp af flere søgemaskiner anbefales, da det øger sensibilitet og sensitivitet af analyse32.
    4. På grund af den betydelige stigning i størrelse, når du bruger hele OpenProt databasen, skal du bruge en strenge FDR15. Som standard, den medfølgende workflow er indstillet for en 0,001% FDR, tilstrækkelige til brug for hele OpenProt databasen. For andre databaser, kan dette være redigeret at enhver ønsket værdi.
      Bemærk: Sørg for at tilpasse parametrene for de forskellige værktøjer afhængigt af massespektrometer bruges og forsøgsplan (forløber ion og fragment fejl, faste og variable ændringer, anvendte enzym, osv.).
  6. Valgfrit, download output til hvert trin i arbejdsprocessen for opbevaring eller kvalitetskontrol analyse ved at klikke på det valgte skridt fra oversigtspanelet og derefter klikke på Gem logo, der vises nedenunder.

6. kvalitetskontrol

Bemærk: Fordi MS-baseret proteomics er resultatet af en kompleks proces, hvor hvert trin skal være optimeret til at producere reproducerbare resultater, kvalitetskontrol er en nødvendig procedure i arbejdsprocessen33.

  1. Flere målinger er fælles benchmark ydeevne, såsom antallet af peptid-spektrum kampe (PSM), antallet af identificerede peptider og proteiner. Kør værktøjet File Info på det IDFilter udgang (angivet med grønt i figur 2) for at give sådanne målinger.
  2. Selv om de ikke anvendes til hver identifikation, især med store datasæt, bør rapporter af novel proteiner altid nøje evalueres. Inspektion af protein score, sekvens dækning og spectra støtter konstateringen er af afgørende betydning. Bruge værktøjet TOPPview fra OpenMS rammer til at gøre dette; Det er frit tilgængelige og veldokumenteret18,34,35.

7. OpenProt database minedrift

Bemærk: Når en sikker identifikation af en roman protein forudsagt af OpenProt (tiltrædelse numre starter med IP_ for AltProts og II_ for romanen isoformer) har foretaget, flere biologiske oplysninger kan indsamles fra OpenProt hjemmeside15.

  1. Gå til OpenProt hjemmeside: www.openprot.org og åbne søgesiden ved hjælp af linket på øverste side menu.
  2. Klik på arter af interesse (samme som den, hvori proteinet blev identificeret) og Indtast deponeringsnummer protein i boksen Protein forespørgsel.
  3. Klik på Søg og en tabel, der indeholder grundlæggende oplysninger om den forespurgte protein vises. Tabelfunktioner: protein længde (i aminosyre), dens molekylvægt (kDa) og isoelektriske punkt, støtte eksperimentelle bevismateriale af MS eller ribosomet profilering (oversættelse beviser, TE) og funktionelle forudsigelser som forudsagt domæner og protein orthology (på tværs af de 10 arter understøttes af OpenProt, v1.3). Tabellen indeholder også oplysninger om den relaterede gen og udskrift og lokalisering af protein i afskriften.
  4. Klik på linket detaljer til at indsamle yderligere oplysninger. Den nyligt åbnede side indeholder et genom-browser, som er centreret om den forespurgte protein, og oplysninger som de genomiske og transkriptom koordinater og tilstedeværelsen af en Kozak eller højeffektiv oversættelse indledningen websted (TIS) motiv36, 37.
  5. Klik på Protein eller DNA fra at få protein eller DNA-sekvenser henholdsvis under fanen info.
  6. Gennemse detaljerede oplysninger om MS beviser, ribosomet profilering registrering, bevaring og identificerede protein domæner ved at klikke på de øverste faner15.

Representative Results

Arbejdsprocessen beskrevet ovenfor blev anvendt til et MS datasæt tilgængelige på stolthed repository38,39. Den oprindelige undersøgelse udviklet en metode (iMixPro), ved hjælp af stabile isotop mærkning af aminosyrer i cellekultur (SILAC), for at eliminere falske positiver fra affinitet-rensning MS (AP-MS) eksperimenter38. Kort sagt, består en AP-MS eksperiment af bruger perler-bundet antistoffer til at hente en protein af interesse (lokkemad) og dens interactors (byttedyr). De indsamlede proteiner er derefter fordøjet og forberedt til MS. Metoden prøve forberedelse og Apparatindstillingen er beskrevet i den oprindelige undersøgelse og på stolthed repository (PXD004246). En udfordring i sådanne eksperimenter er overfloden af falske positiver, især fra proteiner binding til perlerne men ikke agn. Her, vi brugte SILAC til at generere forskellige isotopforhold mellem sande byttedyr og falske positiver: 3 kontrolprøver (ingen agn) kulturperler i lys medium, 1 prøve at udtrykke agn kulturperler i lys medium og 1 prøve at udtrykke agn kulturperler i kraftig medium er behandles med perler og yderligere massespektrometri analyse. Med en sådan konstruktion, vil ikke-specifikke proteiner binding til perlerne har en tunge til at lette forholdet 1:4; Hvornår vil true byttedyr har et forhold på 1:138.

Vi re-analyseres deres AP-MS data ved hjælp af OpenProt database; lokkemad omfattede tre endogene proteiner (PTPN14, JIP3 og IQGAP1), og to over udtrykte proteiner (RAF1 og RNF41). Da forsøgene bruges SILAC, Galaxy arbejdsprocessen for protein kvantificering blev brugt (Supplerende materiale S3, figur 2). Arbejdsprocessen blev kørt ved hjælp af den hele OpenProt database (OpenProt_all) eller et begrænset OpenProt database (OpenProt_2pep, herunder kun proteiner tidligere registreret med et minimum af to unikke peptider).

Protein identifikation og kvantificering var god og reproducerbare på tværs af de forskellige anvendte databaser. Som vist i figur 3, blev de fleste proteiner identificeret i den oprindelige papir også identificeret ved hjælp af enten OpenProt_2pep eller OpenProt_all database (en detaljeret liste er tilgængelig i Supplerende materiale S5). Dette resultat viser, at rørledningen beskrevet her og OpenProt databaser er i stand til at producere protein identifikation og kvantificering sammenlignes med aktuelle procedurer baseret på UniProtKB databaser40. Brugen af OpenProt databaser har imidlertid den unikke fordel, at opsporing af romanen og tidligere målbart proteiner, som påvist i dette tilfælde undersøgelse.

11 godt understøttet proteiner (1 Isoform og 10 AltProts), men i øjeblikket ikke kommenteret i databaser, der blev identificeret på tværs af alle datasæt, med sikker peptider, ved hjælp af OpenProt_2pep-databasen (alle protein tiltrædelser, sammen med antallet af støtte peptider, er tilgængelige i Supplerende materiale S5). Denne database tillader brug af en traditionel 1% FDR som søgning plads stigning er fortsat moderat. Disse 11 proteiner var ikke identificeret i den oprindelige undersøgelse, da de var fraværende fra databasen.

29 nye proteiner (16 isoformer og 13 AltProts) blev opdaget på tværs af alle datasæt, med sikker peptider, ved hjælp af OpenProt_all-databasen (alle protein tiltrædelser, sammen med antallet af støtte peptider, er tilgængelige i supplerende materiale S6 ). Som vist i figur 3, påvirkede den anbefalede strenge FDR ikke de mest sikker protein identifikationer, selv om det formindske antallet af identificerede proteiner. Relativt til OpenProt_2pep databasen, kan et større antal nye proteiner trygt identificeres. Alle i disse roman proteiner er fraværende fra OpenProt_2pep database. Dette understreger den afgørende rolle for den valgte database til MS-baseret proteomics.

Én roman protein blev opdaget som en interactor af RAF1 proteinet (IP_637643). Ved hjælp af webstedet OpenProt, kan man se dette protein ikke var blevet opdaget ved MS eller ribosomet profilering indtil nu (OpenProt v1.3). Proteinet er 46 aminosyrer lange og kan kun give to unikke peptider ved tryptic fordøjelse. Peptid opdaget i RAF1 AP-MS datasæt (brøkdel 18) havde en god kvalitet spektrum, som vist i figur 4og vises en tunge til at lette forholdet mellem 1,09. Proteinet er kodet i NANOGNBP1 -gen, som er en pseudogene af NANOGNB. Udskriften (ENST00000448444), i øjeblikket kommenteret som ikke-kodende, blev opdaget på tværs af flere væv ifølge GTEx portal40. Proteinet indeholder en forudsagt funktionelle domæne tilknyttet DNA bindende (gen ontologi GO: 0003677)41.

Figure 1
Figur 1 : Database valg for proteomics analyser diagram. Analyser af MS data, navnlig databasen choice, afhænger af forskningsmål. Tre fælles mål er skitseret i blå (klassisk proteom pipeline), grøn (udtømmende proteom Søg) og orange (proteom discovery). Hvert mål afhænger af en passende database og pipeline. En enkelt identifikation værktøj kan bruges til en udtømmende og klassisk proteomics rørledninger. Proteom discovery pipeline anbefales det kraftigt, ved hjælp af flere identifikation motorer. Anbefalede FDRs er angivet med rødt, og protein database størrelser er angivet i grå bokse. Venligst klik her for at se en større version af dette tal.

Figure 2
Figur 2 : Grafisk repræsentation af Galaxy arbejdsprocessen bruges. Trinvise repræsentation af arbejdsprocessen proteom analyse anvendes til re-analyse af Eyckerman et al. data38. Input-filer, peptid søgning og protein kvantificering angives med orange kasser. Blå bokse svarer til de anvendte redskaber og grå bokse svarer til output-filer genereret. De forskellige søgemaskiner (MS-GF + og X! Tandem) er angivet med forskellige farver (henholdsvis rød og lilla) samt de pile, der angiver deres nødvendige ind- og udgange. Den grønne boks fremhæver værktøjet genererer en liste over protein identifikationer. Når flere udgange er genereret, den, der anvendes til downstream trin er angivet som den nærmeste til pilen. Denne arbejdsproces er frit tilgængelig i Supplerende materiale S2. X! Tandem standardkonfigurationsfilen parametre er tilgængelige i Supplerende materiale S4. Venligst klik her for at se en større version af dette tal.

Figure 3
Figur 3 : Sammenligning af interactor identifikation pr. lokkemad ved hjælp af forskellige databaser. Venn-diagrammer af protein identifikationer ved hjælp af den mest sikker OpenProt database (i orange, dokumentation af minimum 2 unikke peptider, OpenProt_2pep) med en 1% FDR, eller den hele OpenProt database (i blå, OpenProt_all) med en 0,001% FDR, eller som rapporteret i det oprindelige papir (i gråt)38. Hvert diagram svarer til identificerede interactors for de nævnte agn: RAF1, RNF41, PTPN14, JIP3 og IQGAP1. Venligst klik her for at se en større version af dette tal.

Figure 4
Figur 4 : MS/MS spektrum af identificeret MDNLWAK(13C 6) peptid fra romanen protein IP_637643. Intensiteten er relative (0 til 100%). Valgte toppe er angivet med rødt, y ioner anmærkninger er i mørke røde og b ioner anmærkninger i grøn. Udvundet fra TOPPview software34. Forløber fejl = 2.70 ppm, PEP score = 0,12. Venligst klik her for at se en større version af dette tal.

Sigt Definition Reference
Alternative ORF (AltORF) ikke-kanoniske ORF i øjeblikket ikke kommenteret i genom anmærkninger, men kommenteret i OpenProt. 15
Reference ORF (RefORF) Canonical ORF kommenteret i genom anmærkninger og OpenProt. 15
Alternative protein (AltProt) Roman protein kodet af en AltORF, med ingen betydelig lighed med en RefProt. Tiltrædelse præfiks: IP_. 15
Referenceproteinet (RefProt) protein i øjeblikket kommenteret i protein sekvens databaser såsom UniProtKB, Ensembl eller NCBI RefSeq, og også i OpenProt. 15
Roman Isoform Roman protein kodet af en AltORF, med en betydelig lighed med en RefProt. Tiltrædelse præfiks: II_. 15
OpenProt_2pep database indeholder alle RefProts og roman proteiner forudsagt af OpenProt, allerede opdaget med et minimum af 2 unikke peptider. 15
OpenProt_1pep database indeholder alle RefProts og roman proteiner forudsagt af OpenProt, allerede opdaget med et minimum af 1 unikke peptid. 15
OpenProt_all database indeholder alle RefProts og roman proteiner forudsagt af OpenProt. 15

Tabel 1: Definition af begreber, der anvendes i OpenProt og i hele protokollen

Supplerende materiale S1: Galaxy arbejdsgang for database håndtering. Dette vil føje CRAPome og decoy sekvenser (omvendt) til input-databasen. Output er en Fasta fil. Venligst klik her for at downloade.

Supplerende materiale S2: Galaxy arbejdsgang for protein identifikation. Dette vil identificere proteiner fra et massespektrometri datafil ved hjælp af to søgemaskiner (MS-GF + og X! Tandem). Hvert parameter kan indstilles som ønsket før du kører arbejdsprocessen. Venligst klik her for at downloade.

Supplerende materiale S3: Galaxy arbejdsgang for protein kvantificering ved hjælp af stabile isotop mærkning (SIL). Dette vil identificere og kvantificere proteiner fra et massespektrometri datafil ved hjælp af to søgemaskiner (MS-GF + og X! Tandem). Hvert parameter kan indstilles som ønsket før du kører arbejdsprocessen. Venligst klik her for at downloade.

Supplerende materiale S4: X! Tandem standard parametre konfigurationsfil. Denne XML-fil er nødvendig for at køre X! TandemAdapter værktøj på Galaxy-platformen. Venligst klik her for at downloade.

Supplerende materiale S5: kvantificeret proteiner fra iMixPro datasæt. Datafiler fra Eyckerman et al. 201638 blev behandlet ved hjælp af OpenProt databaser og kvantificerede proteiner er anført for hver betingelse. Lokkemad er PTPN14, JIP3, IQGAP1, RAF1 og RNF41. Gen navne anført i grøn svarer til proteiner også identificeret i den oprindelige papir38. Gen navne anført i orange svarer til kendte interactors ifølge BioGrid, der ikke blev rapporteret i det oprindelige dokument. Gen navne anført i lyseblå svarer til nye proteiner identificeret som interactors (det tilsvarende protein tiltrædelse nummer er angivet i parentes). Gen navne anført i lys grå og kursiv svarer til sandsynligvis forurenende stoffer (keratin proteiner). Venligst klik her for at downloade.

Supplerende materiale S6: identificeret roman proteiner fra iMixPro datasæt. Datafiler fra Eyckerman et al. 201638 blev behandlet ved hjælp af OpenProt databaser og roman identificerede proteiner er anført for hver betingelse. Lokkemad er PTPN14, JIP3, IQGAP1, RAF1 og RNF41. Protein tiltrædelse tal er angivet, begyndende med II_ for romanen isoformer af et kendt protein, og med IP_ til nye proteiner fra en alternativ ORF (AltProt). Antallet af støtte peptider er angivet i parentes. Venligst klik her for at downloade.

Discussion

Når du analyserer data fra massespektrometre, bygger kvaliteten af protein identifikation delvis på nøjagtigheden af den anvendte database6,20. Nuværende tilgange anvender traditionelt UniProtKB databaser, men disse understøtte genom anmærkning model af en enkelt ORF pr. udskrift og en mindstelængde på 100 kodon (med undtagelse af tidligere dokumenteret eksempler)40. Flere undersøgelser vedrører mangler af sådanne databaser med opdagelsen af funktionelle ORFs fra angiveligt ikke-kodende regioner8,11,12,13. Nu, OpenProt giver mulighed for mere udtømmende protein identifikation som det trækker protein sekvenser fra flere transkriptom anmærkninger. OpenProt henter NCBI RefSeq (GRCh38.p7) og Ensembl (GRCh38.83) transcriptomes og UniProtKB anmærkninger (UniProtKB-SwissProt, 2017-09-27)40,42,43. Som nuværende anmærkninger præsentere lille overlapning, viser OpenProt således en mere udtømmende oversigt over potentielle proteom landskabet end når begrænset til én anmærkning15.

Desuden som OpenProt gennemtvinger en polycistronic model, det giver mulighed for flere protein annotationer pr. udskrift. Statistiske og beregningsmæssige grunde holder OpenProt stadig en minimumslængde tærskel på 30 kodon15. Men det forudsiger tusindvis af roman protein sekvenser, dermed udvide omfanget af mulighederne for protein identifikation. Med denne tilgang understøtter OpenProt proteom opdagelser på en mere systematisk måde.

Kvaliteten af protein identifikation kan også påvirkes af de parametre, der bruges. MS-baseret proteomics analyser typisk holde en 1% protein FDR. Men den hele OpenProt database indeholder omkring 6 gange flere poster (figur 1). For at tage hensyn til denne betydelige stigning i søgning plads, anbefaler vi at bruge en strengere FDR 0,001%. Denne parameter er optimeret ved hjælp af benchmark undersøgelser og manuel evaluering af tilfældigt udvalgte spectra15. Falsk sikker er stadig en mulighed, selv om, og vi tilskynder grundig kontrol og validering af beviser for en roman protein. En anbefalede standard kunne være identifikation af et protein fra to forskellige MS kørsler, som baggrundsdata og falske positiver varierer mellem datasæt15.

Rørledningen her og anvendes til casen kan ændres så glade for at passe den eksperimentelle design og parametre. Vi vil anbefale at bruge flere søgemaskiner, da det øger sensibilitet og sensitivitet af peptid identifikation32. Derudover opfordrer vi bruger databasen svarer bedst til den eksperimentelle formål (figur 1). Som bruger hele OpenProt database kommer med en stringent FDR, sande identifikationer muligvis tabt. Således bør hele databasen være beregnet til opdagelsen af nye proteiner, mens klassisk proteomics profilanalyser bør bruge de mindre OpenProt databaser (f.eks OpenProt_2pep brugt i case study ovenfor).

OpenProt forudser i øjeblikket sekvenser starter med en ATG codon, der henviser til, at flere undersøgelser fremhævet oversættelse indledningen på andre kodon44,45. Når en roman protein er identificeret ved et eller flere unikke peptider, er det muligt, den sande indledning codon ikke er den formodede ATG. Brugere kan søge efter oversættelse beviser på webstedet OpenProt. I øjeblikket, rapporter OpenProt kun oversættelse begivenheder, hvis de vedrører hele forudsagt protein sekvens (100% overlap)15. Således ville manglende oversættelse beviser ikke betyde protein ikke er oversat, men at start codon ikke kan være den påståede ATG.

Trods sine nuværende begrænsninger tilbyder OpenProt en mere udtømmende visning af eukaryote genomer kodning potentiale. OpenProt databaser fremme proteom opdagelser og forståelsen af proteom funktioner og interaktioner. Fremtidige udvikling af OpenProt-databasen vil omfatte anmærkning af andre arter, oversættelse beviser fra ikke-ATG start codon og udviklingen af en rørledning til at omfatte nye proteiner i hele genom og exome-sekventering undersøgelser.

Disclosures

Forfatterne erklærer nogen interessekonflikt.

Acknowledgments

Vi takker Vivian Delcourt for hans hjælp, drøftelser og rådgivning om dette arbejde. X.R. er medlem af den Fonds de Recherche du Québec Santé FRQS-støttede Centre de Recherche du Centre Hospitalier Universitaire de Sherbrooke. Denne forskning blev støttet af en Canada forskning stol i funktionel Proteomics og opdagelsen af roman proteiner til X.R. og CIHR grant MOP-137056. Vi takker teamet på Calcul Québec og Beregn Canada for deres støtte ved brug af supercomputer mp2 fra Université de Sherbrooke. Drift af mp2 supercomputer er finansieret af Canada Foundation for Innovation (CFI), le ministère de l'Économie, de la science et de l'innovation du Québec (MESI) og les Fonds de Recherche du Québec - arten et teknologier (FRQ-NT). Galaxy serveren, der blev brugt til nogle proteomics beregninger er delvist finansieret af Collaborative Research Center 992 medicinsk Epigenetik (DFG grant SFB 992/1 2012) og tyske føderale ministerium for uddannelse og forskning (BMBF tilskud 031 A538A/A538C RBC, 031L0101B /031L0101C de. NBI-epi, 031L 0106 de. TRAPPE (de. NBI)).

Materials

Name Company Catalog Number Comments
OpenProt website open source n/a www.openprot.org
Galaxy Server open source n/a https://usegalaxy.eu/
TOPPview software open source n/a www.openms.de

DOWNLOAD MATERIALS LIST

References

  1. Kim, M. S., et al. A draft map of the human proteome. Nature. 509, (7502), 575-581 (2014).
  2. Wilhelm, M., et al. Mass-spectrometry-based draft of the human proteome. Nature. 509, (7502), 582-587 (2014).
  3. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, (3), 712-723 (2015).
  4. Huttlin, E. L., et al. The BioPlex Network: A Systematic Exploration of the Human Interactome. Cell. 162, (2), 425-440 (2015).
  5. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, (7655), 505-509 (2017).
  6. Kumar, D., Yadav, A. K., Dash, D. Choosing an Optimal Database for Protein Identification from Tandem Mass Spectrometry Data. Proteome Bioinformatics. 17-29 (2017).
  7. Jeong, K., Kim, S., Bandeira, N. False discovery rates in spectral identification. BMC Bioinformatics. 13, (Suppl 16), (2012).
  8. Brunet, M. A., Levesque, S. A., Hunting, D. J., Cohen, A. A., Roucou, X. Recognition of the polycistronic nature of human genes is critical to understanding the genotype-phenotype relationship. Genome Research. (2018).
  9. Brent, M. R. Genome annotation past, present, and future: how to define an ORF at each locus. Genome Research. 15, (12), 1777-1786 (2005).
  10. Harrow, J., et al. GENCODE: The reference human genome annotation for The ENCODE Project. Genome Research. 22, (9), 1760-1774 (2012).
  11. Samandi, S., et al. Deep transcriptome annotation enables the discovery and functional characterization of cryptic small proteins. eLife. 6, e27860 (2017).
  12. Saghatelian, A., Couso, J. P. Discovery and characterization of smORF-encoded bioactive polypeptides. Nature Chemical Biology. 11, (12), 909-916 (2015).
  13. Delcourt, V., Staskevicius, A., Salzet, M., Fournier, I., Roucou, X. Small Proteins Encoded by Unannotated ORFs are Rising Stars of the Proteome, Confirming Shortcomings in Genome Annotations and Current Vision of an mRNA. Proteomics. (2017).
  14. Plaza, S., Menschaert, G., Payre, F. In Search of Lost Small Peptides. Annual Review of Cell and Developmental Biology. 33, (1), (2017).
  15. Brunet, M. A., et al. OpenProt: a more comprehensive guide to explore eukaryotic coding potential and proteomes. Nucleic Acids Research. (2018).
  16. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Research. 44, (W1), W3-W10 (2016).
  17. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2018 update. Nucleic Acids Research. 46, W537-W544 (2018).
  18. Sturm, M., et al. OpenMS – An open-source software framework for mass spectrometry. BMC Bioinformatics. 9, (1), 163 (2008).
  19. Carithers, L. J., et al. A Novel Approach to High-Quality Postmortem Tissue Procurement: The GTEx Project. Biopreservation and Biobanking. 13, (5), 311-319 (2015).
  20. Aebersold, R., Mann, M. Mass spectrometry-based proteomics. Nature. 422, (6928), 6928 (2003).
  21. Domon, B., Aebersold, R. Mass Spectrometry and Protein Analysis. Science. 312, (5771), 212-217 (2006).
  22. Hu, J., Coombes, K. R., Morris, J. S., Baggerly, K. A. The importance of experimental design in proteomic mass spectrometry experiments: Some cautionary tales. Briefings in Functional Genomics. 3, (4), 322-331 (2005).
  23. Wu, P. Y., Phan, J. H., Wang, M. D. Assessing the impact of human genome annotation choice on RNA-seq expression estimates. BMC Bioinformatics. 14, (11), S8 (2013).
  24. Mellacheruvu, D., et al. The CRAPome: a contaminant repository for affinity purification-mass spectrometry data. Nature Methods. 10, (8), 730-736 (2013).
  25. Adusumilli, R., Mallick, P. Data Conversion with ProteoWizard msConvert. Proteomics: Methods and Protocols. 339-368 (2017).
  26. French, W. R., et al. Wavelet-Based Peak Detection and a New Charge Inference Procedure for MS/MS Implemented in ProteoWizard’s msConvert. Journal of Proteome Research. 14, (2), 1299-1307 (2015).
  27. Kuenzi, B. M., et al. APOSTL: An Interactive Galaxy Pipeline for Reproducible Analysis of Affinity Proteomics Data. Journal of Proteome Research. 15, (12), 4747-4754 (2016).
  28. Hoekman, B., Breitling, R., Suits, F., Bischoff, R., Horvatovich, P. msCompare: a framework for quantitative analysis of label-free LC-MS data for comparative candidate biomarker studies. Molecular & Cellular Proteomics: MCP. 11, (6), (2012).
  29. Bjornson, R. D., et al. X!!Tandem, an improved method for running X!tandem in parallel on collections of commodity computers. Journal of Proteome Research. 7, (1), 293-299 (2008).
  30. Kim, S., Pevzner, P. A. MS-GF+ makes progress towards a universal database search tool for proteomics. Nature Communications. 5, 5277 (2014).
  31. Vaudel, M., Barsnes, H., Berven, F. S., Sickmann, A., Martens, L. SearchGUI: An open-source graphical user interface for simultaneous OMSSA and X!Tandem searches. Proteomics. 11, (5), 996-999 (2011).
  32. Shteynberg, D., Nesvizhskii, A. I., Moritz, R. L., Deutsch, E. W. Combining results of multiple search engines in proteomics. Molecular & Cellular Proteomics: MCP. 12, (9), 2383-2393 (2013).
  33. Bittremieux, W., et al. Quality control in mass spectrometry-based proteomics. Mass Spectrometry Reviews. 37, (5), 697-711 (2018).
  34. Bertsch, A., Gröpl, C., Reinert, K., Kohlbacher, O. OpenMS and TOPP: Open Source Software for LC-MS Data Analysis. Data Mining in Proteomics: From Standards to Applications. 353-367 (2011).
  35. Pfeuffer, J., et al. OpenMS – A platform for reproducible analysis of mass spectrometry data. Journal of Biotechnology. 261, 142-148 (2017).
  36. Kozak, M. Pushing the limits of the scanning mechanism for initiation of translation. Gene. 299, (1-2), 1-34 (2002).
  37. Noderer, W. L., et al. Quantitative analysis of mammalian translation initiation sites by FACS-seq. Molecular Systems Biology. 10, 748 (2014).
  38. Eyckerman, S., et al. Intelligent Mixing of Proteomes for Elimination of False Positives in Affinity Purification-Mass Spectrometry. Journal of Proteome Research. 15, (10), 3929-3937 (2016).
  39. Vizcaíno, J. A., et al. 2016 update of the PRIDE database and its related tools. Nucleic Acids Research. 44, (D1), D447-D456 (2016).
  40. Bateman, A., et al. UniProt: the universal protein knowledgebase. Nucleic Acids Research. 45, (D1), D158-D169 (2017).
  41. The Gene Ontology Consortium Expansion of the Gene Ontology knowledgebase and resources. Expansion of the Gene Ontology knowledgebase and resources. Nucleic Acids Research. 45, (D1), D331-D338 (2017).
  42. O’Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research. 44, D733-D745 (2016).
  43. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Research. 46, (D1), D754-D761 (2018).
  44. Andreev, D. E., et al. Translation of 5’ leaders is pervasive in genes resistant to eIF2 repression. eLife. 4, e03971 (2015).
  45. Jackson, R., et al. The translation of non-canonical open reading frames controls mucosal immunity. Nature. 564, 434-438 (2018).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics