Masse massespektrometri-baserte Proteomikk analyser bruker OpenProt databasen å avsløre romanen proteiner oversatt fra ikke-kanoniske åpent lesing rammer

Genetics
 

Summary

OpenProt er en fritt tilgjengelig database som gjennomfører en polycistronic modell av eukaryote genomer. Her presenterer vi en protokoll for bruk av OpenProt databaser når avhør massespektrometri datasett. Med OpenProt gir database for analyse proteomic eksperimenter romanen og tidligere undetectable proteiner.

Cite this Article

Copy Citation | Download Citations

Brunet, M. A., Roucou, X. Mass Spectrometry-Based Proteomics Analyses Using the OpenProt Database to Unveil Novel Proteins Translated from Non-Canonical Open Reading Frames. J. Vis. Exp. (146), e59589, doi:10.3791/59589 (2019).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Genomet merknad er sentralt i dagens proteomic forskning som det trekker konturene av det proteomic landskapet. Tradisjonelle modeller av åpne lesing ramme (ORF) merknad innføre to vilkårlig kriterier: Minimumslengden på 100 kodon og en enkelt ORF per utskrift. Imidlertid stadig flere studier rapporterer uttrykk for proteiner fra angivelig ikke-koding regioner, utfordrende nøyaktigheten av gjeldende genomet merknader. Disse romanen proteiner fant kodet enten i ikke-koding RNAs 5' og 3 uoversatt regioner (UTRs) mRNAs eller overlappende en kjent koding sekvens (CDS) i en alternativ ORF. OpenProt er den første databasen som gjennomfører en polycistronic modell for eukaryote genomer, slik at merknad av flere ORFs per utskrift. OpenProt er fritt tilgjengelig, og tilbyr tilpassede nedlastinger av protein sekvenser over 10 arter. Bruke OpenProt for proteomic eksperimenter kan romanen proteiner oppdagelsen og fremhever polycistronic natur eukaryote gener. Størrelsen på OpenProt databasen (alle spådd proteiner) er betydelig og må tas i kontoen for analyse. Men med riktig false oppdagelsen (FDR) innstillinger eller bruk av en begrenset OpenProt database få brukere et mer realistisk syn på proteomic landskapet. Samlet er OpenProt et fritt tilgjengelig verktøy som vil fremme proteomic funn.

Introduction

De siste tiårene blitt massespektrometri (MS-) basert Proteomikk golden teknikken å dechiffrere proteomes eukaryote celler,1,,2,,3,,4,,5. Denne metoden er avhengig av gjeldende genomet merknader til å generere en referanse protein sekvens database som beskriver omfanget av muligheter6,7,8. Men holde genomet merknader vilkårlig kriterier for ORF merknaden, som Minimumslengden på 100 kodon og en enkelt ORF per utskrift9,10. Et økende antall studier utfordre gjeldende merknad modell og rapportere funn av unannotated funksjonelle ORFs i eukaryote genomer8,11,12,13, 14. Disse romanen proteiner finnes kodet i angivelig ikke-koding RNAs, i 5' eller 3 uoversatt regioner (UTR) mRNAs eller overlappende kanoniske koding sekvensen (cCDS) i en alternativ ramme. Selv om de fleste av disse funnene har vært serendipitous, viser de begrensninger av gjeldende genomet merknader og polycistronic natur eukaryote gener8.

Her markere vi bruk av OpenProt databaser for baserte Proteomikk. OpenProt er den første databasen å holde en polycistronic merknad modell for eukaryote transcriptomes. Det er fritt tilgjengelig på www.openprot.org15. En andel av disse spådd ORFs ville være tilfeldig og ikke-fungerende, hvilke er hvorfor OpenProt cumulates eksperimentelle og funksjonelle bevis å øke tilliten. Eksperimentelle bevis inkluderer protein uttrykk (av MULTIPLE Sclerosis) og oversettelse bevis (ved ribosom profilering)15. Funksjonell bevis inkluderer protein orthology (med en i-Paranoid som tilnærming) og funksjonelle domene prediksjon15.

OpenProt tilbyr muligheten til å laste ned flere databaser, fra inneholder bare godt støttet proteiner til skreddersydd databaser. Her presenterer vi en rørledning for bruk av OpenProt databaser og tilbyr innsikt i hvilken database å velge vurderer eksperimentelle målet. Proteomikk analyse rørledningen presenteres her støttes av galaksen som det er fritt og lett-å-bruke, men databasene kan arbeide med en arbeidsflyt16,17,18. Vi vil også presentere hvordan du bruker webområdet OpenProt samle ytterligere informasjon om romanen proteiner oppdaget av MS. Using OpenProt databaser vil gi en mer detaljert visning av proteomic landskapet og vil fremme Proteomikk og biomarkers funn i en mer systematisk måte enn nåværende metoder.

Denne protokollen fremhever bruken av OpenProt databaser15 når avhør MS datasett; det vil ikke vurdere utformingen av forsøket selv, som er grundig vurdert andre steder20,21,22. I et forsøk på å være fullt åpen kildekode, er protokollen fritt tilgjengelig (Supplerende materiale S1-S4). For enklere lesing, er alle begrepene i OpenProt og herved gjennom denne protokollen definert i tabell 1.

Protocol

1. OpenProt databasen nedlasting

Merk: Tilpassede databaser basert på RNA-seq data for eksempel kan også skaffes og prosedyren er beskrevet i den andre delen av denne protokollen. Hvis en egendefinert database er nødvendig, går du til neste del.

  1. Gå til webområdet OpenProt: www.openprot.org og åpne nedlastingssiden ved hjelp av koblingen på øverste side-menyen.
  2. Klikk på arten på rente basert på analysert eksperimentelle data.
  3. Klikk på den protein ønsket.
    Merk: OpenProt tilbyr tre klassifiseringer: RefProt, isoformene og AltProt. Som vist i figur 1, vil denne parameteren variere basert på forskning målet.
    1. Klikk på RefProt alene å generere filer som inneholder bare kjente proteiner.
    2. Klikk på AltProt og isoformene å generere filer som inneholder bare romanen proteiner - enten romanen isoformene kjent proteiner (isoformene) eller kodet av en alternativ ORF (AltProts). Vær oppmerksom på at OpenProt fremtvinger ORF Minimumslengden på 30 kodon15.
    3. Klikk på AltProts, isoformene og RefProts å generere filer som inneholder alle protein typer tilstede i OpenProt database – kjent og romanen proteiner.
  4. Hvis tilgjengelig, klikker du merknaden sekvenser trekkes fra som protein.
    Merk: OpenProt gir en mer detaljert proteomic landskapet ved å kombinere flere merknader. Transcriptome merknader har en minimal overlapping; Dermed kan den merkede merknaden vesentlig påvirke visualisert proteomic profil15,23.
  5. Klikk på nivået på støtte bevis nødvendig for protein vurdering. Som vist i figur 1, vil denne parameteren variere basert på forskning målet.
    1. Klikk på minimum to unike peptider oppdaget å generere filer som inneholder bare de mest pålitelige proteinene.
      Merk: Et kriterium for to unike peptider anses for tiden en gull-standard i Proteomikk protein uttrykk. Hvis eksperimentelle målet er å oppdage kjente og godt støttet proteiner, anbefales bruk av denne parameteren.
    2. Klikk på minimum en unik peptider oppdaget å generere filer som inneholder proteiner som har allerede blitt sett minst en gang blant massespektrometri eksperimenter re analysert av OpenProt.
      Merk: Dette gir vurdering av kortere lengden på AltProts og sannsynligheten for at noen av dem kan inneholde bare én unik tryptic peptid8,11.
    3. Klikk på alle spådd å generere filer som inneholder alle OpenProt spådommer.
      Merk: Denne innstillingen anbefales bare hvis eksperimentelle målet er å oppdage romanen proteiner (figur 1). Den påfølgende betydelige økningen i Søk plass samtaler for et tilpasset analyse rørledningen som beskrevet under7,15.
  6. Klikk på ønsket filformatet du laster ned. For proteomic analyser, velger du filen Fasta (protein). Viktig-filen inneholder all nødvendig informasjon på filformatet.

2. egendefinerte OpenProt databasen nedlasting

Merk: Denne delen viser hvordan du skaffer en egendefinert database. Hvis ingen egendefinerte database er nødvendig, hoppe til neste avsnitt.

  1. Gå til webområdet OpenProt (www.openprot.org), og åpne søkesiden benytter leddet fra øverste side-menyen.
  2. Klikk på arten på rente basert på eksperimentelle data analysert.
  3. Angi en liste over gener eller transkripsjoner av interesse.
    1. Når du bruker en liste av gener, kan du angi den i boksen Gene spørring.
    2. Når du bruker en liste over utskrifter, kan du angi den i transkripsjon for spørringen.
  4. Sjekke alle boksen som gjelder ønsket databasen.
    1. Ikke klikk på noe for å få en tabell som inneholder alle typer protein støttes av OpenProt: RefProt, isoformene og AltProts.
    2. Klikk på Vis bare proteiner med eksperimentelle bevis for å få en tabell som inneholder alle typer proteiner (RefProts, isoformene og AltProts) som ble funnet minst en gang av MS og/eller for hvilke oversettelse bevis har blitt samlet inn fra ribosom profilering data.
    3. Klikk på Vis bare proteiner oppdaget av MS eller Vis bare proteiner oppdaget av ribosom profilering å få en tabell som inneholder alle typer proteiner som har blitt oppdaget minst en gang MS eller ribosom profilering henholdsvis.
    4. Klikk på Vis bare AltProts eller Vis bare isoformene å få en tabell som inneholder bare AltProts eller bare isoformene henholdsvis.
    5. Klikk på både Vis bare AltProts og Vis bare isoformene hente en tabell som inneholder begge typer proteiner.
      Merk: Alle kombinasjoner av filtre er mulig.
  5. Når alle ønskede parametere er angitt, klikk på søk. Tabellen utgang vises under spørring søkefeltene.
  6. Klikk på knappen Last ned Fasta øvre høyre hjørne i utdatatabellen. Dette vil generere en Fasta fil som inneholder alle proteiner fra listen spurte gener eller transkripsjoner.
  7. Merk at beregningsorientert årsaker OpenProt har maksimalt 2000 elementer skal spørres (gener eller transkripsjoner) om gangen. Hvis en liste over denne grensen, kan flere fasta generert og deretter sammen (som beskrevet nedenfor); eller bare laste ned hele OpenProt databasen og filtrere filen innhentet etter ønske.
    1. Bin hele listen av gener eller transkripsjoner i sub lister over 2000 oppføringer eller mindre. Hver sub liste, laster du ned en Fasta fil som beskrevet ovenfor (trinn 3.3 til 3,6).
    2. Logg inn på den europeiske Galaxy forekomsten (eller noen andre forekomsten der Proteomikk er tilgjengelige), https://usegalaxy.eu/.
    3. Opprett en ny historie og importere alle nedlastede OpenProt databasene (én per sub liste over gener eller transkripsjoner) ved å klikke på Last opp logoen øverst venstre på skjermen.
    4. Bruk verktøyet Fasta flette filer og Filter unike sekvenser som er utviklet av GalaxyP utviklere (https://github.com/galaxyproteomics/). Velg Flett alle Fasta og innspill alle importerte OpenProt databasene.
      Merk: Hvert verktøy kan søkes ved hjelp for spørringen på venstre side av skjermen
    5. Velg alternativet tiltredelse bare vurdere sekvens unicity og kopiere OpenProt identifikator analysere regelen (>(.*) \ |), klikk på Kjør.
    6. Vær oppmerksom på at alle filer har vært sammen i en unik Fasta fil med ingen redundans som vises i historikkpanelet på høyre side av skjermen. Dette utgjør databasen.

3. databasehåndtering

Merk: nå galakse plattform vil bli brukt, men de samme prinsippene kan brukes på andre proteomic programvare.

  1. Logg inn på den europeiske Galaxy forekomsten (eller noen andre forekomsten der Proteomikk er tilgjengelige), https://usegalaxy.eu/.
  2. Opprett en ny historie og importere nedlastede OpenProt databasen ved å klikke på Last opp logoen øverst venstre på skjermen.
  3. Gå til arbeidsflytsiden og importere databasen håndtering arbeidsflyten (Supplerende materiale S1) ved å klikke på Last opp logoen øverst venstre midtre panelet.
  4. Klikk på Kjør arbeidsflyten og velg importerte OpenProt databasen som inndata.
    Merk: Denne arbeidsflyten vil tilføye CRAPome depotet i OpenProt fasta og generere lokkefugl sekvenser (omvendt sekvenser)24. Hvis en shuffle lokkefugl liste, kan det gjøres ved å endre denne parameteren verktøyet DecoyDatabase.
  5. Endre innhentet Fasta til noe meningsfullt. Databasen er klar til å brukes for Proteomikk analyser.

4. massespektrometri filen forberedelse

Merk: De fleste av Proteomikk tilgjengelig på Galaxy tilfeller bruker mzML formatet og peptid søkemotorer foretrekker dataene i centroid modus.

  1. Åpne verktøyet for fritt tilgjengelig MSConvert fra ProteoWizard suite og laste opp datafilen å bli analysert25.
  2. Velg mappen for utdata og ønskede filformatet til mzML.
  3. Angi en topp plukke filteret wavelet basert algoritmen (CWT) på MS1 og MS2, og start konverteringen26.

5. peptid og protein identifikasjon/kvantifisering

Merk: Denne delen av rørledningen bruker verktøy fra OpenMS suite, en allsidig og lett-å-bruke18.

  1. Logg inn på den europeiske Galaxy forekomsten (eller noen andre forekomsten der Proteomikk er tilgjengelige), https://usegalaxy.eu/.
  2. Opprett en ny historie og overføre opprettet databasen (trinn 3,5) til denne nye historien med en dra-og-slipp.
  3. Importere forvandlet mzML datafilen (trinn 4.3) ved å klikke Last logo øverst venstre på skjermen.
  4. Gå til arbeidsflytsiden og importere ønsket arbeidsflyten ved å klikke på Last opp logoen øverst venstre midtre panelet.
    Merk: MS eksperimenter er annerledes designet basert på det endelige utdataformatet. Arbeidsflyter tilbys her for to hyppige design: protein identifikasjon og protein kvantifisering basert på stabil isotop merking (SIL). Galaxy forekomsten inneholder imidlertid mange andre verktøy som støtter andre typer proteomic analyser27,28.
    1. For en protein identifikasjon design, importere arbeidsflyten i Supplerende materiale S2Når du bruker denne arbeidsflyten, kan du ikke bruke zlip komprimering når du konverterer filer (trinn 4.2)
    2. For et protein kvantifisering basert på stabil isotop merking, importere arbeidsflyten i Supplerende materiale S3.
  5. Velg Kjør arbeidsflyten og se gjennom ulike parametere.
    1. Merk datafilen importerte mzML som inngang, og opprettet databasen (trinn 3,5) som Fasta databasefilen.
    2. Siden arbeidsflyten bruker X! Tandem søk motor, importere X! Tandem standard konfigurasjon filen (angitt i Supplerende materiale S4)29 ved å klikke på Last opp logoen øverst venstre på skjermen.
    3. Arbeidsflyten bruker flere søkemotorer (MS-GF + og X! Tandem). Tilføy andre søkemotorer, eller velg en eneste ved å legge til eller fjerne verktøyene fra arbeidsflyten30,31.
      Merk: Bruker flere søkemotorer anbefales øker følsomhet og følsomhet av analyse32.
    4. For å kunne den betydelige økningen i størrelse når du bruker hele OpenProt databasen, kan du bruke en strenge FDR15. Som standard følger arbeidsflyten er satt for en 0,001% FDR, tilstrekkelig for bruk av hele OpenProt databasen. For andre databaser, kan dette redigeres en ønsket verdi.
      Merk: Husk å tilpasse parameterne for de forskjellige verktøyene avhengig av masse spectrometer brukes og eksperimentelle protokollen (forløper ion og fragment feil, fast og variabel modifikasjoner, brukte enzym, etc.).
  6. Alternativt, dataoverføre utgang for hvert trinn i arbeidsflyten for lagring eller kvalitetskontroll analyse ved å klikke på det valgte trinnet fra historikkpanelet, deretter på Lagre logoen som vises under.

6. kvalitetskontroll

Merk: Baserte Proteomikk er resultatet av en kompleks prosess der hvert trinn må optimaliseres reproduserbar resultater, kvalitetskontroll er en nødvendig prosedyre arbeidsflyt33.

  1. Flere beregninger er vanlige benchmark ytelse, for eksempel antall peptid-spektrum kamper (PSM), identifiserte peptider og proteiner. Kjøre verktøyet Filinformasjon på IDFilter utgang (angitt i grønt i figur 2) for å gi slike beregninger.
  2. Selv om ikke gjelder alle identifikasjon, spesielt med store datasett, bør rapporter om romanen proteiner alltid vurderes nøye. Inspeksjon av protein score og sekvens dekningen til spectra støtte funn er av avgjørende betydning. Bruk verktøyet TOPPview fra OpenMS rammen til å gjøre dette. Det er fritt tilgjengelig og dokumentert godt18,34,35.

7. OpenProt databasen gruvedrift

Merk: Når en trygg identifikasjon av en roman protein spådd av OpenProt (tiltredelse tall starter med IP_ for AltProts og II_ i romanen isoformene) er gjort, mer biologisk kan samles fra OpenProt nettstedet15.

  1. Gå til webområdet OpenProt: www.openprot.org og åpne søkesiden ved hjelp av koblingen på øverste side-menyen.
  2. Klikk på arten av interesse (samme som den som protein ble identifisert) og angi protein tiltredelse nummeret i boksen Protein spørring.
  3. Klikk på søk og en tabell som inneholder grunnleggende informasjon om forespurte protein vises. Tabell funksjoner: protein lengde (i aminosyre), molekylvekt (kDa) og isoelectric punkt, støtte eksperimentell bevis av MS eller ribosom profilering (oversettelse bevis, TE), og funksjonelle spådommer som spådd domener og protein orthology (over 10 arter støttes av OpenProt, v1.3). Tabellen inneholder også informasjon om relaterte genet og transkripsjon og lokalisering av proteinet i transkripsjon.
  4. Klikk på koblingen detaljer å samle ytterligere informasjon. Nyåpnede siden inneholder en genomet nettleser som er sentrert på spurte protein og informasjon som den genomisk og transcriptomic koordinater og en Kozak eller høy effektivitet oversettelse innvielsen området (TIS) motiv36, 37.
  5. Klikk på Protein eller DNA koblinger i kategorien info å få protein eller DNA-sekvenser henholdsvis.
  6. Søke etter detaljert informasjon om MS bevis, ribosom profilering deteksjon, bevaring og identifiserte protein domener ved å klikke på de øverste15.

Representative Results

Arbeidsflyten beskrevet ovenfor ble brukt til MS dataset tilgjengelig på stolthet oppbevaringssted38,39. Den opprinnelige studien utviklet en metode (iMixPro), bruker stabil isotop merking av aminosyrer i cellekultur (SILAC), for å eliminere falske positiver fra affinitet-rensing MS (AP-MS) eksperimenter38. I korte trekk består en AP-MS eksperiment av bruker perler-bundet antistoffer til å hente et protein av interesse (agn) og dens interaktører (preys). Samlet proteiner deretter fordøyd og forberedt for MS. Metoden for eksempel forberedelse og instrument-innstillingene er beskrevet i den opprinnelige studien og stolthet depotet (PXD004246). En utfordring slike eksperimenter er overflod av falske positiver, fra proteiner binding til perlene men ikke bit på kroken. Her vi brukt SILAC til å generere ulike isotop forhold mellom ekte preys og falske positiver: 3 kontroll prøver (ingen agn) kultivert i lys medium, 1 prøve uttrykke agnet kultivert i lys medium og 1 prøve uttrykke agnet kultivert i tunge medium er behandlet med perler og videre massespektrometri analyse. Slik design har ikke-spesifikke proteiner binding til perlene en tung-til-lyset forholdet 1:4; Når sant preys har forholdet 1:138.

Vi re-analyseres AP-MS data bruker OpenProt databasen. agn inkludert tre endogene proteiner (PTPN14, JIP3 og IQGAP1), og to over uttrykt proteiner (RAF1 og RNF41). Siden eksperimenter brukt SILAC, Galaxy arbeidsflyten for protein kvantifisering ble brukt (Supplerende materiale S3, figur 2). Arbeidsflyten ble kjørt hele OpenProt databasen (OpenProt_all) eller en begrenset OpenProt database (OpenProt_2pep, inkludert bare proteiner oppdaget tidligere med et minimum av to unike peptider).

Protein identifikasjon og kvantifisering var god og reproduserbar over forskjellige brukte databaser. Som vist i Figur 3, ble de fleste proteiner identifisert i den opprinnelige papiret også identifisert med enten OpenProt_2pep eller OpenProt_all-databasen (en detaljert liste er tilgjengelig i Supplerende materiale S5). Dette resultatet viser at rørledningen beskrevet her og OpenProt databaser kan produsere protein identifikasjon og kvantifisering sammenlignes med gjeldende prosedyrer basert på UniProtKB databaser40. Men har bruk av OpenProt databaser den unike fordelen at påvisning av romanen og tidligere undetectable proteiner, som vist i dette tilfellet studere.

11 godt støttet proteiner (1 isoformen og 10 AltProts), men ikke kommentert i databaser, ble identifisert over alle datasett, med trygg peptider, bruker OpenProt_2pep databasen (alle protein tiltredelser, sammen med antallet støtte peptider er tilgjengelige i Supplerende materiale S5). Databasen tillater bruk av en tradisjonell 1% FDR som søke plass øker fortsatt moderat. Disse 11 proteiner ble ikke identifisert i den opprinnelige studien som de var fraværende fra databasen.

29 romanen proteiner (16 isoformene og 13 AltProts) ble oppdaget over alle datasett, med trygg peptider, bruker OpenProt_all databasen (alle protein tiltredelser, sammen med antall støtte peptider, er tilgjengelig i supplerende materiale S6 ). Som vist i Figur 3, påvirke anbefalte strenge FDR ikke de mest pålitelige protein identifikasjonene, selv om den did nedgang Antall identifiserte proteiner. Relativt til OpenProt_2pep databasen, kan mange romanen proteiner trygt identifiseres. Alle disse romanen proteiner er fraværende fra OpenProt_2pep databasen. Dette understreker den valgte databasen for baserte Proteomikk avgjørende rolle.

En roman protein ble oppdaget som interactor av RAF1 protein (IP_637643). Bruke OpenProt nettstedet, kan man se dette proteinet ikke hadde blitt oppdaget av MS eller ribosom profilering til nå (OpenProt v1.3). Proteinet er 46 aminosyrer lang og kan bare gi to unike peptider ved tryptic fordøyelsen. Peptid oppdaget i RAF1 AP-MS datasett (brøkdel 18) hadde en god kvalitet spektrum, som vist i Figur 4, og vises tunge-til-lyset forholdet 1,09. Proteinet er kodet i NANOGNBP1 genet, som er en pseudogene av NANOGNB. Transkripsjon (ENST00000448444), er merket som ikke-koding, ble oppdaget på tvers av flere vev etter GTEx portalen40. Protein inneholder en anslått funksjonelle domenet knyttet DNA binding (Gene ontologi gå: 0003677)41.

Figure 1
Figur 1 : Database valg for Proteomikk analyser diagrammet. Analyser av MS data, særlig databasen valg, avhengig av forskning målene. Tre felles mål er skissert i blå (klassisk proteomic rørledning), grønn (uttømmende proteomic søk) og oransje (proteomic discovery). Hver målsetting, avhenger av en passende database og rørledningen. En enkelt legitimasjonen verktøyet kan brukes til en uttømmende og klassisk Proteomikk rørledninger. For proteomic funnet rørledningen anbefaler vi sterkt bruker flere identifikasjon motorer. Anbefalt FDRs er merket med rødt, og protein database størrelser er angitt med grå bokser. Klikk her for å se en større versjon av dette tallet.

Figure 2
Figur 2 : Grafisk representasjon av galaksen arbeidsflyten brukes. Trinnvis representasjon av proteomic analyse arbeidsflyten brukes for re-analyse av Eyckerman et al. data38. Inndatafiler, peptid søk og protein kvantifisering angis med oransje bokser. Boksene tilsvarer verktøyene som brukes og grå boksene svarer til utdatafiler generert. Ulike søkemotorer (MS-GF + og X! Tandem) angis av forskjellige farger (henholdsvis rødt og lilla) samt pilene som indikerer deres nødvendig innganger og utganger. Den grønne boksen viser verktøyet genererer en liste over protein-IDer. Når flere utganger genereres, den som brukes for nedstrøms trinnene angis som nærmest pilen. Denne arbeidsflyten er fritt tilgjengelig i Supplerende materiale S2. X! Tandem standard parametere konfigurasjonsfilen er tilgjengelig i Supplerende materiale S4. Klikk her for å se en større versjon av dette tallet.

Figure 3
Figur 3 : Sammenligning av interactor identifikasjon per agn bruker forskjellige databaser. Venn-diagrammer til protein IDer med den mest pålitelige OpenProt database (i oransje, støtte bevis av minimum 2 unike peptider, OpenProt_2pep) med en 1% FDR eller hele OpenProt databasen (i blått, OpenProt_all) med en 0,001% FDR, eller som rapportert i den opprinnelige papiret (i grått)38. Hvert diagram tilsvarer identifisert interaktører for den nevnte agn: RAF1, RNF41, PTPN14, JIP3 og IQGAP1. Klikk her for å se en større versjon av dette tallet.

Figure 4
Figur 4 : MS-/ MS spekteret av identifisert MDNLWAK(13C 6) peptid fra roman protein IP_637643. Intensiteten er relative (0-100%). Valgte topper er vist i rødt, y ioner merknader er i mørke rødt og b ioner merknader i grønt. Hentet fra TOPPview programvare34. Forløperen feil = 2,70 ppm, PEP poeng = 0,12. Klikk her for å se en større versjon av dette tallet.

Begrepet Definisjon Referanse
Alternative ORF (AltORF) ikke-kanoniske ORF ikke kommenterte i genomet merknader, men kommenterte i OpenProt. 15
Referanse ORF (RefORF) kanoniske ORF kommenterte i genomet merknader og OpenProt. 15
Alternative protein (AltProt) roman protein kodet av en AltORF, med noen betydelig likhet med en RefProt. Tiltredelse prefiks: IP_. 15
Referanse protein (RefProt) protein er kommentert i protein sekvens databaser som UniProtKB, Ensembl eller NCBI RefSeq, og også i OpenProt. 15
Romanen isoformen roman protein kodet av en AltORF, med en betydelig likhet med en RefProt. Tiltredelse prefiks: II_. 15
OpenProt_2pep database viser også rekkefølgen av alle RefProts og romanen proteiner spådd av OpenProt, allerede oppdaget med et minimum av 2 unike peptider. 15
OpenProt_1pep database viser også rekkefølgen av alle RefProts og romanen proteiner spådd av OpenProt, allerede oppdaget med minst 1 unike peptid. 15
OpenProt_all database viser også rekkefølgen av alle RefProts og romanen proteiner spådd av OpenProt. 15

Tabell 1: Definisjon av begrepene i OpenProt og hele protokollen

Supplerende materiale S1: Galaxy arbeidsflyt for databasehåndtering. Denne ville tilføye CRAPome og lokkefugl sekvenser (bakover) til input databasen. Resultatet er en Fasta fil. Klikk her for å laste ned.

Supplerende materiale S2: Galaxy arbeidsflyt for protein identifikasjon. Dette vil identifisere proteiner fra en massespektrometri datafil bruker to søkemotorer (MS-GF + og X! Tandem). Hver parameter kan stilles inn som ønsket før arbeidsflyten. Klikk her for å laste ned.

Supplerende materiale S3: Galaxy arbeidsflyt for protein kvantifisering bruker stabil isotop merking (SIL). Dette vil finne og kvantifisere proteiner fra en massespektrometri datafil bruker to søkemotorer (MS-GF + og X! Tandem). Hver parameter kan stilles inn som ønsket før arbeidsflyten. Klikk her for å laste ned.

Supplerende materiale S4: X! Tandem standard parametere konfigurasjonsfilen. Denne XML-filen er nødvendig for å kjøre X! TandemAdapter verktøy på Galaxy plattformen. Klikk her for å laste ned.

Supplerende materiale S5: kvantifisert proteiner fra iMixPro datasett. Datafiler fra Eyckerman et al. 201638 ble behandlet med OpenProt databaser og kvantifisert proteiner er oppført for hver betingelse. Agn er PTPN14, JIP3, IQGAP1, RAF1 og RNF41. Gene navn angitt i grønt tilsvarer proteiner også identifisert i den opprinnelige papiret38. Gene navn angitt i oransje tilsvarer kjent interaktører etter BioGrid som ikke ble rapportert i den opprinnelige papiret. Gene navn angitt i lys blå tilsvarer romanen proteiner som interaktører (tilsvarende protein tiltredelse nummeret er angitt i parentes). Gene navn angitt med lys grå og kursiv tilsvarer sannsynlig forurensninger (keratin proteiner). Klikk her for å laste ned.

Supplerende materiale S6: identifisert romanen proteiner fra iMixPro datasett. Datafiler fra Eyckerman et al. 201638 ble behandlet med OpenProt databaser og romanen identifiserte proteiner er oppført for hver betingelse. Agn er PTPN14, JIP3, IQGAP1, RAF1 og RNF41. Protein tiltredelse tall vises med II_ for romanen isoformene en kjent protein, og med IP_ for romanen proteiner fra en alternativ ORF (AltProt). Nummeret støtter peptider angis i parentes. Klikk her for å laste ned.

Discussion

Når du analyserer data fra masse spektrometre, avhengig kvaliteten på protein identifikasjon delvis nøyaktigheten av brukte database6,20. Gjeldende tilnærminger bruke tradisjonelt UniProtKB databaser, men disse støtter genomet merknad modell av en enkelt ORF per utskrift og Minimumslengden på 100 kodon (med unntak av tidligere viste eksempler)40. Flere undersøkelser relatert svakhetene i slike databaser med oppdagelsen av funksjonelle ORFs fra angivelig ikke-koding regioner8,11,12,13. OpenProt kan nå, for mer utfyllende protein identifikasjon som det trekker protein sekvenser fra flere transcriptome merknader. OpenProt henter NCBI RefSeq (GRCh38.p7) og Ensembl (GRCh38.83) transcriptomes og UniProtKB merknader (UniProtKB-SwissProt, 2017-09-27)40,42,43. Som gjeldende merknader presenterer lite overlapp, viser OpenProt dermed en mer detaljert visning av potensielle proteomic landskapet enn når begrenset til en merknad15.

Videre som OpenProt fremtvinger en polycistronic modell, tillater for flere protein merknader per utskrift. Statistisk og beregningsorientert årsaker innehar OpenProt fortsatt en minimumslengde terskel 30 kodon15. Likevel, det spår tusenvis av roman protein sekvenser, og dermed utvide omfanget av muligheter for protein identifikasjon. Med denne støtter OpenProt proteomic funn på en mer systematisk måte.

Kvaliteten på protein identifikasjon kan også påvirkes av parameterne som brukes. Baserte Proteomikk analyser vanligvis holder en 1% protein FDR. Hele OpenProt databasen inneholder imidlertid ca 6 ganger flere oppføringer (figur 1). Kontoen for denne betydelige økningen i søke plass, anbefaler vi en strengere FDR 0,001%. Denne parameteren var optimalisert benchmark studier og manuell vurdering av tilfeldig valgte spectra15. False positiv er fortsatt en mulighet, skjønt, og vi oppfordrer grundig inspeksjon og validering av støtte bevis for en roman protein. En anbefalt standard kunne identifikasjon av et protein fra to forskjellige MS kjører, bakgrunnsdata og falske positiver variere mellom datasett15.

Rørledningen her og brukt i undersøkelsen kan endres så glad for å passe på eksperimentell design og parametere. Vi vil anbefale å bruke flere søkemotorer øker følsomhet og følsomhet peptid identifikasjon32. Videre oppfordrer vi bruker databasen svarer best til eksperimentelle målet (figur 1). Som bruker hele OpenProt databasen kommer med en strenge FDR, gå sant identifikasjoner tapt. Dermed bør hele databasen være ment for oppdagelse av romanen proteiner, mens klassiske Proteomikk profilering skal bruke mindre OpenProt databasene (som OpenProt_2pep brukt i undersøkelsen ovenfor).

OpenProt spår foreløpig sekvenser med en ATG codon, mens flere studier uthevet oversettelse innvielsen andre kodon44,45. Når en roman protein er identifisert av en eller flere unike peptider, er det mulig sant innvielsen codon ikke er den antatte ATG. Brukere kan se etter oversettelse bevis på OpenProt nettsted. Foreløpig rapporterer OpenProt bare oversettelse hendelser hvis de gjelder hele spådd protein sekvens (100% overlapp)15. Dermed ville fravær av oversettelse bevis ikke at protein ikke er oversatt, men at start codon ikke kan være den påståtte ATG.

Til tross for sin nåværende begrensninger tilbyr OpenProt en mer detaljert visning av eukaryote genomer koding potensial. OpenProt databaser fremme proteomic funn og forståelse av proteomic funksjoner og interaksjoner. Fremtidig utvikling av OpenProt databasen vil omfatte merknad av andre arter, oversettelse bevis fra ikke-ATG codon og utviklingen av en rørledning med romanen proteiner i hele genomet og exome sekvensering studier.

Disclosures

Forfatterne erklærer ingen interessekonflikt.

Acknowledgments

Vi takker Vivian Delcourt for hans hjelp, diskusjoner og råd om dette arbeidet. X.R. er medlem av den Fonds de Recherche du Québec Santé FRQS-støttet Centre de Recherche du sentrum Hospitalier Universitaire de Sherbrooke. Denne forskningen ble støttet av en Canada forskning stol i funksjonelle Proteomikk og oppdagelsen av romanen proteiner til X.R. og CIHR gi MOPP-137056. Vi takker teamet på Calcul Québec og beregne Canada for deres støtte med bruk av superdatamaskinen mp2 fra Université de Sherbrooke. Drift av mp2 superdatamaskinen er finansiert av den Canada Foundation av innovasjon (CFI), le ministère de l'Économie, de la vitenskap et de l'innovation du Québec (MESI) og les Fonds de Recherche du Québec - natur et teknologier (FRQ-NT). Galaxy serveren som ble brukt for noen Proteomikk beregninger er delvis finansiert av samarbeidende Research Centre 992 medisinsk Epigenetics (DFG grant SFB 992/1 2012) og tysk Federal Utdannings- og forskning (BMBF gir 031 A538A/A538C RBC, 031L0101B /031L0101C de. NBI-epi, 031L 0106 de. TRAPP (de. NBI)).

Materials

Name Company Catalog Number Comments
OpenProt website open source n/a www.openprot.org
Galaxy Server open source n/a https://usegalaxy.eu/
TOPPview software open source n/a www.openms.de

DOWNLOAD MATERIALS LIST

References

  1. Kim, M. S., et al. A draft map of the human proteome. Nature. 509, (7502), 575-581 (2014).
  2. Wilhelm, M., et al. Mass-spectrometry-based draft of the human proteome. Nature. 509, (7502), 582-587 (2014).
  3. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, (3), 712-723 (2015).
  4. Huttlin, E. L., et al. The BioPlex Network: A Systematic Exploration of the Human Interactome. Cell. 162, (2), 425-440 (2015).
  5. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, (7655), 505-509 (2017).
  6. Kumar, D., Yadav, A. K., Dash, D. Choosing an Optimal Database for Protein Identification from Tandem Mass Spectrometry Data. Proteome Bioinformatics. 17-29 (2017).
  7. Jeong, K., Kim, S., Bandeira, N. False discovery rates in spectral identification. BMC Bioinformatics. 13, (Suppl 16), (2012).
  8. Brunet, M. A., Levesque, S. A., Hunting, D. J., Cohen, A. A., Roucou, X. Recognition of the polycistronic nature of human genes is critical to understanding the genotype-phenotype relationship. Genome Research. (2018).
  9. Brent, M. R. Genome annotation past, present, and future: how to define an ORF at each locus. Genome Research. 15, (12), 1777-1786 (2005).
  10. Harrow, J., et al. GENCODE: The reference human genome annotation for The ENCODE Project. Genome Research. 22, (9), 1760-1774 (2012).
  11. Samandi, S., et al. Deep transcriptome annotation enables the discovery and functional characterization of cryptic small proteins. eLife. 6, e27860 (2017).
  12. Saghatelian, A., Couso, J. P. Discovery and characterization of smORF-encoded bioactive polypeptides. Nature Chemical Biology. 11, (12), 909-916 (2015).
  13. Delcourt, V., Staskevicius, A., Salzet, M., Fournier, I., Roucou, X. Small Proteins Encoded by Unannotated ORFs are Rising Stars of the Proteome, Confirming Shortcomings in Genome Annotations and Current Vision of an mRNA. Proteomics. (2017).
  14. Plaza, S., Menschaert, G., Payre, F. In Search of Lost Small Peptides. Annual Review of Cell and Developmental Biology. 33, (1), (2017).
  15. Brunet, M. A., et al. OpenProt: a more comprehensive guide to explore eukaryotic coding potential and proteomes. Nucleic Acids Research. (2018).
  16. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Research. 44, (W1), W3-W10 (2016).
  17. Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2018 update. Nucleic Acids Research. 46, W537-W544 (2018).
  18. Sturm, M., et al. OpenMS – An open-source software framework for mass spectrometry. BMC Bioinformatics. 9, (1), 163 (2008).
  19. Carithers, L. J., et al. A Novel Approach to High-Quality Postmortem Tissue Procurement: The GTEx Project. Biopreservation and Biobanking. 13, (5), 311-319 (2015).
  20. Aebersold, R., Mann, M. Mass spectrometry-based proteomics. Nature. 422, (6928), 6928 (2003).
  21. Domon, B., Aebersold, R. Mass Spectrometry and Protein Analysis. Science. 312, (5771), 212-217 (2006).
  22. Hu, J., Coombes, K. R., Morris, J. S., Baggerly, K. A. The importance of experimental design in proteomic mass spectrometry experiments: Some cautionary tales. Briefings in Functional Genomics. 3, (4), 322-331 (2005).
  23. Wu, P. Y., Phan, J. H., Wang, M. D. Assessing the impact of human genome annotation choice on RNA-seq expression estimates. BMC Bioinformatics. 14, (11), S8 (2013).
  24. Mellacheruvu, D., et al. The CRAPome: a contaminant repository for affinity purification-mass spectrometry data. Nature Methods. 10, (8), 730-736 (2013).
  25. Adusumilli, R., Mallick, P. Data Conversion with ProteoWizard msConvert. Proteomics: Methods and Protocols. 339-368 (2017).
  26. French, W. R., et al. Wavelet-Based Peak Detection and a New Charge Inference Procedure for MS/MS Implemented in ProteoWizard’s msConvert. Journal of Proteome Research. 14, (2), 1299-1307 (2015).
  27. Kuenzi, B. M., et al. APOSTL: An Interactive Galaxy Pipeline for Reproducible Analysis of Affinity Proteomics Data. Journal of Proteome Research. 15, (12), 4747-4754 (2016).
  28. Hoekman, B., Breitling, R., Suits, F., Bischoff, R., Horvatovich, P. msCompare: a framework for quantitative analysis of label-free LC-MS data for comparative candidate biomarker studies. Molecular & Cellular Proteomics: MCP. 11, (6), (2012).
  29. Bjornson, R. D., et al. X!!Tandem, an improved method for running X!tandem in parallel on collections of commodity computers. Journal of Proteome Research. 7, (1), 293-299 (2008).
  30. Kim, S., Pevzner, P. A. MS-GF+ makes progress towards a universal database search tool for proteomics. Nature Communications. 5, 5277 (2014).
  31. Vaudel, M., Barsnes, H., Berven, F. S., Sickmann, A., Martens, L. SearchGUI: An open-source graphical user interface for simultaneous OMSSA and X!Tandem searches. Proteomics. 11, (5), 996-999 (2011).
  32. Shteynberg, D., Nesvizhskii, A. I., Moritz, R. L., Deutsch, E. W. Combining results of multiple search engines in proteomics. Molecular & Cellular Proteomics: MCP. 12, (9), 2383-2393 (2013).
  33. Bittremieux, W., et al. Quality control in mass spectrometry-based proteomics. Mass Spectrometry Reviews. 37, (5), 697-711 (2018).
  34. Bertsch, A., Gröpl, C., Reinert, K., Kohlbacher, O. OpenMS and TOPP: Open Source Software for LC-MS Data Analysis. Data Mining in Proteomics: From Standards to Applications. 353-367 (2011).
  35. Pfeuffer, J., et al. OpenMS – A platform for reproducible analysis of mass spectrometry data. Journal of Biotechnology. 261, 142-148 (2017).
  36. Kozak, M. Pushing the limits of the scanning mechanism for initiation of translation. Gene. 299, (1-2), 1-34 (2002).
  37. Noderer, W. L., et al. Quantitative analysis of mammalian translation initiation sites by FACS-seq. Molecular Systems Biology. 10, 748 (2014).
  38. Eyckerman, S., et al. Intelligent Mixing of Proteomes for Elimination of False Positives in Affinity Purification-Mass Spectrometry. Journal of Proteome Research. 15, (10), 3929-3937 (2016).
  39. Vizcaíno, J. A., et al. 2016 update of the PRIDE database and its related tools. Nucleic Acids Research. 44, (D1), D447-D456 (2016).
  40. Bateman, A., et al. UniProt: the universal protein knowledgebase. Nucleic Acids Research. 45, (D1), D158-D169 (2017).
  41. The Gene Ontology Consortium Expansion of the Gene Ontology knowledgebase and resources. Expansion of the Gene Ontology knowledgebase and resources. Nucleic Acids Research. 45, (D1), D331-D338 (2017).
  42. O’Leary, N. A., et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research. 44, D733-D745 (2016).
  43. Zerbino, D. R., et al. Ensembl 2018. Nucleic Acids Research. 46, (D1), D754-D761 (2018).
  44. Andreev, D. E., et al. Translation of 5’ leaders is pervasive in genes resistant to eIF2 repression. eLife. 4, e03971 (2015).
  45. Jackson, R., et al. The translation of non-canonical open reading frames controls mucosal immunity. Nature. 564, 434-438 (2018).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics