Her præsenterer vi værktøjet proteogenomic PoGo og protokoller for hurtig, kvantitative, posttranslationel modifikation og variant aktiveret kortlægning af peptider identificeret gennem massespektrometri på reference genomer. Dette værktøj er nyttig til at integrere og visualisere proteogenomic og personlige proteom undersøgelser grænseflade med ortogonale genomforskning data.
Cross-talk mellem gener, udskrifter og proteiner er nøglen til cellulære svar; Derfor, analyse af molekylære niveauer som særskilte enheder langsomt bliver forlænget til Integrativ undersøgelser for at øge forståelsen af Molekylær dynamik inden for celler. Nuværende værktøjer til visualisering og integration af proteomics med andre omik datasæt er utilstrækkelige for store undersøgelser. Desuden, de kun fange grundlæggende sekvens identificere, udsmid posttranslationelle modifikationer og kvantitering. For at løse disse problemer, udviklet vi PoGo til at tilknytte peptider med tilhørende posttranslationelle modifikationer og kvantificering referere genom anmærkning. Derudover blev værktøjet udviklet for at aktivere tilknytning af peptider identificeret fra tilpassede sekvens databaser indarbejde enkelt aminosyre varianter. Mens PoGo er en befale kø værktøj, den grafiske grænseflade PoGoGUI muliggør ikke-Bioinformatik forskere nemt tilknytte peptider til 25 arter understøttes af Ensembl genom anmærkning. Den genererede output låner filformater fra feltet genomforskning, og derfor, visualisering understøttes i de fleste genom browsere. For store undersøgelser, er PoGo understøttet af TrackHubGenerator til at oprette web-tilgængelig repositories data knyttet til genomer, der også giver en nem deling af proteogenomics data. Med lille indsats, kan dette værktøj kort millioner af peptider til referencer genomer inden for kun et par minutter, udkonkurrerer de andre tilgængelige sekvens-identitet baseret værktøjer. Denne protokol viser de bedste metoder for proteogenomics kortlægning gennem PoGo med offentligt tilgængelige datasæt af kvantitative og fosfoproteomanalyse, såvel som omfattende undersøgelser.
Påvirke hinanden til at modulere en reaktion på interne og eksterne stimuli og interagere med hinanden for at udføre specifikke opgaver fører til sundhed og sygdom i celler, genom, transkriptom og proteomet. Derfor, kendetegner og kvantificere gener, udskrifter og proteiner er afgørende for at fuldt ud forstå cellulære processer. Next generation sequencing (NGS) er en af de mest almindeligt anvendte strategier til at identificere og kvantificere gen og udskrift udtryk. Protein udtryk vurderes almindeligvis af massespektrometri (MS). Betydelige fremskridt i MS teknologi i det sidste årti har aktiveret mere en fuldstændig identificering og kvantificering af proteomes, at gøre dataene sammenlignelige med transcriptomics1. Proteogenomics og multi-omik som måder at integrere NGS og MS data er blevet kraftig tilgange til at vurdere cellulære processer på tværs af flere molekylære niveauer, at identificere undertyper af kræft og fører til nye potentielle lægemiddel mål i kræft2 , 3. det er vigtigt at bemærke, at proteogenomics blev oprindeligt brugt til at dokumentere proteom gen og udskrift anmærkninger4. Flere gener tidligere menes at være ikke-kodende har for nylig gennemgået revurdering overvejer omfattende menneskelige væv datasæt5,6,7. Derudover bruges proteom data med succes til at støtte anmærkning bestræbelser på ikke-modelorganismer8,9. Dog proteogenomic dataintegration kan udnyttes yderligere fremhæve protein udtryk i forbindelse med genomisk funktioner og belyse cross-talk mellem udskrifter og proteiner ved at tilbyde en kombineret referencesystem og metoder til Co visualisering.
For at skabe en fælles reference for proteomics og transcriptomics genomforskning data, er talrige værktøjer blevet gennemført for kortlægning peptider identificeret gennem MS på genom koordinater10,11,12 ,13,14,15,16,17. Tilgange forskellige aspekter såsom kortlægning reference, støtte af genom browsere, og graden af integration med andre proteomics værktøjer som vist i figur 1. Mens nogle værktøjer kort omvendt oversatte peptider ind på en genom16, bruger andre en søgning motor kommenteret position inden for et protein og gen annotation for at rekonstruere nucleotidsekvensen af peptid15. Stadig bruger andre en 3 – eller 6-frame oversættelse af genomet for at kortlægge peptider mod11,13. Endelig, flere værktøjer springe nukleotidsekvenser og bruge aminosyre sekvens oversættelser fra RNA-sekventering kortlagt udskrifter som et mellemprodukt, der skal tilknyttes den tilknyttede genom koordinater10,12, peptider 14,17. Men oversættelsen af nukleotidsekvenser er en langsom proces og brugerdefinerede databaser er tilbøjelige til at fejl, som overføres til peptid kortlægning. For hurtig og høj overførselshastighed kortlægning er en lille og omfattende reference afgørende. Standardiserede protein reference med tilhørende genom koordinater er derfor afgørende for korrekt peptid genom kortlægning. Nye aspekter i proteogenomics, såsom indarbejdelse af varianter og posttranslationelle modifikationer (PTMs)2,3, vinder momentum gennem de seneste undersøgelser. Disse er dog generelt ikke understøttes af aktuelle proteogenomic kortlægning værktøjer, som vist i figur 1. For at forbedre hastigheden og kvaliteten Mapping, blev PoGo udviklet, et værktøj, der giver mulighed for hurtig og kvantitativ kortlægning af peptider til genomer18. PoGo kan desuden kortlægning af peptider med op til to sekvens varianter og kommenteret posttranslationelle modifikationer.
PoGo er udviklet til at håndtere den hurtige stigning af kvantitative høj opløsning datasæt fanger proteomes og globale ændringer og giver en central hjælpeprogram for omfattende analyser som personlige variation og præcision medicin. Denne artikel beskriver anvendelsen af dette værktøj til at visualisere tilstedeværelsen af posttranslationel modifikation i forbindelse med genomisk funktioner. Desuden, denne artikel fremhæver identifikation af alternative splejsning begivenheder gennem tilknyttede peptider og kortlægning af peptider identificeret via brugerdefinerede variant databaser til en reference genom. Denne protokol beskæftiger offentligt tilgængelige datasæt hentet fra stolthed arkiv19 at demonstrere disse funktionaliteter på PoGo. Derudover beskriver denne protokol anvendelsen af TrackHubGenerator til oprettelse af online tilgængelige hubs af peptider tilknyttet genomer for storstilet proteogenomics undersøgelser.
Denne protokol beskriver, hvordan softwareværktøjet PoGo og dens anskuelighed brugergrænseflade PoGoGUI aktiverer en hurtig kortlægning af peptider på genom koordinater. Værktøjet tilbyder unikke funktioner som kvantitative, posttranslationel modifikation og variant-aktiveret tilknytning til genomer bruger reference anmærkning. Denne artikel viser metode på en storstilet proteogenomic undersøgelse og fremhæver dens hastighed og hukommelse effektivitet i forhold til andre tilgængelige værktøjer18. I kombination med værktøjet TrackHubGenerator, som skaber online tilgængelige hubs af genomisk og genom knyttet data, PoGo, med dens anskuelighed brugergrænseflade, gør det muligt for storstilet proteogenomics undersøgelser hurtigt visualisere deres data i genomisk sammenhæng. Derudover viser vi de unikke kendetegn ved PoGo med datasæt søgte mod variant databaser og kvantitative fosfoproteomanalyse22,29.
Enkelt filer, såsom filen GCT giver værdifulde visualisering og links mellem peptid funktioner og genomisk loci. Det er dog vigtigt at bemærke, at en fortolkning baseret på disse alene kan være vanskelige eller misvisende på grund af deres begrænsning til enkelt aspekter af proteogenomics som entydighed, posttranslationelle modifikationer og kvantitative værdier. Det er derfor vigtigt at omhyggeligt vælge hvilke output-filer, indstillinger og kombinationer er passende for proteogenomic spørgsmålet ved hånden og ændre kombinationerne. For eksempel kunne oplysninger om unikke i tilknytning til en bestemt genomisk locus være af stor værdi for anmærkning af genomisk funktion7, mens kvantificering på tværs af forskellige prøver kan være mere relevante for undersøgelser vedrørende Genomisk funktioner til ændringer i protein overflod29. Outputtet skal genereres af PoGo for hver indstilling. I tilfælde af ingen output genereres, eller tomme filer vises i outputmappe, anbefales det at tjekke de input filer til det ønskede indhold og det påkrævede filformat. I tilfælde hvor den filformat eller indhold ikke følger PoGo forventninger (f.eks., FASTA filen, der angiveligt indeholder udskrift oversættelse sekvenser indeholder nukleotidsekvenser af afskrifter), fejl beskeder vil bede brugeren om at kontrollere de input filer.
Begrænsninger i protokollen og værktøjet er for det meste baseret på genbrug af filformater, der almindeligvis anvendes i genomforskning. Nyorientering filformater, der bruges i genomforskning for proteogenomic programmer er ledsaget af specifikke begrænsninger. Disse er på grund af de forskellige sæt af krav til genom centreret visualisering af genomisk og proteogenomic data, såsom behovet for at visualisere posttranslationelle ændringer fra proteomics data. Dette er begrænset i genomforskning filformater af enkelt funktion skik. Mange tilgange og værktøjer er blevet udviklet for proteomics til trygt lokalisere posttranslationelle ændringer inden for peptid sekvenser31,32,33,34. Dog hindres visualisering af flere ændringer i en unik og mærkbar måde på genomet af strukturen af genomisk filformater. Derfor enkelt blokken visualiseringen af flere PTMs af samme type udgør ikke nogen tvetydighed af ændring steder men er en følge af de forskellige krav fra Fællesskabets genomforskning kun visualisere enkelt funktioner på et tidspunkt. Ikke desto mindre, PoGo har fordel af kortlægning posttranslationelle modifikationer på genomisk koordinater til at aktivere undersøgelser fokuseret på effekten af genomisk funktioner som enkelt nucleotid varianter på posttranslationelle modifikationer. Ved hjælp af PoGo øger variant kortlægning antallet af samlede tilknytninger. Men den unikke farvekodning af tilknyttede peptider fremhæver pålidelige tilknytninger fra upålidelige ones. Kortlægning af variant peptider identificeret fra kendte enkelt nucleotid varianter kan ledsages af visualisere de tilknyttede peptider sammen med varianter i VCF format. Denne måde farvekode, der angiver en upålidelig kortlægning af en variant peptid er underkendt ved tilstedeværelsen af den kendte nukleotid variant.
Et kritisk trin for at bruge PoGo er brugen af de korrekte filer og formater. Brugen af oversatte udskrift sekvenser som protein-sekvenser til at ledsage anmærkning i GTF format er de vigtigste kriterier. Et andet vigtigt element når overvejer at bruge PoGo for at kortlægge peptider med aminosyren uoverensstemmelser er hukommelse. Mens hukommelse-højeffektive for en standard ansøgning, fører den betydeligt og eksponentielt stigende antal mulige tilknytninger med én eller to mismatchproblemer til en tilsvarende eksponentiel stigning i hukommelse skik18. Vi foreslår en trinvis kortlægning som beskrevet i denne protokol først kort peptider uden uoverensstemmelser og fjerne dem fra sættet. De efterfølgende tidligere ikke-tilknyttede peptider derefter kan tilknyttes ved hjælp af en uoverensstemmelse og proceduren kan gentages med to uoverensstemmelser for peptider resterende ikke-tilknyttede.
Da gennemløb af massespektrometri steget betydeligt og undersøgelser interfacing genomisk og proteom data bliver hyppigere i de seneste år, er værktøjer til let aktiverer interfacing disse typer af data i det samme koordinatsystem mere og mere uundværlig. Værktøjet præsenteres her vil støtte behovet for at kombinere genomisk og proteom data til at forbedre forståelsen af Integrativ undersøgelser på tværs af små og store serier af kortlægning peptider ind på en reference anmærkning. Det er opmuntrende, er PoGo blevet anvendt til at tilknytte peptider til gen kandidater i samme format som reference annotation som støtte anmærkning roman gener udtrykt i menneskelige testis35. Præsenteres her er uafhængig af databaser, som anvendes for peptid identifikation. Protokollen kan støtte i identifikationen og visualisering af roman oversættelse produkter ved hjælp af tilpasset input filer fra oversættelse sekvenser og tilhørende GTF filer fra RNA-seq eksperimenter.
Flere metoder og værktøjer med en lang række særlige programscenarier skal tilknyttes genomisk koordinater, lige fra kortlægning peptider direkte til genomet sekvens RNA-sekventering guidede kortlægning, peptider blevet indført10, 11 , 12 , 13 , 14 , 15 , 16 , 17. men disse kan føre til manglende korrekt kort peptider når posttranslationelle modifikationer er til stede og fejl i de underliggende kortlægning af RNA-sekventering læser kan overføres til peptid niveau. PoGo er blevet udviklet til specielt overvinde disse forhindringer og håndtere den hurtige stigning af kvantitative høj opløsning proteom datasæt kan integreres med ortogonale genomforskning platforme. Værktøjet beskrevet her kan integreres i høj overførselshastighed arbejdsprocesser. Gennem den grafiske brugerflade PoGoGUI værktøjet er enkel at bruge og kræver ingen specialist Bioinformatik uddannelse.
The authors have nothing to disclose.
Dette arbejde blev finansieret af Wellcome Trust (WT098051) og NIH grant (U41HG007234) til GENCODE projekt.
PoGo (software) | NA | NA | https://github.com/cschlaffner/PoGo |
PoGoGUI (software) | NA | NA | https://github.com/cschlaffner/PoGoGUI |
TrackHubGenerator (software) | NA | NA | https://github.com/cschlaffner/TrackHubGenerator |
Integrative Genomics Viewer (software) | NA | NA | http://software.broadinstitute.org/software/igv/ |
UCSC genome browser (website) | NA | NA | https://genome.ucsc.edu/ |
GENCODE (website) | NA | NA | http://gencodegenes.org |
Ensembl (website) | NA | NA | http://ensembl.org |
bedToBigBed (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |
fetchChromSizes.sh (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |