Genetics

Een snelle en kwantitatieve methode voor de posttranslationele wijziging en Variant ingeschakeld toewijzing van peptiden aan Genomes

Published: May 22, 2018 doi: 10.3791/57633

Christoph N. Schlaffner^1,2,3, Georg J. Pirklbauer², Andreas Bender³, Judith A.J. Steen¹, Jyoti S. Choudhary^2,4

¹Department of Neurobiology, F. M. Kirby Neurobiology Center, Boston Children's Hospital, Harvard Medical School, ²Proteomic Mass Spectrometry, Wellcome Trust Sanger Institute, Wellcome Genome Campus, ³Centre for Molecular Informatics, Department of Chemistry, University of Cambridge, ⁴Functional Proteomics Group, Chester Beatty Laboratories, Institute of Cancer Research

Summary

Hier presenteren we de proteogenomic tool PoGo en protocollen voor snelle, kwantitatieve, posttranslationele modificaties en variant ingeschakeld toewijzing van peptiden vastgesteld door middel van de Spectrometrie van de massa op referentie genomen. Dit hulpprogramma is van nut om te integreren en proteogenomic en persoonlijke proteomic studies interfacing met orthogonale genomics gegevens visualiseren.

Abstract

Cross-talk tussen genen, afschriften en eiwitten is de sleutel tot cellulaire reacties; Vandaar, analyse van moleculaire niveaus als afzonderlijke entiteiten wordt langzaam uitgebreid naar integrative studies ter verbetering van het begrip van de moleculaire dynamica binnen cellen. Huidige instrumenten voor de visualisatie en de integratie van proteomics met andere omics datasets zijn ontoereikend voor grootschalig onderzoek. Bovendien, ze vangen alleen fundamentele reeks identificeren, teruggooi posttranslationele modificaties en kwantificatie. Om deze kwesties te behandelen, ontwikkelden we PoGo toewijzen van peptiden met bijbehorende posttranslationele modificaties en kwantificering verwijst naar de annotatie van het genoom. Daarnaast was het hulpprogramma ontwikkeld om de toewijzing van peptiden geïdentificeerd uit aangepaste volgorde databases waarin één aminozuur varianten. Terwijl PoGo een command-line tool is, de grafische interface, PoGoGUI kunnen niet-bioinformatics onderzoekers gemakkelijk toewijzen van peptiden aan 25 soorten ondersteund door Ensembl genoom-annotatie. De gegenereerde output leent bestandsindelingen uit het genomics-veld, en daarom, visualisatie wordt ondersteund in de meeste browsers van het genoom. Voor grootschalige studies, wordt PoGo ondersteund door TrackHubGenerator web toegankelijke repositories van gegevens die zijn toegewezen aan genomen waarmee ook een eenvoudig delen van gegevens van de proteogenomics maken. Met weinig inspanning, kan dit hulpprogramma miljoenen peptiden verwijzen naar genomen binnen slechts een paar minuten, overtreffen andere hulpmiddelen van de beschikbare sequentie-identiteit gebaseerd kaart. Dit protocol blijkt de beste benaderingen voor toewijzing van de proteogenomics door middel van PoGo met openbaar datasets van kwantitatieve en Fosfoproteomics, evenals grootschalig onderzoek.

Introduction

In cellen beïnvloeden genoom, transcriptome en Proteoom elkaar te moduleren van een reactie op interne en externe stimuli en interactie met elkaar om specifieke taken leiden tot gezondheid en ziekte te vervullen. Daarom, karakterisering en kwantificeren van de genen, afschriften en eiwitten is cruciaal voor het volledig begrijpen van cellulaire processen. Volgende-generatie rangschikken (NGS) is een van de meest toegepaste strategieën voor het identificeren en kwantificeren van gene en afschrift expressie. Eiwit expressie wordt echter algemeen beoordeeld door massaspectrometrie (MS). Significante vooruitgang in MS technologie in het afgelopen decennium heeft ingeschakeld meer een volledige identificatie en kwantificering van proteomes, waardoor de gegevens vergelijkbaar met transcriptomics¹. Proteogenomics en multi-omics als manieren om NGS en MS gegevens te integreren zijn geworden krachtige benaderingen te evalueren van de cellulaire processen over meerdere moleculaire niveau, identificeren van subtypen van kanker en leidt tot nieuwe doelwit drug in kanker² ^, ³. het is belangrijk op te merken dat proteogenomics werd aanvankelijk gebruikt om te bewijzen van proteomic voor gen en afschrift aantekeningen⁴. Meerdere genen eerder beschouwd als niet-coderende hebben onlangs nieuwe evaluatie gezien van de grootschalige menselijke weefsels datasets⁵^,⁶^,⁷ondergaan. Daarnaast worden proteomic gegevens met succes gebruikt ter ondersteuning van de inspanningen van de aantekening in niet-modelorganismen⁸^,⁹. Echter proteogenomic data integratie naar aanleiding van hoogtepunt eiwit expressie ten opzichte van genomic functies kan worden benut en verhelderen van cross-talk tussen afschriften en eiwitten door middel van een gecombineerde referentiesysteem en methoden voor Co visualisatie.

Teneinde een gemeenschappelijk referentiepunt voor de gegevens van de genomica, proteomics en transcriptomics, zijn tal van hulpmiddelen doorgevoerd voor toewijzing peptides door middel van MS vastgesteld op genoom coördinaten¹⁰^,¹¹^,¹² ^,¹³^,¹⁴^,¹⁵^,¹⁶^,¹⁷. Benaderingen verschillen in aspecten zoals toewijzing referentie, ondersteuning van genoom-browsers, en de mate van integratie met andere proteomics tools zoals afgebeeld in Figuur 1. Terwijl sommige hulpmiddelen omgekeerde vertaalde peptiden op een genoom^{16 kaart}, anderen gebruiken een geannoteerde zoekmachine positie binnen een eiwit en gene aantekening te reconstrueren van de nucleotide-volgorde van de peptide¹⁵. Anderen gebruiken nog steeds een 3 - of 6-frame vertaling van het genoom peptiden tegen¹¹^,¹³in kaart. Ten slotte verschillende tools overslaan de nucleotidesequenties en aminozuur reeks vertalingen van RNA-sequencing toegewezen afschriften gebruiken als intermediair peptiden toewijzen aan de bijbehorende genoom coördinaten¹⁰^,¹²^, ¹⁴,^,¹⁷. Echter, de vertaling van nucleotidesequenties is een langzaam proces en aangepaste databases zijn vatbaar voor fouten die aan de peptide-toewijzing doorgeven. Voor snelle en hoge-doorvoer toewijzing is een kleine en uitgebreide referentie cruciaal. Een verwijzing van de gestandaardiseerde eiwit met bijbehorende genoom coördinaten is daarom essentieel voor nauwkeurige peptide genoom toewijzen aan. Nieuwe aspecten in proteogenomics, zoals de opneming van de varianten en posttranslationele modificaties (PTMs)²^,³, zijn goed op stoom door middel van recente studies. Echter, deze zijn over het algemeen niet ondersteund door de huidige proteogenomic mapping tools zoals afgebeeld in Figuur 1. Ter verbetering van de snelheid en kwaliteit van de toewijzing, werd PoGo ontwikkeld, een hulpmiddel waarmee de toewijzing van het snel en de kwantitatieve van peptiden genoom¹⁸. Bovendien kan de PoGo de toewijzing van peptiden met maximaal twee reeks varianten en geannoteerde posttranslationele modificaties.

PoGo is ontwikkeld om te gaan met de snelle stijging van kwantitatieve hoge resolutie datasets vastleggen van de proteomes en globale wijzigingen en beschikt over een centraal hulpprogramma voor grootschalige analyses uitgevoerd, zoals persoonlijke variatie en precisie geneeskunde. Dit artikel beschrijft de toepassing van dit hulpprogramma op het visualiseren van de aanwezigheid van posttranslationele wijziging ten opzichte van genomic functies. Bovendien, dit artikel wordt gewezen op de identificatie van alternatieve splicing gebeurtenissen via toegewezen peptiden en de toewijzing van peptiden vastgesteld door middel van aangepaste variant databases aan het genoom van een verwijzing. Dit protocol maakt gebruik van openbaar beschikbare datasets van de trots archief¹⁹ om aan te tonen deze functionaliteiten van PoGo gedownload. Bovendien beschrijft dit protocol de toepassing van TrackHubGenerator voor het creëren van online toegankelijk hubs van peptiden toegewezen aan genomen voor grootschalige proteogenomics studies.

Protocol

1. voorbereiding, Download en installatie

Opmerking: De voorbeelden pad van bestanden en mappen worden weergegeven in een Windows-formaat voor het gemak van toegang voor standaardgebruikers. PoGo en PoGoGUI zijn ook beschikbaar voor macOS en Linux-besturingssystemen.

PoGo en PoGoGUI downloaden van GitHub
1. Open een webbrowser en ga naar PoGo op GitHub (http://github.com/cschlaffner/PoGo/). Selecteer Releases en download de nieuwste release zip gecomprimeerde bestand. Pak het gecomprimeerde bestand naar de map van de uitvoerbare bestanden (bijvoorbeeldC:\PoGo\executables\).
2. Ga in de webbrowser te PoGoGUI op GitHub (http://github.com/cschlaffner/PoGoGUI/). Selecteer Releases en download de nieuwste versie jar-bestand (bijvoorbeeld "PoGoGUI-v1.0.2.jar"). Het jar-bestand opslaan in de map met uitvoerbare bestanden.
De genoom-annotatie en vertaalde eiwit-codeert sequenties downloaden
Opmerking: Het downloaden van de annotatie van het genoom en de vertaalde eiwit-codeert reeksen ondersteunde soorten van GENCODE⁷ (www.gencodegenes.org) of Ensembl²⁰ (www.ensembl.org) in de algemene overdracht van formaat (GTF) en de proteïne sequenties in FASTA formaat.
1. In de webbrowser weergegeven, navigeer naar www.gencodegenes.org en selecteer gegevens | Menselijke | Huidige versie. Download de uitgebreide gene aantekening via de GTF-verbinding en de gz-gecomprimeerd bestand uitpakken in de datamap (bijvoorbeeldC:\PoGo\Data\) met behulp van een unzipping programma (bijvoorbeeld7-Zip).
2. Downloaden van de eiwit-codeert transcript vertaling sequenties via de link FASTA en de gz-gecomprimeerd bestand uitpakken in de datamap gegenereerd in de vorige stap.
  1. Alternatief, ga in de webbrowser naar www.ensembl.org en selecteer Downloads gevolgd door data via FTP downloaden. Een ondersteunde soorten (bijvoorbeeldmens) vinden. Download de meest recente release-bestand voor transcript aantekening via de GTF-link in de kolom Gene ingesteld . Kies het bestand met de naam structuur "species.release.gtf.gz" en de gz-gecomprimeerd bestand uitpakken in de datamap.
3. Download de nieuwste release eiwit-codeert transcript vertaling sequenties met behulp van de FASTA koppeling in de kolom reeks eiwit (FASTA) . Kies het bestand met de naam structuur "species.release.pep.all.fa.gz" en de gz-gecomprimeerd bestand uitpakken in de datamap.
Peptide identificatie bestanden voorbereiden
Opmerking: PoGo ondersteunt alleen een 4 kolomindeling met monster id, peptide reeks, aantal peptide-spectrum-wedstrijden (PSMs) en kwantitatieve waarde. Echter PoGoGUI ondersteunt gestandaardiseerd identificatie bestandsformaten mzIdentML, mzid en mzTab, en zet ze in de PoGo 4-kolom formaat met behulp van de ms-gegevens-kern-api van openbaar kader²¹. Bestanden in de indeling van de mzTab, mzid of mzIdentML kunnen worden gedownload van de trots archief¹⁹. Alternatief, kunnen de gegevens worden verstrekt in een door tabs gescheiden bestandsindeling met de extensie .tsv of .pogo. De notatie bevat 4 kolommen met de volgende kolomkoppen: monster-id (monster), peptide reeksen (Peptide), aantal peptide-spectrum-wedstrijden (PSMs) en de peptide kwantificatie (Quant). Een voorbeeld is weergegeven in Figuur 2.
1. Download een voorbeeldbestand in mzTab formaat uit een Proteomica-onderzoek op menselijke testis uit de trots archief¹⁹ (https://www.ebi.ac.uk/pride/archive/projects/PXD006465/files²²).
2. Sla en de gz-gecomprimeerd bestand uitpakken in de map van de data gemaakt in stap 1.2.1.
  Nota: Alternatief, download voorbeeldgegevens voor menselijke Fosfoproteomics gezocht met MaxQuant uit het archief van PRIDE (bestand "Traktman_2013_MaxQuantOutput-full.zip" van https://www.ebi.ac.uk/pride/archive/projects/PXD005246/files²³).
3. Sla en pak het gecomprimeerde zip-bestand in de datamap die werd gemaakt in stap 1.2.1.
4. Open een leeg werkblad en importeert u het bestand peptides.txt vanuit de map C:/PoGo/Data/Traktman_2013_MaxQuantOutput-full/gecombineerd/txt/met behulp van de optie gegevens | Van tekst/CSV-. Klik op bewerkenin het venster openen.
5. Verwijder alle kolommen met uitzondering van "Sequence", "Experiment BR1", "Experiment BR2", "Experiment BR3", "Verhouding H/L genormaliseerd BR1", "Verhouding H/L genormaliseerd BR2" en 'Verhouding H/L genormaliseerd BR3'.
6. Selecteer de kolommen "Verhouding H/L genormaliseerd BR1", "Verhouding H/L genormaliseerd BR2" en "Verhouding H/L genormaliseerd BR3" en klik op Transform | UNPIVOT kolommen. Selecteer de kolommen "Experiment BR1", "Experiment BR2" en "Experiment BR3" en herhaal de handeling unpivot.
7. Selecteer de resulterende kolom "Kenmerk" en de inhoud met behulp van transformatie splitsen | Kolom splitsen | Door scheidingsteken. Selecteer spatie als scheidingsteken in het drop-down menu. Herhaalt u de bewerking voor kolom "Attribute.1".
8. Verwijder de resulterende kolommen "Attribute.1.1", "Attribute.2", "Attribute.3" en "Attribute.1.1.1".
9. Een kolom toevoegen met behulp van de Add Column | Aangepaste kolom optie. Passen de aangepaste kolomformule te vertegenwoordigen het volgende: "= [Attribute.4]=[Attribute.1.2]".
10. Een filter toepassen op de gegenereerde aangepaste kolom om te filteren op alle lijnen die "Valse"; enige regels met "TRUE" blijven.
11. Verwijder de kolommen "Attribute.1.2" en "Custom" en de volgorde van de overige kolommen wijzigen als volgt: "Attribute.4", "Volgorde", "Value.1" en "Value".
12. Wijzig de namen van de kolommen "Experiment", "Peptide", "PSMs" en "Quant", respectievelijk. Laad het bestand met behulp van -Home | Sluit & laden.
13. Sla het bestand op als een door tabs gescheiden bestand met behulp van bestand | Opslaan als en selecteer het type "Tekst (Tab is scheidingsteken) (*.txt)". Wijzig de naam "peptides_pogo.txt" en sla het op in de map C:/PoGo/Data.

2. in kaart brengen Peptides met geannoteerde posttranslationele modificaties en visualisatie met inbegrip van Quantitation

Opmerking: De resulterende output-bestand kan worden geladen in een genoom browser ondersteuning voor Browser Extensible gegevens (BED) formaat. Een selectie van browsers is de integratieve Genome Browser (IGV)²⁴ (die wordt gebruikt in de volgende), de UCSC Genome Browser²⁵en de Ensembl Genome Browser²⁰. Het is belangrijk op te merken dat de aantekening GTF en eiwit FASTA versies gebruikt voor het omzetten van de PoGo overeenkomt met de versie van het genoom in de genoom-browser. Gebruik voor de menselijke Ensembl releases 57-75 en GENCODE versies 3d-19, GRCh37/hg19; gebruik GRCh38/hg38 voor de Ensembl versies 76 of hoger en GENCODE 20 of hoger. Voor de muis Ensembl versies 74 of hoger en GENCODE M2 of hoger, gebruikt u GRCm38.

Kaart van peptiden met behulp van PoGoGUI (zie figuur 3).
1. Navigeer naar de map met uitvoerbare bestanden. Start het programma door te dubbelklikken op het pictogram PoGoGUI-vX.X.X.jar.
  Opmerking: De grafische gebruikersinterface zal opstarten en gemakkelijk en visuele selectie toestaan van opties.
2. Gebruik de selecteren knop naast de "PoGo Executable". Navigeer in de map van de uitvoerbare bestanden naar de desbetreffende besturingssystemen submap (bijvoorbeeldC:\PoGo\Executables\Windows\). Selecteer het uitvoerbare bestand van PoGo (bijvoorbeeldPoGo.exe) en bevestig de keuze door te klikken op de knop openen .
3. Selecteer de verwijzing invoerbestand voor proteïne sequenties door te klikken op selecteren. Navigeer naar de datamap en selecteer het vertalingsbestand FASTA. Bevestig de selectie door te klikken op de knop openen .
4. Selecteer het transcript aantekening bestand met behulp van de knop selecteren . Navigeer naar de datamap en selecteer de aantekening GTF-bestand. Bevestig de selectie door te klikken op de knop openen .
5. Toevoegen van de peptide identificatiebestand — meerdere bestandsselectie is ingeschakeld — met behulp van de knop toevoegen naast 'Peptide-bestanden'. Selecteer een bestand in de ondersteunde indeling mzTab, mzIdentML of mzid, of in de 4 kolommen door tabs gescheiden indeling gedownload en bereid in stap 1.3.
6. Vink de selectievakjes naast BED en GTF in de output formaten selectie. Alleen verlaten PTM BED en GCT gecontroleerd.
7. Selecteer de juiste soort voor de gegevens in de drop-down selectie. Het is essentieel dat het bestand FASTA, het GTF-bestand en de drop-down selectie voor dezelfde soort worden.
8. Start toewijzen door te klikken op de knop START .
  Opmerking: Indien nodig, PoGoGUI zal het invoerbestand naar pogo-indeling converteren, bieden de pogo-bestanden in dezelfde map voor toekomstige gemak en start het toewijzingsproces. De conversie van een enkele mzTab bestand gedownload in stap 1.3.1 zal duren tussen 10-20 min vóór aanvang van de toewijzing.
Visualiseren in de integratieve genomica-viewer
Opmerking: Zie Figuur 4.
1. De PoGo-uitvoerbestand die eindigen op "_ptm.bed" in de IGV via bestand laden | Laden uit het bestand en selecteer het bestand.
  Opmerking: Als gevolg van de grootte, kunnen sommige bestanden het genereren van een index die u wilt toestaan dat een snelle herladen van de genomic regio's nodig. De IGV wordt de gebruiker automatisch aan de generatie gevraagd. Volg de aangegeven instructies.
2. Herhaal de stap laden voor het bestand dat eindigt in "_noptm.bed". Dit bestand bevat alle peptiden gevonden zonder enige wijziging.
3. Merk op dat elk geladen bestand wordt getoond als afzonderlijke sporen met de naam van het bestand identificeren van het spoor. Volgorde van nummers wijzigen door te slepen en neer te zetten naar de gewenste positie in de lijst.
4. Merk op dat elke track in eerste instantie in een samengevouwen wijze weergegeven wordt. Uit te breiden op hen, klik met de rechtermuisknop op de naam van de track en selecteer uitgebreide voor een volledige weergave van de peptiden met inbegrip van de sequenties of squished voor een gestapelde weergave.
5. Herhaal de stap laden voor het bestand dat eindigt in ".gct". Dit bestand bevat de kwantificatie van de peptide per geannoteerde monster.
6. In tegenstelling tot voor de bestanden geladen boven, zal elk geannoteerde monster worden geladen als een apart spoor. Reorganiseer de monsters door middel van slepen en neerzetten van de operaties.
7. Navigeren binnen het genoom door een chromosoom in het drop-down menu te selecteren, Typ in genomic coördinaten, het symbool van een gen, zoeken of klikt u op en houd om te selecteren van een deel van een chromosoom om in te zoomen.

3. in kaart brengen peptiden vastgesteld door middel van een aangepaste Variant Database aan het genoom van een verwijzing

Opmerking: PoGo toewijzing kan gebeuren met behulp van de grafische gebruikersinterface (GUI) of via de command line interface. Ze zijn onderling verwisselbaar. In dit deel van het protocol, wordt de command line interface gebruikt voor het markeren van uitwisselbaarheid. Het tweede deel van deze sectie protocol vereist de software tool R²⁶. Zorg ervoor dat het pakket is geïnstalleerd.

Kaart van de referentie-peptiden aan het genoom van de referentie.
1. Open een command prompt (cmd) en ga naar de map van de uitvoerbare bestanden van PoGo (bijvoorbeeldC:\PoGo\Executables\).
2. Typ de onderstaande opdracht:
  PoGo.exe - gtf \PATH\TO\GTF - fasta \PATH\TO\FASTA-in \PATH\TO\IN-BED opmaken-soorten MYSPECIES
  1. Vervang de \PATH\TO\GTF, \PATH\TO\FASTA en \PATH\TO\IN respectievelijk met paden naar de aantekening GTF eiwit sequentie FASTA en de peptide identificatiebestand (in de notatie 4-kolom met het bestand dat eindigt op ".tsv" of ".pogo"). Ook vervangen door MYSPECIES de overeenstemming met de gegevens (bijvoorbeeld mens) soorten.
3. Bevestig de uitvoering door op de "Enter" toets te drukken. Wachten tot de uitvoering is voltooid voordat ieder verder vordert.
  Opmerking: Dit kan een paar minuten duren. Het resulterende bestand zal worden opgeslagen in dezelfde map als het invoerbestand peptide en zal worden beschouwd als \PATH\TO\OUT.pogo.bed in de volgende.
Pak alleen variant peptiden uit het invoerbestand.
1. Open R en laden de input bestand \PATH\TO\IN met de volgende opdracht:
  inputdata <-read.table("PATH/TO/IN",header=TRUE,sep="\t")
2. Laden van de reeds toegewezen peptiden met behulp van de opdracht:
  mappedpeptides <-read.table("PATH/TO/OUT.pogo.bed",sep="\t",header=FALSE)
3. Peptiden die reeds werden toegewezen uit de inputdata verwijderen:
  peptidesnotmapped <-inputdata [! () inputdata$ Peptide % mappedpeptides % $V4)]
4. De niet-toegewezen peptiden in een nieuwe input bestand afdrukken
  write.table (peptidesnotmapped, "PATH\TO\IN.notmapped.pogo", koptekst = FALSE, sep = "\t", col.names=TRUE,row.names=FALSE,quote=FALSE)
Kaart van de resterende peptiden aan het genoom van de verwijzing zodat incongruenties.
1. Zoals in stap 3.1, opent u de opdrachtprompt en ga naar de map van de uitvoerbare bestanden van PoGo.
2. Typ de opdracht hieronder zodat 1 aminozuur mismatch en vervang de \PATH\TO\GTF, \PATH\TO\FASTA en \PATH\TO\IN.notmapped.pogo met de paden naar de aantekening GTF eiwit sequentie FASTA en de peptide identificatiebestand gemaakt in stap 3.2. Ook vervangen door MYSPECIES de overeenstemming met de gegevens (bijvoorbeeldmens) soorten.
  1. PoGo.exe - gtf \PATH\TO\GTF - fasta \PATH\TO\FASTA-in \PATH\TO\IN-BED opmaken-soorten MYSPECIES -mm 1
3. Bevestigen van de opdracht uitvoeren door te drukken op de toets "Enter". Wachten tot de uitvoering is voltooid voordat ieder verder vordert.
  Opmerking: Dit kan een paar minuten duren. Het resulterende bestand zal worden opgeslagen in dezelfde map als het invoerbestand peptide en zal worden beschouwd als \PATH\TO\OUT.pogo_1MM.bed in de volgende.
Visualiseer de peptiden toegewezen zonder en met in de IGV zoals beschreven in stap 2.2 komen niet overeen.

4. toewijzen met behulp van meerdere bestanden en het genereren van Track Hubs voor grote gegevenssets

Toewijzing peptiden van meerdere bestanden met behulp van PoGoGUI
1. Navigeer naar de map met uitvoerbare bestanden en start het programma GUI door PoGoGUI-vX.X.X.jar.
2. Selecteer het uitvoerbare bestand van PoGo voor het werkende systeem in gebruik (hier Linux), evenals het referentiebestand input proteïne sequenties FASTA en de aantekening GTF bestand zoals beschreven in protocol stappen 2.1.2 - 2.1.4.
3. De peptide identificatie bestanden toevoegen met behulp van de knop toevoegen naast "Peptide bestanden"; meerdere bestand selecteren is ingeschakeld, evenals drag-and-drop in het lege veld onder 'Peptide-bestanden'.
4. Vink de selectievakjes naast de PTM BED, GTF en GCT in het gedeelte uitvoer formaten en alleen verlaten BED gecontroleerd.
5. Selecteer de optie samenvoegen meerdere invoerbestanden in één output.
  Opmerking: Dit zal resulteren in een enkel uitvoerbestand combineren alle peptides van de invoerbestanden. Laat deze optie uitgeschakeld zal resulteren in een sequentiële uitvoering van het programma voor elke input bestand afzonderlijk.
6. Selecteer de juiste soort voor de gegevens van de drop-down selectie conform de FASTA en GTF-bestanden.
7. Start toewijzen door te klikken op de knop START . Indien nodig, zal het programma de input-bestanden converteert naar pogo formaat. Dit kan even duren om uit te voeren. In de tussentijd, download de vereiste hulpprogramma's en scripts voor de track hub generatie.
Track hub generatie voorbereiden
1. Open een webbrowser, ga naar https://github.com/cschlaffner/TrackHubGenerator en download het bestand "TrackHubGenerator.pl". Sla het bestand naar de map met uitvoerbare bestanden.
2. In de webbrowser, ga naar www.hgdownload.soe.ucsc.edu/admin/exe/ en selecteer de map voor het besturingssysteem in gebruik (hier Linux). Download het hulpprogramma bedToBigBed en de script- fetchChromSizes in de uitvoerbare map²⁷.
Het genereren van een track hub van toegewezen peptiden
Opmerking: Nadat de PoGoGUI is voltooid de peptiden in kaart te brengen, een spoor hub kan automatisch worden gegenereerd voor alle resulterende bestanden in BED indeling opgeslagen in dezelfde map.
1. Open een terminal venster en typ de volgende opdracht:
  Perl TrackHubGenerator.pl pad/voor/naam vergadering FBED UCSC E-mail
  1. PAD/naar/naam vervangen door een pad en naam voor de track hub (bijvoorbeeld, ~/PoGo/Data/Mytrackhub), vergadering met de vergadering van de genoom waarop de annotatie is gebaseerd (bijvoorbeeldhg38 voor de mens), FBED met het pad naar de map met de BED bestanden waarop de track hub zal worden gebaseerd (bijvoorbeeld, ~/PoGo/Data/), UCSC met de map waarin de hulpmiddelen gedownload van UCSC zijn opgeslagen (bijvoorbeeld, ~/PoGo/Executables/), en E-mail met een e-mailadres van de persoon die verantwoordelijk is voor de track hub.
2. Bevestigen van de uitvoering door te drukken op de toets "Enter"; de uitvoering duurt slechts een korte tijd te voltooien.
3. De gegenereerde track hub (dat wil zeggen, de map ~/PoGo/Data/Mytrackhub/) met alle bijbehorende inhoud overbrengen in een web-toegankelijke FTPserver.
  Opmerking: Een FTP-server met een bijbehorende web-server, die toegang geeft tot de track hub via de protocollen ftp en http heeft de voorkeur. De repositories github (github.com) en figshare (figshare.com) ondersteunen dit type toegang en kunnen worden gebruikt in plaats van een FTPserver.
Visualiseren van een track hub in de UCSC genome browser
1. In een webbrowser, ga naar https://genome.ucsc.edu/ en selecteer MyData | Bijhouden van Hubs. Klik op het tabblad Mijn Hubs.
2. Kopieer de URL naar de track hub in het tekstveld.
  Opmerking: De URL bestaat uit het serveradres, de track hub locatie en naam, en het hub.txt-bestand (bijvoorbeeld, http://ngs.sanger.ac.uk/production/proteogenomics/WTSI_proteomics_PandeyKusterCutler_tissues_hi/hub.txt).
3. Laad de track hub door te klikken op Toevoegen Hub.
  Opmerking: De hub worden geladen, en een kort bericht wordt weergegeven, met vermelding van de details van de track hub zoals de naam, de contactgegevens van de persoon die verantwoordelijk is voor de track hub, en de genoom-vergadering gebruikt. De website zal terugkeren naar de hoofdpagina.
4. Selecteer GenomeBrowser in te voeren van de browserweergave.
  Opmerking: De aangepaste track hub wordt getoond aan de bovenkant van de lijst. Als meerdere bestanden van het BED gebouwd de basis voor de track hub, zal elk van de bestanden worden weergegeven als een apart spoor binnen de hub.

Representative Results

Een grafische afbeelding markeren waarop fase van een regelmatige proteomic workflow PoGo¹⁸ wordt toegepast, evenals downstream opties van visualisatie, is afgebeeld in Figuur 5. Shotgun proteomics (dat wil zeggen, de Proteolytische vertering van eiwitten gevolgd door vloeibare chromatografie gekoppeld aan massaspectrometrie tandem) is een inleidend stap voor proteogenomic mapping. De resulterende tandem massaspectra worden vaak vergeleken met theoretische spectra afgeleid uit eiwit sequentie databases. Proteogenomics studies introduceren vertaling sequenties van roman chat-kopieën met de potentiële en niet-synoniem één nucleotide varianten (SNVs) in de database, waardoor het moeilijk om te gemakkelijk koppelen deze terug aan de verwijzing genoom⁸codering. De grafische gebruikersinterface van PoGo (PoGoGUI) ondersteunt bestandsformaten voor de gestandaardiseerde melding van peptide identificaties van massaspectrometrie experimenten en zet hen in de vereenvoudigde 4-kolom pogo-formaat. PoGoGUI wikkelt de command line tool PoGo en aldus kan de toewijzing van peptiden op genoom coördinaten met behulp van de referentie-aantekening van eiwit-codeert genen meestal waarin de GTF en de vertaalde transcript sequenties in FASTA formaat. Verschillende outputformaten worden gegenereerd door PoGo om de visualisatie van verschillende aspecten van de peptiden vastgesteld door middel van de Spectrometrie van de massa, met inbegrip van posttranslationele modificaties en peptide niveau kwantificering. Uitvoerbestanden in het BED kunnen verder worden geconverteerd en gecombineerd tot online toegankelijke folders genaamd track hubs. Enkele uitvoerbestanden, evenals de track hubs, kunnen vervolgens worden gevisualiseerd in browsers zoals de UCSC Genome Browser²⁵, Ensembl Genome Browser²⁰IGV²⁴en Biodalliance²⁸ (Zie onderste Figuur 5 ).

We PoGo toegepast op de reanalysis van de ontwerp-menselijk proteoom kaarten gefilterd op hoge betekenis, zoals beschreven in Wright et al. ⁷ en het vergeleken met twee andere hulpprogramma's voor het omzetten van de proteogenomic, namelijk iPiG¹⁴ en PGx¹⁰. De dataset bestaat 233,055 unieke peptiden over 59 volwassen en foetale weefsels, resulterend in een totaal van meer dan 3 miljoen reeksen. PoGo presteerde beter dan deze hulpprogramma's zowel in de runtime (6,9 x en 96.4 x sneller, respectievelijk) en geheugengebruik (20% en 60% minder geheugen, respectievelijk) zoals aangegeven in Figuur 6-¹⁸. Een voorbeeld van een succesvol toegewezen peptide is weergegeven in Figuur 7.

Terwijl PoGo is aanzienlijk beter dan de andere gereedschappen in snelheid en geheugen, is het ook geschikt voor toewijzing posttranslationele modificaties en kwantitatieve informatie in verband met peptiden op het genoom. Figuur 8A toont schematisch de visualisatie van de BED-indeling in de browser van een genoom voor peptides mapping naar één exon en over splice kruispunten. PoGo maakt gebruik van de kleuren-optie om te verstrekken gemakkelijk met het visuele hulpmiddel met betrekking tot de uniciteit van de toewijzing van de peptide binnen het genoom. Toewijzingen in het rood aangegeven uniciteit aan een enkele chat-kopie, terwijl zwarte hoogtepunten toewijzen aan een enkel gen. Echter wordt de peptide gedeeld tussen verschillende afschriften. Grijze toewijzingen weergeven een peptide gedeeld tussen meerdere genen. Dit zijn bijvoorbeeld minder betrouwbaar zijn voor de kwantificering van een gen of onbetrouwbare Bel de expressie van een gen. De PTM BED optie van PoGo herdefinieert de kleurcode aangepast aan verschillende soorten posttranslationele modificaties, zoals weergegeven in Figuur 8. Bovendien, worden PTMs aangeduid met dikke blokken (Zie Figuur 8). Een enkele PTM van een type wordt gemarkeerd door een dikke blok op de positie van het residu gedroogd gemodificeerde aminozuur, terwijl meerdere PTMs van hetzelfde type worden overbrugd door een dikke blok van het eerste gewijzigde aminozuur aan de laatste.

We PoGo en vervolgens TrackHubGenerator toegepast op een dataset van 50 colorectal kanker cellijnen, met inbegrip van hele Proteoom en phosphoproteome²⁹. Terwijl de hub van de track geladen in de UCSC Genome Browser de peptiden toegewezen aan het genoom toont en hoogtepunten van de uniciteit van de toewijzingen en de sites van de fosforylatie (Zie Figuur 9), worden aanvullende gegevens verstrekt in de aanvullende map. De GCT bestanden schakelt de visualisatie van de kwantificatie van de peptide en phosphopeptide in een genomic context. GCT bestanden bieden echter niet een eenvoudige visualisatie van peptiden spanning over splice kruispunten (Zie Figuur 10 top). De peptiden in splice kruispunten worden opgesplitst in hun respectievelijke onderdelen toewijzen aan de exons. Hoewel het mogelijk is te identificeren splice peptiden via dezelfde kwantitatieve waarden van exon toewijzingen, laden sequentie gebaseerde toewijzing bestanden zoals BED of GTF die de exons verbinden door een dunne intron spanning lijnsondersteuning de interpretatie (Zie Figuur 10 onder).

Nadruk wordt gelegd op het nut van variant ingeschakeld mapping, we in twee configuraties bij een dataset van menselijke testis Proteoom searched tegen neXtProt om te jagen voor ontbrekende eiwitten met behulp van een Multi enzym strategie²²PoGo toegepast. De neXtProt omvat naast verwijzing proteïne sequenties van meer dan 5 miljoen één aminozuur varianten³⁰. Toewijzen van peptiden geïdentificeerd met een enkele aminozuur variant wordt niet ondersteund door andere mapping tools. Totaal 177,012 unieke peptiden werden geïdentificeerd. Hiervan waren 99,8% (176,694) peptiden eerst succesvol toegewezen zonder dat incongruenties. Verwijderen uit de lijst van geïdentificeerde peptide resulteerde in 0,2% (318) peptiden die vervolgens toegewezen waardoor één aminozuur vervanging werden. Dit resulteerde in 3,446 toewijzingen van 162 peptiden die niet zou zijn toegewezen aan het genoom van de verwijzing met een ander beschikbaar hulpmiddel. Terwijl het gemiddelde aantal toewijzingen met inbegrip van een mismatch hoog is, werden 62 peptiden toegewezen aan slechts een enkele locus, die aangeeft waar variant sequenties. Een voorbeeld van een peptide met een één aminozuur vervanging toegewezen is gemarkeerd met de volgorde en de volgorde van de vertaalde genomic in Figuur 11.

Figuur 1. Visuele vergelijking van verschillende peptide-naar-genoom-toewijzing hulpmiddelen. De vergelijking wordt weergegeven met betrekking tot verschillende aspecten. Deze aspecten omvatten een verwijzing van de toewijzing, het niveau van integratie in de kaders en de ondersteuning van online en offline browsers. Daarnaast is de nieuwe aspecten van proteogenomics en hun eigenschapsteun afzonderlijk gemarkeerd. PoGo mist alleen de mogelijkheid om rechtstreeks toewijzen aan een genoom in vergelijking met andere hulpprogramma's. Echter, het ondersteunt alle nieuwe functies die de meeste van de andere instrumenten niet ondersteunen. Klik hier voor een grotere versie van dit cijfer.

Figuur 2. Voorbeeld invoerbestand voor toewijzing peptides. PoGo accepteert invoergegevens in een door tabs gescheiden indeling met 4 kolommen. Kolomkoppen in de eerste regel zijn 'Experiment', 'Peptide', "PSMs" en "Quant", waarmee wordt aangegeven in de volgende lijnen het experiment of monster-id, de peptide-reeks het aantal peptide-spectrum wedstrijden en een kwantitatieve waarde voor de peptide, respectievelijk. Ondersteund met bepaalde bestandsextensies zijn *.txt, *.tsv en *.pogo. Klik hier voor een grotere versie van dit cijfer.

Figuur 3. PoGoGUI interface met gemarkeerde stappen voor bestandsselecties en Parameteropties. De figuur toont de stappen voor het selecteren en uploaden van alle benodigde bestanden en de selectie van opties voor toewijzing peptides met posttranslationele modificaties op het genoom van de mens referentie. Klik hier voor een grotere versie van dit cijfer.

Figuur 4. Screenshot van de integratieve Genomics Viewer (IGV) gegevens uploaden procedure. De figuur benadrukt de stappen voor het uploaden van PoGo output bestanden in de browser van de IGV. Bovendien, het toont de optie van uitbreiding van het spoor van toegewezen peptiden Markeer de toewijzing en de volgorde. Klik hier voor een grotere versie van dit cijfer.

Figuur 5. Vereenvoudigde workflow van stappen van LC-MS/MS naar visualisatie in genoom browsers. PoGo toewijzing volgt de identificatie van peptiden van tandem massaspectra. Om de toewijzing aan het genoom, PoGo maakt gebruik van referentie aantekening geleverd als genoom-annotatie (GTF) en afschrift vertaling sequenties (FASTA). Verschillende output formaten worden gegenereerd die afzonderlijk kan worden geladen in browsers van het genoom. Bovendien kunnen bestanden in BED-indeling worden gecombineerd tot track hubs ter ondersteuning van de visualisatie van grote datasets. Klik hier voor een grotere versie van dit cijfer.

Figuur 6. Benchmarking PoGo tegen PGx en iPiG. PoGo overtreft de andere tools op benchmarking. Mapping 233,055 unieke peptiden over 59 volwassen en foetale weefsels resulteert in meer dan 3 miljoen reeksen, was PoGo 6.9 x en 96.4 x sneller dan PGx en iPiG, respectievelijk. PoGo vereist bovendien 20% en 60% minder geheugen in vergelijking met PGx en iPiG, respectievelijk. Terwijl PoGo en PGx succesvol uitgevoerd is, resulteerde iPiG in een fout van het geheugen van 16 GB. Klik hier voor een grotere versie van dit cijfer.

Figuur 7. Voorbeeld UCSC genoom browserweergave van toegewezen peptiden. De afbeelding wordt toegewezen aan de gene mTOR peptiden. Terwijl de gecombineerde track de peptiden spanning over splice kruispunten en toewijzen van slechts aan één exon met de bijbehorende sequenties toont, Markeer de weefsel-specifieke tracks alleen de toewijzing in een verkorte notatie. Klik hier voor een grotere versie van dit cijfer.

Figuur 8. Schematische voor het toewijzen van visualisatie en kleurcodering. (A) In het uitvoerbestand standaard BED peptiden toewijzen aan een exon worden weergegeven als één blokken (links), terwijl peptiden mapping over meerdere exons hoogtepunt de exon die betrekking hebben op onderdelen als blokken (rechts). Introns worden zo dun aaneenschakelen lijnen weergegeven. PoGo gekleurd de uniciteit van de toewijzing of peptiden aan genen, en transcripties met behulp van een 3-tier systeem. (B) naast de blok-structuur van de indeling van het BED, PTM BED uitvoer belicht de positie van posttranslationele modificaties als dikke blokken. De aanwezigheid van een enkele PTM van een type benadrukt het residu van de gemodificeerde aminozuur met een dikke blok, terwijl meerdere sites van de dezelfde PTM worden gecombineerd tot lange blokken, variërend van de eerste tot de laatste wijziging website. Peptide toewijzingen zijn verder verdeeld door PTM type en kleur codec op basis van de wijziging. Klik hier voor een grotere versie van dit cijfer.

Figuur 9. Track hub weergeven in de browser genoom UCSC van colorectal kanker Proteoom- en phosphoproteome. De track hub bestaat uit hele Proteoom gegevens, alsmede phosphoproteome. Terwijl de rode kleur in de Proteoom en phosphoproteome tracks geven de uniciteit van de toewijzing aan de één afschrift van SFN, show tracks die eindigt op _ptm fosforylering websites van peptiden. Hier, geeft de rode kleur het type wijziging als fosforylering. Slechts twee peptiden zijn geïdentificeerd met elke het tonen van een enkele fosforylatie (dikke blokken). Klik hier voor een grotere versie van dit cijfer.

Figuur 10. Weergave van colorectal kanker phosphopeptides en bijbehorende kwantificatie in IGV. De figuur toont een subset van de cellijnen 50 kanker. Bovendien blijkt vier kolommen van blokken in verschillende tinten van licht rood. De kleur duidt de relatieve overvloed van laag (wit) te hoog (rood). Terwijl de vier kolommen in eerste instantie leiden kunnen om te geloven dat er 4 peptiden, blijkt met de bijbehorende reeks gebaseerde GTF uitvoerbestand dat dit zijn in feite twee peptides, elke spanning een splice junction. Klik hier voor een grotere versie van dit cijfer.

Figuur 11. Weergave van peptide met aminozuur variant in de IGV. De figuur toont een peptide met een variant van de één aminozuur toegewezen aan het genoom van de referentie aan het begin van de vertaling van het gen GPSM1. De variant is bij aminozuur residu 8 en resultaten in de vervanging van alanine tot valine (A→V) geplaatst. De sequenties van de vertaling van de geannoteerde transcripten (blauw) markeren de variant in vergelijking met de volgorde van de peptide. Klik hier voor een grotere versie van dit cijfer.

Discussion

Dit protocol beschrijft hoe de softwaretool PoGo en de grafische gebruikersinterface PoGoGUI een snelle toewijzing van peptiden op genoom coördinaten inschakelen. Het hulpprogramma biedt unieke functies, zoals kwantitatieve, posttranslationele modificaties en variant ingeschakelde toewijzing wordt genomen met behulp van referentie aantekening. Dit artikel toont de methode op een grootschalige proteogenomic studie en markeert u de efficiëntie van het snelheid en geheugen in vergelijking met andere beschikbare hulpmiddelen¹⁸. In combinatie met het hulpprogramma TrackHubGenerator, waardoor online toegankelijk hubs van genomic en genoom gekoppeld gegevens, PoGo, met de grafische gebruikersinterface, maakt het mogelijk grootschalige proteogenomics studies te snel het visualiseren van hun gegevens in genomic context. Bovendien tonen we de unieke kenmerken van PoGo met datasets searched tegen variant databases en kwantitatieve Fosfoproteomics²²^,²⁹.

Enkele bestanden, zoals het bestand GCT bieden waardevolle visualisatie en banden tussen peptide functies en genomische loci. Het is echter belangrijk op te merken dat een interpretatie gebaseerd op deze alleen moeilijk of misleidend als gevolg van hun beperking op enkele aspecten van de proteogenomics zoals uniciteit, posttranslationele modificaties en kwantitatieve waarden worden kan. Daarom is het belangrijk zorgvuldig kiezen welke uitvoerbestanden, opties en combinaties geschikt zijn voor de vraag van de proteogenomic bij de hand en de combinaties wijzigen. Bijvoorbeeld zou informatie over de uniciteit van de toewijzing aan een specifieke genomic locus van grote waarde voor de aantekening van een genomic functie⁷, terwijl de kwantificering over verschillende monsters zou gepaster zijn als studies met betrekking genomic functies aan veranderingen in eiwit overvloed²⁹. De Output moet worden gegenereerd door PoGo voor elke instelling. Ingeval geen uitvoer wordt gegenereerd, of lege bestanden worden weergegeven in de output map, is het raadzaam om te controleren de inputdossiers voor de gewenste inhoud en de vereiste bestandsindeling. In gevallen waar de bestandsindeling of de inhoud is niet aan de verwachtingen van PoGo (bijvoorbeeldhet bestand van de FASTA zogenaamd met de transcript vertaling sequenties bevat de nucleotidesequenties van de afschriften), foutberichten vraagt de gebruiker Controleer de invoerbestanden.

Beperkingen van het protocol en het hulpprogramma zijn meestal gebaseerd op het hergebruik van bestandsindelingen gebruikte in de genomica. Herbestemming van bestandsindelingen gebruikt in de genomica voor proteogenomic toepassingen gaat gepaard met specifieke beperkingen. Deze zijn te wijten aan de verschillende sets van vereisten voor genoom gecentreerd visualisatie van genomic en proteogenomic gegevens, zoals de noodzaak om te visualiseren posttranslationele modificaties van proteomics gegevens. Dit is in de bestandsindelingen van genomics beperkt door het gebruik van de functie voor eenmalige. Vele benaderingen en instrumenten hebben ontwikkeld voor proteomics vol vertrouwen lokaliseren posttranslationele modificaties binnen peptide reeksen³¹^,³²^,³³^,³⁴. De visualisatie van meerdere wijzigingen in een unieke en waarneembare wijze op het genoom wordt echter belemmerd door de structuur van genomic bestandsindelingen. Dus de visualisatie van één blok van meerdere PTMs van hetzelfde type is geen dubbelzinnigheid van de wijziging sites maar is het gevolg van de uiteenlopende eis uit de Gemeenschap van de genomica te visualiseren slechts enkele functies tegelijk. PoGo heeft echter het voordeel van toewijzing posttranslationele modificaties op genomic coördinaten om studies gericht op het effect van de genomische functies zoals één nucleotide varianten op posttranslationele modificaties. Het gebruik van PoGo, verhoogt variant toewijzing het aantal totale toewijzingen. Echter hoogtepunten de unieke kleurcodering van toegewezen peptiden betrouwbare toewijzingen van onbetrouwbaar zijn. De toewijzing van variant peptiden geïdentificeerd van bekende één nucleotide varianten kan gepaard gaan met het visualiseren van de toegewezen peptiden naast de varianten in VCF-indeling. Op deze manier de kleurcode die aangeeft een onbetrouwbare kartering van een variant peptide is overruled door de aanwezigheid van de bekende nucleotide-variant.

Een belangrijke stap voor het gebruik van PoGo is het gebruik van de juiste bestanden en materiaalsoorten. Het gebruik van vertaalde transcript sequenties als proteïne sequenties ter begeleiding van de aantekening in GTF-indeling is het belangrijkste criterium. Een ander kritisch element wanneer overweegt PoGo toewijzen van peptiden met aminozuur incongruenties is geheugen. Terwijl geheugen-hoogefficiënte voor een standaardapplicatie, wordt het aanzienlijk en exponentieel toenemende aantal mogelijke toewijzingen met één of twee incongruenties leidt tot een evenzo exponentiële toename van de geheugen gebruik¹⁸. Wij stellen een geënsceneerde toewijzing zoals beschreven in dit protocol naar de eerste kaart van de peptiden zonder incongruenties en hen uit de set verwijderen. De daaropvolgende eerder ontkoppeld peptiden vervolgens kunnen worden toegewezen met behulp van een wanverhouding en de procedure kan worden herhaald met twee incongruenties voor de resterende ontkoppeld peptides.

Aangezien de doorvoer van massaspectrometrie aanzienlijk toegenomen en studies interfacing genomic en proteomic gegevens zijn steeds vaker in de afgelopen jaren, zijn hulpmiddelen om gemakkelijk interfacing van deze typen gegevens in het hetzelfde coördinatensysteem steeds onmisbaar. De hier gepresenteerde tool zal helpen de behoefte aan de genomic combineren en proteomic gegevens om een beter begrip van integrative studies over kleine en grote datasets door peptiden op een referentie-aantekening toe te wijzen. Bemoedigend is dat is PoGo vereffend peptiden om toe te wijzen ter ondersteuning van de inspanningen van de aantekening van nieuwe genen uitgedrukt in menselijke testis³⁵genoemde in dezelfde indeling als de referentie-aantekening met gene kandidatenlijsten. De hier gepresenteerde benadering is onafhankelijk van databases die worden gebruikt voor de identificatie van de peptide. Het protocol zou kunnen helpen bij de identificatie en visualisatie van de nieuwe vertaling producten met behulp van aangepast invoerbestanden uit vertaling sequenties en bijbehorende GTF bestanden uit RNA-seq experimenten.

Verschillende benaderingen en instrumenten met een breed scala aan speciale toepassingsscenario toewijzen van peptiden aan de genomic coördinaten, variërend van het toewijzen van peptiden rechtstreeks aan het genoom naar RNA-sequencing begeleide toewijzing, geweest geïntroduceerde¹⁰^, ¹¹ ^, ¹² ^, ¹³ ^, ¹⁴ ^, ¹⁵ ^, ¹⁶ ^, ¹⁷. echter kan hierdoor niet correct toewijzen peptiden wanneer posttranslationele modificaties aanwezig zijn en fouten in de onderliggende toewijzing van RNA-sequencing leest kunnen worden doorgegeven aan de peptide-niveau. PoGo is ontwikkeld specifiek die om obstakels te overwinnen en om te gaan met de snelle stijging van kwantitatieve high-resolution proteomic datasets te integreren met orthogonale genomics platforms. Het hier beschreven hulpprogramma kan worden geïntegreerd in high-throughput werkstromen. Via de grafische interface PoGoGUI, de tool is eenvoudig te gebruiken en vereist geen opleiding tot specialist in bio-informatica.

Disclosures

De auteurs hebben niets te onthullen.

Acknowledgments

Dit werk werd gefinancierd door de Wellcome Trust (WT098051) en de NIH grant (U41HG007234) aan het GENCODE project.

Materials

Name	Company	Catalog Number	Comments
PoGo (software)	NA	NA	https://github.com/cschlaffner/PoGo
PoGoGUI (software)	NA	NA	https://github.com/cschlaffner/PoGoGUI
TrackHubGenerator (software)	NA	NA	https://github.com/cschlaffner/TrackHubGenerator
Integrative Genomics Viewer (software)	NA	NA	http://software.broadinstitute.org/software/igv/
UCSC genome browser (website)	NA	NA	https://genome.ucsc.edu/
GENCODE (website)	NA	NA	http://gencodegenes.org
Ensembl (website)	NA	NA	http://ensembl.org
bedToBigBed (software)	NA	NA	http://hgdownload.soe.ucsc.edu/admin/exe/
fetchChromSizes.sh (software)	NA	NA	http://hgdownload.soe.ucsc.edu/admin/exe/

DOWNLOAD MATERIALS LIST

References

Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537 (7620), 347-355 (2016).
Mertins, P., et al. Proteogenomics connects somatic mutations to signalling in breast cancer. Nature. 534 (7605), 55-62 (2016).
Zhang, H., et al. Integrated proteogenomic characterization of human high-grade serous ovarian cancer. Cell. 166 (3), 755-765 (2016).
Jaffe, J. D., Berg, H. C., Church, G. M. Proteogenomic mapping as a complementary method to perform genome annotation. Proteomics. 4 (1), 59-77 (2004).
Wilhelm, M., et al. Mass-spectrometry-based draft of the human proteome. Nature. 509 (7502), 582-587 (2014).
Kim, M. S., et al. A draft map of the human proteome. Nature. 509 (7502), 575-581 (2014).
Wright, J. C., et al. Improving GENCODE reference gene annotation using a high-stringency proteogenomics workflow. Nature Communications. 7, 11778 (2016).
Nesvizhskii, A. I. Proteogenomics: concepts, applications and computational strategies. Nature Methods. 11 (11), 1114-1125 (2014).
Armengaud, J., et al. Non-model organisms, a species endangered by proteogenomics. Journal of Proteomics. 105, 5-18 (2014).
Askenazi, M., Ruggles, K. V., Fenyo, D. PGx: putting peptides to BED. Journal of Proteome Research. 15 (3), 795-799 (2016).
Choi, S., Kim, H., Paek, E. ACTG: novel peptide mapping onto gene models. Bioinformatics. 33 (8), 1218-1220 (2017).
Ghali, F., et al. ProteoAnnotator-open source proteogenomics annotation software supporting PSI standards. Proteomics. 14 (23-24), 2731-2741 (2014).
Has, C., Lashin, S. A., Kochetov, A. V., Allmer, J. PGMiner reloaded, fully automated proteogenomic annotation tool linking genomes to proteomes. Journal of Integrative Bioinformatics. 13 (4), 293 (2016).
Kuhring, M., Renard, B. Y. iPiG: integrating peptide spectrum matches into genome browser visualizations. PLoS One. 7 (12), e50246 (2012).
Pang, C. N., et al. Tools to covisualize and coanalyze proteomic data with genomes and transcriptomes: validation of genes and alternative mRNA splicing. Journal of Proteome Research. 13 (1), 84-98 (2014).
Sanders, W. S., et al. The proteogenomic mapping tool. BMC Bioinformatics. 12 (115), (2011).
Wang, X., et al. ProBAMsuite, a bioinformatics framework for genome-based representation and analysis of proteomics data. Molecular & Cellular Proteomics. 15 (3), 1164-1175 (2016).
Schlaffner, C. N., Pirklbauer, G. J., Bender, A., Choudhary, J. S. Fast, quantitative and variant enabled mapping of peptides to genomes. Cell Systems. 5 (2), 152-156 (2017).
Vizcaino, J. A., et al. The PRoteomics IDEntifications (PRIDE) database and associated tools: status in 2013. Nucleic Acids Research. 41, D1063-D1069 (2013).
Aken, B. L., et al. Ensembl 2017. Nucleic Acids Research. 45 (D1), D635-D642 (2017).
Perez-Riverol, Y., et al. Ms-data-core-api: an open-source, metadata-oriented library for computational proteomics. Bioinformatics. 31 (17), 2903-2905 (2015).
Wang, Y., et al. Multi-protease strategy identifies three PE2 missing proteins in human testis tissue. Journal of Proteome Research. , (2017).
Greseth, M. D., Carter, D. C., Terhune, S. S., Traktman, P. Proteomic screen for cellular targets of the vaccinia virus F10 protein kinase reveals that phosphorylation of mDia regulates stress fiber formation. Molecular & Cellular Proteomics. 16 (4 Suppl 1), S124-S143 (2017).
Thorvaldsdottir, H., Robinson, J. T., Mesirov, J. P. Integrative genomics viewer (IGV): high-performance genomics data visualization and exploration. Briefings in Bioinformatics. 14 (2), 178-192 (2013).
Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
The R Development Core Team. R: A Language and Environment for Statistical Computing. , R Foundation for Statistical Computing. Vienna, Austria. (2008).
Kent, W. J., Zweig, A. S., Barber, G., Hinrichs, A. S., Karolchik, D. BigWig and BigBed: enabling browsing of large distributed datasets. Bioinformatics. 26 (17), 2204-2207 (2010).
Down, T. A., Piipari, M., Hubbard, T. J. Dalliance: interactive genome viewing on the web. Bioinformatics. 27 (6), 889-890 (2011).
Roumeliotis, T. I., et al. Genomic determinants of protein abundance variation in colorectal cancer cells. Cell Reports. 20 (9), 2201-2214 (2017).
Gaudet, P., et al. The neXtProt knowledgebase on human proteins: 2017 update. Nucleic Acids Research. 45, D177-D182 (2017).
Fermin, D., Walmsley, S. J., Gingras, A. C., Choi, H., Nesvizhskii, A. I. LuciPHOr: algorithm for phosphorylation site localization with false localization rate estimation using modified target-decoy approach. Molecular & Cellular Proteomics. 12 (11), 3409-3419 (2013).
Fermin, D., Avtonomov, D., Choi, H., Nesvizhskii, A. I. LuciPHOr2: site localization of generic post-translational modifications from tandem mass spectrometry data. Bioinformatics. 31 (7), 1141-1143 (2015).
Hansen, T. A., Sylvester, M., Jensen, O. N., Kjeldsen, F. Automated and high confidence protein phosphorylation site localization using complementary collision-activated dissociation and electron transfer dissociation tandem mass spectrometry. Analytical Chemistry. 84 (22), 9694-9699 (2012).
Taus, T., et al. Universal and confident phosphorylation site localization using phosphoRS. Journal of Proteome Research. 10 (12), 5354-5362 (2011).
Weisser, H., Wright, J. C., Mudge, J. M., Gutenbrunner, P., Choudhary, J. S. Flexible data analysis pipeline for high-confidence proteogenomics. Journal of Proteome Research. 15 (12), 4686-4695 (2016).

Genetics

Een snelle en kwantitatieve methode voor de posttranslationele wijziging en Variant ingeschakeld toewijzing van peptiden aan Genomes

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.