Un metodo veloce e quantitativo per la modificazione post-traduzionale e variante attivato Mapping dei peptidi di genomi

Christoph N. Schlaffner; Georg J. Pirklbauer; Andreas Bender; Judith A.J. Steen; Jyoti S. Choudhary

doi:10.3791/57633

Method Article

Un metodo veloce e quantitativo per la modificazione post-traduzionale e variante attivato Mapping dei peptidi di genomi

DOI:

10.3791/57633

⸱

May 22nd, 2018

Christoph N. Schlaffner¹^,²^,³ , Georg J. Pirklbauer² , Andreas Bender³ , Judith A.J. Steen¹ , Jyoti S. Choudhary²^,⁴

¹Department of Neurobiology, F. M. Kirby Neurobiology Center, Boston Children's Hospital, Harvard Medical School, ²Proteomic Mass Spectrometry, Wellcome Trust Sanger Institute, Wellcome Genome Campus, ³Centre for Molecular Informatics, Department of Chemistry, University of Cambridge, ⁴Functional Proteomics Group, Chester Beatty Laboratories, Institute of Cancer Research

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Qui vi presentiamo lo strumento proteogenomic PoGo e protocolli per la modifica veloce, quantitativa e post-traduzionale e variante attivato mapping dei peptidi identificati mediante spettrometria di massa sul genoma di riferimento. Questo strumento è utile per integrare e visualizzare proteogenomic e studi di proteomica personali interfacciamento con dati di genomica ortogonale.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Cross-talk tra geni, trascrizioni e proteine è la chiave per risposte cellulari; quindi, analisi dei livelli molecolari come entità distinte lentamente viene esteso agli studi integrativi per migliorare la comprensione delle dinamiche molecolari all'interno delle cellule. Attuali strumenti per la visualizzazione e l'integrazione della proteomica con altri set di dati di omics sono inadeguate per gli studi su larga scala. Inoltre, catturano solo la sequenza base identificare, scartando le modificazioni post-traduzionali e quantificazione. Per risolvere questi problemi, abbiamo sviluppato PoGo per mappare peptidi con associate modificazioni post-traduzionali e quantificazione di annotazione del genoma di riferimento. Inoltre, lo strumento è stato sviluppato per abilitare il mapping dei peptidi identificati dai database di sequenza personalizzata incorporando varianti di singolo amminoacido. Mentre PoGo è uno strumento da riga di comando, l'interfaccia grafica PoGoGUI consente ai ricercatori di non-bioinformatica mappare facilmente peptidi a 25 specie supportati da Ensembl annotazione del genoma. L'output generato prende in prestito i formati di file dal campo della genomica e, pertanto, la visualizzazione è supportata nella maggior parte dei browser del genoma. Per gli studi su larga scala, PoGo è supportato da TrackHubGenerator per creare web accessibile repository di dati mappati genomi che permettono anche una facile condivisione dei dati proteogenomics. Con poco sforzo, questo strumento può mappare milioni di peptidi di genomi di riferimento entro pochi minuti, superando altri strumenti disponibili identità di sequenza basato. Questo protocollo viene illustrato gli approcci migliori per proteogenomics mappatura tramite PoGo con set di dati pubblicamente disponibili di quantitativi e fosfoproteomica, nonché studi su larga scala.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nelle cellule, genoma, trascrittoma e proteoma influenzano a vicenda per modulare una risposta agli stimoli interni ed esterni e interagiscono tra loro per svolgere funzioni specifiche che porta a salute e malattia. Quindi, caratterizzare e quantificare i geni, le trascrizioni e le proteine è cruciale per comprendere appieno i processi cellulari. Sequenziamento di nuova generazione (NGS) è una delle strategie più comunemente applicate per identificare e quantificare l'espressione genica e trascrizione. Tuttavia, l'espressione della proteina è comunemente valutata mediante spettrometria di massa (MS). Significativi avanzamenti nella tecnologia MS nell'ultimo decennio ha permesso più una completa identificazione e quantificazione dei proteomi, rendere i dati comparabili con trascrittomica¹. Proteogenomics e multi-omics come modi per integrare dati NGS e MS sono diventati potenti approcci per valutare processi cellulari attraverso più livelli molecolari, identificazione di sottotipi di cancro e portando a nuovi potenziali bersagli di droga nel cancro² ^, ³. è importante notare che proteogenomics è stato inizialmente utilizzato per fornire la prova di proteomica per annotazioni gene e trascrizione⁴. Parecchi geni pensati di essere non-codificazione recentemente sono stati sottoposti a rivalutazione considerando il tessuto umano su larga scala i DataSet⁵^,⁶^,⁷. Inoltre, dati proteomica sono utilizzati con successo per sostenere gli sforzi di annotazione in organismi non-modello⁸^,⁹. Tuttavia, proteogenomic l'integrazione dei dati possono essere sfruttati ulteriormente evidenziare l'espressione della proteina in relazione alle caratteristiche genomiche e delucidare cross-talk tra trascrizioni e proteine, fornendo un sistema combinato di riferimento e metodi per Co-visualizzazione.

Al fine di fornire un riferimento comune per dati di genomica, trascrittomica e proteomica, sono stati implementati numerosi strumenti per peptidi mapping identificati attraverso MS sul genoma coordinate¹⁰^,¹¹^,¹² ^,¹³^,¹⁴^,¹⁵^,¹⁶^,¹⁷. Approcci differiscono in aspetti come riferimento per il mapping, il supporto di browser del genoma e grado di integrazione con altri strumenti di proteomica come mostrato in Figura 1. Mentre alcuni strumenti mappa inversione peptidi tradotte in un genoma¹⁶, altri usano una posizione di search engine con annotata all'interno di un'annotazione del gene e della proteina per ricostruire la sequenza nucleotidica del peptide¹⁵. Ancora altri usano una traduzione di 3 - o 6-struttura del genoma per mappare peptidi contro¹¹^,¹³. Infine, diversi strumenti di saltare le sequenze del nucleotide e utilizzano traduzioni di sequenza dell'amminoacido da trascritti di RNA-sequenziamento mappato come intermedio per mappare il genoma associato coordinate¹⁰^,¹²^{, peptidi} ¹⁴^,¹⁷. Tuttavia, la traduzione di sequenze nucleotidiche è un processo lento e database personalizzati sono inclini a errori che si propagano alla mappatura del peptide. Per la mappatura di alto-rendimento e veloce, un piccolo e completo riferimento è cruciale. Pertanto, un riferimento di proteina standardizzato con genoma associato coordinate è essenziale per accurata del peptide alla mappatura del genoma. Nuovi aspetti in proteogenomics, come l'incorporazione di varianti e modifiche post-traduzionali (PTM)²^,³, stanno guadagnando slancio attraverso studi recenti. Tuttavia, generalmente non sono supportati da corrente proteogenomic strumenti di mappatura, come mostrato nella Figura 1. Per migliorare la velocità e la qualità della mappatura, PoGo è stato sviluppato, uno strumento che permette la mappatura veloce e quantitativa dei peptidi a genomi¹⁸. Inoltre, PoGo consente la mappatura di peptidi con fino a due varianti di sequenza e modificazioni post-traduzionali con annotazioni.

PoGo è stato sviluppato per far fronte con il rapido aumento dei quantitativi DataSet ad alta risoluzione cattura proteomi e modifiche globali e fornisce un'utilità centrale per analisi su larga scala come variazione personali e medicina di precisione. Questo articolo descrive l'applicazione di questo strumento per visualizzare la presenza di modificazione post-traduzionale in relazione alle caratteristiche genomiche. Inoltre, questo articolo evidenzia l'individuazione degli eventi di splicing alternativi attraverso peptidi mappate e la mappatura dei peptidi identificati attraverso database personalizzati varianti di un genoma di riferimento. Questo protocollo si avvale di set di dati pubblicamente disponibili scaricato dal orgoglio archivio¹⁹ per dimostrare queste funzionalità di PoGo. Inoltre, questo protocollo descrive l'applicazione di TrackHubGenerator per la creazione di mozzi online accessibile dei peptidi mappati genomi per gli studi su larga scala proteogenomics.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. preparazione, Download e installazione

Nota: Gli esempi di percorso di file e cartelle vengono visualizzati in un formato di Windows per la facilità di accesso per gli utenti standard. Sono anche disponibile per macOS e Linux sistemi operativi PoGo e PoGoGUI.

Scarica PoGo e PoGoGUI da GitHub
1. Aprire un browser web e passare alla PoGo su GitHub (http://github.com/cschlaffner/PoGo/). Selezionare stampa e scaricare file compressi zip rilascio. Estrarre il file compresso nella cartella di file eseguibili (ad esempio, C:\PoGo\executables\).
2. Navigare nel browser web per PoGoGUI su GitHub (http://github.com/cschlaffner/PoGoGUI/). Selezionare stampa e Scarica il più recente file jar rilascio (ad es., "PoGoGUI-v1.0.2.jar"). Memorizzare il file jar nella cartella file eseguibili.
Scarica l'annotazione del genoma e tradotte sequenze codificanti per proteine
Nota: Scaricare l'annotazione del genoma e sequenze di proteina-codificazione tradotte per specie supportati da GENCODE⁷ (www.gencodegenes.org) o Ensembl²⁰ (www.ensembl.org) in formato di trasferimento generale (GTF) e le sequenze di proteine in Formato FASTA.
1. Nel browser web, passare a www.gencodegenes.org e selezionare dati | Umano | Versione corrente. Scarica l' annotazione del gene completo tramite il link GTF ed estrarre il file compresso gz nella cartella data (ad esempio, C:\PoGo\Data\) utilizzando un programma di decompressione (ad es., 7-Zip).
2. Scarica le sequenze codificanti proteine traduzione di trascrizione tramite il link FASTA ed estrarre il file compresso gz nella cartella dati generata nel passaggio precedente.
  1. In alternativa, navigare nel browser web per www.ensembl.org e selezionare download seguita da scaricare i dati tramite FTP. Trovare una specie supportata (ad esempio, umani). Scarica l'ultimo file di rilascio per l'annotazione di trascrizione utilizzando il link GTF nella colonna Gene impostato . Scegliere il file con nome struttura "species.release.gtf.gz" ed estrarre il file compresso gz nella cartella data.
3. Scaricare l'ultima versione di proteina-codificazione di sequenze delle traduzione trascrizione utilizzando la FASTA collegano nella colonna sequenza proteica (FASTA) . Scegliere il file con la struttura di nome "species.release.pep.all.fa.gz" ed estrarre il file compresso gz nella cartella data.
Preparare il peptide file di identificazione
Nota: PoGo supporta solo un formato di 4 colonne contenenti identificatore di esempio, sequenza del peptide, numero di peptide-spettro-partite (PSMs) e valore quantitativo. Tuttavia, file di identificazione standardizzata di PoGoGUI supporta formati mzIdentML, mzid e mzTab e li converte nel formato di 4 colonne di PoGo utilizzando il framework pubblicamente disponibile ms-dati-nucleo-api²¹. File in mzIdentML, mzid o mzTab formato possono essere scaricati dal archivio orgoglio¹⁹. In alternativa, i dati possono essere forniti in un formato di file delimitati da tabulazioni con estensione TSV o .pogo. Il formato contiene 4 colonne con le seguenti intestazioni di colonna: identificatore di esempio (Sample), sequenze peptidiche (Peptide), numero di peptide-spettro-partite (PSMs) e quantificazione del peptide (Quant). Un esempio è mostrato nella Figura 2.
1. Scaricare un file di esempio in mzTab formato da uno studio di proteomica sul testicolo umano dalla orgoglio archivio¹⁹ (https://www.ebi.ac.uk/pride/archive/projects/PXD006465/files²²).
2. Salvare ed estrarre il file compresso gz nella cartella dati creata nel passaggio 1.2.1.
  Nota: In alternativa, scaricare i dati di esempio per umano fosfoproteomica cercato con MaxQuant dall'orgoglio archivio (file "Traktman_2013_MaxQuantOutput-full.zip" da https://www.ebi.ac.uk/pride/archive/projects/PXD005246/files²³).
3. Salvare ed estrarre il file compresso nella cartella dei dati che è stato creato al punto 1.2.1.
4. Aprire un foglio di calcolo vuoto e importare il file peptides.txt dalla cartella c: / PoGo/dati/Traktman_2013_MaxQuantOutput-pieno/combinato/txt/utilizzando l'opzione dati | Da testo/CSV. Nella finestra di apertura, fare clic su modifica.
5. Rimuovere tutte le colonne ad eccezione di "Sequenza", "Esperimento BR1", "Esperimento BR2", "Esperimento BR3", "Rapporto H/L normalizzato BR1", "Rapporto H/L normalizzato BR2" e "Rapporto H/L normalizzato BR3".
6. Selezionare le colonne "Rapporto H/L normalizzato BR1", "Rapporto H/L normalizzato BR2" e "Rapporto H/L normalizzato BR3" e fare clic su Transform | UnPivot colonne. Selezionare le colonne "Esperimento BR1", "Esperimento BR2" e "Esperimento BR3" e ripetere l'operazione unpivot.
7. Selezionare la colonna risultante "Attributo" e dividere il contenuto utilizzando Transform | Dividere colonna | Delimitatore di. Selezionare lo spazio come delimitatore nel menu a discesa. Ripetere l'operazione per la colonna "Attribute.1".
8. Rimuovere le colonne risultanti "Attribute.1.1", "Attribute.2", "Attribute.3" e "Attribute.1.1.1".
9. Aggiungere una colonna utilizzando il Aggiungi colonna | Colonna personalizzata opzione. Adattare la formula di colonna personalizzata per rappresentare quanto segue: "= [Attribute.4]=[Attribute.1.2]".
10. Applicare un filtro alla colonna personalizzata generata per filtrare tutte le righe contenenti "FALSE"; rimarranno solo le righe che contengono "TRUE".
11. Rimuovere le colonne "Attribute.1.2" e "Custom" e modificare l'ordine delle colonne rimanenti al seguente: "Attribute.4", "Sequenza", "Value.1" e "Valore".
12. Modificare i nomi di colonna "Esperimento", "Peptide", "PSMs" e "Quant", rispettivamente. Caricare il file utilizzando Home | Chiudi e caricare.
13. Salvare il file come un file delimitato da tabulazioni utilizzando File | Salva con nome e selezionare il tipo di "Testo (delimitato da tabulazione) (txt)". Modificare il nome in "peptides_pogo.txt" e salvarlo nella cartella c: / PoGo/dati.

2. mappatura peptidi con modificazioni post-traduzionali con annotazioni e visualizzazione inclusa la quantificazione

Nota: Il file di output risultante può essere caricato in qualsiasi browser genoma supporto formato di dati Extensible Browser (letto). Una selezione dei browser è il Browser genoma integrativa (IGV)²⁴ (che viene utilizzato in seguito), l' UCSC Genome Browser²⁵ed Ensembl Genome Browser²⁰. È importante notare che l'annotazione GTF e proteina FASTA versioni utilizzate per il mapping di PoGo corrispondano alla versione del genoma nel browser del genoma. Per l'umano Ensembl Release 57-75 e GENCODE versioni 3d-19, utilizzare GRCh37/hg19; per le versioni di Ensembl 76 o superiore e GENCODE 20 o superiore, utilizzare GRCh38/hg38. Per le versioni di Ensembl mouse 74 o superiore e GENCODE M2 o superiore, utilizzare GRCm38.

Mappa di peptidi utilizzando PoGoGUI (Vedi figura 3).
1. Passare alla cartella di file eseguibili. Avviare il programma facendo doppio clic sull'icona PoGoGUI-vX.X.X.jar.
  Nota: L'interfaccia utente grafica verrà avviare e consentire la selezione facile e visiva delle opzioni.
2. Utilizzare il pulsante Seleziona accanto l'eseguibile"PoGo". Quindi, spostarsi nella cartella di file eseguibili (ad esempio, C:\PoGo\Executables\Windows\) nella sottocartella di sistemi operativi interessati. Selezionare il file eseguibile di PoGo (ad esempio, PoGo.exe) e confermare la selezione facendo clic sul pulsante Apri .
3. Selezionare il file di input di riferimento per sequenze proteiche facendo clic su Seleziona. Passare alla cartella di dati e selezionare il file di traduzione FASTA. Confermare la selezione facendo clic sul pulsante Apri .
4. Selezionare il file di annotazione di trascrizione utilizzando il pulsante Seleziona . Passare alla cartella di dati e selezionare il file GTF annotazione. Confermare la selezione facendo clic sul pulsante Apri .
5. Aggiungere il file di identificazione del peptide — selezione multipla di file è abilitato — utilizzando il pulsante Aggiungi accanto a "File di Peptide". Selezionare un file nel formato supportato mzTab, mzIdentML o mzid, o nel formato di 4-colonna separati da tabulazione scaricato e preparata al punto 1.3.
6. Deselezionare le caselle di controllo accanto al letto e GTF nella selezione di formati di output. Lasciare solo letto PTM e GCT controllato.
7. Selezionare la specie adeguata per i dati dalla selezione a discesa. È essenziale che il file FASTA, il file GTF e la selezione a discesa sono per la stessa specie.
8. Avviare mapping facendo clic sul pulsante START .
  Nota: Se necessario, PoGoGUI verrà convertire il file di input in formato di pogo, fornire i file di pogo nella stessa cartella per comodità futura e avviare il processo di mapping. La conversione di un file di singolo mzTab scaricato al passaggio 1.3.1 durerà tra 10-20 min prima dell'inizio di mappatura.
Visualizzazione nel Visualizzatore integrative genomics
Nota: Vedere la Figura 4.
1. Caricare il file di output di PoGo che termina in "_ptm.bed" nella IGV attraverso File | Carica da File e selezionare il file.
  Nota: A causa delle dimensioni, alcuni file potrebbero richiedere la generazione di un indice per consentire un rapido ricaricamento delle regioni genomiche. La IGV richiederà l'utente automaticamente alla generazione. Seguire le istruzioni indicate.
2. Ripetere il passaggio di caricamento per i file che terminano in "_noptm.bed". Questo file contiene tutti i peptidi trovati senza alcuna modifica.
3. Si noti che ogni file caricato verrà mostrato come tracce separate con il nome di file che identifica la pista. Riordinare brani trascinandoli e rilasciandoli nella posizione desiderata nell'elenco.
4. Si noti che ogni brano inizialmente viene visualizzato in modo compresso. Per espanderli, fare clic con il pulsante destro sul nome della traccia e selezionare espansa per una visualizzazione completa dei peptidi compreso le sequenze o troppo angusto per una vista in pila.
5. Ripetere il passaggio di caricamento per i file che terminano in ".gct". Questo file contiene la quantificazione del peptide per campione con annotazioni.
6. A differenza di per i file caricati sopra, ogni campione con annotazioni verrà caricato come una traccia separata. Riorganizza i campioni mediante operazioni di trascinamento.
7. Navigare all'interno del genoma, selezionando un cromosoma nel menu a discesa, digitare Coordinate genomiche, Cerca una sigla del gene, o fare clic e tenere premuto per selezionare una sezione di un cromosoma per zoomare in avanti.

3. mappatura peptidi identificati attraverso un Database personalizzato di variante di un genoma di riferimento

Nota: PoGo mappatura può essere svolti utilizzando l'interfaccia utente grafica (GUI) o attraverso l'interfaccia della riga di comando. Sono intercambiabili. In questa parte del protocollo, l'interfaccia della riga di comando viene utilizzato per evidenziare l'intercambiabilità. La seconda parte di questa sezione protocollo richiede il software strumento R²⁶. Si prega di assicurarsi che sia installato il pacchetto.

Mappa i peptidi di riferimento al genoma di riferimento.
1. Aprire un prompt dei comandi (cmd) e spostarsi nella cartella di file eseguibili di PoGo (ad esempio, C:\PoGo\Executables\).
2. Digitare il seguente comando:
  PoGo.exe - gtf \PATH\TO\GTF - fasta \PATH\TO\FASTA-in \PATH\TO\IN-formato letto-specie MYSPECIES
  1. Sostituire il \PATH\TO\GTF, \PATH\TO\FASTA e \PATH\TO\IN rispettivamente con percorsi della annotazione GTF, la sequenza della proteina FASTA e il file di identificazione del peptide (nel formato 4-colonna con file estensione "TSV" o ".pogo"). Anche sostituire MYSPECIES con la specie coerente con i dati (ad es., umani).
3. Confermare l'esecuzione premendo il tasto "Enter". Aspetta che l'esecuzione è terminata prima di passare qualsiasi ulteriore.
  Nota: Questo potrebbe richiedere alcuni minuti. Il file risultante verrà essere memorizzato nella stessa cartella come file di input del peptide e sarà considerato come \PATH\TO\OUT.pogo.bed di seguito.
Estrarre solo variante peptidi dal file di input.
1. Aperto R e carico l'input del file \PATH\TO\IN utilizzando il seguente comando:
  inputData <-read.table("PATH/TO/IN",header=TRUE,sep="\t")
2. Caricare i peptidi già mappati utilizzando il comando:
  mappedpeptides <-read.table("PATH/TO/OUT.pogo.bed",sep="\t",header=FALSE)
3. Rimuovere peptidi che sono stati già mappati dalla inputdata:
  peptidesnotmapped <-inputdata [! ( inputData$ Peptide % a % mappedpeptides$ V4)]
4. Stampare i peptidi non mappati in un nuovo file di input:
  Write.Table (peptidesnotmapped, "PATH\TO\IN.notmapped.pogo", intestazione = FALSE, sep = "\t", col.names=TRUE,row.names=FALSE,quote=FALSE)
Mappa i peptidi rimanenti al genoma di riferimento che permette di mancate corrispondenze.
1. Come descritto al punto 3.1, aprire il prompt dei comandi e spostarsi nella cartella di file eseguibili di PoGo.
2. Digitare il comando seguente permettendo 1 mancata corrispondenza dell'aminoacido e sostituire il \PATH\TO\GTF, \PATH\TO\FASTA e \PATH\TO\IN.notmapped.pogo con percorsi per l'annotazione GTF, sequenza proteica FASTA e peptide identificazione file creato nel passaggio 3.2. Anche sostituire MYSPECIES con la specie coerente con i dati (ad es., umani).
  1. PoGo.exe - gtf \PATH\TO\GTF - fasta \PATH\TO\FASTA-in \PATH\TO\IN-formato letto-specie MYSPECIES -mm 1
3. Confermare l'esecuzione del comando premendo il tasto "Enter". Aspetta che l'esecuzione è terminata prima di passare qualsiasi ulteriore.
  Nota: Questo potrebbe richiedere alcuni minuti. Il file risultante verrà essere memorizzato nella stessa cartella come file di input del peptide e sarà considerato come \PATH\TO\OUT.pogo_1MM.bed di seguito.
Visualizzare i peptidi mappati senza e con corrispondenti in IGV come descritto al punto 2.2.

4. mappatura utilizzando più file e generando traccia mozzi per DataSet di grandi dimensioni

Peptidi di mappatura da più file utilizzando PoGoGUI
1. Passare alla cartella di file eseguibili e avviare il programma GUI eseguendo PoGoGUI-vX.X.X.jar.
2. Selezionare il file eseguibile di PoGo per il sistema operativo in uso (Linux qui), così come il file di riferimento ingresso proteina sequenze FASTA e il file di GTF annotazione come descritto nella procedura di protocollo 2.1.2 - 2.1.4.
3. Aggiungere i file di identificazione del peptide utilizzando il pulsante Aggiungi accanto a "File di Peptide"; selezione multipla di file è abilitata, come pure di drag-and-drop nel campo vuoto sotto "File di Peptide".
4. Deselezionare le caselle di controllo accanto al letto di PTM, GTF e GCT nella sezione formati di output e lasciare solo il letto controllato.
5. Selezionare l'opzione Unisci più file di input in output singolo.
  Nota: Questo si tradurrà in un singolo file di output combinando tutti i peptidi dei file di input. Lasciare questa opzione deselezionata si tradurrà in un'esecuzione sequenziale del programma per ogni file di input separatamente.
6. Selezionare la specie adeguata per i dati dalla selezione a discesa coerenza con i file FASTA e GTF.
7. Avviare mapping facendo clic sul pulsante START . Se necessario, il programma convertirà i file di input in formato di pogo. Questo potrebbe richiedere alcuni tempo eseguire. Nel frattempo, scaricare gli strumenti necessari e gli script per la generazione di mozzo pista.
Preparazione per la generazione di mozzo pista
1. Aprire un browser web, passare a https://github.com/cschlaffner/TrackHubGenerator e scaricare il file "TrackHubGenerator.pl". Salvare il file nella cartella di file eseguibili.
2. Nel browser web, passare a www.hgdownload.soe.ucsc.edu/admin/exe/ e selezionare la cartella per il sistema operativo in uso (Linux qui). Scaricare il tool bedToBigBed e il fetchChromSizes di script nella cartella executables²⁷.
Generazione di un hub di pista da peptidi mappate
Nota: Al termine PoGoGUI mappatura i peptidi, un hub di traccia può essere generato automaticamente per tutti i file risultanti in formato letto memorizzati nella stessa cartella.
1. Aprire una finestra di terminale e digitare il seguente comando:
  Perl TrackHubGenerator.pl percorso/per/nome ASSEMBLY UFPD UCSC EMAIL
  1. Sostituire il nome/PATH/TO con un percorso di file e il nome per l'hub di traccia (ad esempio, ~/PoGo/Data/Mytrackhub), montaggio con il genoma in cui l'annotazione è basato (per esempio, hg38 per uso umano), UFPD con il percorso per la cartella contenente il LETTO i file su cui si baserà l'hub di traccia (ad esempio, ~/PoGo/Data/), UCSC con la cartella dove sono memorizzati gli strumenti scaricati da UCSC (ad esempio, ~/PoGo/Executables/) e mail con un indirizzo di posta elettronica per la persona responsabile per la pista Hub.
2. Confermare l'esecuzione premendo il tasto "Invio"; l'esecuzione avrà solo un breve periodo alla fine.
3. Trasferimento all'hub di traccia generato (cioè, la cartella creata ~/PoGo/Data/Mytrackhub/) con tutto il suo contenuto a un server FTP web accessibile.
  Nota: Un server FTP con un server web associato consentendo l'accesso al mozzo del cingolo tramite i protocolli ftp e http è preferito. Il repository su github (github.com) e figshare (figshare.com) supporta questo tipo di accesso e può essere utilizzati invece di un server FTP.
Visualizzazione di un hub di pista nel browser genoma UCSC
1. In un browser web, passare a https://genome.ucsc.edu/ e selezionare MyData | Traccia mozzi. Fare clic sulla scheda My mozzi.
2. Copiare l'URL nel campo di testo l'hub di pista.
  Nota: L'URL è costituito dall'indirizzo del server, la posizione del mozzo di pista e nome e il file hub.txt (per esempio, http://ngs.sanger.ac.uk/production/proteogenomics/WTSI_proteomics_PandeyKusterCutler_tissues_hi/hub.txt).
3. Caricare il traccia mozzi facendo Aggiungere Hub.
  Nota: L'hub sarà caricato e verrà visualizzato un breve messaggio, indicando i dati del mozzo ad esempio il nome, le informazioni di contatto della persona responsabile per l'hub di pista, pista e utilizzato l'assembly del genoma. Il sito tornerà alla pagina principale.
4. Selezionare GenomeBrowser per immettere la visualizzazione del browser.
  Nota: L'hub di traccia personalizzato apparirà nella parte superiore dell'elenco. Se più file letto costruito la base per l'hub di pista, ogni file sarà rappresentato come una traccia separata all'interno del mozzo.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Una rappresentazione grafica di evidenziazione a cui viene applicata la fase di un flusso di lavoro regolare proteomica PoGo¹⁸ , così come a valle opzioni di visualizzazione, è illustrato nella Figura 5. Proteomica di fucile da caccia (cioè, la digestione proteolitica delle proteine seguita da cromatografia liquida accoppiata alla spettrometria di massa tandem) è un passo precursore del mapping proteogenomic. Gli spettri di massa tandem risultante sono comunemente rispetto al teorici spettri derivati da database di sequenza della proteina. Proteogenomics studi presentano sequenze di traduzione del romanzo trascrizioni con codifica varianti potenziali e non sinonimo di singolo nucleotide (SNVs) nel database, rendendo difficile a relazionarsi facilmente questi indietro con il genoma di riferimento⁸. L'interfaccia utente grafica di PoGo (PoGoGUI) supporta i formati di file per il reporting standardizzato di identificazioni di peptide da esperimenti di spettrometria di massa e li converte nel formato semplificato 4-colonna pogo. PoGoGUI avvolge lo strumento della riga di comando PoGo e quindi permette la mappatura dei peptidi sul genoma coordinate utilizzando l'annotazione di riferimento di geni di proteina-codificazione comunemente fornito nel GTF e le sequenze di trascrizione tradotta in formato FASTA. Diversi formati di output sono generati da PoGo per abilitare la visualizzazione dei diversi aspetti dei peptidi identificati mediante spettrometria di massa, tra cui modificazioni post-traduzionali e quantificazione livello del peptide. I file di output nel letto possono essere ulteriormente convertiti ed combinati in directory accessibile online chiamata mozzi pista. File di uscita singola, nonché mozzi pista, quindi possono essere visualizzati nel browser come l'UCSC Genome Browser²⁵, Ensembl Genome Browser²⁰, IGV²⁴e Biodalliance²⁸ (Vedi Figura 5 inferiore).

Abbiamo applicato PoGo per la rianalisi del progetto proteoma umano mappe filtrato a alto significato, come descritto in Wright et al. ⁷ e rispetto a due altri strumenti per la mappatura di proteogenomic, vale a dire iPiG¹⁴ e PGx¹⁰. Il dataset comprende 233.055 unici peptidi attraverso 59 tessuti adulti e fetali, risultante in un totale di oltre 3 milioni di sequenze. PoGo ha superato questi strumenti in fase di esecuzione (6.9 x e 96,4 x più veloce, rispettivamente) e l'utilizzo della memoria (20% e il 60% meno di memoria, rispettivamente) come mostrato nella Figura 6¹⁸. Nella Figura 7è riportato un esempio di un peptide con successo mappato.

Mentre PoGo significativamente sovraperformato gli altri strumenti in velocità e memoria, è anche capace di modificazioni post-traduzionali di mappatura e informazioni quantitative connesso con peptidi sul genoma. Figura 8A raffigura schematicamente la visualizzazione del formato letto in un browser del genoma per peptidi mapping da un esone e da altra parte della giuntura giunzioni. PoGo utilizza l'opzione di colorazione per fornire facile aiuto visivo per quanto riguarda l'unicità della mappatura del peptide all'interno del genoma. Mapping in rosso indicano l'unicità di una trascrizione singola, mentre nero evidenzia il mapping a un singolo gene. Tuttavia, il peptide è condivisa tra diverse trascrizioni. Mapping di grigio mostrano un peptide condiviso tra geni multipli. Queste sono, per esempio, meno affidabile per la quantificazione di un gene o inaffidabile per chiamare l'espressione di un gene. L'opzione di PTM letto di PoGo ridefinisce il codice colore per ospitare diversi tipi di modificazioni post-traduzionali, come mostrato in Figura 8B. Inoltre, PTM sono indicati da blocchi di spessore (Vedi Figura 8B). Un singolo PTM di un tipo è evidenziato da un blocco di spesso nella posizione del residuo dell'amminoacido modificate, mentre PTMs multiple dello stesso tipo sono occupate da un blocco di spesso dal primo amminoacido modificato fino all'ultimo.

Abbiamo applicato PoGo e, successivamente, TrackHubGenerator a un dataset di 50 linee cellulari di cancro colorettale tra cui intero proteoma e phosphoproteome²⁹. Mentre l'hub di traccia caricata nel Browser genoma UCSC Mostra i peptidi mappati il genoma e mette in evidenza l'unicità dei mapping e i siti di fosforilazione (Vedi Figura 9), nella cartella supplemento sono forniti ulteriori dati. I file GCT quindi attivare la visualizzazione del peptide e phosphopeptide quantificazione in un contesto genomico. Tuttavia, i file GCT non forniscono una visualizzazione semplice dei peptidi si estendono su giunzioni della giuntura (Vedi Figura 10 top). I peptidi sui nodi di giunzione sono divisi nelle loro rispettive parti mapping tra gli esoni. Mentre è possibile identificare peptidi della giuntura attraverso gli stessi valori quantitativi di mapping essone, mapping basato sulla sequenza di caricamento file come letto o GTF che collegano gli esoni di un introne sottile che attraversa la linea di supporto all'interpretazione (Vedi Figura 10 in basso).

Per evidenziare l'utilità della variante abilitata mappatura, abbiamo applicato il PoGo in due configurazioni a un dataset del proteoma umano testicolo cercato contro neXtProt a caccia di proteine mancante utilizzando una strategia multi-enzima²². Il neXtProt comprende oltre a sequenze della proteina di riferimento oltre 5 milioni di varianti di singolo amminoacido³⁰. Mapping di peptidi identificati con una variante di singolo amminoacido non è supportato da altri strumenti di mappatura. Un totale di 177.012 unici peptidi sono stati identificati. Di questi, peptidi di 99,8% (176.694) in primo luogo sono stati mappati correttamente senza consentire disallineamenti. Rimuovendo quelli dall'elenco del peptide identificato ha provocato peptidi di 0,2% (318) che successivamente sono stati mappata permettendo una sostituzione dell'amminoacido. Ciò ha provocato 3.446 mapping di 162 peptidi che non sarebbero stati mappati il genoma di riferimento con qualsiasi altro strumento disponibile. Mentre il numero medio di mapping tra cui una mancata corrispondenza è alto, 62 peptidi sono stati associati a solo un singolo locus, che indica la vere variante sequenze. Un esempio di un peptide mappato con una singola sostituzione dell'amminoacido è evidenziato con la sequenza e la sequenza genomic tradotta nella Figura 11.

figure-results-1
Figura 1. Confronto visivo di strumenti di mapping del peptide al genoma diverso. Il confronto è indicato per quanto riguarda vari aspetti. Questi aspetti comprendono un riferimento di mappatura, il livello di integrazione nella rete e il supporto dei browser online e offline. Inoltre, nuovi aspetti della proteogenomics e il loro sostegno di funzionalità viene evidenziato separatamente. PoGo manca solo la capacità di mappare direttamente a una sequenza di genoma rispetto ad altri strumenti. Tuttavia, supporta tutte le caratteristiche novelle che non supportano la maggior parte degli altri strumenti. Clicca qui per visualizzare una versione più grande di questa figura.

figure-results-2
Figura 2. File di input di esempio per i peptidi mappatura. PoGo accetta dati di input in un formato separato da tabulazioni con 4 colonne. Le intestazioni di colonna nella prima riga sono 'Esperimento', 'Peptide', 'PSMs' e 'Quant', che indica nelle righe che seguono l'esperimento o identificatore di esempio, la sequenza del peptide, il numero di corrispondenze di peptide-spettro e un valore quantitativo per il peptide, rispettivamente. Estensioni di file supportate sono *. txt, *.tsv e *.pogo. Clicca qui per visualizzare una versione più grande di questa figura.

figure-results-3
Figura 3. PoGoGUI interfaccia con passaggi evidenziati per parametro opzioni e selezioni file. La figura mostra i passaggi per la selezione e il caricamento di tutti i file necessari e la selezione delle opzioni per i peptidi di mappatura con modificazioni post-traduzionali sul genoma umano di riferimento. Clicca qui per visualizzare una versione più grande di questa figura.

figure-results-4
Figura 4. Screenshot dei dati Integrative Genomics Viewer (IGV) caricare procedura. La figura evidenzia la procedura per il caricamento di file di output di PoGo nel browser IGV. Inoltre, Mostra la possibilità di espandere la traccia dei peptidi mappate per evidenziare la mappatura e la sequenza. Clicca qui per visualizzare una versione più grande di questa figura.

figure-results-5
Figura 5. Semplificate il flusso di lavoro di passi da LC-MS/MS per la visualizzazione nei browser genoma. PoGo mappatura segue l'identificazione dei peptidi da spettri di massa tandem. Per ottenere la mappatura del genoma, PoGo utilizza annotazione di riferimento fornito come annotazione del genoma (GTF) e sequenze di trascrizione traduzione (FASTA). Output di diversi formati sono generati che possono essere caricati separatamente in browser del genoma. Inoltre, i file in formato letto possono essere combinati in pista Hub supporta la visualizzazione di DataSet su larga scala. Clicca qui per visualizzare una versione più grande di questa figura.

figure-results-6
Nella figura 6. PoGo contro PGx e iPiG di benchmarking. PoGo sorpassa gli altri strumenti sul benchmarking. Mappatura 233.055 unici peptidi attraverso 59 tessuti adulti e fetali con conseguente oltre 3 milioni di sequenze, PoGo era 6,9 x e 96,4 x più veloce di PGx e iPiG, rispettivamente. Inoltre, PoGo necessaria 20% e il 60% meno memoria rispetto a PGx e iPiG, rispettivamente. Mentre PoGo e PGx terminato con successo, iPiG ha provocato un errore di memoria a 16 GB. Clicca qui per visualizzare una versione più grande di questa figura.

figure-results-7
Figura 7. Visualizzazione di esempio di browser UCSC genoma di peptidi mappate. La figura mostra peptidi mappati il gene mTOR. Mentre la pista combinata presenta i peptidi si estendono su giunzioni della giuntura ed eseguire il mapping solo di un esone con le sequenze associate, le tracce di tessuto-specifica solo evidenziano il mapping in un formato ridotto. Clicca qui per visualizzare una versione più grande di questa figura.

figure-results-8
Figura 8. Schema di mapping di visualizzazione e codifica a colori. (A) nel file di output letto standard, peptidi mapping a un esone sono indicati come singoli blocchi (a sinistra), mentre peptidi mappatura attraverso multipli esoni clou dell'esone che coprono parti come blocchi (a destra). Gli introni sono mostrati come sottili linee di concatenazione. PoGo color-codes l'unicità di mappatura o peptidi ai geni e trascrizioni utilizzando un sistema a 3 livelli. (B) oltre alla struttura di blocco del formato letto, letto PTM uscita sottolinea la posizione di modificazioni post-traduzionali come blocchi di spessore. La presenza di un singolo PTM di un tipo mette in evidenza il residuo modificata dell'aminoacido con un blocco di spesso, mentre i luoghi multipli della stessa PTM sono combinati in blocchi lunghi che vanno dal primo all'ultimo sito modification. Mapping del peptide sono ulteriormente divisi di codec di tipo e colore PTM basato sulla modifica. Clicca qui per visualizzare una versione più grande di questa figura.

figure-results-9
Nella figura 9. Tenere traccia di visualizzazione hub nel browser UCSC genoma del cancro colorettale proteoma e phosphoproteome dati. L'hub di pista comprende intero proteoma dati così come phosphoproteome. Mentre il colore rosso nelle tracce proteoma e phosphoproteome indicare l'unicità del mapping per la singola trascrizione di SFN, tracce che termina in _ptm Visualizza i siti di fosforilazione in peptidi. Qui, il colore rosso indica il tipo di modifica come fosforilazione. Solo due peptidi sono stati identificati con ogni mostrando una singola fosforilazione (blocchi di spessore). Clicca qui per visualizzare una versione più grande di questa figura.

figure-results-10
Figura 10. Vista del cancro colorettale fosfopeptidi e quantificazione associata a IGV. La figura mostra un sottoinsieme delle linee cellulari del 50 cancro. Esso inoltre presenta quattro colonne di blocchi in diverse tonalità di luce rosso. Il colore indica l'abbondanza relativa tra basso (bianco) e alta (rosso). Mentre le quattro colonne inizialmente potrebbero portare a credere che ci sono 4 peptidi, diventa chiaro con associato basato su sequenze GTF file di output che in realtà si tratta di due peptidi, ogni che abbracciano una giunzione della giuntura. Clicca qui per visualizzare una versione più grande di questa figura.

figure-results-11
Figura 11. Vista del peptide con variante dell'aminoacido in IGV. La figura mostra un peptide con una variante di singolo amminoacido mappata il genoma di riferimento all'inizio di traduzione del gene GPSM1. La variante è posizionata a residuo dell'amminoacido 8 e risultati nella sostituzione dell'alanina per valina (A→V). Le sequenze di traduzione delle trascrizioni con annotazioni (blue) evidenziano la variante rispetto la sequenza del peptide. Clicca qui per visualizzare una versione più grande di questa figura.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Questo protocollo viene descritto come lo strumento software PoGo e la sua interfaccia grafica PoGoGUI abilitare un mapping veloce dei peptidi sul genoma coordinate. Lo strumento offre caratteristiche uniche come modificazione post-traduzionale, quantitativa e abilitati alla variante mappatura di genomi mediante annotazione di riferimento. In questo articolo viene illustrato il metodo su uno studio su larga scala proteogenomic ed evidenzia la sua velocità e memoria efficienza rispetto ad altri strumenti disponibili¹⁸. In combinazione con lo strumento TrackHubGenerator, che crea online accessibile mozzi di genomic e genoma i dati collegati, PoGo, con la sua interfaccia utente grafica, studi proteogenomics su larga scala consente di visualizzare rapidamente i loro dati in contesto genomico. Inoltre, dimostriamo le caratteristiche uniche di PoGo con DataSet cercato contro varianti database e fosfoproteomica quantitativa²²^,²⁹.

Singoli file, ad esempio il file GCT, forniscono preziose visualizzazione e collegamenti tra caratteristiche del peptide e loci genomici. Tuttavia, è importante notare che un'interpretazione fondata su questi da soli può essere difficile o fuorviante a causa loro limitazione ai singoli aspetti del proteogenomics come unicità, modificazioni post-traduzionali e valori quantitativi. Pertanto, è importante scegliere con attenzione quali file di output, le opzioni e combinazioni sono appropriati per la domanda di proteogenomic a portata di mano e modificare le combinazioni. Ad esempio, informazioni circa l'unicità del mapping da un locus genomico specifico potrebbero essere di grande valore per l'annotazione di una funzione genomica⁷, mentre la quantificazione attraverso diversi campioni potrebbe essere più appropriata per studi relativi caratteristiche genomiche ai cambiamenti nella proteina abbondanza²⁹. L'Output deve essere generato da PoGo per ogni impostazione. Nel caso in cui non genera alcun output, o file vuoti vengono visualizzati nella cartella di output, si raccomanda di controllare i file di input per il contenuto desiderato e il formato di file desiderato. In casi dove il formato di file o il contenuto non segue le aspettative di PoGo (ad esempio, il file FASTA presumibilmente contenente le sequenze di traduzione di trascrizione contiene le sequenze nucleotidiche delle trascrizioni), messaggi di errore chiederà all'utente di Verifica i file di input.

Restrizioni del protocollo e lo strumento sono principalmente basate sul riutilizzo dei formati di file comunemente utilizzati nel campo della genomica. Riuso di formati di file utilizzati nel campo della genomica per applicazioni di proteogenomic è accompagnata da limitazioni specifiche. Questi sono dovuto le diverse serie di requisiti per la visualizzazione del genoma centrato di genomic e proteogenomic dati, ad esempio la necessità di visualizzare le modifiche post-traduzionali dai dati di proteomica. Questo è limitato nei formati di file di genomica di uso delle singole funzioni. Molti approcci e strumenti sono stati sviluppati per proteomica localizzare con fiducia all'interno del peptide sequenze³¹^,³²^,³³^,³⁴post-traduzionali. Tuttavia, la visualizzazione di più modifiche in maniera unica e distinguibile sul genoma è ostacolata dalla struttura dei formati di file genomica. Di conseguenza, la visualizzazione del singolo blocco di PTMs multiple dello stesso tipo non costituisce alcuna ambiguità dei siti modifica ma è la conseguenza del requisito differente della community di genomica di visualizzare solo funzionalità di single in un momento. Ciò nonostante, PoGo ha il vantaggio di modificazioni post-traduzionali di mappatura sulla genomiche coordinate per consentire studi focalizzati sull'effetto delle caratteristiche genomiche quali varianti di singolo nucleotide su modificazioni post-traduzionali. Utilizzando PoGo, variante mapping aumenta il numero di mapping totale. Tuttavia, la codifica dei colori unici dei peptidi mappate evidenzia i mapping affidabili da quelle inaffidabili. La mappatura dei peptidi variante identificata da varianti noto singolo nucleotide può essere accompagnata da visualizzare i peptidi mappati a fianco le varianti in formato VCF. In questo modo il codice di colore che indica un mapping inaffidabile di un peptide variante è respinta dalla presenza della variante del nucleotide noto.

Un passo fondamentale per l'utilizzo di PoGo è l'uso dei formati e file corretti. L'utilizzo di sequenze di trascrizione tradotta come sequenze proteiche per accompagnare l'annotazione in formato GTF è il criterio principale. Un altro elemento critico quando si considera l'utilizzo di PoGo per mappare peptidi con aminoacido mismatch è memoria. Mentre memoria efficiente per un'applicazione standard, significativamente ed esponenzialmente crescente numero di possibili mapping con uno o due non corrispondenti conduce ad un aumento esponenziale allo stesso modo in memoria utilizzo¹⁸. Vi proponiamo un mapping in fasi, come descritto in questo protocollo per prima mappa i peptidi senza disallineamenti e rimuoverli dal set. I peptidi non precedentemente mappati successivi quindi possono essere mappati utilizzando una mancata corrispondenza e la procedura può essere ripetuta con due mismatch per i peptidi restanti non mappata.

Poiché ha aumentato significativamente la velocità effettiva della spettrometria di massa e studi interfacciamento genomico e proteomico dati sono sempre più frequenti negli ultimi anni, sono strumenti per consentire facilmente l'interfaccia di questi tipi di dati nello stesso sistema di coordinate sempre più indispensabile. Lo strumento presentato qui sarà di aiuto la necessità di combinare genomico e proteomico dati per migliorare una migliore comprensione di studi integrativi attraverso piccole e grandi set di dati mappando peptidi su un'annotazione di riferimento. Incoraggiante, PoGo è stato applicato per eseguire il mapping peptidi candidati gene forniti nello stesso formato come l'annotazione di riferimento per sostenere gli sforzi di annotazione di nuovi geni espressi nel testicolo umano³⁵. L'approccio qui presentato è indipendente dei database utilizzati per identificazione del peptide. Il protocollo potrebbe aiutare nell'identificazione e visualizzazione dei prodotti di traduzione romanzo utilizzando adattato da sequenze di traduzione dei file di ingresso e GTF file da esperimenti di RNA-seq associati.

Diversi approcci e strumenti con una vasta gamma di scenari di applicazioni speciali per mappare peptidi Coordinate genomiche, che vanno dal mapping di peptidi direttamente alla sequenza del genoma a mapping di RNA-sequenziamento guidato, sono stati introdotti¹⁰^, ¹¹ ^, ¹² ^, ¹³ ^, ¹⁴ ^, ¹⁵ ^, ¹⁶ ^, ¹⁷. Tuttavia, questi possono provocare un guasto per mappare correttamente peptidi quando modificazioni post-traduzionali sono presenti ed errori nella mappatura sottostante di letture di RNA-sequenziamento possono essere propagati al livello del peptide. PoGo è stato sviluppato specificamente superare quegli ostacoli e affrontare il rapido aumento dei DataSet proteomic quantitativa ad alta risoluzione per l'integrazione con piattaforme di genomica ortogonale. Lo strumento descritto qui può essere integrato nei flussi di lavoro ad alta produttività. Tramite l'interfaccia grafica PoGoGUI, lo strumento è semplice da usare e non richiede alcuna formazione di bioinformatica di specialista.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Gli autori non hanno nulla a rivelare.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Questo lavoro è stato finanziato dalla Wellcome Trust (WT098051) e la concessione di NIH (U41HG007234) per il progetto GENCODE.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
PoGo (software)	NA	NA	https://github.com/cschlaffner/PoGo
PoGoGUI (software)	NA	NA	https://github.com/cschlaffner/PoGoGUI
TrackHubGenerator (software)	NA	NA	https://github.com/cschlaffner/TrackHubGenerator
Visualizzatore di genomica integrativa (software)	NA	NA	http://software.broadinstitute.org/software/igv/
UCSC genoma browser (sito web)	NA	NA	https://genome.ucsc.edu/
GENCODE (sito web)	NA	NA	http://gencodegenes.org
Ensembl (sito web)	NA	NA	http://ensembl.org
bedToBigBed (software)	NA	NA	http://hgdownload.soe.ucsc.edu/admin/exe/
fetchChromSizes.sh (software)	NA	NA	http://hgdownload.soe.ucsc.edu/admin/exe/

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Mass-spectrometric exploration of proteome structure and function. Nature. 537 (7620), 347-355 (2016).">Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537 (7620), 347-355 (2016).
Proteogenomics connects somatic mutations to signalling in breast cancer. Nature. 534 (7605), 55-62 (2016).">Mertins, P., et al. Proteogenomics connects somatic mutations to signalling in breast cancer. Nature. 534 (7605), 55-62 (2016).
Integrated proteogenomic characterization of human high-grade serous ovarian cancer. Cell. 166 (3), 755-765 (2016).">Zhang, H., et al. Integrated proteogenomic characterization of human high-grade serous ovarian cancer. Cell. 166 (3), 755-765 (2016).
Proteogenomic mapping as a complementary method to perform genome annotation. Proteomics. 4 (1), 59-77 (2004).">Jaffe, J. D., Berg, H. C., Church, G. M. Proteogenomic mapping as a complementary method to perform genome annotation. Proteomics. 4 (1), 59-77 (2004).
Mass-spectrometry-based draft of the human proteome. Nature. 509 (7502), 582-587 (2014).">Wilhelm, M., et al. Mass-spectrometry-based draft of the human proteome. Nature. 509 (7502), 582-587 (2014).
A draft map of the human proteome. Nature. 509 (7502), 575-581 (2014).">Kim, M. S., et al. A draft map of the human proteome. Nature. 509 (7502), 575-581 (2014).
Improving GENCODE reference gene annotation using a high-stringency proteogenomics workflow. Nature Communications. 7, 11778(2016).">Wright, J. C., et al. Improving GENCODE reference gene annotation using a high-stringency proteogenomics workflow. Nature Communications. 7, 11778(2016).
Proteogenomics: concepts, applications and computational strategies. Nature Methods. 11 (11), 1114-1125 (2014).">Nesvizhskii, A. I. Proteogenomics: concepts, applications and computational strategies. Nature Methods. 11 (11), 1114-1125 (2014).
Non-model organisms, a species endangered by proteogenomics. Journal of Proteomics. 105, 5-18 (2014).">Armengaud, J., et al. Non-model organisms, a species endangered by proteogenomics. Journal of Proteomics. 105, 5-18 (2014).
PGx: putting peptides to BED. Journal of Proteome Research. 15 (3), 795-799 (2016).">Askenazi, M., Ruggles, K. V., Fenyo, D. PGx: putting peptides to BED. Journal of Proteome Research. 15 (3), 795-799 (2016).
ACTG: novel peptide mapping onto gene models. Bioinformatics. 33 (8), 1218-1220 (2017).">Choi, S., Kim, H., Paek, E. ACTG: novel peptide mapping onto gene models. Bioinformatics. 33 (8), 1218-1220 (2017).
ProteoAnnotator-open source proteogenomics annotation software supporting PSI standards. Proteomics. 14 (23-24), 2731-2741 (2014).">Ghali, F., et al. ProteoAnnotator-open source proteogenomics annotation software supporting PSI standards. Proteomics. 14 (23-24), 2731-2741 (2014).
PGMiner reloaded, fully automated proteogenomic annotation tool linking genomes to proteomes. Journal of Integrative Bioinformatics. 13 (4), 293(2016).">Has, C., Lashin, S. A., Kochetov, A. V., Allmer, J. PGMiner reloaded, fully automated proteogenomic annotation tool linking genomes to proteomes. Journal of Integrative Bioinformatics. 13 (4), 293(2016).
iPiG: integrating peptide spectrum matches into genome browser visualizations. PLoS One. 7 (12), e50246(2012).">Kuhring, M., Renard, B. Y. iPiG: integrating peptide spectrum matches into genome browser visualizations. PLoS One. 7 (12), e50246(2012).
Tools to covisualize and coanalyze proteomic data with genomes and transcriptomes: validation of genes and alternative mRNA splicing. Journal of Proteome Research. 13 (1), 84-98 (2014).">Pang, C. N., et al. Tools to covisualize and coanalyze proteomic data with genomes and transcriptomes: validation of genes and alternative mRNA splicing. Journal of Proteome Research. 13 (1), 84-98 (2014).
The proteogenomic mapping tool. BMC Bioinformatics. 12 (115), (2011).">Sanders, W. S., et al. The proteogenomic mapping tool. BMC Bioinformatics. 12 (115), (2011).
ProBAMsuite, a bioinformatics framework for genome-based representation and analysis of proteomics data. Molecular & Cellular Proteomics. 15 (3), 1164-1175 (2016).">Wang, X., et al. ProBAMsuite, a bioinformatics framework for genome-based representation and analysis of proteomics data. Molecular & Cellular Proteomics. 15 (3), 1164-1175 (2016).
Fast, quantitative and variant enabled mapping of peptides to genomes. Cell Systems. 5 (2), 152-156 (2017).">Schlaffner, C. N., Pirklbauer, G. J., Bender, A., Choudhary, J. S. Fast, quantitative and variant enabled mapping of peptides to genomes. Cell Systems. 5 (2), 152-156 (2017).
The PRoteomics IDEntifications (PRIDE) database and associated tools: status in 2013. Nucleic Acids Research. 41, D1063-D1069 (2013).">Vizcaino, J. A., et al. The PRoteomics IDEntifications (PRIDE) database and associated tools: status in 2013. Nucleic Acids Research. 41, D1063-D1069 (2013).
Ensembl 2017. Nucleic Acids Research. 45 (D1), D635-D642 (2017).">Aken, B. L., et al. Ensembl 2017. Nucleic Acids Research. 45 (D1), D635-D642 (2017).
Ms-data-core-api: an open-source, metadata-oriented library for computational proteomics. Bioinformatics. 31 (17), 2903-2905 (2015).">Perez-Riverol, Y., et al. Ms-data-core-api: an open-source, metadata-oriented library for computational proteomics. Bioinformatics. 31 (17), 2903-2905 (2015).
Multi-protease strategy identifies three PE2 missing proteins in human testis tissue. Journal of Proteome Research. , (2017).">Wang, Y., et al. Multi-protease strategy identifies three PE2 missing proteins in human testis tissue. Journal of Proteome Research. , (2017).
Proteomic screen for cellular targets of the vaccinia virus F10 protein kinase reveals that phosphorylation of mDia regulates stress fiber formation. Molecular & Cellular Proteomics. 16 (4 Suppl 1), S124-S143 (2017).">Greseth, M. D., Carter, D. C., Terhune, S. S., Traktman, P. Proteomic screen for cellular targets of the vaccinia virus F10 protein kinase reveals that phosphorylation of mDia regulates stress fiber formation. Molecular & Cellular Proteomics. 16 (4 Suppl 1), S124-S143 (2017).
Integrative genomics viewer (IGV): high-performance genomics data visualization and exploration. Briefings in Bioinformatics. 14 (2), 178-192 (2013).">Thorvaldsdottir, H., Robinson, J. T., Mesirov, J. P. Integrative genomics viewer (IGV): high-performance genomics data visualization and exploration. Briefings in Bioinformatics. 14 (2), 178-192 (2013).
The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).">Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
R: A Language and Environment for Statistical Computing. , R Foundation for Statistical Computing. Vienna, Austria. (2008).">The R Development Core Team. R: A Language and Environment for Statistical Computing. , R Foundation for Statistical Computing. Vienna, Austria. (2008).
BigWig and BigBed: enabling browsing of large distributed datasets. Bioinformatics. 26 (17), 2204-2207 (2010).">Kent, W. J., Zweig, A. S., Barber, G., Hinrichs, A. S., Karolchik, D. BigWig and BigBed: enabling browsing of large distributed datasets. Bioinformatics. 26 (17), 2204-2207 (2010).
Dalliance: interactive genome viewing on the web. Bioinformatics. 27 (6), 889-890 (2011).">Down, T. A., Piipari, M., Hubbard, T. J. Dalliance: interactive genome viewing on the web. Bioinformatics. 27 (6), 889-890 (2011).
Genomic determinants of protein abundance variation in colorectal cancer cells. Cell Reports. 20 (9), 2201-2214 (2017).">Roumeliotis, T. I., et al. Genomic determinants of protein abundance variation in colorectal cancer cells. Cell Reports. 20 (9), 2201-2214 (2017).
The neXtProt knowledgebase on human proteins: 2017 update. Nucleic Acids Research. 45, D177-D182 (2017).">Gaudet, P., et al. The neXtProt knowledgebase on human proteins: 2017 update. Nucleic Acids Research. 45, D177-D182 (2017).
LuciPHOr: algorithm for phosphorylation site localization with false localization rate estimation using modified target-decoy approach. Molecular & Cellular Proteomics. 12 (11), 3409-3419 (2013).">Fermin, D., Walmsley, S. J., Gingras, A. C., Choi, H., Nesvizhskii, A. I. LuciPHOr: algorithm for phosphorylation site localization with false localization rate estimation using modified target-decoy approach. Molecular & Cellular Proteomics. 12 (11), 3409-3419 (2013).
LuciPHOr2: site localization of generic post-translational modifications from tandem mass spectrometry data. Bioinformatics. 31 (7), 1141-1143 (2015).">Fermin, D., Avtonomov, D., Choi, H., Nesvizhskii, A. I. LuciPHOr2: site localization of generic post-translational modifications from tandem mass spectrometry data. Bioinformatics. 31 (7), 1141-1143 (2015).
Automated and high confidence protein phosphorylation site localization using complementary collision-activated dissociation and electron transfer dissociation tandem mass spectrometry. Analytical Chemistry. 84 (22), 9694-9699 (2012).">Hansen, T. A., Sylvester, M., Jensen, O. N., Kjeldsen, F. Automated and high confidence protein phosphorylation site localization using complementary collision-activated dissociation and electron transfer dissociation tandem mass spectrometry. Analytical Chemistry. 84 (22), 9694-9699 (2012).
Universal and confident phosphorylation site localization using phosphoRS. Journal of Proteome Research. 10 (12), 5354-5362 (2011).">Taus, T., et al. Universal and confident phosphorylation site localization using phosphoRS. Journal of Proteome Research. 10 (12), 5354-5362 (2011).
Flexible data analysis pipeline for high-confidence proteogenomics. Journal of Proteome Research. 15 (12), 4686-4695 (2016).">Weisser, H., Wright, J. C., Mudge, J. M., Gutenbrunner, P., Choudhary, J. S. Flexible data analysis pipeline for high-confidence proteogenomics. Journal of Proteome Research. 15 (12), 4686-4695 (2016).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Un metodo veloce e quantitativo per la modificazione post-traduzionale e variante attivato Mapping dei peptidi di genomi

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles