Une méthode rapide et Quantitative pour Modification post-traductionnelle et variante compatible cartographie des Peptides aux génomes

Christoph N. Schlaffner; Georg J. Pirklbauer; Andreas Bender; Judith A.J. Steen; Jyoti S. Choudhary

doi:10.3791/57633

Method Article

Une méthode rapide et Quantitative pour Modification post-traductionnelle et variante compatible cartographie des Peptides aux génomes

DOI:

10.3791/57633

⸱

May 22nd, 2018

Christoph N. Schlaffner¹^,²^,³ , Georg J. Pirklbauer² , Andreas Bender³ , Judith A.J. Steen¹ , Jyoti S. Choudhary²^,⁴

¹Department of Neurobiology, F. M. Kirby Neurobiology Center, Boston Children's Hospital, Harvard Medical School, ²Proteomic Mass Spectrometry, Wellcome Trust Sanger Institute, Wellcome Genome Campus, ³Centre for Molecular Informatics, Department of Chemistry, University of Cambridge, ⁴Functional Proteomics Group, Chester Beatty Laboratories, Institute of Cancer Research

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nous présentons ici l’outil proteogenomic PoGo et protocoles de modification poteau-de translation, quantitative, rapide et variante a permis la cartographie des peptides identifiés par le biais de la spectrométrie de masse sur les génomes de référence. Cet outil est utile pour intégrer et visualiser des proteogenomic et des études protéomiques personnelle s’interfaçant avec des données de génomique orthogonale.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Diaphonie entre gènes et protéines transcriptions est la clé pour les réponses cellulaires ; donc, l’analyse des niveaux moléculaires comme des entités distinctes est lentement étendue aux études intégrées pour améliorer la compréhension de la dynamique moléculaire dans les cellules. Les outils actuels pour la visualisation et l’intégration de la protéomique avec d’autres ensembles de données omics sont insuffisants pour les études à grande échelle. En outre, elles captent seulement séquence basique identifier, jeter les modifications post-traductionnelles et au dosage. Pour résoudre ces problèmes, nous avons développé PoGo pour mapper les peptides associées modifications post-traductionnelles et leur dosage pour référencer l’annotation du génome. En outre, l’outil a été développé pour permettre le mappage des peptides identifiés à partir des bases de données de séquence personnalisée intégrant les variantes seul acide aminé. PoGo est un outil de ligne de commande, l’interface graphique PoGoGUI permet aux chercheurs de non-bioinformatique facilement mapper peptides à 25 espèces prises en charge par l’annotation du génome Ensembl. La sortie générée emprunte des formats de fichiers depuis le domaine de la génomique et, par conséquent, visualisation est pris en charge dans la plupart des navigateurs du génome. Pour des études à grande échelle, PoGo est pris en charge par TrackHubGenerator à créer des référentiels accessibles sur le web des données mappées aux génomes qui permettent aussi un partage facile des données proteogenomics. Avec peu d’effort, cet outil peut mapper des millions de peptides pour référencer des génomes en seulement quelques minutes, surpassant les autres outils disponibles séquence-identitaire. Ce protocole montre les meilleures approches pour la cartographie de proteogenomics par le biais de PoGo avec des ensembles de données accessibles au public des quantitatifs et phosphoprotéomique, ainsi que des études à grande échelle.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dans les cellules, génome, transcriptome et du protéome affectent mutuellement pour moduler une réponse à des stimuli internes et externes et d’interagir entre eux pour réaliser des fonctions spécifiques conduisant à la santé et la maladie. Par conséquent, caractériser et quantifier les gènes, les transcriptions et les protéines sont crucial pour bien comprendre les processus cellulaires. Séquençage de prochaine génération (NGS) est une des stratégies plus couramment appliquées pour identifier et quantifier l’expression de gène et de transcription. Toutefois, expression de la protéine est généralement évaluée par spectrométrie de masse (MS). Des progrès importants dans la technologie MS ces dix dernières années a permis à plus d’une identification complète et quantification des protéomes, rendant les données comparables avec transcriptomique¹. Proteogenomics et multi-omics comme moyens d’intégrer les données de la NGS et MS sont devenues puissantes approches pour évaluer les processus cellulaires sur plusieurs niveaux moléculaires, identification des sous-types de cancer et menant à nouvelles cibles de médicaments potentiels dans cancer² ^, ³. il est important de noter que proteogenomics a été initialement utilisé pour fournir la preuve de la protéomique pour gene et transcription annotations⁴. Plusieurs gènes qu’on croyait être non codantes ont récemment été réévaluation sujet de tissus humains à grande échelle de données⁵^,⁶^,⁷. En outre, des données protéomiques sont utilisées avec succès pour soutenir les efforts de l’annotation dans les organismes non-modèle⁸^,⁹. Cependant, proteogenomic intégration de données exploitables à la suite de l’expression protéique fait saillant en ce qui concerne les caractéristiques génomiques et élucider la diaphonie entre les protéines et les transcriptions en fournissant un système combiné de référence et des méthodes pour visualisation Co.

Afin de fournir une référence commune pour les données de génomique, transcriptomique et protéomique, nombreux outils ont été appliquées pour les peptides de mappage identifiés par MS sur génome coordonnées¹⁰^,¹¹^,¹² ^,¹³^,¹⁴^,¹⁵^,¹⁶^,¹⁷. Approches diffèrent des aspects tels que la référence de mappage, prise en charge des navigateurs de génome et degré d’intégration avec d’autres outils de protéomique, comme illustré à la Figure 1. Tandis que certains outils carte inverses peptides traduits sur un génome¹⁶, d’autres utilisent une position moteur annoté de recherche dans une annotation de protéines et de gènes pour reconstituer la séquence nucléotidique de la peptide¹⁵. Encore d’autres utilisent une traduction de 3 ou 6-image du génome pour mapper les peptides contre¹¹^,¹³. Enfin, plusieurs outils de sauter les séquences nucléotidiques et utilisent les traductions de séquence d’acides aminés de transcriptions de RNA-sequencing mappé comme intermédiaire pour mapper des peptides sur le génome associé coordonnées¹⁰^,¹²^, ¹⁴^,¹⁷. Cependant, la traduction de séquences de nucléotides est un processus lent et bases de données personnalisées sont sujettes à des erreurs qui se propagent à la cartographie peptidique. Pour la cartographie rapide et haut-débit, une référence petite et complet est cruciale. Référence protéique normalisé avec coordonnées de génome associé est donc essentielle pour le peptide précis à la cartographie du génome. Nouveaux aspects dans la proteogenomics, telles que l’incorporation des variantes et des modifications post-traductionnelles (PTMs)²^,³, sont accélèrent grâce à des études récentes. Cependant, ceux-ci sont généralement pas supportés par courant proteogenomic outils de cartographie, comme illustré à la Figure 1. Pour améliorer la rapidité et la qualité de la cartographie, PoGo a développé un outil qui permet la cartographie rapide et quantitative des peptides de génomes¹⁸. En outre, PoGo permet la cartographie des peptides avec jusqu'à deux variantes de la séquence et les modifications post-traductionnelles annotées.

PoGo a été développé pour faire face à l’accroissement rapide des ensembles de données haute résolution quantitative capture protéomes et modifications globales et fournit un utilitaire central pour des analyses à grande échelle, comme la variation individuelle et de la médecine de précision. Cet article décrit l’application de cet outil pour visualiser la présence de modification post-traductionnelle en ce qui concerne les caractéristiques génomiques. En outre, cet article met en évidence l’identification des événements d’épissage alternatif par le biais de peptides mappés et la cartographie des peptides identifiés par le biais de bases de données personnalisées variant d’un génome de référence. Ce protocole utilise des ensembles de données accessibles au public téléchargé à partir de la fierté archive¹⁹ pour démontrer ces fonctionnalités de PoGo. En outre, ce protocole décrit la demande de TrackHubGenerator pour la création des centres d’accessibles en ligne de peptides mappées aux génomes d’études proteogenomics à grande échelle.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. préparation, téléchargement et installation

NOTE : Les exemples de chemin d’accès de fichier et de dossier sont montrées sous Windows pour la facilité d’accès pour les utilisateurs standard. PoGo et PoGoGUI sont également disponible pour macOS et systèmes d’exploitation Linux.

Télécharger PoGo et PoGoGUI de GitHub
1. Ouvrez un navigateur web et accédez à PoGo sur GitHub (http://github.com/cschlaffner/PoGo/). Communiqués de sélectionner et télécharger le dernier fichier compressé zip de libération. Extraire le fichier compressé dans le dossier de fichiers exécutables (par exemple, C:\PoGo\executables\).
2. Naviguer dans le navigateur web pour PoGoGUI sur GitHub (http://github.com/cschlaffner/PoGoGUI/). Sélectionner les rejets et téléchargez le dernier fichier de sortie pot (par exemple, « PoGoGUI-v1.0.2.jar »). Stocker le fichier jar dans le dossier de fichiers exécutables.
Télécharger l’annotation du génome et des séquences codant pour des protéines traduites
NOTE : Télécharger l’annotation du génome et traduit des séquences codant pour des protéines pour les espèces prises en charge de GENCODE⁷ (www.gencodegenes.org) ou Ensembl²⁰ (www.ensembl.org) dans le Format de transfert général (FTE) et les séquences protéiques dans Format FASTA.
1. Dans le navigateur web, accédez à www.gencodegenes.org et sélectionnez données | Humaine | Version actuelle. L' annotation de gène complet via le lien de la FTE de télécharger et décompresser le fichier gz-compressé dans le dossier de données (par exemple, C:\PoGo\Data\) à l’aide d’un programme de décompression (par exemple7-Zip).
2. Télécharger les séquences de traduction transcription codant pour des protéines via le lien FASTA et décompresser le fichier gz-compressé dans le dossier de données généré à l’étape précédente.
  1. Sinon, dans le navigateur web à www.ensembl.org et sélectionnez téléchargements suivie de Télécharger des données par FTP. Trouver une espèce de prise en charge (par exemple, l’homme). Téléchargez le dernier fichier de sortie pour l’annotation de transcription utilisant le lien FTE dans la colonne de gène définie . Choisissez le fichier avec structure de nom « species.release.gtf.gz » et extraire le fichier gz-compressé dans le dossier de données.
3. Télécharger la dernière version de séquences de traduction transcription codant pour des protéines à l’aide de la FASTA lien dans la colonne de séquence protéique (FASTA) . Choisissez le fichier avec la structure de nom « species.release.pep.all.fa.gz » et extraire le fichier gz-compressé dans le dossier de données.
Préparer les dossiers d’identification de peptide
NOTE : PoGo supporte uniquement la forme de 4 colonnes contenant l’identificateur de l’échantillon, séquence peptidique, nombre de peptide-spectre-matches (MPS) et la valeur quantitative. Cependant, PoGoGUI supports d’identification normalisé fichier formats mzIdentML, mzid et mzTab et les convertit en format de 4 colonnes de PoGo du cadre accessibles ms-data-base-api²¹. Fichiers en format mzTab, mzid ou mzIdentML peuvent être téléchargés de la fierté archive¹⁹. Alternativement, les données peuvent être fournies dans un format de fichier séparé par des tabulations avec l’extension .tsv ou .pogo. Le format contient 4 colonnes avec les en-têtes de colonne suivants : identificateur d’échantillon (Sample), séquences peptidiques (Peptide), nombre de peptide-spectre-matches (MPS) et au dosage de peptide (Quant). Un exemple est illustré à la Figure 2.
1. Télécharger un exemple de fichier au format mzTab d’une étude protéomique sur testicule humain de la fierté archive¹⁹ (https://www.ebi.ac.uk/pride/archive/projects/PXD006465/files²²).
2. Enregistrer et extraire le fichier gz-compressé dans le dossier de données créé à l’étape 1.2.1.
  NOTE : Également télécharger des données d’exemple pour phosphoprotéomique humaine recherchées avec les MaxQuant de l’archive de fierté (fichier « Traktman_2013_MaxQuantOutput-full.zip » du https://www.ebi.ac.uk/pride/archive/projects/PXD005246/files²³).
3. Enregistrer et extraire le fichier compressé zip dans le dossier de données qui a été créé à l’étape 1.2.1.
4. Ouvrez une feuille de calcul vide et importez le fichier peptides.txt du dossier C:/PoGo/Data/Traktman_2013_MaxQuantOutput-plein/combiné/txt/à l’aide de l’option données | De texte/CSV. Dans la fenêtre d’ouverture, cliquez sur modifier.
5. Supprimez toutes les colonnes à l’exception de la « Séquence », « Expérience BR1 », « Expérience BR2 », « Expérience BR3 », « Ratio H/L normalisées BR1 », « Ratio H/L normalisé BR2 », et « Ratio H/L normalisées BR3 ».
6. Sélectionnez les colonnes « Ratio H/L normalisé BR1 », « Ratio H/L normalisées BR2 », et « Ratio H/L normalisées BR3 » et cliquez sur Transform | UNPIVOT colonnes. Sélectionnez les colonnes « BR1 Experiment », « Expérience BR2 » et « Expérience BR3 » et répéter l’opération unpivot.
7. Sélectionnez la colonne résultante « Attribute » et diviser le contenu à l’aide de Transform | Diviser la colonne | Par délimiteur. Sélectionnez l’espace comme délimiteur dans le menu déroulant. Répétez l’opération pour la colonne « Attribute.1 ».
8. Supprimez les colonnes qui en résulte « Attribute.1.1 », « Attribute.2 », « Attribute.3 » et « Attribute.1.1.1 ».
9. Ajouter une colonne à l’aide de la Ajouter une colonne | Colonne personnalisée option. Adapter la formule de colonne personnalisés pour représenter ce qui suit : « = [Attribute.4]=[Attribute.1.2] ».
10. Appliquer un filtre pour la colonne personnalisée généré pour filtrer toutes les lignes contenant « FALSE » ; seules les lignes qui contiennent des « TRUE » restera.
11. Supprimez les colonnes « Attribute.1.2 » et « Custom » et changer l’ordre des colonnes restantes à ce qui suit : « Attribute.4 », « Sequence », « Value.1 » et « Valeur ».
12. Changer les noms des colonnes de le « Expérience », « Peptide », « Audiotel » et « Quant », respectivement. Chargez le fichier à l’aide de Accueil | Fermer & charger.
13. Enregistrez le fichier sous un fichier délimité par des tabulations à l’aide de fichier | Enregistrer sous et sélectionnez le type « Texte (séparateur : tabulation) (*.txt) ». Remplacez le nom « peptides_pogo.txt » et enregistrez-le dans le dossier C:/PoGo/données.

2. cartographie des Peptides avec des Modifications post-traductionnelles annotées et visualisation, y compris la quantification

Remarque : Le fichier de sortie peut être chargé dans n’importe quel navigateur de génome supportant le format de données Extensible navigateur (lit). Une sélection des navigateurs est le navigateur de génomique intégrative (IGV)²⁴ (qui sert par la suite), l' UCSC Genome Browser²⁵et l' Ensembl Genome Browser²⁰. Il est important de noter que les versions annotation GTF et protéine FASTA utilisées pour le mappage de PoGo correspond à la version du génome dans le navigateur de génome. Pour les versions GENCODE 3d-19 et d’une humaine Ensembl communiqués 57-75, utiliser GRCh37/hg19 ; pour les versions Ensembl 76 ou supérieures et GENCODE 20 ou plu, utiliser GRCh38/hg38. Pour les versions de Ensembl de souris 74 ou supérieures et le GENCODE M2 ou plus, utilisez GRCm38.

Carte de peptides à l’aide de PoGoGUI (voir Figure 3).
1. Naviguez jusqu’au dossier de fichiers exécutables. Démarrez le programme en double-cliquant sur l’icône PoGoGUI-vX.X.X.jar.
  Remarque : L’interface utilisateur graphique débutera vers le haut et permettent une sélection simple et visuelle des options.
2. Utilisez le bouton Sélectionner en regard de l’exécutable « PoGo ». Puis, naviguez dans le dossier de fichiers exécutables dans le sous-dossier de systèmes d’exploitation pertinents (p. ex., C:\PoGo\Executables\Windows\). Sélectionnez le fichier exécutable de PoGo (p. ex., PoGo.exe) et confirmer son choix en cliquant sur le bouton ouvrir .
3. Sélectionnez le fichier d’entrée de référence pour les séquences protéiques en cliquant sur Sélectionner. Placez-vous dans le dossier de données, puis sélectionnez le fichier de traduction FASTA. Confirmer sa sélection en cliquant sur le bouton ouvrir .
4. Sélectionnez le fichier d’annotation de transcription à l’aide de la touche Select . Placez-vous dans le dossier de données et sélectionnez le fichier d’annotation GTF. Confirmez la sélection en cliquant sur le bouton ouvrir .
5. Ajoutez le fichier d’identification de peptide — sélection de plusieurs fichiers est activée, en utilisant le bouton Ajouter à côté de « Peptide Files ». Sélectionnez un fichier dans le format pris en charge mzTab, mzIdentML ou mzid, ou dans le format de 4 colonnes séparées par des tabulations téléchargé et préparé à l’étape 1.3.
6. Décochez les cases à cocher à côté de lit et FTE dans la sélection de formats de sortie. Seulement laisser PTM lit et GCT vérifié.
7. Sélectionnez l’espèce appropriée pour les données dans la liste déroulante. Il est essentiel que le fichier FASTA, le fichier GTF et la sélection du menu déroulant sont de la même espèce.
8. Début du mappage en cliquant sur le bouton Démarrer .
  Remarque : Si nécessaire, PoGoGUI va convertir le fichier d’entrée dans format de pogo, fournir les fichiers de pogo dans le même dossier pour plus de commodité future et démarrer le processus de mappage. La conversion d’un fichier unique mzTab téléchargé à l’étape 1.3.1 durera entre 10-20 min avant le début de la cartographie.
Visualisation dans la visionneuse de génomique intégrative
Remarque : Voir la Figure 4.
1. Charger le fichier de sortie de PoGo se terminant par « _ptm.bed » dans l’IGV à travers fichier | Charger un fichier et sélectionnez le fichier.
  Remarque : En raison de la taille, certains fichiers peuvent nécessiter la génération d’un index pour permettre un rechargement rapide des régions génomiques. L’IGV invitera l’utilisateur automatiquement à la génération. Suivez les instructions indiquées.
2. Répétez l’étape de chargement du fichier se terminant par « _noptm.bed ». Ce fichier contient tous les peptides trouvés sans aucune modification.
3. Notez que chaque fichier chargé s’afficheront comme des pistes séparées avec le nom de fichier, identifiant la piste. Réorganiser les pistes en faisant glisser et en les déposant dans la position souhaitée dans la liste.
4. Notez que chaque piste est initialement montré d’une manière s’est effondrée. Pour les développer, faites un clic droit sur le nom de la piste et sélectionnez soit élargi pour une vue complète des peptides dont les séquences soit écrasée pour une vue empilée.
5. Répétez l’étape de chargement du fichier se terminant par « .gct ». Ce fichier contient le dosage du peptide par échantillon annoté.
6. À la différence pour les fichiers chargés ci-dessus, chaque échantillon annoté sera chargé comme une piste séparée. Réorganiser les échantillons par glisser et déposer des opérations.
7. Naviguer dans le génome en sélectionnant un chromosome dans le menu déroulant, tapez dans les coordonnées de la génomiques, Rechercher un symbole de gène, ou cliquez et maintenez pour sélectionner une partie d’un chromosome pour effectuer un zoom avant.

3. cartographie des Peptides identifiés grâce à une base de données personnalisée Variant d’un génome de référence

NOTE : PoGo cartographie peut se faire à l’aide de l’interface utilisateur graphique (GUI) ou par l’intermédiaire de l’interface de ligne de commande. Ils sont interchangeables. Dans cette partie du protocole, l’interface de ligne de commande est utilisée pour mettre en évidence d’interchangeabilité. La deuxième partie de cet article du protocole exige que le logiciel outil R²⁶. Veuillez vous assurer que le package est installé.

Mapper les peptides de référence sur le génome de référence.
1. Ouvrez une invite de commande (cmd) et placez-vous dans le dossier de fichiers exécutables de PoGo (p. ex., C:\PoGo\Executables\).
2. Tapez la commande suivante :
  PoGo.exe - FTE \PATH\TO\GTF fasta - \PATH\TO\FASTA-en \PATH\TO\IN-lit le format-espèces MYSPECIES
  1. Remplacez le \PATH\TO\GTF, \PATH\TO\FASTA et \PATH\TO\IN avec les chemins de l’annotation GTF, séquence protéique FASTA et peptide identification fichier (au format 4-colonne avec fichier se terminant « .tsv » ou « .pogo ») respectivement. Aussi remplacer MYSPECIES avec les espèces compatibles avec les données (par exemple, l’homme).
3. Confirmez l’exécution en appuyant sur la touche « Enter ». Attendre jusqu'à ce que l’exécution est terminée avant de progresser tout plus loin.
  Remarque : Cela peut prendre quelques minutes. Le fichier sera stocké dans le même dossier que le fichier d’entrée de peptide et est considéré comme des \PATH\TO\OUT.pogo.bed dans ce qui suit.
Extraire uniquement variantes peptides du fichier d’entrée.
1. Ouvert R et charge l’entrée du fichier \PATH\TO\IN à l’aide de la commande suivante :
  inputData <-read.table("PATH/TO/IN",header=TRUE,sep="\t")
2. Charger les peptides déjà mappés à l’aide de la commande :
  mappedpeptides <-read.table("PATH/TO/OUT.pogo.bed",sep="\t",header=FALSE)
3. Supprimez les peptides qui ont été déjà mappés l’inputdata :
  peptidesnotmapped <-inputdata [ ! () inputData$ Peptide % en mappedpeptides % $V4)]
4. Imprimer les peptides non mappés dans un nouveau fichier d’entrée :
  Write.table (peptidesnotmapped, "PATH\TO\IN.notmapped.pogo", en-tête = FALSE, sep = "\t", col.names=TRUE,row.names=FALSE,quote=FALSE)
Mapper les peptides restants sur le génome de référence permettant aux incompatibilités.
1. Comme à l’étape 3.1, ouvrez l’invite de commandes et naviguez jusqu’au dossier de fichiers exécutables de PoGo.
2. Tapez la commande ci-dessous permettant 1 acide aminé incompatibilité et remplacer le \PATH\TO\GTF, \PATH\TO\FASTA et \PATH\TO\IN.notmapped.pogo avec les chemins de l’annotation GTF, séquence protéique FASTA et peptide identification fichier créé à l’étape 3.2. Aussi remplacer MYSPECIES avec les espèces compatibles avec les données (par exemple, l’homme).
  1. PoGo.exe - FTE \PATH\TO\GTF fasta - \PATH\TO\FASTA-en \PATH\TO\IN-lit le format-espèces MYSPECIES -mm 1
3. Confirmer l’exécution de la commande en appuyant sur la touche « Enter ». Attendre jusqu'à ce que l’exécution est terminée avant de progresser tout plus loin.
  Remarque : Cela peut prendre quelques minutes. Le fichier sera stocké dans le même dossier que le fichier d’entrée de peptide et est considéré comme des \PATH\TO\OUT.pogo_1MM.bed dans ce qui suit.
Visualiser les peptides mappés sans et avec décalage dans l’IGV comme indiqué au point 2.2.

4. cartographie à l’aide de plusieurs fichiers et générant des moyeux de piste pour les grands ensembles de données

Cartographie de peptides à partir de plusieurs fichiers à l’aide de PoGoGUI
1. Placez-vous dans le dossier de fichiers exécutables et démarrer le programme GUI en exécutant PoGoGUI-vX.X.X.jar.
2. Sélectionnez le fichier exécutable de PoGo pour le système d’exploitation utilisé (Linux ici), ainsi que le fichier de référence d’entrée protéines séquences FASTA et le fichier d’annotation GTF comme décrit aux étapes de protocole 2.1.2 - 2.1.4.
3. Ajoutez les fichiers d’identification de peptide en utilisant le bouton Ajouter à côté de « Peptide Files » ; sélection de plusieurs fichiers est activée, ainsi que de glisser-déplacer dans le champ vide dessous « Peptide Files ».
4. Décochez les cases à cocher à côté de lit de PTM, GTF et GCT dans la section formats de sortie et laisser seulement lit vérifié.
5. Sélectionnez l’option fusionner plusieurs fichiers d’entrée à sortie unique.
  Remarque : Cela se traduira dans un fichier de sortie unique combinant tous les peptides des fichiers d’entrée. Laisser cette option désactivée se traduira par une exécution séquentielle du programme pour chaque fichier d’entrée séparément.
6. Sélectionnez l’espèce appropriée pour les données dans la liste déroulante compatible avec les fichiers FASTA et GTF.
7. Début du mappage en cliquant sur le bouton Démarrer . Si nécessaire, le programme permet de convertir les fichiers d’entrée dans le format de pogo. Cela pourrait prendre un certain temps à exécuter. En attendant, téléchargez les scripts et outils requis pour la génération de moyeu piste.
Préparation de piste moyeu génération
1. Ouvrez un navigateur web, accédez à https://github.com/cschlaffner/TrackHubGenerator et télécharger le fichier « TrackHubGenerator.pl ». Enregistrez le fichier dans le dossier de fichiers exécutables.
2. Dans le navigateur web, accédez à www.hgdownload.soe.ucsc.edu/admin/exe/ et sélectionnez le dossier pour le système d’exploitation utilisé (Linux ici). Téléchargez l' outil bedToBigBed et le script fetchChromSizes dans le dossier de fichiers exécutables²⁷.
Générer un moyeu piste de peptides mappés
NOTE : A la fin PoGoGUI cartographie les peptides, un moyeu piste peut être généré automatiquement pour tous les fichiers au format lit stocké dans le même dossier.
1. Ouvrez une fenêtre de terminal et tapez la commande suivante :
  Perl TrackHubGenerator.pl chemin/de/nom ASSEMBLY FBED UCSC EMAIL
  1. PATH/TO/nom de substitution avec un chemin d’accès et nom du centre de la piste (p. ex., ~/PoGo/Data/Mytrackhub), ASSEMBLY avec l’ensemble du génome sur lequel l’annotation est basé (par exemple, hg38 pour l’homme), FBED avec le chemin vers le dossier contenant les LIT les fichiers sur lequel s’appuiera le moyeu piste (p. ex., ~/PoGo/Data/), UCSC avec le dossier où sont stockés les outils téléchargés depuis UCSC (p. ex., ~/PoGo/Executables/) et par courriel avec une adresse de courriel à la personne responsable de la piste plaque tournante.
2. Confirmer l’exécution en appuyant sur la touche « Entrée » ; l’exécution ne prendra un peu de temps pour terminer.
3. Transférer le moyeu piste généré (par exemple, le dossier créé ~/PoGo/Data/Mytrackhub/) avec tout son contenu vers un serveur FTP accessible par le web.
  Remarque : Il est préférable d’un serveur FTP avec un serveur web associé permettant l’accès à la plate-forme de la voie via les protocoles ftp et http. Les référentiels github (github.com) et figshare (figshare.com) prend en charge ce type d’accès et peuvent être utilisés au lieu d’un serveur FTP.
Visualisation d’un moyeu de piste dans le navigateur de génome UCSC
1. Dans un navigateur web, accédez à https://genome.ucsc.edu/ et sélectionnez MyData | Suivre les moyeux. Cliquez sur l’onglet Mes moyeux.
2. Copiez l’adresse URL du moyeu piste dans le champ de texte.
  Remarque : L’URL comprend le fichier hub.txt (par exemple, http://ngs.sanger.ac.uk/production/proteogenomics/WTSI_proteomics_PandeyKusterCutler_tissues_hi/hub.txt) et nom, l’adresse du serveur et la situation de moyeu piste.
3. Charger le moyeu piste en cliquant sur Ajouter Hub.
  Remarque : Le moyeu sera chargé et un court message s’affiche, indiquant le moyeu piste par exemple son nom, les coordonnées de la personne responsable du centre de la piste, et utiliser l’ensemble du génome. Le site renvoie à la page d’accueil.
4. Sélectionnez GenomeBrowser pour entrer dans la vue navigateur.
  Remarque : Le moyeu piste personnalisé s’affiche en haut de la liste. Si plusieurs fichiers lit construit la base pour le moyeu piste, chacun des fichiers sera représenté comme une piste séparée du moyeu.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Une représentation graphique mettant en évidence au cours de laquelle scène d’un workflow de protéomique régulière PoGo¹⁸ est appliqué, ainsi que les options en aval de la visualisation est illustré à la Figure 5. Shotgun proteomics (c.-à-d., la digestion protéolytique des protéines suivie par chromatographie liquide couplée à la spectrométrie de masse) est une étape préliminaire de mappage proteogenomic. Les spectres de masse en tandem qui en résulte sont communément comparés aux spectres théoriques provenant de bases de données de séquence protéique. Proteogenomics études introduisent des séquences de traduction des nouvelles transcriptions avec codage des variantes de nucléotides non-synonymes et potentiels (SNVs) dans la base de données, qui rend difficile de relier facilement ces dos pour le génome de référence⁸. L’interface utilisateur graphique de PoGo (PoGoGUI) prend en charge les formats de fichier pour l’établissement de rapports normalisés d’identifications de peptide des expériences de spectrométrie de masse et les convertit au format simplifié 4-colonne pogo. PoGoGUI encapsule l’outil de ligne de commande PoGo et permet ainsi la cartographie des peptides sur génome coordonnées utilisant l’annotation de référence des gènes codant pour des protéines, généralement fourni dans le GTF et les séquences de transcription traduite au format FASTA. Différents formats de sortie sont générés par PoGo pour permettre la visualisation des différents aspects des peptides identifiés par le biais de la spectrométrie de masse, y compris les modifications post-traductionnelles et quantification niveau peptidique. Les fichiers de sortie dans le lit peuvent encore être convertis et regroupées dans des répertoires accessibles en ligne appelés moyeux piste. Les fichiers de sortie unique, mais aussi des moyeux piste, puis peut être visualisées dans les navigateurs tels que l’UCSC Genome Browser²⁵, Ensembl Genome Browser²⁰, IGV²⁴et Biodalliance²⁸ (voir en bas de la Figure 5 ).

Nous avons appliqué le PoGo à la réanalyse du projet human proteome cartes filtrée avec grande importance tel que décrit dans Wright et al. ⁷ et l’a comparée aux deux autres outils pour la cartographie proteogenomic, nommément iPiG¹⁴ et PGx¹⁰. L’ensemble de données composé des peptides uniques 233 055 59 tissus foetus et adultes, ce qui donne un total de séquences plus 3 millions. PoGo a surpassé ces outils à la fois en mode exécution (6,9 x et 96,4 x plus rapide, respectivement) et utilisation de la mémoire (20 % et 60 % moins de mémoire, respectivement) comme illustré à la Figure 6¹⁸. Un exemple d’un peptide correctement mappé est illustré à la Figure 7.

Alors que le PoGo a nettement surclassé les autres outils en vitesse et mémoire, il est également capable de modifications post-traductionnelles de cartographie et de données quantitatives associées à des peptides sur le génome. Figure 8 a représente schématiquement la visualisation du format lit dans un navigateur du génome pour la cartographie d’un exon et à travers des peptides d’épissure jonctions. PoGo utilise l’option de coloriage pour fournir facile aide visuelle à l’égard de l’unicité de la cartographie des peptides dans le génome. Mappages en rouge indiquent la singularité d’une transcription unique, tout en noir souligne mappage à un seul gène. Toutefois, le peptide est partagé entre différentes transcriptions. Mappages de gris montrent un peptide partagé entre plusieurs gènes. Voici, par exemple, moins fiable pour la quantification d’un gène ou peu fiable pour appeler l’expression d’un gène. L’option lit PTM de PoGo redéfinit le code de couleur pour s’adapter à différents types de modifications post-traductionnelles comme illustré en Figure 8 b. En outre, MEA est indiqués par des blocs épais (voir Figure 8 b). Un PTM unique d’un type est mis en surbrillance par un bloc épais à la position du résidu d’acide aminé modifié, tandis que SPTM multiples du même type est traversés par un bloc épais de mis à jour le premier acide aminé à la dernière.

Nous avons appliqué la PoGo, puis TrackHubGenerator à un dataset de 50 lignées cellulaires de cancer colorectal notamment tout protéome et phosphoproteome²⁹. Bien que le moyeu piste chargé dans l’UCSC Genome Browser montre les peptides mappés au génome et met en lumière le caractère unique des mappages et les sites de phosphorylation (voir Figure 9), des données supplémentaires sont fournies dans le dossier supplémentaire. Les fichiers GCT puis activer la visualisation de la quantification de peptide et phosphopeptide dans un contexte génomique. Toutefois, les fichiers GCT ne fournissent pas une visualisation facile des peptides s’étendant à travers épissure jonctions (voir le haut de la Figure 10 ). Les peptides travers épissure jonctions sont divisées en leurs parties respectives de cartographie pour les exons. Bien qu’il soit possible d’identifier des peptides d’épissure par les mêmes valeurs quantitatives des mappages d’exon, mappage basé sur les séquences de chargement des fichiers comme lit ou FTE qui relient les exons par un intron mince s’étendant sur la ligne de support l’interprétation (voir la Figure 10 en bas).

Pour mettre en évidence l’utilité de la variante a permis à la cartographie, nous avons appliqué le PoGo en deux configurations à un dataset du testicule humain proteome recherché contre neXtProt de chasser pour protéines manquantes à l’aide d’une stratégie multi-enzymatique²². Le neXtProt comprend, en plus de séquences de protéines de référence, plus 5 millions seul acide aminé variantes³⁰. Cartographie des peptides identifiés par une seul acide aminé variante n’est pas supporté par d’autres outils de cartographie. Un total de 177 012 peptides uniques ont été identifiés. Parmi ceux-ci, peptides de 99,8 % (176 694) ont été tout d’abord correctement mappés sans permettre des non-correspondances. Enlevant ceux de la liste de peptide identifiés ont entraîné des peptides de 0,2 % (318) qui par la suite ont été cartographiés permettant une substitution d’acide aminé. Il en est résulté 3 446 mappages de 162 peptides qui n’auraient pas ont été cartographiées dans le génome de référence avec n’importe quel autre outil disponible. Tandis que le nombre moyen de mappages, y compris une incompatibilité est élevé, 62 peptides ont été cartographiés pour seulement un seul locus, indiquant des séquences variantes vrais. Un exemple d’un peptide mappé à une seul acide aminé de substitution est mis en évidence avec sa séquence et la séquence génomique traduite à la Figure 11.

figure-results-1
Figure 1. Comparaison visuelle des outils différents cartographie peptidique-à-génome. La comparaison est montrée en ce qui concerne les divers aspects. Ces aspects comprennent une référence de mappage, le niveau d’intégration dans les cadres et la prise en charge des navigateurs en ligne et hors ligne. En outre, les nouveaux aspects de proteogenomics et leur prise en charge de la fonctionnalité est surlignée séparément. PoGo manque seulement la capacité de mapper directement à une séquence du génome par rapport à d’autres outils. Toutefois, il prend en charge toutes les fonctionnalités nouvelles qui la plupart des autres outils ne supporte pas. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

figure-results-2
Figure 2. Exemple de fichier d’entrée pour les peptides cartographie. PoGo accepte d’entrée de données dans un format séparé par des tabulations avec 4 colonnes. En-têtes de colonnes dans la première ligne sont « Expérience », « Peptide », « MPS » et « Quant », indiquant dans les lignes suivantes l’expérience ou identificateur de l’échantillon, la séquence peptidique, le nombre de correspondances de peptide-spectre et une valeur quantitative pour le peptide, respectivement. Les extensions de nom de fichier pris en charge sont *.txt, *.tsv et *.pogo. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

figure-results-3
Figure 3. PoGoGUI interface avec des étapes en surbrillance pour la sélection de fichier et les options de paramètre. La figure montre les étapes de sélection et de télécharger tous les fichiers requis et la sélection des options pour les peptides de la cartographie avec des modifications post-traductionnelles sur le génome humain de référence. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

figure-results-4
Figure 4. Capture d’écran des données Viewer de génomique intégrative (IGV) Télécharger procédure. La figure met en évidence les étapes pour le téléchargement des fichiers de sortie de PoGo dans l’Explorateur de l’IGV. En outre, il montre la possibilité d’élargir la voie ferrée de peptides mappés pour mettre en évidence de la cartographie et la séquence. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

figure-results-5
Figure 5. Simplifié des flux de travail d’étapes de LC-MS/MS pour la visualisation dans les navigateurs de génome. Cartographie de PoGo fait suite à l’identification des peptides de spectres de masse en tandem. Pour réaliser la cartographie du génome, PoGo utilise annotation de référence fournie comme annotation du génome (GTF) et les séquences de traduction transcription (FASTA). Sortie différents formats sont générés qui peut être chargé séparément dans les navigateurs de génome. En outre, les fichiers au format lit peuvent être combinés dans moyeux piste soutenant la visualisation de données à grande échelle. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

figure-results-6
Figure 6. Analyse comparative de PoGo contre PGx et iPiG. PoGo surpasse les autres outils sur l’analyse comparative. Cartographie des peptides uniques 233 055 travers 59 tissus adultes et foetaux, résultant en plus 3 millions de séquences, PoGo était x 6,9 et 96,4 x plus rapide que PGx et iPiG, respectivement. En outre, PoGo requis de 20 % et 60 % moins de mémoire par rapport à PGx et iPiG, respectivement. PoGo et PGx qui termine avec succès, iPiG a entraîné une erreur de mémoire de 16 Go. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

figure-results-7
Figure 7. UCSC Genome browser exemple vue de peptides mappés. La figure montre les peptides mappées sur le gène mTOR. Alors que la piste combinée montre les peptides s’étendant à travers des jonctions d’épissure et de cartographie uniquement d’un exon avec les séquences associées, les morceaux de tissu-spécifique que mettre en évidence la cartographie sous une forme condensée. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

figure-results-8
Figure 8. Schéma de mappage de visualisation et codage couleur. (A) dans le fichier de sortie de lit standard, les peptides, cartographie d’un exon sont affichés sous forme d’Uniblock (à gauche), tandis que des peptides cartographie à travers plusieurs exons point culminant l’exon couvrant une partie sous forme de blocs (à droite). Introns figurent aussi minces concaténation lignes. PoGo code l’unicité de cartographie ou de peptides à gènes et des transcriptions en utilisant un système à 3 couches. (B) en plus de la structure de bloc du format lit, lit de PTM sortie met en évidence la position des modifications post-traductionnelles comme blocs épais. La présence d’un PTM unique d’un type met en évidence le résidu d’acide aminé modifié avec une cale d’épaisseur, tandis que plusieurs sites de la PTM même sont regroupés en blocs de longs qui s’étend de la première du dernier site de modification. Mappages de peptide sont ensuite répartis selon leur codec basé sur la modification de la couleur et le type de PTM. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

figure-results-9
Figure 9. Suivre moyeu afficher dans le navigateur de génome UCSC de données protéome et phosphoproteome de cancer colorectal. Le moyeu piste comprend proteome entières données comme phosphoproteome. Alors que la couleur rouge dans les voies du protéome et phosphoproteome indiquent l’unicité de la cartographie à la simple transcription de la SFN, les titres se terminant par _ptm montrent les sites de phosphorylation au sein de peptides. Ici, la couleur rouge indique le type de modification comme la phosphorylation. Seulement deux peptides ont été identifiés avec chaque montrant une phosphorylation unique (blocs épais). S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

figure-results-10
Figure 10. Vue du cancer colorectal phosphopeptides et au dosage associé en IGV. La figure montre un sous-ensemble des lignées cellulaires du 50 cancer. Elle brille en outre en quatre colonnes de blocs dans différentes nuances de lumière rouge. La couleur indique l’abondance relative de basse (blanc) à élevé (rouge). Alors que les quatre colonnes pourraient conduire au départ de croire qu’il y a 4 peptides, il devient évident avec l’axée sur la séquence GTF sortie fichier associé que ce sont en fait deux peptides, chacun couvrant une jonction d’épissure. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

figure-results-11
Figure 11. Vue du peptide avec variante d’acides aminés en IGV. La figure montre un peptide avec une seul acide aminé variante mappée sur le génome de référence au début du gène GPSM1traduction. La variante est positionnée au résidu d’acide aminé 8 et aboutit à la substitution d’alanine à valine (A→V). Les séquences de traduction de la transcription annotée (bleue) mettent en évidence la variante par rapport à la séquence peptidique. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ce protocole décrit comment l’outil logiciel PoGo et son interface utilisateur graphique PoGoGUI permettent une cartographie rapide des peptides sur coordonnées du génome. L’outil offre des fonctions uniques telles que modification poteau-de translation quantitative et variante compatible cartographie aux génomes en utilisant l’annotation de référence. Cet article illustre la méthode sur une étude de grande envergure proteogenomic et met en évidence son efficacité de vitesse et de la mémoire par rapport aux autres outils disponibles¹⁸. En combinaison avec l’outil TrackHubGenerator, qui crée des moyeux accessibles en ligne de génomique et de génome données liées, PoGo, grâce à son interface utilisateur graphique, études proteogenomics à grande échelle permet de visualiser rapidement leurs données en contexte génomique. En outre, nous montrons les caractéristiques uniques du PoGo avec les ensembles de données recherchées contre des bases de données variant et quantitative phosphoprotéomique²²^,²⁹.

Les fichiers uniques, tels que le fichier GCT, fournissent visualisation utile et liens entre les caractéristiques de peptide et locus génomiques. Toutefois, il est important de noter qu’une interprétation fondée sur ces seuls peut-être difficile, voire trompeuse en raison des limitations des aspects unique de proteogenomics telles que les valeurs quantitatives, modifications post-traductionnelles et unicité. Par conséquent, il est important de bien choisir quels fichiers de sortie, les options et combinaisons sont appropriés pour la question proteogenomic à portée de main et de modifier les combinaisons. Par exemple, informations sur l’unicité de la cartographie à un locus génomique spécifique peuvent être d’une grande valeur pour l’annotation d’une caractéristique génomique⁷, tandis que la quantification dans des échantillons différents peut-être être plus appropriée pour les études relatives caractéristiques génomiques à l’évolution de l’abondance de protéine²⁹. La sortie doit être générée par PoGo pour chaque paramètre. Dans le cas où aucune sortie n’est généré, ou fichiers vides apparaissent dans le dossier de sortie, il est recommandé de vérifier les fichiers d’entrée pour le contenu désiré et le format de fichier requis. Dans les cas où le format de fichier ou contenu ne suit pas les attentes de PoGo (par exemple, le fichier FASTA prétendument contenant les séquences de traduction transcription contient les séquences nucléotidiques des transcriptions), messages d’erreur demandera à l’utilisateur de Vérifiez les fichiers d’entrée.

Restrictions du protocole et de l’outil sont principalement basées sur la réutilisation des formats de fichier couramment utilisé en génomique. Recibler les formats de fichiers utilisés en génomique pour des applications de proteogenomic est accompagnée de restrictions particulières. Ceux-ci sont dus aux différents ensembles d’exigences pour la visualisation de génome centrée de la génomique et des données de proteogenomic, comme le besoin de visualiser les modifications post-traductionnelles de protéomique données. C’est limité dans les formats de fichier génomique par l’usage de la fonctionnalité unique. Beaucoup de méthodes et d’outils ont été développés pour la protéomique à localiser en toute confiance les modifications post-traductionnelles au sein de peptide séquences³¹^,³²^,³³^,³⁴. Cependant, la visualisation de plusieurs modifications de manière unique et discernable sur le génome est entravée par la structure des formats de fichier génomique. Par conséquent, la visualisation de monobloc de SPTM multiples du même type ne constitue pas une ambiguïté des sites de modification mais est la conséquence de l’exigence divergentes de la communauté de la génomique pour visualiser uniquement caractéristiques unique à la fois. Néanmoins, PoGo a l’avantage des modifications post-traductionnelles de cartographie sur la génomiques coordonnées pour permettre des études portant sur les effets des caractéristiques génomiques comme variantes de nucléotide sur modifications post-traductionnelles. À l’aide de PoGo, cartographie variante augmente le nombre de mappages de totales. Toutefois, le codage de la couleur unique de peptides mappés met en évidence les mappages fiables de ceux qui sont peu fiables. La cartographie des peptides variant identifié des variantes connues nucléotide peut s’accompagner en visualisant les peptides mappés aux côtés des variantes au format VCF. De cette façon le code couleur indiquant une cartographie peu fiable d’un peptide variant est annulée par la présence de la variante de nucléotides connue.

Une étape critique pour l’utilisation de PoGo est l’utilisation des fichiers corrects et formats. L’utilisation de séquences de transcription traduite sous forme de séquences de protéines pour accompagner l’annotation en format GTF est le critère principal. Un autre élément crucial lors de l’examen à l’aide de PoGo pour mapper des peptides avec acides aminés non-correspondances est mémoire. Bien que très économe en mémoire pour une application standard, le nombre significativement et exponentiellement croissant de possibles mises en correspondance avec un ou deux incompatibilités conduit à une augmentation exponentielle de la même façon à l' utilisation de mémoire¹⁸. Nous vous proposons une mise en scène de la cartographie comme décrit dans le présent protocole d’abord mapper les peptides sans les incompatibilités et les supprimer de l’ensemble. Les peptides précédemment non mappés ultérieures puis peuvent être mappés à l’aide d’un décalage et la procédure peut être répétée avec deux incompatibilités pour les peptides restant non mappés.

Étant donné que le débit de la spectrométrie de masse a considérablement augmenté et études génomiques d’interface et les données protéomiques sont de plus en plus fréquentes ces dernières années, les outils pour permettre facilement interfacer ces types de données dans le même système de coordonnées sont plus en plus indispensable. L’outil présenté ici aideront la nécessité de combiner génomiques et les données protéomiques à favoriser une meilleure compréhension des études intégrées à travers de petits et grands ensembles de données en mappant des peptides sur une annotation de référence. Fait encourageant, PoGo a été appliqué pour mapper les peptides aux candidats de gène fournis dans le même format que l’annotation de référence afin de soutenir l’annotation des gènes exprimés dans le testicule humain³⁵. L’approche présentée ici est indépendante des bases de données utilisées pour l’identification de peptide. Le protocole peut aider à l’identification et visualisation des produits de la nouvelle traduction en utilisant adapté des fichiers d’entrée de séquences de traduction et fichiers FTE de RNA-seq expériences connexes.

Plusieurs approches et outils avec un large éventail de scénarios d’application spéciale pour mapper les peptides aux coordonnées génomiques, allant de la cartographie des peptides directement à la séquence du génome au mappage de RNA-sequencing guidée, ont été introduits¹⁰^, ¹¹ ^, ¹² ^, ¹³ ^, ¹⁴ ^, ¹⁵ ^, ¹⁶ ^, ¹⁷. Cependant, ceux-ci peuvent provoquer un échec pour mapper correctement peptides lorsque les modifications post-traductionnelles sont présentes et d’erreurs dans le mappage sous-jacente se lit RNA-sequencing peuvent être propagés jusqu’au niveau de peptide. PoGo a été développé spécifiquement surmonter ces obstacles et de faire face à l’augmentation rapide des ensembles de données quantitatives protéomiques de haute résolution pour s’intégrer à des plates-formes de génomique orthogonale. L’outil décrit ici peut être intégré dans les workflows de haut débit. Par le biais de l’interface graphique PoGoGUI, l’outil est simple à utiliser et ne nécessite aucune formation de bioinformatique de spécialiste.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Les auteurs n’ont rien à divulguer.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ce travail a été financé par le Wellcome Trust (WT098051) et la subvention du NIH (U41HG007234) au projet GENCODE.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
PoGo (logiciel)	NA	NA	https://github.com/cschlaffner/PoGo
PoGoGUI (logiciel)	NA	NA	https://github.com/cschlaffner/PoGoGUI
TrackHubGenerator (logiciel)	NA	NA	https://github.com/cschlaffner/TrackHubGenerator
Integrative Genomics Viewer (logiciel)	NA	NA	http://software.broadinstitute.org/software/igv/
UCSC genome browser (site web)	NA	NA	https://genome.ucsc.edu/
GENCODE (site web)	NA	NA	http://gencodegenes.org
Ensembl (site web)	NA	NA	http://ensembl.org
bedToBigBed (logiciel)	NA	NA	http://hgdownload.soe.ucsc.edu/admin/exe/
fetchChromSizes.sh (logiciel)	NA	NA	http://hgdownload.soe.ucsc.edu/admin/exe/

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Mass-spectrometric exploration of proteome structure and function. Nature. 537 (7620), 347-355 (2016).">Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537 (7620), 347-355 (2016).
Proteogenomics connects somatic mutations to signalling in breast cancer. Nature. 534 (7605), 55-62 (2016).">Mertins, P., et al. Proteogenomics connects somatic mutations to signalling in breast cancer. Nature. 534 (7605), 55-62 (2016).
Integrated proteogenomic characterization of human high-grade serous ovarian cancer. Cell. 166 (3), 755-765 (2016).">Zhang, H., et al. Integrated proteogenomic characterization of human high-grade serous ovarian cancer. Cell. 166 (3), 755-765 (2016).
Proteogenomic mapping as a complementary method to perform genome annotation. Proteomics. 4 (1), 59-77 (2004).">Jaffe, J. D., Berg, H. C., Church, G. M. Proteogenomic mapping as a complementary method to perform genome annotation. Proteomics. 4 (1), 59-77 (2004).
Mass-spectrometry-based draft of the human proteome. Nature. 509 (7502), 582-587 (2014).">Wilhelm, M., et al. Mass-spectrometry-based draft of the human proteome. Nature. 509 (7502), 582-587 (2014).
A draft map of the human proteome. Nature. 509 (7502), 575-581 (2014).">Kim, M. S., et al. A draft map of the human proteome. Nature. 509 (7502), 575-581 (2014).
Improving GENCODE reference gene annotation using a high-stringency proteogenomics workflow. Nature Communications. 7, 11778(2016).">Wright, J. C., et al. Improving GENCODE reference gene annotation using a high-stringency proteogenomics workflow. Nature Communications. 7, 11778(2016).
Proteogenomics: concepts, applications and computational strategies. Nature Methods. 11 (11), 1114-1125 (2014).">Nesvizhskii, A. I. Proteogenomics: concepts, applications and computational strategies. Nature Methods. 11 (11), 1114-1125 (2014).
Non-model organisms, a species endangered by proteogenomics. Journal of Proteomics. 105, 5-18 (2014).">Armengaud, J., et al. Non-model organisms, a species endangered by proteogenomics. Journal of Proteomics. 105, 5-18 (2014).
PGx: putting peptides to BED. Journal of Proteome Research. 15 (3), 795-799 (2016).">Askenazi, M., Ruggles, K. V., Fenyo, D. PGx: putting peptides to BED. Journal of Proteome Research. 15 (3), 795-799 (2016).
ACTG: novel peptide mapping onto gene models. Bioinformatics. 33 (8), 1218-1220 (2017).">Choi, S., Kim, H., Paek, E. ACTG: novel peptide mapping onto gene models. Bioinformatics. 33 (8), 1218-1220 (2017).
ProteoAnnotator-open source proteogenomics annotation software supporting PSI standards. Proteomics. 14 (23-24), 2731-2741 (2014).">Ghali, F., et al. ProteoAnnotator-open source proteogenomics annotation software supporting PSI standards. Proteomics. 14 (23-24), 2731-2741 (2014).
PGMiner reloaded, fully automated proteogenomic annotation tool linking genomes to proteomes. Journal of Integrative Bioinformatics. 13 (4), 293(2016).">Has, C., Lashin, S. A., Kochetov, A. V., Allmer, J. PGMiner reloaded, fully automated proteogenomic annotation tool linking genomes to proteomes. Journal of Integrative Bioinformatics. 13 (4), 293(2016).
iPiG: integrating peptide spectrum matches into genome browser visualizations. PLoS One. 7 (12), e50246(2012).">Kuhring, M., Renard, B. Y. iPiG: integrating peptide spectrum matches into genome browser visualizations. PLoS One. 7 (12), e50246(2012).
Tools to covisualize and coanalyze proteomic data with genomes and transcriptomes: validation of genes and alternative mRNA splicing. Journal of Proteome Research. 13 (1), 84-98 (2014).">Pang, C. N., et al. Tools to covisualize and coanalyze proteomic data with genomes and transcriptomes: validation of genes and alternative mRNA splicing. Journal of Proteome Research. 13 (1), 84-98 (2014).
The proteogenomic mapping tool. BMC Bioinformatics. 12 (115), (2011).">Sanders, W. S., et al. The proteogenomic mapping tool. BMC Bioinformatics. 12 (115), (2011).
ProBAMsuite, a bioinformatics framework for genome-based representation and analysis of proteomics data. Molecular & Cellular Proteomics. 15 (3), 1164-1175 (2016).">Wang, X., et al. ProBAMsuite, a bioinformatics framework for genome-based representation and analysis of proteomics data. Molecular & Cellular Proteomics. 15 (3), 1164-1175 (2016).
Fast, quantitative and variant enabled mapping of peptides to genomes. Cell Systems. 5 (2), 152-156 (2017).">Schlaffner, C. N., Pirklbauer, G. J., Bender, A., Choudhary, J. S. Fast, quantitative and variant enabled mapping of peptides to genomes. Cell Systems. 5 (2), 152-156 (2017).
The PRoteomics IDEntifications (PRIDE) database and associated tools: status in 2013. Nucleic Acids Research. 41, D1063-D1069 (2013).">Vizcaino, J. A., et al. The PRoteomics IDEntifications (PRIDE) database and associated tools: status in 2013. Nucleic Acids Research. 41, D1063-D1069 (2013).
Ensembl 2017. Nucleic Acids Research. 45 (D1), D635-D642 (2017).">Aken, B. L., et al. Ensembl 2017. Nucleic Acids Research. 45 (D1), D635-D642 (2017).
Ms-data-core-api: an open-source, metadata-oriented library for computational proteomics. Bioinformatics. 31 (17), 2903-2905 (2015).">Perez-Riverol, Y., et al. Ms-data-core-api: an open-source, metadata-oriented library for computational proteomics. Bioinformatics. 31 (17), 2903-2905 (2015).
Multi-protease strategy identifies three PE2 missing proteins in human testis tissue. Journal of Proteome Research. , (2017).">Wang, Y., et al. Multi-protease strategy identifies three PE2 missing proteins in human testis tissue. Journal of Proteome Research. , (2017).
Proteomic screen for cellular targets of the vaccinia virus F10 protein kinase reveals that phosphorylation of mDia regulates stress fiber formation. Molecular & Cellular Proteomics. 16 (4 Suppl 1), S124-S143 (2017).">Greseth, M. D., Carter, D. C., Terhune, S. S., Traktman, P. Proteomic screen for cellular targets of the vaccinia virus F10 protein kinase reveals that phosphorylation of mDia regulates stress fiber formation. Molecular & Cellular Proteomics. 16 (4 Suppl 1), S124-S143 (2017).
Integrative genomics viewer (IGV): high-performance genomics data visualization and exploration. Briefings in Bioinformatics. 14 (2), 178-192 (2013).">Thorvaldsdottir, H., Robinson, J. T., Mesirov, J. P. Integrative genomics viewer (IGV): high-performance genomics data visualization and exploration. Briefings in Bioinformatics. 14 (2), 178-192 (2013).
The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).">Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
R: A Language and Environment for Statistical Computing. , R Foundation for Statistical Computing. Vienna, Austria. (2008).">The R Development Core Team. R: A Language and Environment for Statistical Computing. , R Foundation for Statistical Computing. Vienna, Austria. (2008).
BigWig and BigBed: enabling browsing of large distributed datasets. Bioinformatics. 26 (17), 2204-2207 (2010).">Kent, W. J., Zweig, A. S., Barber, G., Hinrichs, A. S., Karolchik, D. BigWig and BigBed: enabling browsing of large distributed datasets. Bioinformatics. 26 (17), 2204-2207 (2010).
Dalliance: interactive genome viewing on the web. Bioinformatics. 27 (6), 889-890 (2011).">Down, T. A., Piipari, M., Hubbard, T. J. Dalliance: interactive genome viewing on the web. Bioinformatics. 27 (6), 889-890 (2011).
Genomic determinants of protein abundance variation in colorectal cancer cells. Cell Reports. 20 (9), 2201-2214 (2017).">Roumeliotis, T. I., et al. Genomic determinants of protein abundance variation in colorectal cancer cells. Cell Reports. 20 (9), 2201-2214 (2017).
The neXtProt knowledgebase on human proteins: 2017 update. Nucleic Acids Research. 45, D177-D182 (2017).">Gaudet, P., et al. The neXtProt knowledgebase on human proteins: 2017 update. Nucleic Acids Research. 45, D177-D182 (2017).
LuciPHOr: algorithm for phosphorylation site localization with false localization rate estimation using modified target-decoy approach. Molecular & Cellular Proteomics. 12 (11), 3409-3419 (2013).">Fermin, D., Walmsley, S. J., Gingras, A. C., Choi, H., Nesvizhskii, A. I. LuciPHOr: algorithm for phosphorylation site localization with false localization rate estimation using modified target-decoy approach. Molecular & Cellular Proteomics. 12 (11), 3409-3419 (2013).
LuciPHOr2: site localization of generic post-translational modifications from tandem mass spectrometry data. Bioinformatics. 31 (7), 1141-1143 (2015).">Fermin, D., Avtonomov, D., Choi, H., Nesvizhskii, A. I. LuciPHOr2: site localization of generic post-translational modifications from tandem mass spectrometry data. Bioinformatics. 31 (7), 1141-1143 (2015).
Automated and high confidence protein phosphorylation site localization using complementary collision-activated dissociation and electron transfer dissociation tandem mass spectrometry. Analytical Chemistry. 84 (22), 9694-9699 (2012).">Hansen, T. A., Sylvester, M., Jensen, O. N., Kjeldsen, F. Automated and high confidence protein phosphorylation site localization using complementary collision-activated dissociation and electron transfer dissociation tandem mass spectrometry. Analytical Chemistry. 84 (22), 9694-9699 (2012).
Universal and confident phosphorylation site localization using phosphoRS. Journal of Proteome Research. 10 (12), 5354-5362 (2011).">Taus, T., et al. Universal and confident phosphorylation site localization using phosphoRS. Journal of Proteome Research. 10 (12), 5354-5362 (2011).
Flexible data analysis pipeline for high-confidence proteogenomics. Journal of Proteome Research. 15 (12), 4686-4695 (2016).">Weisser, H., Wright, J. C., Mudge, J. M., Gutenbrunner, P., Choudhary, J. S. Flexible data analysis pipeline for high-confidence proteogenomics. Journal of Proteome Research. 15 (12), 4686-4695 (2016).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Une méthode rapide et Quantitative pour Modification post-traductionnelle et variante compatible cartographie des Peptides aux génomes

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles