Nous présentons ici l’outil proteogenomic PoGo et protocoles de modification poteau-de translation, quantitative, rapide et variante a permis la cartographie des peptides identifiés par le biais de la spectrométrie de masse sur les génomes de référence. Cet outil est utile pour intégrer et visualiser des proteogenomic et des études protéomiques personnelle s’interfaçant avec des données de génomique orthogonale.
Diaphonie entre gènes et protéines transcriptions est la clé pour les réponses cellulaires ; donc, l’analyse des niveaux moléculaires comme des entités distinctes est lentement étendue aux études intégrées pour améliorer la compréhension de la dynamique moléculaire dans les cellules. Les outils actuels pour la visualisation et l’intégration de la protéomique avec d’autres ensembles de données omics sont insuffisants pour les études à grande échelle. En outre, elles captent seulement séquence basique identifier, jeter les modifications post-traductionnelles et au dosage. Pour résoudre ces problèmes, nous avons développé PoGo pour mapper les peptides associées modifications post-traductionnelles et leur dosage pour référencer l’annotation du génome. En outre, l’outil a été développé pour permettre le mappage des peptides identifiés à partir des bases de données de séquence personnalisée intégrant les variantes seul acide aminé. PoGo est un outil de ligne de commande, l’interface graphique PoGoGUI permet aux chercheurs de non-bioinformatique facilement mapper peptides à 25 espèces prises en charge par l’annotation du génome Ensembl. La sortie générée emprunte des formats de fichiers depuis le domaine de la génomique et, par conséquent, visualisation est pris en charge dans la plupart des navigateurs du génome. Pour des études à grande échelle, PoGo est pris en charge par TrackHubGenerator à créer des référentiels accessibles sur le web des données mappées aux génomes qui permettent aussi un partage facile des données proteogenomics. Avec peu d’effort, cet outil peut mapper des millions de peptides pour référencer des génomes en seulement quelques minutes, surpassant les autres outils disponibles séquence-identitaire. Ce protocole montre les meilleures approches pour la cartographie de proteogenomics par le biais de PoGo avec des ensembles de données accessibles au public des quantitatifs et phosphoprotéomique, ainsi que des études à grande échelle.
Dans les cellules, génome, transcriptome et du protéome affectent mutuellement pour moduler une réponse à des stimuli internes et externes et d’interagir entre eux pour réaliser des fonctions spécifiques conduisant à la santé et la maladie. Par conséquent, caractériser et quantifier les gènes, les transcriptions et les protéines sont crucial pour bien comprendre les processus cellulaires. Séquençage de prochaine génération (NGS) est une des stratégies plus couramment appliquées pour identifier et quantifier l’expression de gène et de transcription. Toutefois, expression de la protéine est généralement évaluée par spectrométrie de masse (MS). Des progrès importants dans la technologie MS ces dix dernières années a permis à plus d’une identification complète et quantification des protéomes, rendant les données comparables avec transcriptomique1. Proteogenomics et multi-omics comme moyens d’intégrer les données de la NGS et MS sont devenues puissantes approches pour évaluer les processus cellulaires sur plusieurs niveaux moléculaires, identification des sous-types de cancer et menant à nouvelles cibles de médicaments potentiels dans cancer2 , 3. il est important de noter que proteogenomics a été initialement utilisé pour fournir la preuve de la protéomique pour gene et transcription annotations4. Plusieurs gènes qu’on croyait être non codantes ont récemment été réévaluation sujet de tissus humains à grande échelle de données5,6,7. En outre, des données protéomiques sont utilisées avec succès pour soutenir les efforts de l’annotation dans les organismes non-modèle8,9. Cependant, proteogenomic intégration de données exploitables à la suite de l’expression protéique fait saillant en ce qui concerne les caractéristiques génomiques et élucider la diaphonie entre les protéines et les transcriptions en fournissant un système combiné de référence et des méthodes pour visualisation Co.
Afin de fournir une référence commune pour les données de génomique, transcriptomique et protéomique, nombreux outils ont été appliquées pour les peptides de mappage identifiés par MS sur génome coordonnées10,11,12 ,13,14,15,16,17. Approches diffèrent des aspects tels que la référence de mappage, prise en charge des navigateurs de génome et degré d’intégration avec d’autres outils de protéomique, comme illustré à la Figure 1. Tandis que certains outils carte inverses peptides traduits sur un génome16, d’autres utilisent une position moteur annoté de recherche dans une annotation de protéines et de gènes pour reconstituer la séquence nucléotidique de la peptide15. Encore d’autres utilisent une traduction de 3 ou 6-image du génome pour mapper les peptides contre11,13. Enfin, plusieurs outils de sauter les séquences nucléotidiques et utilisent les traductions de séquence d’acides aminés de transcriptions de RNA-sequencing mappé comme intermédiaire pour mapper des peptides sur le génome associé coordonnées10,12, 14,17. Cependant, la traduction de séquences de nucléotides est un processus lent et bases de données personnalisées sont sujettes à des erreurs qui se propagent à la cartographie peptidique. Pour la cartographie rapide et haut-débit, une référence petite et complet est cruciale. Référence protéique normalisé avec coordonnées de génome associé est donc essentielle pour le peptide précis à la cartographie du génome. Nouveaux aspects dans la proteogenomics, telles que l’incorporation des variantes et des modifications post-traductionnelles (PTMs)2,3, sont accélèrent grâce à des études récentes. Cependant, ceux-ci sont généralement pas supportés par courant proteogenomic outils de cartographie, comme illustré à la Figure 1. Pour améliorer la rapidité et la qualité de la cartographie, PoGo a développé un outil qui permet la cartographie rapide et quantitative des peptides de génomes18. En outre, PoGo permet la cartographie des peptides avec jusqu’à deux variantes de la séquence et les modifications post-traductionnelles annotées.
PoGo a été développé pour faire face à l’accroissement rapide des ensembles de données haute résolution quantitative capture protéomes et modifications globales et fournit un utilitaire central pour des analyses à grande échelle, comme la variation individuelle et de la médecine de précision. Cet article décrit l’application de cet outil pour visualiser la présence de modification post-traductionnelle en ce qui concerne les caractéristiques génomiques. En outre, cet article met en évidence l’identification des événements d’épissage alternatif par le biais de peptides mappés et la cartographie des peptides identifiés par le biais de bases de données personnalisées variant d’un génome de référence. Ce protocole utilise des ensembles de données accessibles au public téléchargé à partir de la fierté archive19 pour démontrer ces fonctionnalités de PoGo. En outre, ce protocole décrit la demande de TrackHubGenerator pour la création des centres d’accessibles en ligne de peptides mappées aux génomes d’études proteogenomics à grande échelle.
Ce protocole décrit comment l’outil logiciel PoGo et son interface utilisateur graphique PoGoGUI permettent une cartographie rapide des peptides sur coordonnées du génome. L’outil offre des fonctions uniques telles que modification poteau-de translation quantitative et variante compatible cartographie aux génomes en utilisant l’annotation de référence. Cet article illustre la méthode sur une étude de grande envergure proteogenomic et met en évidence son efficacité de vitesse et de la mémoire par rapport aux autres outils disponibles18. En combinaison avec l’outil TrackHubGenerator, qui crée des moyeux accessibles en ligne de génomique et de génome données liées, PoGo, grâce à son interface utilisateur graphique, études proteogenomics à grande échelle permet de visualiser rapidement leurs données en contexte génomique. En outre, nous montrons les caractéristiques uniques du PoGo avec les ensembles de données recherchées contre des bases de données variant et quantitative phosphoprotéomique22,29.
Les fichiers uniques, tels que le fichier GCT, fournissent visualisation utile et liens entre les caractéristiques de peptide et locus génomiques. Toutefois, il est important de noter qu’une interprétation fondée sur ces seuls peut-être difficile, voire trompeuse en raison des limitations des aspects unique de proteogenomics telles que les valeurs quantitatives, modifications post-traductionnelles et unicité. Par conséquent, il est important de bien choisir quels fichiers de sortie, les options et combinaisons sont appropriés pour la question proteogenomic à portée de main et de modifier les combinaisons. Par exemple, informations sur l’unicité de la cartographie à un locus génomique spécifique peuvent être d’une grande valeur pour l’annotation d’une caractéristique génomique7, tandis que la quantification dans des échantillons différents peut-être être plus appropriée pour les études relatives caractéristiques génomiques à l’évolution de l’abondance de protéine29. La sortie doit être générée par PoGo pour chaque paramètre. Dans le cas où aucune sortie n’est généré, ou fichiers vides apparaissent dans le dossier de sortie, il est recommandé de vérifier les fichiers d’entrée pour le contenu désiré et le format de fichier requis. Dans les cas où le format de fichier ou contenu ne suit pas les attentes de PoGo (par exemple, le fichier FASTA prétendument contenant les séquences de traduction transcription contient les séquences nucléotidiques des transcriptions), messages d’erreur demandera à l’utilisateur de Vérifiez les fichiers d’entrée.
Restrictions du protocole et de l’outil sont principalement basées sur la réutilisation des formats de fichier couramment utilisé en génomique. Recibler les formats de fichiers utilisés en génomique pour des applications de proteogenomic est accompagnée de restrictions particulières. Ceux-ci sont dus aux différents ensembles d’exigences pour la visualisation de génome centrée de la génomique et des données de proteogenomic, comme le besoin de visualiser les modifications post-traductionnelles de protéomique données. C’est limité dans les formats de fichier génomique par l’usage de la fonctionnalité unique. Beaucoup de méthodes et d’outils ont été développés pour la protéomique à localiser en toute confiance les modifications post-traductionnelles au sein de peptide séquences31,32,33,34. Cependant, la visualisation de plusieurs modifications de manière unique et discernable sur le génome est entravée par la structure des formats de fichier génomique. Par conséquent, la visualisation de monobloc de SPTM multiples du même type ne constitue pas une ambiguïté des sites de modification mais est la conséquence de l’exigence divergentes de la communauté de la génomique pour visualiser uniquement caractéristiques unique à la fois. Néanmoins, PoGo a l’avantage des modifications post-traductionnelles de cartographie sur la génomiques coordonnées pour permettre des études portant sur les effets des caractéristiques génomiques comme variantes de nucléotide sur modifications post-traductionnelles. À l’aide de PoGo, cartographie variante augmente le nombre de mappages de totales. Toutefois, le codage de la couleur unique de peptides mappés met en évidence les mappages fiables de ceux qui sont peu fiables. La cartographie des peptides variant identifié des variantes connues nucléotide peut s’accompagner en visualisant les peptides mappés aux côtés des variantes au format VCF. De cette façon le code couleur indiquant une cartographie peu fiable d’un peptide variant est annulée par la présence de la variante de nucléotides connue.
Une étape critique pour l’utilisation de PoGo est l’utilisation des fichiers corrects et formats. L’utilisation de séquences de transcription traduite sous forme de séquences de protéines pour accompagner l’annotation en format GTF est le critère principal. Un autre élément crucial lors de l’examen à l’aide de PoGo pour mapper des peptides avec acides aminés non-correspondances est mémoire. Bien que très économe en mémoire pour une application standard, le nombre significativement et exponentiellement croissant de possibles mises en correspondance avec un ou deux incompatibilités conduit à une augmentation exponentielle de la même façon à l’ utilisation de mémoire18. Nous vous proposons une mise en scène de la cartographie comme décrit dans le présent protocole d’abord mapper les peptides sans les incompatibilités et les supprimer de l’ensemble. Les peptides précédemment non mappés ultérieures puis peuvent être mappés à l’aide d’un décalage et la procédure peut être répétée avec deux incompatibilités pour les peptides restant non mappés.
Étant donné que le débit de la spectrométrie de masse a considérablement augmenté et études génomiques d’interface et les données protéomiques sont de plus en plus fréquentes ces dernières années, les outils pour permettre facilement interfacer ces types de données dans le même système de coordonnées sont plus en plus indispensable. L’outil présenté ici aideront la nécessité de combiner génomiques et les données protéomiques à favoriser une meilleure compréhension des études intégrées à travers de petits et grands ensembles de données en mappant des peptides sur une annotation de référence. Fait encourageant, PoGo a été appliqué pour mapper les peptides aux candidats de gène fournis dans le même format que l’annotation de référence afin de soutenir l’annotation des gènes exprimés dans le testicule humain35. L’approche présentée ici est indépendante des bases de données utilisées pour l’identification de peptide. Le protocole peut aider à l’identification et visualisation des produits de la nouvelle traduction en utilisant adapté des fichiers d’entrée de séquences de traduction et fichiers FTE de RNA-seq expériences connexes.
Plusieurs approches et outils avec un large éventail de scénarios d’application spéciale pour mapper les peptides aux coordonnées génomiques, allant de la cartographie des peptides directement à la séquence du génome au mappage de RNA-sequencing guidée, ont été introduits10, 11 , 12 , 13 , 14 , 15 , 16 , 17. Cependant, ceux-ci peuvent provoquer un échec pour mapper correctement peptides lorsque les modifications post-traductionnelles sont présentes et d’erreurs dans le mappage sous-jacente se lit RNA-sequencing peuvent être propagés jusqu’au niveau de peptide. PoGo a été développé spécifiquement surmonter ces obstacles et de faire face à l’augmentation rapide des ensembles de données quantitatives protéomiques de haute résolution pour s’intégrer à des plates-formes de génomique orthogonale. L’outil décrit ici peut être intégré dans les workflows de haut débit. Par le biais de l’interface graphique PoGoGUI, l’outil est simple à utiliser et ne nécessite aucune formation de bioinformatique de spécialiste.
The authors have nothing to disclose.
Ce travail a été financé par le Wellcome Trust (WT098051) et la subvention du NIH (U41HG007234) au projet GENCODE.
PoGo (software) | NA | NA | https://github.com/cschlaffner/PoGo |
PoGoGUI (software) | NA | NA | https://github.com/cschlaffner/PoGoGUI |
TrackHubGenerator (software) | NA | NA | https://github.com/cschlaffner/TrackHubGenerator |
Integrative Genomics Viewer (software) | NA | NA | http://software.broadinstitute.org/software/igv/ |
UCSC genome browser (website) | NA | NA | https://genome.ucsc.edu/ |
GENCODE (website) | NA | NA | http://gencodegenes.org |
Ensembl (website) | NA | NA | http://ensembl.org |
bedToBigBed (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |
fetchChromSizes.sh (software) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |