Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biochemistry

JUMPn : Une application simplifiée pour le regroupement de la co-expression des protéines et l’analyse des réseaux en protéomique

Published: October 19, 2021 doi: 10.3791/62796

Summary

Nous présentons un outil de biologie des systèmes JUMPn pour effectuer et visualiser l’analyse de réseau pour des données protéomiques quantitatives, avec un protocole détaillé comprenant le prétraitement des données, le regroupement de co-expression, l’enrichissement des voies et l’analyse du réseau d’interaction protéine-protéine.

Abstract

Avec les progrès récents des technologies protéomiques basées sur la spectrométrie de masse, le profilage en profondeur de centaines de protéomes est devenu de plus en plus réalisable. Cependant, il est difficile de tirer des informations biologiques de ces ensembles de données précieux. Nous présentons ici un logiciel basé sur la biologie des systèmes JUMPn, et son protocole associé pour organiser le protéome en grappes de co-expression de protéines à travers des échantillons et des réseaux d’interaction protéine-protéine (IPP) connectés par des modules (par exemple, des complexes protéiques). Grâce à la plate-forme R/Shiny, le logiciel JUMPn rationalise l’analyse du clustering de co-expression, de l’enrichissement des voies et de la détection des modules PPI, avec une visualisation des données intégrée et une interface conviviale. Les principales étapes du protocole comprennent l’installation du logiciel JUMPn, la définition des protéines exprimées différentiellement ou du protéome (dys)régulé, la détermination de clusters de co-expression significatifs et de modules PPI, et la visualisation des résultats. Bien que le protocole soit démontré à l’aide d’un profil de protéome basé sur le marquage isobare, JUMPn est généralement applicable à un large éventail d’ensembles de données quantitatives (par exemple, la protéomique sans étiquette). Le logiciel et le protocole JUMPn fournissent ainsi un outil puissant pour faciliter l’interprétation biologique en protéomique quantitative.

Introduction

La protéomique au fusil de chasse basée sur la spectrométrie de masse est devenue l’approche clé pour analyser la diversité du protéome d’échantillons complexes1. Avec les progrès récents de l’instrumentation de spectrométriede masse 2,3, de la chromatographie 4,5, de la détection de la mobilité ionique6, des méthodes d’acquisition (acquisition indépendante des données7 et acquisition dépendante des données8), des approches de quantification (méthode de marquage des peptides isobares multiplex, par exemple, TMT 9,10 et quantification sans étiquette11,12) et des stratégies d’analyse des données/ développement delogiciels 13,14,15,16,17,18, la quantification de l’ensemble du protéome (par exemple, plus de 10 000 protéines) est maintenant de routine 19,20,21. Cependant, comment obtenir des informations mécanistes à partir d’ensembles de données quantitatives aussi profonds reste difficile22. Les premières tentatives d’étude de ces ensembles de données reposaient principalement sur l’annotation d’éléments individuels des données, en traitant chaque composant (protéine) indépendamment. Cependant, les systèmes biologiques et leur comportement ne peuvent pas être expliqués uniquement en examinant les composants individuels23. Par conséquent, une approche systémique qui place les biomolécules quantifiées dans le contexte des réseaux d’interaction est essentielle pour la compréhension des systèmes complexes et des processus associés tels que l’embryogenèse, la réponse immunitaire et la pathogenèse des maladies humaines24.

La biologie des systèmes en réseau est devenue un paradigme puissant pour l’analyse des données protéomiques quantitatives à grande échelle 25,26,27,28,29,30,31,32,33. Conceptuellement, des systèmes complexes tels que les cellules de mammifères pourraient être modélisés comme un réseau hiérarchique34,35, dans lequel l’ensemble du système est représenté en niveaux: d’abord par un certain nombre de grands composants, dont chacun est ensuite modélisé de manière itérative par des sous-systèmes plus petits. Techniquement, la structure de la dynamique du protéome peut être présentée par des réseaux interconnectés de groupes de protéines co-exprimées (parce que les gènes/protéines co-exprimés partagent souvent des fonctions biologiques similaires ou des mécanismes de régulation36) et des modules PPIinteragissant physiquement 37. À titre d’exemple récent25, nous avons généré des profils temporels du protéome entier et du phosphoprotéome lors de l’activation des lymphocytes T et utilisé des réseaux de coexpression intégrative avec des IPP pour identifier les modules fonctionnels qui médient la sortie de quiescence des lymphocytes T. Plusieurs modules liés à la bioénergétique ont été mis en évidence et validés expérimentalement (p. ex., les modules mitoribosome et IV complexe25 et le module à un carbone38). Dans un autre exemple26, nous avons élargi notre approche pour étudier la pathogenèse de la maladie d’Alzheimer et avons priorisé avec succès les modules et molécules protéiques associés à la progression de la maladie. Il est important de noter que bon nombre de nos découvertes impartiales ont été validées par des cohortes de patients indépendants 26,29 et/ou des modèles murinsde maladie 26. Ces exemples illustrent la puissance de l’approche de la biologie des systèmes pour disséquer les mécanismes moléculaires avec la protéomique quantitative et d’autres intégrations omiques.

Nous présentons ici JUMPn, un logiciel rationalisé qui explore les données protéomiques quantitatives à l’aide d’approches de biologie des systèmes basées sur des réseaux. JUMPn sert de composant en aval de la suite logicielle de protéomique JUMP établie 13,14,39 et vise à combler le fossé entre les quantifications de protéines individuelles et les voies et modules de protéines biologiquement significatifs en utilisant l’approche de biologie des systèmes. En prenant la matrice de quantification des protéines exprimées différentiellement (ou les plus variables) comme entrée, JUMPn vise à organiser le protéome en une hiérarchie hiérarchisée de groupes de protéines co-exprimés entre des échantillons et des modules PPI densément connectés (par exemple, des complexes protéiques), qui sont ensuite annotés avec des bases de données de voies publiques par une analyse de surreprésentation (ou d’enrichissement) (Figure 1). JUMPn est développé avec la plate-forme R/Shiny40 pour une interface conviviale et intègre trois modules fonctionnels majeurs : l’analyse de clustering de co-expression, l’analyse d’enrichissement des voies et l’analyse du réseau PPI (Figure 1). Après chaque analyse, les résultats sont automatiquement visualisés et réglables via les fonctions du widget R/shiny et facilement téléchargeables sous forme de tableaux de publication au format Microsoft Excel. Dans le protocole suivant, nous utilisons les données quantitatives du protéome entier comme exemple et décrivons les principales étapes de l’utilisation de JUMPn, y compris l’installation du logiciel JUMPn, la définition des protéines exprimées différentiellement ou du protéome régulé (dys), l’analyse du réseau de co-expression et l’analyse du module PPI, la visualisation et l’interprétation des résultats et les dépannages. Le logiciel JUMPn est disponible gratuitement sur GitHub41.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

REMARQUE: Dans ce protocole, l’utilisation de JUMPn est illustrée par l’utilisation d’un ensemble de données publié de profilage du protéome entier au cours de la différenciation des cellules B quantifié par le réactif d’étiquette isobare TMT27.

1. Configuration du logiciel JUMPn

REMARQUE: Deux options sont fournies pour configurer le logiciel JUMPn: (i) installation sur un ordinateur local pour un usage personnel; et (ii) le déploiement de JUMPn sur un serveur Shiny distant pour plusieurs utilisateurs. Pour l’installation locale, un ordinateur personnel avec accès à Internet et ≥4 Go de RAM est suffisant pour exécuter l’analyse JUMPn pour un jeu de données avec une petite taille d’échantillon (n < 30); une RAM plus importante (p. ex., 16 Go) est nécessaire pour l’analyse de grandes cohortes (p. ex., n = 200 échantillons).

  1. Installez le logiciel sur un ordinateur local. Après l’installation, autorisez le navigateur Web à lancer JUMPn et laissez l’analyse s’exécuter sur l’ordinateur local.
    1. Installez anaconda42 ou miniconda43 en suivant les instructions en ligne.
    2. Téléchargez le code sourceJUMPn 41. Double-cliquez pour décompresser le fichier téléchargé JUMPn_v_1.0.0.zip; un nouveau dossier nommé JUMPn_v_1.0.0 sera créé.
    3. Ouvrez le terminal de ligne de commande. Sous Windows, utilisez l’invite Anaconda. Sous MacOS, utilisez l’application Terminal intégrée.
    4. Créer l’environnement JUMPn Conda : obtenez le chemin absolu du dossier JUMPn_v_1.0.0 (par exemple, /path/to/JUMPn_v_1.0.0). Pour créer et activer un environnement Conda vide, tapez les commandes suivantes sur le terminal
      conda create -p /path/to/JUMPn_v_1.0.0/JUMPn -y
      conda activer /path/to/JUMPn_v_1.0.0/JUMPn
    5. Installer les dépendances JUMPn : Installez R (sur le terminal, tapez conda install -c conda-forge r=4.0.0 -y), remplacez le répertoire actuel par le dossier JUMPn_v_1.0.0 (sur le terminal, tapez cd path/to/JUMPn_v_1.0.0) et installez les packages de dépendance (sur le terminal, tapez Rscript bootstrap. R)
    6. Lancez JUMPn sur le navigateur Web : Remplacez le répertoire actuel par le dossier d’exécution (sur le terminal, tapez cd execution) et lancez JUMPn (sur le terminal, tapez R -e « shiny::runApp() »)
    7. Une fois ce qui précède exécuté, l’écran du terminal apparaîtra Écoute sur http://127.0.0.1: XXXX (ici XXXX indique 4 nombres aléatoires). Copiez et collez http://127.0.0.1:XXXX sur le navigateur Web, sur lequel la page d’accueil JUMPn apparaîtra (Figure 2).
  2. Déploiement sur Shiny Server. Des exemples de Shiny Server incluent le serveur commercial shinyapps.io ou tout serveur Shiny pris en charge par un établissement.
    1. Téléchargez et installez RStudio en suivant les instructions44.
    2. Obtenez l’autorisation de déploiement pour le serveur Shiny. Pour le serveur shinyapps.io, configurez le compte d’utilisateur en suivant l’instruction45. Pour le serveur Shiny institutionnel, contactez l’administrateur du serveur pour demander des autorisations.
    3. Téléchargez le code sourceJUMPn 41 sur la machine locale ; l’installation n’est pas nécessaire. Ouvrez l’un ou l’autre serveur. R ou ui. R dans RStudio et cliquez sur le menu déroulant Publier sur le serveur en haut à droite de l’IDE RStudio.
    4. Dans le panneau Publier dans le compte , tapez l’adresse du serveur. Appuyez sur le bouton Publier . Le déploiement réussi est validé lors de la redirection automatique de RStudio vers le serveur RShiny où l’application a été déployée.

2. Exécution de la démo à l’aide d’un exemple de jeu de données

REMARQUE: JUMPn propose une démonstration à l’aide de l’ensemble de données protéomique des cellules B publié. L’exécution de démonstration illustre un flux de travail rationalisé qui prend la matrice de quantification des protéines exprimées différentiellement comme entrée et effectue le regroupement de co-expression, l’enrichissement des voies et l’analyse séquentielle du réseau PPI.

  1. Sur la page d’accueil de JUMPn (Figure 2), cliquez sur le bouton Commencer l’analyse pour lancer l’analyse JUMPn.
  2. Dans le coin inférieur gauche de la page Commencer l’analyse (Figure 3), cliquez sur le bouton Télécharger les données protéomiques des cellules B de démonstration ; une boîte de dialogue apparaîtra pour notifier la réussite du téléchargement des données.
  3. Dans le coin inférieur droit de la page, cliquez sur le bouton Soumettre l’analyse JUMPn pour lancer l’exécution de la démonstration en utilisant les paramètres par défaut; une barre de progression apparaîtra indiquant le déroulement de l’analyse. Attendez que la barre de progression soit remplie (3 min prévus).
  4. Une fois l’exécution de la démo terminée, une boîte de dialogue apparaîtra avec le message de réussite de l’exécution et le chemin absolu vers le dossier de résultats. Cliquez sur Continuer vers les résultats pour continuer.
  5. La page Web guidera d’abord l’utilisateur vers les résultats du cluster de co-expression par WGCNA. Cliquez sur Afficher les résultats dans la fenêtre de dialogue pour continuer.
  6. Trouvez les modèles de co-expression des protéines à gauche de la page de résultats 1 : Page de sortie WGCNA . Cliquez sur la liste déroulante Sélectionner le format d’expression pour naviguer entre deux formats de figure :
    1. Sélectionnez Tendances pour afficher le graphique des tendances, chaque ligne représentant l’abondance de protéines individuelles dans les échantillons. La couleur de chaque ligne représente la proximité du modèle d’expression avec le consensus du cluster de co-expression (c’est-à-dire « eigengene » tel que défini par l’algorithme WGCNA).
    2. Sélectionnez Boxplot pour afficher des modèles de co-expression au format boxplot pour chaque exemple.
  7. Consultez la carte thermique d’enrichissement des voies/ontologies à droite de la page de sortie WGCNA. Les voies les plus enrichies pour chaque cluster sont affichées ensemble dans une carte thermique, l’intensité des couleurs reflétant la valeur p ajustée de Benjamini-Hochberg.
  8. Faites défiler la page Web vers le bas pour afficher le modèle d’expression des protéines individuelles.
    1. Utilisez la liste déroulante Sélectionnez le cluster de co-expression pour afficher les protéines de chaque cluster (la valeur par défaut est cluster 1). Sélectionnez une protéine spécifique dans le tableau, sur laquelle le graphique à barres sous le tableau sera automatiquement mis à jour pour refléter son abondance de protéines.
    2. Recherchez des noms de protéines spécifiques à l’aide de la zone de recherche sur le côté droit du tableau pour une protéine spécifique.
  9. Pour afficher les résultats des IPP, cliquez sur la page résultats 2 : Sortie PPI en haut.
  10. Cliquez sur Sélectionner le cluster de co-expression pour afficher les résultats d’un cluster de co-expression spécifique (la valeur par défaut est le cluster 1). Les affichages de tous les panneaux de figure sur cette page seront mis à jour pour le cluster nouvellement sélectionné.
  11. Affichez les réseaux PPI pour le cluster de coexpression sélectionné dans le panneau de figure de gauche :
    1. Cliquez sur la liste déroulante Sélectionner par groupe pour mettre en surbrillance les modules PPI individuels du réseau. Cliquez sur la liste déroulante Sélectionner un format de disposition réseau pour modifier la disposition du réseau (la valeur par défaut est par Fruchterman Reingold).
    2. Utilisez la souris et le trackpad pour effectuer les étapes 2.11.3 à 2.11.5.
    3. Effectuez un zoom avant ou arrière sur le réseau PPI selon les besoins. Les noms de gènes de chaque nœud du réseau seront affichés lorsqu’ils seront suffisamment zoomés.
    4. Lorsque vous effectuez un zoom avant, sélectionnez et cliquez sur une certaine protéine pour mettre en évidence cette protéine et ses voisins du réseau.
    5. Faites glisser un certain nœud (protéine) dans le réseau pour changer sa position dans la disposition; ainsi, la disposition du réseau peut être réorganisée par l’utilisateur.
  12. Dans le panneau de droite de la page de résultats de l’IPP, affichez les informations au niveau du cluster de coexpression qui facilitent l’interprétation des résultats de l’IPP :
    1. Affichez le modèle de coexpression du cluster sélectionné sous forme de diagramme de boîte par défaut.
    2. Cliquez sur la liste déroulante Sélectionner le format d’expression pour plus d’informations ou affiche comme mentionné aux étapes 2.12.3-2.12.5.
    3. Sélectionnez Tendances pour afficher le tracé des tendances pour le modèle de co-expression.
    4. Sélectionnez Path Barplot pour afficher les chemins enrichis de manière significative pour le cluster de co-expression.
    5. Sélectionnez Tracé circulaire de trajectoire pour afficher les voies considérablement enrichies pour le groupe de coexpression au format de tracé circulaire.
  13. Faites défiler la page de résultats 2 : Sortie PPI vers le bas pour afficher les résultats au niveau du module PPI individuel. Cliquez sur la liste déroulante Sélectionner le module pour sélectionner un module PPI spécifique à afficher (Cluster1: Module 1 est affiché par défaut).
  14. Affichez le module PPI sur le panneau de gauche. Pour manipuler l’affichage réseau, suivez les étapes 2.11.2 à 2.11.5.
  15. Affichez les résultats de l’enrichissement des voies/ontologies sur le panneau de droite. Cliquez sur la liste déroulante Sélectionner le style d’annotation de chemin pour plus d’informations et affiche :
    1. Sélectionnez Barplot pour afficher les voies enrichies de manière significative pour le module PPI sélectionné.
    2. Sélectionnez Tracé circulaire pour afficher les tracés significativement enrichis pour le module PPI sélectionné au format d’un tracé circulaire.
    3. Sélectionnez Heatmap pour afficher les voies significativement enrichies et les noms de gènes associés à partir du module PPI sélectionné.
    4. Sélectionnez Tableau pour afficher les résultats détaillés de l’enrichissement des voies, y compris le nom des voies/termes d’ontologie, les noms des gènes et la valeur P par le test exact de Fisher.
  16. Affichez le tableau de publication sous forme de feuille de calcul : suivez le chemin absolu (imprimé en haut des deux pages de résultats) et recherchez le tableau de feuille de calcul de publication nommé ComprehensiveSummaryTables.xlsx.

3. Préparation du fichier d’entrée et téléchargement sur JUMPn

NOTE: JUMPn prend comme entrée la matrice de quantification des protéines exprimées différentiellement (méthode supervisée) ou des protéines les plus variables (méthode non supervisée). Si l’objectif du projet est de comprendre les protéines modifiées dans plusieurs conditions (p. ex., différents groupes de maladies ou analyse chronologique du processus biologique), la méthode supervisée d’analyse de l’DE est préférable; sinon, une approche non supervisée de sélection des protéines les plus variables peut être utilisée à des fins exploratoires.

  1. Générez le tableau de quantification des protéines, avec chaque protéine sous forme de lignes et chaque échantillon sous forme de colonnes. Atteignez cet objectif grâce à la suite logicielle de protéomique moderne basée sur la spectrométrie de masse (par exemple, JUMP suite 13,14,39, Proteome Discoverer, Maxquant15,46).
  2. Définissez la variable protéome.
    1. Utilisez les résultats d’analyse statistique fournis par la suite logicielle de protéomique pour définir les protéines exprimées différentiellement (DE) (par exemple, avec une valeur p ajustée < 0,05).
    2. Alternativement, les utilisateurs peuvent suivre l’exemple du code R47 pour définir soit DE, soit la plupart des protéines variables.
  3. Formatez le fichier d’entrée à l’aide de la variable protéome définie.
    REMARQUE : Le format de fichier d’entrée requis (Figure 4) comprend une ligne d’en-tête ; les colonnes comprennent l’accession des protéines (ou toute identification unique), gn (symboles officiels des gènes), la description des protéines (ou toute information fournie par l’utilisateur), suivie de la quantification des protéines d’échantillons individuels.
    1. Suivez l’ordre des colonnes spécifié à l’étape 3.1, mais les noms de colonne de l’en-tête sont flexibles pour l’utilisateur.
    2. Pour le protéome quantifié TMT (ou similaire), utilisez l’intensité du rapporteur TMT résumée comme valeurs de quantification d’entrée. Pour les données sans étiquette, utilisez des comptes spectraux normalisés (p. ex., NSAF48) ou une méthode fondée sur l’intensité (p. ex., intensité LFQ ou intensité des protéines iBAQ déclarée par Maxquant46).
    3. Les valeurs manquantes sont autorisées pour l’analyse JUMPn. Assurez-vous de les étiqueter comme NA dans la matrice de quantification. Cependant, il est recommandé de n’utiliser que des protéines avec quantification dans plus de 50% des échantillons.
    4. Enregistrez le fichier d’entrée résultant au format .txt, .xlsx ou .csv (les trois sont pris en charge par JUMPn).
  4. Télécharger le fichier d’entrée :
    1. Cliquez sur le bouton Navigateur et sélectionnez le fichier de saisie (Figure 3, panneau de gauche) ; le format de fichier (xlsx, csv et txt sont pris en charge) sera automatiquement détecté.
    2. Si le fichier d’entrée contient des valeurs de quantification de type intensité (par exemple, celles générées par JUMP suite39) ou de type ratio (par exemple, à partir de Proteome Discoverer), sélectionnez Oui pour l’option Exécuter Log2-Transformation des données ; sinon, les données ont peut-être déjà été transformées par journal, alors sélectionnez Non pour cette option.

4. Analyse du clustering de co-expression

NOTE: Notre groupe 25,26,27 et d’autres 28,29,31 ont prouvé WGCNA 49 une méthode efficace pour l’analyse groupée de co-expression de la protéomique quantitative. JUMPn suit une procédure en 3 étapes pour l’analyse WGCNA25,50: (i) définition initiale des groupes gènes/protéines de co-expression par coupe dynamique d’arbre51 basée sur la matrice de chevauchement topologique (TOM; déterminée par des similitudes de quantification entre gènes/protéines); ii) la fusion de groupes similaires pour réduire la redondance (sur la base du dendrogramme des similitudes degènes propres); et (iii) l’attribution finale de gènes/protéines à chaque grappe qui dépassent le seuil minimal de corrélation de Pearson.

  1. Configurez les paramètres WGCNA (Figure 3, panneau central). Les trois paramètres suivants contrôlent respectivement les trois étapes :
    1. Définissez la taille minimale du cluster sur 30. Ce paramètre définit le nombre minimal de protéines requises pour chaque groupe de co-expression dans l’étape initiale (i) de la coupe dynamique dynamique hybride basée sur TOM. Plus la valeur est grande, plus le nombre de clusters renvoyés par l’algorithme est petit.
    2. Définissez la distance minimale du cluster sur 0,2. L’augmentation de cette valeur (p. ex., de 0,2 à 0,3) peut entraîner une plus grande fusion de grappes au cours de l’étape ii), ce qui entraîne une diminution du nombre de grappes.
    3. Définissez le kME minimum sur 0,7. Les protéines seront affectées au groupe le plus corrélé défini à l’étape ii), mais seules les protéines dont la corrélation de Pearson dépasse ce seuil seront conservées. Les protéines qui échouent à cette étape ne seront affectées à aucun groupe (cluster « NA » pour les protéines défaillantes dans le rapport final).
  2. Lancez l’analyse. Il existe deux façons de soumettre l’analyse de clustering de co-expression :
    1. Cliquez sur le bouton Soumettre l’analyse JUMPn dans le coin inférieur droit pour lancer automatiquement l’analyse complète de WGCNA, suivie d’une analyse du réseau PPI.
    2. Vous pouvez également choisir d’exécuter l’étape WGCNA uniquement (en particulier à des fins de réglage des paramètres ; voir les étapes 4.2.3 à 4.2.4) :
    3. Cliquez sur le bouton Paramètres avancés au bas de la page Commencer l’analyse ; une nouvelle fenêtre de paramètre apparaîtra. Dans le widget du bas, Sélectionnez le mode d’analyse, sélectionnez WGCNA uniquement, puis cliquez sur Ignorer pour continuer.
    4. Sur la page Commencer l’analyse , cliquez sur le bouton Soumettre l’analyse JUMPn .
    5. Dans les deux cas ci-dessus, une barre de progression apparaîtra lors de la soumission de l’analyse.
      REMARQUE : Une fois l’analyse terminée (généralement < 1 min pour l’analyse WGCNA uniquement et <3 min pour l’analyse complète), une boîte de dialogue s’affiche avec un message d’exécution réussie et le chemin d’accès absolu au dossier de résultats.
  3. Examinez les résultats du WGCNA comme illustré aux étapes 2.4 à 2.8 (Figure 5). Notez que le chemin absolu vers le fichier co_exp_clusters_3colums.txt est mis en surbrillance en haut de la page de résultats : Sortie WGCNA pour enregistrer l’appartenance au cluster de chaque protéine et l’utiliser comme entrée pour l’analyse PPI uniquement .
  4. Dépannage. Les trois cas courants suivants sont discutés. Une fois les paramètres mis à jour comme indiqué ci-dessous, suivez les étapes 4.2.2-4.2.4 pour générer de nouveaux résultats WGCNA.
    1. Si un modèle de co-expression important est attendu des données mais manqué par l’algorithme, suivez les étapes 4.4.2-4.4.4
    2. Un groupe manquant est particulièrement probable pour les petits groupes de coexpression, c’est-à-dire seulement un nombre limité (p. ex., <30) de protéines présentant ce modèle. Avant la réanalyse, réexaminez le fichier d’entrée de la matrice de quantification des protéines et localisez plusieurs protéines témoins positives qui adhèrent à cet important modèle de co-expression.
    3. Pour sauver les petits clusters, diminuez la taille minimale du cluster (par exemple, 10 ; la taille du cluster inférieure à 10 peut ne pas être robuste et n’est donc pas recommandée) et diminuez la distance minimale du cluster (par exemple, 0,1 ; ici, le paramètre 0 est également autorisé, ce qui signifie que la fusion automatique des clusters sera ignorée).
    4. Après avoir exécuté l’étape de clustering de co-expression avec les paramètres mis à jour, vérifiez d’abord si le cluster est sauvé des diagrammes de modèle de co-expression, puis vérifiez les contrôles positifs en recherchant leurs accessions de protéines dans Detailed Protein Quantification (assurez-vous de sélectionner le cluster de co-expression approprié dans le widget déroulant de gauche avant la recherche).
      REMARQUE: Plusieurs itérations de réglage et de réexécution des paramètres peuvent être nécessaires pour le sauvetage.
    5. S’il y a trop de protéines qui ne peuvent être attribuées à aucun groupe, suivez les étapes 4.4.6 à 4.4.7.
      REMARQUE: Habituellement, un petit pourcentage (généralement <10%) de protéines peut ne pas être attribué à un groupe car il peut s’agir de protéines aberrantes qui n’ont suivi aucun des modèles d’expression courants de l’ensemble de données. Cependant, si ce pourcentage est significatif (p. ex., >30 %), cela suggère qu’il existe d’autres modèles de coexpression qui ne peuvent être ignorés.
    6. Diminuez les paramètres Taille minimale du cluster et Distance minimale du cluster pour atténuer cette situation en détectant les « nouveaux » clusters de coexpression.
    7. De plus, diminuez le paramètre de corrélation minimale de Pearson (kME) pour réduire ces protéines du « cluster NA ».
      REMARQUE: Le réglage de ce paramètre ne générera pas de nouveaux clusters, mais augmentera plutôt la taille des clusters « existants » en acceptant plus de protéines précédemment échouées avec le seuil inférieur; cependant, cela augmentera également l’hétérogénéité de chaque groupe, car plus de protéines bruyantes sont maintenant autorisées.
    8. Deux groupes ont une très petite différence de modèles; les fusionner en un seul cluster en suivant les étapes 4.4.9 à 4.4.11.
    9. Augmentez le paramètre Distance minimale du cluster pour résoudre le problème.
    10. Cependant, dans certaines situations, l’algorithme peut ne jamais renvoyer le modèle souhaité; dans un tel instant, ajustez ou modifiez manuellement l’appartenance au cluster dans le fichier co_exp_clusters_3colums.txt (fichier de l’étape 4.3) à fusionner.
    11. Prenez le fichier post-édité comme entrée pour l’analyse du réseau PPI en aval. En cas d’édition manuelle, justifiez les critères d’affectation de cluster et enregistrez la procédure d’édition manuelle.

5. Analyse du réseau d’interaction protéine-protéine

REMARQUE : En superposant des clusters de co-expression sur le réseau PPI, chaque cluster de co-expression est stratifié en modules PPI plus petits. L’analyse est effectuée pour chaque groupe de co-expression et comprend deux étapes : dans la première étape, JUMPn superpose des protéines du cluster de co-expression au réseau IPP et trouve tous les composants connectés (c’est-à-dire plusieurs groupes de nœuds/protéines connectés; à titre d’exemple, voir la figure 6A); ensuite, des communautés ou des modules (de nœuds densément connectés) seront détectés pour chaque composant connecté de manière itérative à l’aide de la méthode52 de la matrice de chevauchement topologique (TOM).

  1. Configurez les paramètres pour l’analyse du réseau PPI (Figure 3, panneau de droite).
    1. Définissez la taille minimale du module PPI sur 2. Ce paramètre définit la taille minimale des composants déconnectés à partir de la première étape de l’analyse. Tout composant plus petit que le paramètre spécifié sera supprimé des résultats finaux.
    2. Définissez la taille maximale du module PPI sur 40. Les composants volumineux et déconnectés qui dépassent ce seuil feront l’objet d’une analyse TOM de deuxième étape. L’analyse de la deuxième étape divisera davantage chaque grand composant en modules plus petits: chaque module contient probablement des protéines plus densément connectées que le composant d’origine dans son ensemble.
  2. Lancez l’analyse. Il existe deux façons de soumettre l’analyse du réseau PPI :
    1. Appuyez sur le bouton Soumettre l’analyse JUMPn pour effectuer automatiquement l’analyse PPI après l’analyse WGCNA par défaut.
    2. Vous pouvez également télécharger des résultats de cluster de co-expression personnalisés et effectuer une analyse PPI uniquement en suivant les étapes 5.2.3 à 5.2.5.
    3. Préparez le fichier d’entrée en suivant le format du fichier co_exp_clusters_3colums.txt (voir la sous-section 4.4).
    4. Cliquez sur le bouton Paramètres avancés au bas de la page Commencer l’analyse ; une nouvelle fenêtre de paramètre apparaîtra. Dans la session supérieure Upload Co-Expression Cluster Result for 'PPI Only' Analysis, cliquez sur Browser pour télécharger le fichier d’entrée préparé à l’étape 5.2.3.
    5. Dans le widget du bas, Sélectionnez le mode d’analyse, sélectionnez PPI uniquement, puis cliquez sur Ignorer pour continuer. Sur la page Commencer l’analyse , cliquez sur le bouton Soumettre l’analyse JUMPn .
  3. Une fois l’analyse terminée (généralement <3 min), examinez les résultats de l’IPP comme illustré aux étapes 2.10-2.15 (Figure 6).
  4. Étape avancée en option) Ajustez la modularisation PPI en réglant les paramètres:
    1. Augmentez le paramètre Taille maximale du module pour autoriser plus de protéines incluses dans les résultats de l’IPP. Téléchargez un réseau PPI personnalisé pour couvrir les interactions non documentées, en suivant les étapes 5.4.2 à 5.4.3.
    2. Cliquez sur le bouton Paramètres avancés au bas de la page Commencer l’analyse ; une nouvelle fenêtre de paramètre apparaîtra. Préparez le fichier PPI personnalisé, qui contient trois colonnes au format , C onnection et ; ici sont présentés par les noms de gènes officiels de chaque protéine.
    3. Dans Télécharger une base de données PPI, cliquez sur le bouton Parcourir pour télécharger le fichier PPI personnalisé.

6. Analyse de l’enrichissement des voies

REMARQUE : Les structures hiérarchiques dérivées de JUMPn des clusters de co-expression et des modules PPI à l’intérieur sont automatiquement annotées avec des voies surreprésentées à l’aide du test exact de Fisher. Les bases de données de voies/topologies utilisées incluent Gene Ontology (GO), KEGG, Hallmark et Reactome. Les utilisateurs peuvent utiliser des options avancées pour télécharger des bases de données personnalisées pour l’analyse (par exemple, dans le cas de l’analyse de données provenant d’espèces non humaines).

  1. Par défaut, l’analyse d’enrichissement des voies est lancée automatiquement avec le clustering de co-expression et l’analyse du réseau PPI.
  2. Voir les résultats de l’enrichissement de la voie :
    1. Suivez les étapes 2.7, 2.12 et 2.15 pour visualiser différents formats sur les pages de résultats. Affichez les résultats détaillés dans le tableau de publication de feuille de calcul dans le fichier .xlsx ComplèteSummaryTables (étape 2.16).
  3. (Étape avancée facultative) Téléchargez une base de données personnalisée pour l’analyse de l’enrichissement des voies :
    1. Préparez le fichier d’arrière-plan des gènes, qui contient généralement les noms officiels des gènes de tous les gènes d’une espèce.
    2. Préparez le fichier de bibliothèque d’ontologie en suivant les étapes 6.3.3 à 6.3.4.
    3. Téléchargez les fichiers de la bibliothèque d’ontologie à partir de sites Web publics, notamment EnrichR53 et MSigDB54. Par exemple, téléchargez l’ontologie de la drosophile à partir du site Web EnrichR55.
    4. Modifiez le fichier téléchargé pour le format requis avec deux colonnes: le nom de la voie comme première colonne, puis les symboles officiels du gène (séparés par « / ») comme deuxième colonne. Le format de fichier détaillé est décrit dans la page d’aide du logiciel JUMPn R shiny.
      REMARQUE : Recherchez des exemples de fichiers d’arrière-plan génétique et de bibliothèque d’ontologie (en utilisant Drosophila comme instance) dans le site GitHubJUMPn 56.
    5. Cliquez sur le bouton Paramètres avancés au bas de la page Commencer l’analyse; une nouvelle fenêtre de paramètre apparaîtra.
    6. Trouvez Télécharger un fichier d’arrière-plan pour l’élément Analyse d’enrichissement de chemin et cliquez sur Navigateur pour télécharger le fichier d’arrière-plan préparé à l’étape 6.3.1. Ensuite, dans la session, sélectionnez l’arrière-plan à utiliser pour l’analyse de l’enrichissement des voies, cliquez sur Arrière-plan fourni par l’utilisateur.
    7. Trouvez Télécharger un fichier de bibliothèque d’ontologie pour l’élément Analyse d’enrichissement de cheminement et cliquez sur Navigateur pour télécharger le fichier de bibliothèque d’ontologie préparé aux étapes 6.3.2-6.3.4. Ensuite, dans la session, Sélectionnez Bases de données pour l’analyse d’enrichissement des voies, cliquez sur Base de données fournie par l’utilisateur dans .xlsx Format.
  4. Cliquez sur le bouton Soumettre l’analyse JUMPn dans le coin inférieur droit pour lancer l’analyse à l’aide de la base de données personnalisée.

7. Analyse de l’ensemble de données avec un échantillon de grande taille

REMARQUE: JUMPn prend en charge l’analyse d’un ensemble de données avec une grande taille d’échantillon (jusqu’à 200 échantillons testés). Pour faciliter la visualisation d’un échantillon de grande taille, un fichier supplémentaire (appelé « méta fichier ») qui spécifie le groupe d’échantillons est nécessaire pour faciliter l’affichage des résultats du clustering de co-expression.

  1. Préparez et téléchargez le méta-fichier.
    1. Préparez le métafique qui spécifie les informations de groupe (par exemple, les groupes témoins et de maladies) pour chaque échantillon en suivant les étapes 7.1.2 à 7.1.3.
    2. Assurez-vous que le métafichier contient au moins deux colonnes : la colonne 1 doit contenir les noms d’échantillons identiques aux noms de colonne et à l’ordre du fichier de matrice de quantification des protéines (tel que préparé à l’étape 3.3) ; La colonne 2 sera utilisée pour l’affectation de groupe pour n’importe quel nombre de fonctionnalités définies par l’utilisateur. Le nombre de colonnes est flexible.
    3. Assurez-vous que la première ligne du méta-fichier contient les noms de colonne de chaque colonne ; à partir de la deuxième rangée, des échantillons individuels de groupes ou d’autres caractéristiques (p. ex., sexe, âge, traitement, etc.) doivent être énumérés.
    4. Téléchargez le méta-fichier en cliquant sur le bouton Paramètres avancés au bas de la page Commencer l’analyse ; une nouvelle fenêtre de paramètre apparaîtra. Passez à l’étape 7.1.5
    5. Trouvez Télécharger un élément Meta File et cliquez sur Navigateur pour télécharger le fichier d’arrière-plan. Si le format inattendu ou les noms d’échantillons non correspondants sont détectés par JUMPn, un message d’erreur apparaîtra pour une mise en forme ultérieure du méta-fichier (étapes 7.1.1 à 7.1.3).
  2. Ajustez les paramètres pour l’analyse de clustering de co-expression : définissez la corrélation minimale de Pearson sur 0,2. Ce paramètre doit être assoupli en raison de la taille plus grande de l’échantillon.
  3. Cliquez sur le bouton Soumettre l’analyse JUMPn dans le coin inférieur droit pour soumettre l’analyse.
  4. Afficher les résultats de l’analyse : toutes les sorties de données sont les mêmes, à l’exception de l’affichage des modèles de cluster de co-expression.
    1. Dans la page Résultats Page 1 : Sortie WGCNA , visualisez les clusters de co-expression sous forme de diagrammes en boîte avec des échantillons stratifiés par les groupes d’échantillons ou les entités définis par l’utilisateur. Chaque point du diagramme représente le gène propre (c’est-à-dire le modèle de consensus du cluster) calculé par l’algorithme WGCNA.
    2. Si l’utilisateur a fourni plusieurs fonctionnalités (par exemple, âge, sexe, traitement, etc.) pour regrouper les échantillons, cliquez sur la liste déroulante Sélectionner le format d’expression pour sélectionner une autre fonctionnalité pour regrouper les échantillons.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Nous avons utilisé nos ensembles de données protéomiques profondes publiés 25,26,27,30 (figures 5 et figure 6) ainsi que les simulations de données57 (tableau 1) pour optimiser et évaluer les performances de JUMPn. Pour l’analyse du regroupement des protéines de coexpression via WGCNA, nous recommandons d’utiliser des protéines significativement modifiées dans les échantillons en tant qu’entrée (par exemple, les protéines exprimées différentiellement (DE) détectées par analyse statistique). Bien que l’inclusion de protéines non DE pour l’analyse puisse entraîner un plus grand nombre de grappes de co-expression renvoyées par le programme (en raison de la plus grande taille d’entrée), nous émettons l’hypothèse que le mélange du signal réel (par exemple, les protéines DE) avec l’arrière-plan (le non-DE restant) pour l’analyse au niveau des systèmes peut diluer le signal et masquer la structure du réseau sous-jacent. Pour tester cela, l’analyse de simulation a été effectuée dans deux conditions différentes : i) protéome hautement dynamique (p. ex., 50 % altéré dans l’activation des lymphocytes T25) et ii) protéome relativement stable (p. ex., protéome modifié à26 p. J.-C.). Pour le protéome hautement dynamique, six amas de co-expression ont été simulés à partir de 50 % de protéome suivant la même taille de cluster et les mêmes modèles d’expression (c.-à-d. lesgènes propres) de nos résultats publiés25. De même, pour un protéome relativement stable, nous avons simulé trois amas à partir de protéome à 2 % à la suite de notre récente étude de protéomique AD26. Comme prévu, l’augmentation du nombre d’entrées de protéines augmente le nombre de grappes détectées (tableau 1). Pour le protéome hautement dynamique, l’utilisation de toutes les protéines comme entrée peut capturer la plupart des vrais clusters (5 des 6 clusters simulés de bonne foi; rappel de 83%) avec une précision de 63% (5 des 8 clusters retournés sont de vrais positifs; c’est-à-dire que les 3 clusters restants sont de faux positifs). Cependant, pour le protéome relativement stable, l’augmentation de la taille des entrées avec des protéines non DE réduit considérablement la précision (tableau 1). Par exemple, en utilisant l’ensemble du protéome comme entrée, 169 modules sont détectés, dont seulement 2 sont corrects (précision de 1,2%; les 98,8% restants modules détectés sont des faux positifs). Ces résultats indiquent donc que le choix du seul protéome modifié comme entrée augmentera la précision de l’analyse de co-expression, en particulier pour le protéome relativement stable.

Après la détection de grappes de protéines de coexpression, chaque grappe sera annotée par JUMPn à l’aide de l’analyse d’enrichissement des voies (Figure 1). La version actuelle comprend quatre bases de données de voies couramment utilisées, notamment Gene Ontology (GO), KEGG, Hallmark et Reactome. Les utilisateurs peuvent également compiler leur propre base de données au format GMT54, qui peut être téléchargée dans JUMPn. L’intégration de plusieurs bases de données pour l’analyse de l’enrichissement des voies peut fournir des vues plus complètes; cependant, la taille des différentes bases de données de chemins varie considérablement, ce qui peut induire un biais indésirable pour certaines bases de données (particulièrement volumineuses). Deux solutions sont fournies dans JUMPn. Tout d’abord, en utilisant une approche statistique, les valeurs nominales de p sont ajustées (ou pénalisées) pour le test d’hypothèses multiples par la méthode de Benjamini-Hochberg58, avec une base de données plus grande nécessitant une valeur de p nominale plus significative pour atteindre le même niveau de p ajusté que celle d’une petite base de données. Deuxièmement, JUMPn met en évidence séparément le chemin le plus enrichi de manière significative pour chaque base de données, de sorte que les chemins enrichis les plus spécifiques à la base de données sont toujours affichés.

Semblable à l’analyse de l’enrichissement des voies, un réseau PPI composite a été compilé en combinant les bases de données STRING59,60, BioPlex 61,62 et InWeb_IM63. La base de données BioPlex a été créée en utilisant la purification d’affinité suivie de la spectrométrie de masse dans les lignées cellulaires humaines, tandis que le STRING et InWeb contiennent des informations provenant de diverses sources. Par conséquent, les bases de données STRING et InWeb ont été filtrées par le score edge pour assurer une qualité élevée, le seuil étant déterminé en s’adaptant au mieux au critère sans échelle24. Le réseau PPI fusionné couvre plus de 20 000 gènes humains avec environ 1 100 000 bords (tableau 2). Cet interactome complet est inclus et publié dans un bundle avec notre logiciel JUMPn pour l’analyse PPI sensible.

Une fois l’analyse terminée, JUMPn génère le fichier de feuille de calcul de table de publication ComprehensiveSummaryTables.xlsx, composé de trois feuilles individuelles. La première feuille contient les résultats des grappes de protéines de coexpression avec une protéine par ligne : la première colonne indique l’appartenance au cluster de chaque protéine d’entrée, et les colonnes restantes sont copiées à partir du fichier d’entrée utilisateur, qui contient l’accession de la protéine, les noms des gènes, la description de la protéine et la quantification des échantillons individuels. La deuxième feuille contient les résultats de l’analyse de l’enrichissement des voies, affichant des voies significatives enrichies dans chaque cluster de co-expression. Ce tableau est d’abord organisé par différentes bases de données de voies, puis trié par grappes de co-expression, voies fonctionnelles, nombre total de gènes de voie, nombre total de gènes dans le cluster individuel, numéros et noms de gènes superposés, pli d’enrichissement, valeurs P dérivées du test exact de Fisher et taux de fausse découverte de Benjamini-Hochberg. La troisième feuille contient les résultats de l’analyse du module PPI avec un module PPI par ligne; ses colonnes incluent le nom du module (défini par son appartenance à la co-expression et son ID de module, par exemple, Cluster1_Module1), les protéines et les nombres cartographiés, ainsi que les voies fonctionnelles définies en effectuant une recherche dans les protéines du module dans les bases de données de voies.

Figure 1
Figure 1 : Flux de travail de JUMPn. La matrice de quantification de la variable supérieure des protéines exprimées différentiellement (DE) est prise en entrée, et les protéines sont regroupées en grappes de co-expression par l’algorithme WGCNA. Chaque co-expression est ensuite annotée par une analyse d’enrichissement des voies et superposée au réseau d’interaction protéine-protéine (IPP) pour des identifications de modules protéiques densément connectés. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 2
Figure 2 : Page d’accueil de JUMPn. Veuillez cliquer ici pour afficher une version agrandie de cette figure.

Figure 3
Figure 3 : Page d’entrée de JUMPn. La page comprend le panneau de téléchargement du fichier d’entrée et les panneaux de configuration des paramètres pour le clustering de co-expression et l’analyse de réseau PPI, respectivement. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 4
Figure 4 : Exemple de fichier d’entrée de matrice de quantification. Les colonnes comprennent l’accession des protéines (ou tout id unique), gn (symboles officiels des gènes), la description des protéines (ou toute information fournie par l’utilisateur), suivie de la quantification des protéines d’échantillons individuels. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 5
Figure 5 : Résultats du cluster de co-expression rapportés par JUMPn. Les modèles de regroupement de co-expression (A), la carte thermique des voies enrichies supérieures entre les grappes (B) et l’abondance détaillée des protéines pour chaque grappe sont indiqués (C). Les utilisateurs peuvent sélectionner différentes options d’affichage et naviguer entre différents clusters via la zone de sélection. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 6
Figure 6 : Résultats de l’analyse du réseau PPI rapportés par JUMPn. Le réseau inter-modules global est montré (A), suivi d’un sous-réseau de modules individuels (B) et de ses voies significativement enrichies (C). Les utilisateurs peuvent sélectionner différentes options d’affichage et naviguer entre différents clusters et modules via la zone de sélection. Veuillez cliquer ici pour voir une version agrandie de cette figure.

% de protéines supérieures pour l’analyse Nombre de modules simulés Nombre de modules détectés # modules recapturés1 précision2 rappel3
Protéome hautement dynamique (par exemple, lors de l’activation des lymphocytes T) : 6 modules simulés à partir de 50 % de protéome
2 6 2 2 1 0.33
5 6 2 2 1 0.33
10 6 3 3 1 0.5
20 6 4 4 1 0.67
50 6 6 6 1 1
100 6 8 5 0.63 0.83
Protéome relativement stable (p. ex. pendant la pathogenèse de la MA) : 3 modules simulés à partir de 2 % de protéome
1 3 1 1 1 0.33
2 3 3 3 1 1
5 3 8 3 0.38 1
10 3 13 3 0.23 1
20 3 19 3 0.16 1
50 3 71 2 0.03 0.67
100 3 169 2 0.01 0.67
1 Un module recapturé est un module détecté dont legène propre est fortement corrélé (Pearson R > 0,95) avec l’un desgènes propres simulés.
2précision = # modules recapturés / # modules détectés
3rappel = # modules recapturés / # modules simulés

Tableau 1 : Études de simulation de la détection de grappes de coexpression.

Réseaux PPI Lol nombre de nœuds Lol d’arêtes
BioPlex 3.0 combiné (293T+HCT116) 14,551 1,67,399
InBio_Map_core_2016_09_12 17,429 6,08,166
STRING (v11.0) 18,954 5,87,482
Réseau PPI composite 20,485 11,52,607

Tableau 2 : Statistiques des réseaux d’interaction protéine-protéine humaine (IPP). Les réseaux PPI sont filtrés par score de bord pour assurer une qualité élevée, le seuil de score étant déterminé en s’adaptant le mieux aux critères sans échelle.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Ici, nous avons présenté notre logiciel JUMPn et son protocole, qui ont été appliqués dans de multiples projets de dissection de mécanismes moléculaires à l’aide de données protéomiques quantitatives profondes 25,26,27,30,64. Le logiciel et le protocole JUMPn ont été entièrement optimisés, y compris la prise en compte des protéines DE pour l’analyse du réseau de co-expression, une compilation de réseaux PPI complets et de haute qualité, une analyse statistique rigoureuse (par exemple, en tenant compte de tests d’hypothèses multiples) avec une interface simplifiée et conviviale. Plusieurs modules protéiques identifiés par JUMPn ont été validés par des études expérimentales fonctionnelles 25,27 ou des cohortes de patients indépendantes26, illustrant JUMPn comme un outil efficace pour identifier les molécules clés et les voies sous-jacentes à divers processus biologiques.

Les étapes critiques de ce protocole incluent la génération de résultats optimaux de clusters de co-expression et de modules PPI, ce qui peut nécessiter plusieurs itérations de réglage des paramètres, ainsi que le téléchargement d’un réseau PPI personnalisé. Dans notre protocole, nous avons discuté de scénarios pratiques courants, notamment la façon de gérer l’absence de grappes importantes, un pourcentage élevé de protéines non attribuées, la fusion de deux grappes redondantes et l’absence de protéines importantes dans les modules IPP. Nous recommandons à l’utilisateur de préparer plusieurs protéines témoins positives et de confirmer leur présence dans les grappes de coexpression finales. Parfois, un contrôle positif ne sera jamais inclus dans les modules PPI finaux en raison d’une base de données réseau PPI incomplète. Pour atténuer partiellement cela, nous avons mis à jour notre réseau PPI avec les dernières versions de BioPlex V362 et STRING V1160. En outre, JUMPn permet aux utilisateurs de télécharger des réseaux PPI personnalisés. Par exemple, de nouvelles interactions dérivées d’expériences de spectrométrie de masse de purification d’affinité (AP-MS) utilisant une importante protéine témoin positive comme appât peuvent être intégrées au réseau IPP composite actuel pour une analyse plus personnalisée.

En utilisant le cadre de l’analyse de l’enrichissement des voies pour chaque groupe de protéines de co-expression, JUMPn peut être étendu pour déduire l’activité du facteur de transcription (TF). L’hypothèse est que s’il existe une surreprésentation des gènes cibles d’un TF spécifique dans un groupe de co-expression (c.-à-d. que ces cibles sont exprimées différemment et suivent le même modèle d’expression), l’activité de ce TF est potentiellement modifiée dans toutes les conditions expérimentales parce que son abondance de protéines cibles est modifiée de manière cohérente. Techniquement, cela peut être réalisé simplement via JUMPn en remplaçant la base de données de chemin actuelle par la base de données TF-cible (par exemple, du projet ENCODE65). De même, l’activité des kinases peut également être déduite en tirant parti de la base de données kinase-substrat, en prenant la phosphoprotéomique profonde comme entrée. À titre d’exemple, nous avons réussi à identifier les TF et les kinases dérégulées sous-jacentes à la pathogenèse des tumeurs cérébrales64. En effet, l’utilisation de l’approche en réseau pour l’inférence d’activité est apparue comme une approche puissante pour identifier les facteurs dérégulés des maladies humaines66,67.

Le logiciel JUMPn s’applique facilement à un large éventail de types de données. Même si le protéome quantifié par marquage isobare a été utilisé à titre d’exemple, le même protocole s’applique également aux données protéomiques quantifiées sans étiquette, ainsi qu’aux profils d’expression à l’échelle du génome (par exemple, quantifiés par séquençage de l’ARN ou microréseau; voir notre exemple récent d’application de JUMPn pour les profils d’expression des gènes et des protéines27). Les données phosphoprotéomiques pourraient également être prises par JUMPn pour identifier les phosphosites co-exprimées, suivies de l’inférence de l’activité des kinases25. En outre, les données sur les interactomes générées par l’approche AP-MS seront également appropriées, par lesquelles les protéines de proie qui suivent une force d’interaction d’appât et une stœchiométrie similaires formeront des grappes de coexpression et se chevaucheront davantage avec des IPP connus pour l’interprétation des données68.

Des limitations existent pour la version actuelle de JUMPn. Tout d’abord, la procédure d’installation est basée sur la ligne de commande et nécessite des connaissances de base en informatique. Cela entrave une utilisation plus large de JUMPn, en particulier de la part des biologistes sans formation en informatique. Une implémentation plus idéale consiste à publier JUMPn sur un serveur en ligne. Deuxièmement, les bases de données actuelles sont centrées sur l’humain en raison de l’accent que nous mettons sur les études sur les maladies humaines. Notez que les données protéomiques générées par les souris ont également été analysées par JUMPn à l’aide de ces bases de données centrées sur l’homme25,27, en supposant que la plupart des IPP sont conservés chez les deux espèces69,70. La signalisation spécifique à la souris ne sera pas capturée par cette approche, mais n’est pas intéressante dans ces études humaines. Cependant, pour les systèmes modèles non mammifères (p. ex., poisson zèbre, mouche ou levure), des bases de données spécifiques à l’espèce doivent être préparées et téléchargées dans JUMPn à l’aide des options avancées. Des ressources d’espèces supplémentaires pourraient être fournies par le biais d’une future libération de JUMPn. Troisièmement, l’étape actuelle de l’ontologie / analyse des voies prend beaucoup de temps, qui peut être optimisé par le calcul parallèle.

En conclusion, nous présentons le logiciel et le protocole JUMPn pour explorer les données protéomiques quantitatives afin d’identifier et de visualiser les modules protéiques co-exprimés et potentiellement interagissant physiquement par l’approche de la biologie des systèmes. Les principales caractéristiques qui distinguent JUMPn des autres 53,71,72 comprennent : (i) JUMPn intègre et rationalise quatre composantes principales de l’analyse des voies et du réseau (Figure 1); (ii) Différent de la plupart des logiciels d’analyse de voies qui prennent une simple liste de gènes comme entrée, JUMPn part de la matrice de quantification, par laquelle les informations quantitatives peuvent être intégrées de manière transparente aux voies et réseaux documentés dans la littérature; iii) Les groupes de protéines de coexpression et les modules d’interaction sont automatiquement annotés par des voies connues et visualisés via la plate-forme d’interaction R/shiny à l’aide d’un navigateur Web convivial; (iv) Les résultats finaux sont organisés en trois tableaux qui peuvent être facilement publiés en format Excel. Ainsi, nous nous attendons à ce que le JUMPn et ce protocole soient largement applicables à de nombreuses études pour disséquer les mécanismes à l’aide de données protéomiques quantitatives.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs n’ont rien à divulguer.

Acknowledgments

Le soutien financier a été fourni par les National Institutes of Health (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 et U54NS110435) et ALSAC (American Lebanese Syrian Associated Charities). L’analyse de la SEP a été réalisée au Centre de protéomique et de métabolomique du St. Jude Children’s Research Hospital, qui a été partiellement soutenu par la subvention de soutien du NIH Cancer Center (P30CA021765). Le contenu relève de la seule responsabilité des auteurs et ne représente pas nécessairement les points de vue officiels des National Institutes of Health.

Materials

Name Company Catalog Number Comments
MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7. Apple Inc. MacBook Pro 13'' Hardware used for software development and testing
Anoconda Anaconda, Inc. version 4.9.2 https://docs.anaconda.com/anaconda/install/
miniconda Anaconda, Inc. version 4.9.2 https://docs.conda.io/en/latest/miniconda.html
RStudio RStudio Public-benefit corporation version 4.0.3 https://www.rstudio.com/products/rstudio/download/
Shiny Server RStudio Public-benefit corporation https://shiny.rstudio.com/articles/shinyapps.html

DOWNLOAD MATERIALS LIST

References

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
  2. Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
  3. Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
  4. Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
  5. Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
  6. Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
  7. Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
  8. Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
  9. Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer's disease. Analytical Chemistry. 92, 7162-7170 (2020).
  10. Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
  11. Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
  12. Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
  13. Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
  14. Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
  15. Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
  16. Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
  17. Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
  18. Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
  19. High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
  20. Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
  21. Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
  22. Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
  23. Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
  24. Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell's functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
  25. Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
  26. Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer's disease progression. Neuron. 105, 975-991 (2020).
  27. Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
  28. Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer's disease. Cell Systems. 4, 60-72 (2017).
  29. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer's disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
  30. Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
  31. Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
  32. Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
  33. Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
  34. Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
  35. Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
  36. Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
  37. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
  38. Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
  39. Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
  40. Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, Anaconda. miniconda (2021). RStudio (2021) Shiny Server 2301-2319 (2021).
  41. JUMPn. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021).
  42. Anaconda. , Available from: https://docs.anaconda.com/anaconda/install/ (2021).
  43. miniconda. , Available from: https://docs.conda.io/en/latest/miniconda.html (2021).
  44. RStudio. , Available from: https://www.rstudio.com/products/rstudio/download/ (2021).
  45. Shiny Server. , Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021).
  46. Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
  47. R code. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021).
  48. Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
  49. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article 17 (2005).
  50. Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
  51. Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
  52. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
  53. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  54. Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
  55. FlyEn rich r. , Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021).
  56. JUMPn GitHub. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly_ (2021).
  57. Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
  58. Benjamini, Y., Hochberg, Y. Controlling the false discovery rate - a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
  59. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
  60. Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
  61. Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
  62. Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
  63. Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
  64. Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
  65. Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
  66. Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
  67. Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
  68. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
  69. Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
  70. Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
  71. Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
  72. Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

Tags

Biochimie numéro 176
JUMPn : Une application simplifiée pour le regroupement de la co-expression des protéines et l’analyse des réseaux en protéomique
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Vanderwall, D., Suresh, P., Fu, Y.,More

Vanderwall, D., Suresh, P., Fu, Y., Cho, J. H., Shaw, T. I., Mishra, A., High, A. A., Peng, J., Li, Y. JUMPn: A Streamlined Application for Protein Co-Expression Clustering and Network Analysis in Proteomics. J. Vis. Exp. (176), e62796, doi:10.3791/62796 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter