Biology

Inherent Dynamics Visualizer, une application interactive pour évaluer et visualiser les résultats d’un pipeline d’inférence de réseau de régulation de gènes

Published: December 7, 2021 doi: 10.3791/63084

Robert C. Moseley¹, Sophia Campione¹, Bree Cummins², Francis Motta³, Steven B. Haase¹

¹Department of Biology, Duke University, ²Department of Mathematical Sciences, Montana State University, ³Department of Mathematical Sciences, Florida Atlantic University

Summary

Inherent Dynamics Visualizer est un ensemble de visualisation interactif qui se connecte à un outil d’inférence de réseau de régulation génique pour une génération améliorée et rationalisée de modèles de réseau fonctionnels. Le visualiseur peut être utilisé pour prendre des décisions plus éclairées pour paramétrer l’outil d’inférence, augmentant ainsi la confiance dans les modèles résultants.

Abstract

Le développement de modèles de réseaux de régulation génique est un défi majeur en biologie des systèmes. Plusieurs outils de calcul et pipelines ont été développés pour relever ce défi, y compris le nouveau pipeline Inherent Dynamics. Le pipeline Inherent Dynamics se compose de plusieurs outils précédemment publiés qui fonctionnent en synergie et sont connectés de manière linéaire, où la sortie d’un outil est ensuite utilisée comme entrée pour l’outil suivant. Comme pour la plupart des techniques de calcul, chaque étape du pipeline Inherent Dynamics nécessite que l’utilisateur fasse des choix sur des paramètres qui n’ont pas de définition biologique précise. Ces choix peuvent avoir un impact considérable sur les modèles de réseaux de régulation des gènes produits par l’analyse. Pour cette raison, la capacité de visualiser et d’explorer les conséquences de divers choix de paramètres à chaque étape peut aider à accroître la confiance dans les choix et les résultats. Inherent Dynamics Visualizer est un package de visualisation complet qui rationalise le processus d’évaluation des choix de paramètres via une interface interactive dans un navigateur Web. L’utilisateur peut examiner séparément la sortie de chaque étape du pipeline, apporter des modifications intuitives en fonction d’informations visuelles et bénéficier de la production automatique des fichiers d’entrée nécessaires pour le pipeline Inherent Dynamics. Le visualiseur Inherent Dynamics offre un niveau d’accès inégalé à un outil très complexe pour la découverte de réseaux de régulation génique à partir de données transcriptomiques de séries chronologiques.

Introduction

De nombreux processus biologiques importants, tels que la différenciation cellulaire et la réponse environnementale, sont régis par des ensembles de gènes qui interagissent les uns avec les autres dans un réseau de régulation des gènes (GRN). Ces GRN produisent la dynamique transcriptionnelle nécessaire à l’activation et au maintien du phénotype qu’ils contrôlent, de sorte que l’identification des composants et de la structure topologique du GRN est essentielle pour comprendre de nombreux processus et fonctions biologiques. Un GRN peut être modélisé comme un ensemble de gènes en interaction et/ou de produits géniques décrits par un réseau dont les nœuds sont les gènes et dont les bords décrivent la direction et la forme de l’interaction (par exemple, activation/répression de la transcription, modification post-traductionnelle, etc.) ¹. Les interactions peuvent ensuite être exprimées sous forme de modèles mathématiques paramétrés décrivant l’impact d’un gène régulateur sur la production de sa ou ses cibles ^2,3,4. L’inférence d’un modèle GRN nécessite à la fois une inférence de la structure du réseau d’interaction et une estimation des paramètres d’interaction sous-jacents. Diverses méthodes d’inférence computationnelle ont été mises au point pour ingérer des données d’expression génique de séries chronologiques et produire des modèles ^GRN5. Récemment, une nouvelle méthode d’inférence GRN a été développée, appelée Inherent Dynamics Pipeline (IDP), qui utilise des données d’expression génique de séries chronologiques pour produire des modèles GRN avec des interactions régulateur-cible marquées capables de produire une dynamique qui correspond à la dynamique observée dans les données ^{d’expression génique6}. L’IDP est une suite d’outils connectés linéairement dans un pipeline et peut être décomposé en trois étapes : une étape de recherche de nœud qui classe les gènes en fonction des caractéristiques d’expression génique connues ou soupçonnées d’être liées à la fonction du ^GRN7,8, une étape de recherche de périphérie qui classe les relations réglementaires par ^paires8^,⁹, et une étape de recherche de réseau qui produit des modèles GRN capables de produire la dynamique observée10,11,12,13,14,15.

Comme la plupart des méthodes de calcul, l’IDP nécessite un ensemble d’arguments spécifiés par l’utilisateur qui dictent la façon dont les données d’entrée sont analysées, et différents ensembles d’arguments peuvent produire des résultats différents sur les mêmes données. Par exemple, plusieurs méthodes, y compris l’IDP, contiennent des arguments qui appliquent un certain seuil sur les données, et l’augmentation/diminution de ce seuil entre les exécutions successives de la méthode particulière peut entraîner des résultats différents entre les exécutions (voir la note supplémentaire 10 : Méthodes d’inférence réseau ^de5). Comprendre comment chaque argument peut avoir une incidence sur l’analyse et les résultats ultérieurs est important pour obtenir une grande confiance dans les résultats. Contrairement à la plupart des méthodes d’inférence GRN, l’IDP se compose de plusieurs outils de calcul, chacun ayant son propre ensemble d’arguments qu’un utilisateur doit spécifier et chacun ayant ses propres résultats. Bien que l’IDP fournisse une documentation complète sur la façon de paramétrer chaque outil, l’interdépendance de chaque outil sur la sortie de l’étape précédente rend difficile le paramétrage de l’ensemble du pipeline sans analyses intermédiaires. Par exemple, les arguments dans les étapes Edge et Network Finding sont susceptibles d’être éclairés par des connaissances biologiques antérieures, et dépendront donc de l’ensemble de données et / ou de l’organisme. Pour interroger les résultats intermédiaires, une compréhension de base de la programmation, ainsi qu’une compréhension approfondie de tous les fichiers de résultats et de leur contenu de l’IDP, seraient nécessaires.

L’Inherent Dynamics Visualizer (IDV) est un package de visualisation interactif qui s’exécute dans la fenêtre du navigateur d’un utilisateur et permet aux utilisateurs de l’IDP d’évaluer l’impact de leurs choix d’arguments sur les résultats de n’importe quelle étape de l’IDP. L’IDV navigue dans une structure de répertoires complexe produite par l’IDP et recueille les données nécessaires pour chaque étape et présente les données dans des figures et des tableaux intuitifs et interactifs que l’utilisateur peut explorer. Après avoir exploré ces écrans interactifs, l’utilisateur peut produire de nouvelles données à partir d’une étape IDP qui peuvent être basées sur des décisions plus éclairées. Ces nouvelles données peuvent ensuite être immédiatement utilisées à l’étape suivante de l’IDP. En outre, l’exploration des données peut aider à déterminer si une étape IDP doit être réexécutée avec des paramètres ajustés. L’IDV peut améliorer l’utilisation de l’IDP, ainsi que rendre l’utilisation de l’IDP plus intuitive et accessible, comme l’a démontré l’étude de l’oscillateur central GRN du cycle cellulaire de la levure. Le protocole suivant inclut les résultats IDP d’une exécution IDP entièrement paramétrée par rapport à une approche qui incorpore l’IDV après les exécutions de chaque étape IDP, c’est-à-dire Node, Edge et Network Finding.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Installez l’IDP et l’IDV

REMARQUE : cette section suppose que docker, conda, pip et git sont déjà installés (Tableau des matériaux).

Dans un terminal, entrez la commande : git clone https://gitlab.com/biochron/inherent_dynamics_pipeline.git.
Suivez les instructions d’installation dans le fichier README du fournisseur d’identité.
Dans un terminal, entrez la commande : git clone https://gitlab.com/bertfordley/inherent_dynamics_visualizer.git.
REMARQUE : Le clonage de l’IDV doit avoir lieu en dehors du répertoire de niveau supérieur de l’IDP.
Suivez les instructions d’installation dans le fichier README de l’IDV.

2. Recherche de nœuds

Créez un fichier de configuration IDP qui paramétre l’étape de recherche de nœud.
Remarque : Tous les guillemets dans les étapes suivantes ne doivent pas être tapés. Les guillemets ne sont utilisés ici que comme délimiteur entre le texte du protocole et ce qui doit être tapé.
1. Ajoutez les principaux arguments IDP au fichier de configuration.
2. Ouvrez un nouveau fichier texte dans un éditeur de texte et tapez « data_file = », « annotation_file = », « output_dir = », « num_proc = » et « IDVconnection = True » sur des lignes individuelles.
3. Pour « data_file », après le signe égal à, tapez le chemin d’accès et le nom du fichier de série chronologique respectif et tapez une virgule après le nom. Séparez chaque donnée par une virgule, si plusieurs ensembles de données de séries chronologiques sont utilisés. Voir Le fichier supplémentaire 1 et le fichier supplémentaire 2 pour un exemple de fichiers d’expression génique de séries chronologiques.
4. Tapez le chemin d’accès et le nom du fichier d’annotation pour « annotation_file », après le signe égal à. Voir Fichier supplémentaire 3 pour obtenir un exemple de fichier d’annotation.
5. Pour « output_file », après le signe égal à, tapez le chemin d’accès et le nom du dossier où les résultats seront enregistrés.
6. Après le signe égal à, pour « num_proc », tapez le nombre de processus que l’IDP doit utiliser.
7. Ajoutez des arguments de recherche de nœud au fichier de configuration.
8. Dans le même fichier texte qu’à l’étape 2.1.1, tapez dans l’ordre présenté « [dlxjtk_arguments] », « points = » et « dlxjtk_cutoff = » sur des lignes individuelles. Placez-les après les arguments principaux.
9. Pour « périodes », après le signe égal à, si un ensemble de données de série unique est utilisé, tapez chaque longueur de période séparée par des virgules. Pour plus d’un ensemble de données de séries chronologiques, tapez chaque ensemble de longueurs de période comme précédemment, mais placez des crochets autour de chaque ensemble et placez une virgule entre les ensembles.
10. Après le signe égal à, pour « dlxjtk_cutoff », tapez un entier spécifiant le nombre maximal de gènes à conserver dans la gene_list_file sortie de de Lichtenberg par JTK_CYCLE (DLxJTK) (Tableau 1).
  REMARQUE : Il est fortement recommandé de consulter les sections dlxjtk_arguments dans le fichier README IDP pour mieux comprendre chaque argument. Reportez-vous à la section Fichier supplémentaire 4 pour obtenir un exemple de fichier de configuration avec les arguments de recherche de nœud spécifiés.
Dans le terminal, accédez au répertoire IDP, nommé inherent_dynamics_pipeline.
Dans le terminal, entrez la commande: conda activate dat2net
Exécutez l’IDP à l’aide du fichier de configuration créé à l’étape 2.1 en exécutant cette commande dans le terminal, où < nom du fichier config> est le nom du fichier : python src/dat2net.py
Dans le terminal, accédez au répertoire nommé inherent_dynamics_visualizer et entrez la commande : . /viz_results.sh
REMARQUE : pointera vers le répertoire utilisé comme répertoire de sortie pour l’IDP.
Dans un navigateur Web, entrez http://localhost:8050/ comme URL.
Maintenant que l’IDV est ouvert dans le navigateur, cliquez sur l’onglet Recherche de nœuds et sélectionnez le dossier de recherche de nœuds qui vous intéresse dans le menu déroulant.
Organisez manuellement une nouvelle liste de gènes à partir du tableau de la liste des gènes dans l’IDV à utiliser pour les étapes ultérieures de L’IDP.
1. Pour étendre ou raccourcir le tableau de la liste des gènes, cliquez sur les flèches vers le haut ou vers le bas ou entrez manuellement un entier compris entre 1 et 50 dans la case à côté de Expression génique des gènes classés DLxJTK. Haut:.
2. Dans le tableau de la liste des gènes, cliquez sur la case à côté d’un gène pour afficher son profil d’expression génique dans un graphique linéaire. Plusieurs gènes peuvent être ajoutés.
3. Spécifiez éventuellement le nombre de bacs de taille égale pour calculer et ordonner les gènes en fonction de l’intervalle de temps contenant leur expression maximale, en entrant un entier dans la zone de saisie au-dessus de la table de liste de gènes intitulée Input integer pour diviser le premier cycle en bins:.
  REMARQUE : Cette option est spécifique à la dynamique oscillatoire et peut ne pas s’appliquer à d’autres types de dynamique.
4. Sélectionnez une préférence d’affichage de carte thermique en cliquant sur une option sous Ordre des gènes par : Expression maximale du premier cycle (Tableau 1) qui ordonne les gènes en fonction de l’heure du pic d’expression génique dans le premier cycle.
  REMARQUE: DLxJTK Rank ordonne les gènes en fonction du classement de périodicité de l’algorithme DLxJTK de l’IDP.
5. Cliquez sur le bouton Télécharger la liste des gènes pour télécharger la liste des gènes dans le format de fichier nécessaire à l’étape Edge Finding. Voir Fichier supplémentaire 5 pour un exemple de fichier de liste de gènes.
Dans le tableau d’annotation de gènes modifiables, étiquetez un gène en tant que cible, régulateur ou les deux dans le fichier d’annotation pour l’étape de recherche d’arête dans une nouvelle exécution de recherche d’arête. Si un gène est un régulateur, étiquetez-le comme activateur, répresseur ou les deux.
1. Pour marquer un gène comme activateur, cliquez sur la cellule dans la colonne tf_act et changez la valeur en 1. Pour marquer un gène comme répresseur, remplacez la valeur dans la colonne tf_rep par 1. Un gène sera autorisé à agir à la fois comme activateur et comme répresseur dans l’étape Edge Finding en définissant les valeurs des colonnes tf_act et tf_rep sur 1.
2. Pour marquer un gène comme cible, cliquez sur la cellule dans la colonne cible et changez la valeur en 1.
Cliquez sur le bouton Télécharger annot. Fichier pour télécharger le fichier d’annotation dans le format de fichier nécessaire à l’étape Recherche Edge.

3. Recherche de bord

Créez un fichier de configuration IDP qui paramétre l’étape Edge Finding.
1. Ajoutez les principaux arguments IDP au fichier de configuration. Ouvrez un nouveau fichier texte dans un éditeur de texte et répétez l’étape 2.1.1.
2. Ajoutez des arguments Edge Finding au fichier de configuration.
3. Dans le même fichier texte qu’à l’étape 3.1.1, tapez dans l’ordre présenté « [lempy_arguments] », « gene_list_file = », « [netgen_arguments] », « edge_score_column = », « edge_score_thresho = », « num_edges_for_list = », « seed_threshold = » et « num_edges_for_seed = » sur des lignes individuelles. Ceux-ci devraient aller en dessous des principaux arguments.
4. Pour « gene_list_file », après le signe égal à, entrez le chemin d’accès et le nom du fichier de liste de gènes généré à l’étape 2.8.5.
5. Pour « edge_score_column », après le signe égal à, entrez « pld » ou « norm_loss » pour spécifier quelle colonne de trame de données de la sortie lempy est utilisée pour filtrer les arêtes.
6. Sélectionnez « edge_score_threshold » ou « num_edges_for_list » et supprimez l’autre. Si « edge_score_threshold » a été sélectionné, entrez un nombre compris entre 0 et 1. Ce nombre sera utilisé pour filtrer les arêtes en fonction de la colonne spécifiée à l’étape 3.1.5.
  1. Si « num_edges_for_list » a été sélectionné, entrez une valeur égale ou inférieure au nombre d’arêtes possibles. Ce nombre sera utilisé pour filtrer les arêtes en fonction de leur classement dans la colonne spécifiée à l’étape 3.1.5. Les bords restants seront utilisés pour créer des réseaux dans Network Finding.
7. Sélectionnez « seed_threshold » ou « num_edges_for_seed » et supprimez l’autre. Si l’option « seed_threshold » a été sélectionnée, entrez un nombre compris entre 0 et 1. Ce nombre sera utilisé pour filtrer les arêtes en fonction de la colonne spécifiée à l’étape 3.1.5.
  1. Si l’option « num_edges_for_seed » a été sélectionnée, entrez une valeur égale ou inférieure au nombre d’arêtes possibles. Ce nombre sera utilisé pour filtrer les arêtes en fonction de leur classement dans la colonne spécifiée à l’étape 3.1.5. Les arêtes restantes seront utilisées pour construire le réseau de départ (Tableau 1) utilisé dans la recherche de réseau.
    REMARQUE : Il est fortement recommandé de consulter les sections lempy_arguments et netgen_arguments dans le fichier README IDP pour mieux comprendre chaque argument. Reportez-vous à la section Fichier supplémentaire 7 pour obtenir un exemple de fichier de configuration avec les arguments de recherche Edge spécifiés.
Répétez les étapes 2.2 et 2.3.
Exécutez l’IDP à l’aide du fichier de configuration créé à l’étape 3.1 en exécutant cette commande dans le terminal, où < nom du fichier config> est le nom du fichier : python src/dat2net.py
Si l’IDV est toujours en cours d’exécution, arrêtez-le en appuyant sur Contrôle C dans la fenêtre du terminal pour arrêter le programme. Répétez les étapes 2.5 et 2.6.
Avec l’IDV ouvert dans le navigateur, cliquez sur l’onglet Edge Finding et sélectionnez le dossier edge finding d’intérêt dans le menu déroulant.
Remarque : Si plusieurs jeux de données sont utilisés dans edge finding, veillez à sélectionner le dernier jeu de données qui a été utilisé dans l’analyse local Edge Machine (LEM) (Tableau 1). Lors de la sélection des arêtes pour le réseau d’amorçage ou la liste de périphérie en fonction des résultats LEM, il est important d’examiner les dernières données de série chronologique répertoriées dans le fichier de configuration, car cette sortie intègre tous les fichiers de données précédents dans son inférence des relations réglementaires entre les nœuds.
Pour étendre ou raccourcir la table d’arêtes, entrez manuellement un entier dans la zone de saisie sous Nombre d’arêtes :.
En option, filtrez les bords sur les paramètres LEM ODE. Cliquez et faites glisser pour déplacer le côté gauche ou le côté droit du curseur de chaque paramètre afin de supprimer les arêtes de la table d’arêtes dont les paramètres sont en dehors de leurs nouvelles limites de paramètres autorisées.
Vous pouvez éventuellement créer un nouveau réseau de semences si vous souhaitez créer un réseau de semences différent de celui proposé par le fournisseur d’identité. Voir Fichier supplémentaire 8 pour obtenir un exemple de fichier réseau d’amorçage.
1. Sélectionnez À partir de l’amorce pour sélectionner le réseau d’amorçage ou à partir de la sélection dans le menu déroulant sous Réseau :.
2. Désélectionnez/sélectionnez des arêtes dans la table des arêtes en cochant les cases correspondantes adjacentes à chaque arête pour supprimer/ajouter des arêtes du réseau initial.
Cliquez sur le bouton Télécharger DSGRN NetSpec pour télécharger le réseau d’amorçage dans le format de spécification réseau Dynamic Signatures Generated by Regulatory Networks (DSGRN) (Tableau 1).
Sélectionnez des nœuds et des arêtes supplémentaires à utiliser dans l’étape Recherche de réseau.
1. Sélectionnez les arêtes dans la table Edge en cochant les cases correspondantes à inclure dans le fichier de liste Edge utilisé dans la recherche de réseau.
2. Cliquez sur Télécharger les listes de nœuds et edge pour télécharger la liste des nœuds et les fichiers de liste Edge dans le format requis pour leur utilisation dans Network Finding. Reportez-vous aux sections Fichier supplémentaire 9 et Fichier supplémentaire 10 pour obtenir des exemples de fichiers de liste de bord et de nœuds, respectivement.
  Remarque : La liste des nœuds doit contenir tous les nœuds dans le fichier de liste Edge, de sorte que l’IDV crée automatiquement le fichier de liste des nœuds en fonction des arêtes sélectionnées. Deux options sont disponibles pour afficher les arêtes dans edge finding. L’option Tableau récapitulatif LEM présente les arêtes sous la forme d’une liste classée des 25 principales arêtes. Top-Line LEM Table présente les arêtes dans une liste concaténée des trois arêtes les mieux classées pour chaque régulateur possible. Le nombre d’arêtes affichées pour chaque option peut être ajusté par l’utilisateur en modifiant le nombre dans la zone de saisie Nombre d’arêtes .

4. Recherche de réseau

Créez un fichier de configuration IDP qui paramétre l’étape Recherche de réseau.
1. Ajoutez les principaux arguments IDP au fichier de configuration. Ouvrez un nouveau fichier texte dans un éditeur de texte et répétez l’étape 2.1.1.
2. Ajoutez des arguments de recherche de réseau au fichier de configuration.
3. Dans le même fichier texte qu’à l’étape 4.1.1, tapez dans l’ordre présenté « [netper_arguments] », « edge_list_file = », « node_list_file = », « seed_net_file = », « range_operations = », « numneighbors = », « maxparams = », « [[probabilités]] », « addNode = », « addEdge = », « removeNode = », et « removeEdge = » sur des lignes individuelles, sous les arguments principaux.
4. Pour « seed_net_file », « edge_list_file » et « node_list_file », après le signe égal, entrez le chemin d’accès et le nom du fichier réseau d’amorçage et les fichiers de liste de périphériques et de nœuds générés aux étapes 3.9 et 3.10.2.
5. Après le signe égal à, pour « range_operations », tapez deux nombres séparés par une virgule. Les premier et deuxième nombres sont respectivement le nombre minimum et le nombre maximal d’ajout ou de suppression de nœuds ou de bords par réseau.
6. Pour « numneighbors », après le signe égal à, entrez un nombre qui représente le nombre de réseaux à trouver dans Network Finding.
7. Pour « maxparams », après le signe égal à, entrez un nombre qui représente le nombre maximal de paramètres DSGRN pour autoriser un réseau.
8. Entrez des valeurs comprises entre 0 et 1 pour chacun de ces arguments : « addNode », « addEdge », « removeNode » et « removeEdge », après le signe égal à. La somme des nombres doit être égale à 1.
  REMARQUE : Il est fortement recommandé de consulter les sections netper_arguments et netquery_arguments dans le fichier README IDP pour mieux comprendre chaque argument. Voir Fichier supplémentaire 11 et Fichier supplémentaire 12 pour obtenir des exemples de fichier de configuration avec les arguments de recherche de réseau spécifiés.
Répétez les étapes 2.2 et 2.3.
Exécutez l’IDP à l’aide du fichier de configuration créé à l’étape 4.1 en exécutant cette commande dans le terminal, où < nom du fichier config> est le nom du fichier : python src/dat2net.py
Si l’IDV est toujours en cours d’exécution, arrêtez-le en appuyant sur Contrôle C dans la fenêtre du terminal pour arrêter le programme. Répétez les étapes 2.5 et 2.6.
Avec l’IDV ouvert dans le navigateur, cliquez sur l’onglet Recherche de réseau et sélectionnez le dossier de recherche de réseau qui vous intéresse.
Sélectionnez un réseau ou un ensemble de réseaux pour générer un tableau de prévalence de périphérie (tableau 1) et afficher les réseaux avec leurs résultats de requête respectifs.
1. Deux options sont disponibles pour sélectionner les réseaux : Option 1 - Entrez les limites inférieure et supérieure des résultats de la requête en saisissant les valeurs minimales et maximales dans les zones de saisie correspondant à l’axe des x et à l’axe des y du tracé. Option 2 - Cliquez et faites glisser sur le nuage de points pour dessiner une boîte autour des réseaux à inclure. Une fois les limites de sélection ou d’entrée entrées saisies, appuyez sur le bouton Obtenir la prévalence Edge à partir des réseaux sélectionnés .
  Remarque : Si plusieurs requêtes DSGRN ont été spécifiées, utilisez les cases d’option étiquetées avec le type de requête pour basculer entre les résultats de chaque requête. Il en va de même si plus d’un epsilon (niveau de bruit) a été spécifié.
Cliquez sur les flèches sous le tableau de prévalence des bords pour passer à la page suivante du tableau. Appuyez sur Télécharger la table pour télécharger la table de prévalence des bords.
Entrez un entier dans la zone de saisie Index réseau pour afficher un seul réseau à partir de la sélection effectuée à l’étape 4.6. Cliquez sur Télécharger DSGRN NetSpec pour télécharger le réseau affiché dans le format de spécification réseau DSGRN.
Recherchez des réseaux pour trouver des similitudes avec un motif ou un réseau d’intérêt spécifié.
1. Utilisez les cases à cocher correspondant à chaque arête pour sélectionner les arêtes à inclure dans le réseau ou le motif utilisé pour l’analyse de similarité. Cliquez sur Soumettre pour créer le nuage de points de similitude pour le motif ou le réseau sélectionné.
  Remarque : Utilisez les flèches de la liste des arêtes pour trier par ordre alphabétique et les flèches sous le tableau pour passer à la page suivante du tableau.
2. Cliquez et faites glisser sur le nuage de points pour dessiner une zone autour des réseaux à inclure afin de sélectionner un réseau ou un ensemble de réseaux pour générer un tableau de prévalence périphérique et afficher les réseaux avec leurs résultats de requête respectifs.
  Remarque : Si plusieurs requêtes DSGRN ont été spécifiées, utilisez les cases d’option étiquetées avec le type de requête pour basculer entre les résultats de chaque requête. Il en va de même si plus d’un epsilon (niveau de bruit) a été spécifié.
3. Répétez les étapes 4.7 et 4.8 pour télécharger le tableau de prévalence en périphérie et le réseau affiché pour l’analyse de similarité, respectivement.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Les étapes décrites textuellement ci-dessus et graphiquement à la figure 1 ont été appliquées au GRN oscillant du noyau du cycle cellulaire de la levure pour voir s’il est possible de découvrir des modèles DE GRN fonctionnels capables de produire la dynamique observée dans les données d’expression génique de séries chronologiques recueillies dans une étude du cycle cellulaire de la ^levure16. Pour illustrer comment l’IDV peut clarifier et améliorer la production de PDI, les résultats, après avoir effectué cette analyse de deux façons, ont été comparés: 1) exécuter toutes les étapes de la PDI en un seul passage sans la VDI et 2) passer à travers la PDI à l’aide de la VDI, ce qui permet l’ajustement des résultats intermédiaires à la fois en incorporant les connaissances biologiques antérieures et en faisant des choix affinés en fonction des extrants de la PDI. Le GRN à cycle cellulaire de levure bien étudié utilisé comme exemple a beaucoup de ses relations de régulation vérifiées expérimentalement. Si un organisme ou un processus biologique différent ou moins annoté est à l’étude, les choix sur la façon dont les résultats ou les paramètres intermédiaires sont ajustés peuvent être différents. Pour illustrer un type de requête pouvant être utilisé pour évaluer les réseaux, la robustesse de chaque réseau a été mesurée pour prendre en charge des oscillations stables et faire correspondre la dynamique transcriptionnelle observée de leurs nœuds à travers les paramètres du modèle.

Les données des séries chronologiques d’expression génique de deux séries répliquées ont été tirées d’Orlando ²⁰⁰⁸¹⁶ et prétraitées pour supprimer toute expression génique associée à la méthode de synchronisation du cycle cellulaire appliquée dans l’expérience originale (fichier supplémentaire 1 et fichier supplémentaire 2). Un fichier d’annotation a été créé contenant tous les gènes des données de séries chronologiques qui sont étayés à la fois par des preuves de liaison et d’expression de l’ADN trouvées dans ^Yeastract17 et pourraient donc fonctionner comme un régulateur dans un GRN. TOS4, PLM2 et NRM1 ont également été inclus en tant que régulateurs, même s’ils n’ont pas été trouvés dans Yeastract pour avoir les deux types de preuves, parce qu’ils sont considérés comme importants pour le GRN de base du noyau de levure sur la base des preuves dans la ^{littérature18,19} (fichier supplémentaire 3). Tous les régulateurs ont été étiquetés à la fois comme activateur et répresseur ainsi que comme cibles.

L’IDP a d’abord été paramétré pour s’exécuter à travers toutes les étapes de l’IDP, c’est-à-dire Node, Edge et Network Finding. Un ensemble d’arguments a été sélectionné qui semblait approprié sur la base de la compréhension actuelle du cycle cellulaire de la levure GRN, un petit ensemble de gènes participant à un réseau fortement connecté (fichier supplémentaire 4). Cette compréhension a principalement influencé les choix de recherche de nœuds et d’edges. Les paramètres de probabilité dans network finding étaient basés sur l’hypothèse que seuls les vrais gènes et les interactions régulatrices seraient transmis à Network Finding. Cette exécution entièrement paramétrée de l’IDP a produit des résultats pour la recherche de nœuds et de bords (Figure 2B, C), mais dans la recherche de réseau, aucun réseau admissible au modèle n’a été découvert (Figure 2A, D). L’admissibilité du modèle est expliquée dans la documentation du code du module python dsgrn_net_gen ¹⁴, une dépendance de l’IDP. En bref, les réseaux qui contiennent des bords auto-répressifs ou qui ont trop d’entrées ou de sorties sur un seul nœud ne sont pas interrogeables par le logiciel DSGRN (Tableau 1). Le fournisseur d’identité donne de nombreuses raisons pour lesquelles les réseaux admissibles par modèle peuvent ne pas être trouvés et décrit les étapes de dépannage pour résoudre le ou les problèmes. Essentiellement, cela implique de modifier les paramètres et / ou les fichiers d’entrée et de réexécuter l’étape IDP respective et d’examiner les résultats. L’IDV a été utilisé pour rendre ce processus moins fastidieux et plus long.

Les résultats de la recherche de nœuds ont été chargés dans l’IDV pour examiner les gènes transmis à l’étape edge finding de l’IDP. Les nœuds donnés par IDP sont les principaux gènes N tels que classés par DLxJTK (Tableau 1), N étant spécifié par l’utilisateur, cependant, cette liste de gènes peut ne pas être appropriée pour l’objectif de l’analyse. Sans connaissances biologiques préalables, la sélection automatique des nœuds en utilisant uniquement les scores DLxJTK a renvoyé un gène avec des preuves limitées d’un rôle dans le cycle cellulaire de la levure (RME1), tandis que quelques régulateurs transcriptionnels connus du cycle cellulaire n’étaient pas très bien classés (Figure 2B). Les preuves expérimentales de Yeastract ont été utilisées pour sélectionner parmi les gènes les mieux classés par DLxJTK ceux avec une annotation de cycle cellulaire. Ces gènes sont SWI4, YOX1, YHP1, HCM1, FKH2, NDD1 et SWI5. Leurs relations réglementaires connues peuvent être illustrées à la figure 3. FKH2 n’apparaît pas dans les dix premiers gènes (dlxjtk_cutoff a été défini sur dix dans le fichier supplémentaire 4) classés par DLxJTK, de sorte que la liste des gènes a été étendue à l’aide de l’IDV jusqu’à ce que FKH2 soit trouvé (Figure 4). Plusieurs des gènes supplémentaires de la liste étendue des gènes sont des gènes de base connus et auraient été manqués sans étudier les résultats de la découverte de nœuds. Alors que des gènes de base plus connus ont été trouvés en étendant la liste des gènes vers le bas de la liste classée DLxJTK, l’accent a été mis sur les gènes d’intérêt. Par conséquent, certains gènes de haut rang ont été désélectionnés, ce qui a donné lieu à une liste de gènes (fichier supplémentaire 5) contenant sept gènes (figure 4). Un nouveau fichier d’annotation a été créé (fichier supplémentaire 6) basé sur ces sept gènes, chaque gène a été étiqueté comme cible et le type de régulateur a été spécifié à l’aide de Yeastract. La nouvelle liste de gènes et le nouveau fichier d’annotation ont été téléchargés pour une utilisation ultérieure à l’étape suivante de l’IDP, Edge Finding. Sans l’IDV, la procédure d’ajout et de suppression de gènes de la liste des gènes et du fichier d’annotation nécessiterait des compétences modestes en codage.

Un nouveau fichier de configuration IDP a été paramétré uniquement pour l’étape Edge Finding (fichier supplémentaire 7), avec la nouvelle liste de gènes et le nouveau fichier d’annotation. Une fois l’IDP terminé avec le nouveau fichier de configuration, les résultats ont été chargés dans l’IDV (Figure 5A). Comme l’étape de recherche de réseau recherche stochastiquement autour de l’espace réseau du réseau de semences qui lui est fourni, il peut être important de fournir un bon réseau de semences. Un bon réseau de semences peut être considéré comme un réseau qui contient de vrais bords. Avec l’IDV et en utilisant des bases de données en ligne telles que Yeastract et la base de données sur le génome de Saccharomyces (SGD)²⁰, le réseau de semences peut être visualisé et ajusté en utilisant les relations de régulation de LEM (tableau 1) qui ont des preuves expérimentales. À titre d’exemple, l’arête YHP1 = tf_act(HCM1) a été désélectionnée parce qu’il n’y a aucune preuve documentée de cette relation (figure 5B) dans Yeastract. L’arête SWI5 = tf_act(FKH2) a été ajoutée car il existe des preuves documentées de cette ^relation21. Une fois que le réseau d’amorçage (tableau 1) était satisfaisant, le fichier de spécification du réseau DSGRN pour le réseau a été téléchargé (fichier supplémentaire 8).

Sans l’IDV, il y a une plus grande probabilité que des arêtes pour lesquelles il n’y a aucune preuve expérimentale soient utilisées pour construire le réseau de semences. Comme on peut le voir à la figure 2C, le réseau de semences généré à l’étape Edge Finding à partir de l’exécution ininterrompue de l’IDP à chaque étape contient une arête, SWI4 = tf_rep(NDD1), qui n’est pas étayée par des preuves expérimentales dans Yeastract, probablement parce que NDD1 est connu pour être un activateur transcriptionnel22. Ces informations n’étaient pas codées dans le fichier d’annotation lors de l’exécution non-stop, ce qui permettait à tous les régulateurs d’être à la fois des activateurs et des répresseurs.

À l’aide de l’IDV, un réseau de départ a été organisé manuellement qui est un sous-réseau de la figure 3, et les quatre arêtes restantes ont été placées dans la liste des arêtes utilisées pour l’échantillonnage de l’espace réseau (YHP1 = tf_act(SWI4), YOX1 = tf_act(SWI4), SWI4 = tf_rep(YOX1), SWI5 = tf_act(NDD1)). La sélection des arêtes en fonction des connaissances biologiques antérieures peut également être utilisée pour établir la liste des arêtes; toutefois, dans ce cas, les 20 premières arêtes de la vue Tableau récapitulatif LEM ont été sélectionnées (fichier supplémentaire 9). Le fichier de liste de nœuds est créé automatiquement à partir des arêtes sélectionnées (fichier supplémentaire 10). Les paramètres ODE de LEM peuvent également être utilisés pour filtrer les bords si l’on pense que les paramètres déduits dans le modèle ODE ne sont pas biologiquement réalistes, mais cette information n’a pas été utilisée ici.

Ensuite, un nouveau fichier de configuration IDP a été paramétré pour l’étape Recherche de réseau à l’aide des trois nouveaux fichiers. Comme le réseau de semences a été créé avec des bords bien étayés par des preuves expérimentales, l’inclusion de ces bords dans tous les réseaux était souhaitée. Ainsi, les probabilités de recherche de réseau ont été définies pour permettre l’ajout mais pas la suppression de nœuds et d’arêtes (fichier supplémentaire 11). Le paramètre Network Finding numneighbors a été défini pour rechercher 2 000 réseaux. Après l’exécution de l’IDP, 37 réseaux admissibles par le modèle ont été trouvés à l’étape Recherche de réseau, par opposition à l’exécution non-stop qui avait zéro. En chargeant les résultats de la recherche de réseau dans l’IDV, 64 % (24) de ces 37 réseaux avaient la capacité d’osciller de manière stable (Figure 6A). Parmi ces 24 réseaux, les plus performants étaient deux réseaux qui correspondaient aux données à 50 % de leurs paramètres de modèle oscillant de manière stable (figure 6B).

Le tableau de prévalence des bords (tableau 1) compile le nombre de fois qu’une périphérie se produit dans une collection sélectionnée de réseaux, ce qui donne une indication de sa prévalence dans les réseaux à haut rendement. L’examen du tableau de prévalence des bords produit en sélectionnant les deux réseaux précédents dans le nuage de points révèle que toutes les arêtes du réseau d’amorçage sont présentes dans chacun des deux réseaux, comme prévu, ainsi que deux bords de réseau non amorçaux (Figure 6B), SWI4 = tf_act (SWI5) et HCM1 = tf_rep (YHP1). Aucun de ces deux bords n’avait de preuves à l’appui dans Yeastract. En tant que telle, une petite quantité d’espace réseau a été explorée, il est donc difficile d’évaluer l’importance des bords et des nœuds dans la production de la dynamique observée.

Seuls 37 réseaux admissibles par modèle ont été trouvés dans Network Finding même si le paramètre numneighbors a été défini sur 2 000, ce qui suggère que la recherche sur le réseau a peut-être été indûment limitée. Comme décrit dans la documentation du module python dsgrn_net_gen dans l’IDP, le problème peut être lié au réseau d’amorçage, à la liste Edge, à la liste des nœuds, aux choix de paramètres de recherche de réseau ou à une combinaison de ceux-ci. Pour enquêter, le même réseau d’amorçage, la même liste de périphérie et la même liste de nœuds qu’auparavant ont été utilisés, mais les paramètres de recherche de réseau ont été modifiés en ajoutant la possibilité de supprimer les bords lors de la génération du réseau (fichier supplémentaire 12). Le chargement des nouveaux résultats de la recherche de réseau dans l’IDV montre que 612 réseaux ont été trouvés à cette étape, avec 67% (411) de ces réseaux ayant la capacité d’osciller de manière stable (Figure 7A). Fait intéressant, 13 % (82) des réseaux capables d’une dynamique oscillatoire stable n’étaient pas capables de produire une dynamique similaire à celles observées dans les données (figure 7B). Sur les 411 réseaux, 30 % (124) présentaient des correspondances robustes avec les données (c.-à-d. plus de 50 % de leurs paramètres de modèle oscillant de façon stable présentaient une correspondance de données) (figure 7C).

Les chiffres de prévalence de périphérie générés par la deuxième série de recherche de réseaux sont maintenant basés sur une sélection beaucoup plus large de réseaux et peuvent être utilisés avec plus de confiance pour évaluer l’importance d’une relation réglementaire dans un GRN. Par exemple, HCM1 = tf_rep (YHP1) est toujours très représenté dans les réseaux qui produisent une dynamique robuste, ce qui suggère que cette relation pourrait valoir la peine d’être étudiée expérimentalement (Figure 7C). Un examen plus approfondi du tableau de prévalence des bords (basé sur les 124 réseaux mentionnés ci-dessus) a révélé que les arêtes SWI4 = tf_rep (YOX1) et YOX1 = tf_act (SWI4) ne sont pas très bien classées, mais les arêtes SWI4 = tf_rep (YHP1) et YHP1 = tf_act (SWI4) sont très bien classées (Figure 7C). La rétroaction négative est importante pour produire une dynamique ^{oscillatoire23} et ces deux ensembles de relations de régulation fournissent cette fonction dans le GRN de la figure 3. Déterminer s’il existe un réseau contenant ces quatre arêtes pourrait donner un aperçu des raisons pour lesquelles elles n’existent pas souvent ensemble dans la collection de modèles GRN; cependant, cliquer sur des réseaux individuels serait fastidieux. Au lieu de cela, la partie Analyse de similarité de la page Recherche de réseau a été utilisée pour rechercher des réseaux pouvant contenir les quatre arêtes (Figure 7D). L’examen du nuage de points qui montre à quel point les réseaux 612 sont similaires à un motif de ces quatre arêtes par rapport au pourcentage de l’espace des paramètres du modèle qui correspond à la dynamique observée révèle que seulement 0,65 % (4) des 612 réseaux contiennent ces quatre arêtes (Figure 7D). Cela suggère une hypothèse testable selon laquelle une seule des deux boucles de rétroaction négative est nécessaire pour qu’un réseau de cette taille produise la dynamique observée. Cette hypothèse peut être étudiée plus en détail par reparamétrisation des étapes IDP et une recherche plus exhaustive de l’espace réseau ou expérimentalement, comme les knockouts de gènes. Tous les résultats de cette analyse se trouvent dans le dossier supplémentaire 13.

Figure 1 : Vue d’ensemble du flux de travail IDP et IDV. La ligne du bas décrit les trois principales étapes de l’IDP : Node, Edge et Network Finding. La ligne supérieure représente les principales étapes de l’IDV et décrit les différentes façons dont un utilisateur peut interagir avec les résultats. Les flèches gris foncé entre les deux montrent comment l’IDV et l’IDP peuvent travailler en synergie pour permettre aux utilisateurs de prendre des décisions éclairées pour chaque étape de l’IDP, avec des étapes IDP individuelles fournissant des résultats pour les visualisations dans l’IDV, des étapes IDV individuelles permettant la saisie de paramètres nouveaux ou ajustés et des résultats et entrées ajustés pour l’étape IDP suivante. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 2 : Exemple de résultats de l’exécution consécutive de chaque étape de l’IDP sans utiliser l’IDV entre les étapes. (A) Capture d’écran de la sortie du terminal de l’exécution consécutive de chaque étape IDP. Le fournisseur d’identité a fonctionné jusqu’à son terme, mais aucun réseau n’a été trouvé au cours de l’étape de recherche de réseau. (B) Nœud Recherche de résultats répertoire node_finding_20210705183301 (fichier supplémentaire 13) chargé dans l’IDV. Tous les gènes du tableau de la liste des gènes ont été sélectionnés (flèche rouge) pour afficher leurs profils d’expression respectifs dans le graphique linéaire et pour générer un tableau d’annotation. Le tableau d’annotation a été rempli pour refléter la façon dont les gènes sont étiquetés dans le fichier d’annotation d’origine (flèche verte). (C) Le répertoire des résultats Edge Finding edge_finding_20210705183301 (fichier supplémentaire 13) chargé dans l’IDV. (D) Répertoire des résultats de la recherche réseau network_finding_20210705183301 (fichier supplémentaire 13) chargé dans l’IDV. La page Recherche de réseau n’affiche aucun résultat, suggérant que la reparamétisation de l’étape de recherche de réseau ou la réévaluation de l’étape de recherche de nœud ou de périphérie est nécessaire. La documentation IDP contient des étapes de dépannage pour aider l’utilisateur à déterminer ce qu’il pourrait essayer ensuite. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 3 : Un modèle GRN à cycle cellulaire de levure. Un ensemble de régulateurs connus du cycle cellulaire de la levure ont été sélectionnés à partir de SGD et les relations régulatrices connues entre les gènes ont été extraites de Yeastract. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 4 : Exemple de résultats de recherche de nœud IDP dans l’IDV. Le répertoire de résultats de recherche de nœuds node_finding_20210705183301 (fichier supplémentaire 13) est chargé dans l’IDV. Les résultats ajustés après l’inspection des bases de données de levure en ligne organisées. Le tableau de la liste des gènes a été étendu (flèche jaune) pour trouver le gène restant dans le modèle GRN de la figure 3 et les gènes ont été désélectionnés pour supprimer les gènes qui ne se trouvaient pas dans le même modèle GRN (flèche rouge). Le tableau d’annotation a été rempli en fonction des preuves de régulation pour chaque gène trouvé sur Yeastract (flèche verte). La nouvelle liste de gènes et le nouveau fichier d’annotation ont été téléchargés en sélectionnant leurs boutons de téléchargement respectifs (flèches bleues). Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 5 : Exemple de résultats IDP Edge Finding dans l’IDV. Le répertoire de résultats Edge Finding edge_finding_20210701100152 (fichier supplémentaire 13) est chargé dans l’IDV. (A) Le résultat initial tel qu’il a été produit par le PDI. L’option déroulante Réseau à partir de l’amorçage a été sélectionnée (flèche rouge) pour afficher le réseau d’amorçage produit par l’IDP en fonction des arguments du fichier de configuration utilisé (fichier supplémentaire 7). Les gènes sélectionnés dans la table des arêtes sont les arêtes utilisées dans le réseau de semences. (B) Les résultats ajustés après inspection du réseau de semences à la recherche d’arêtes qui ne contiennent pas de preuves expérimentales. L’option déroulante Réseau à partir de la sélection a été sélectionnée (flèche rouge). Les arêtes ont été sélectionnées/désélectionnées dans le tableau des arêtes (flèche verte). Les fichiers de réseau d’amorçage, de liste de bord et de liste de nœuds ont été téléchargés en cliquant sur leurs boutons respectifs (flèches jaunes). La table Edge affichée concerne les dernières données de série chronologique répertoriées dans le fichier de configuration two_wts_EdgeFinding_config.txt (fichier supplémentaire 7). Lors de la sélection des arêtes pour le réseau d’amorçage ou la liste de périphérie en fonction des résultats LEM, il est important d’examiner les dernières données de série chronologique répertoriées dans le fichier de configuration, car cette sortie intègre tous les fichiers de données précédents dans son inférence des relations réglementaires entre les nœuds. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 6 : Exemple de résultats de recherche de réseau IDP dans l’IDV à partir de l’utilisation du fichier de configuration IDP two_wts_NetFind_rd1_config.txt (fichier supplémentaire 11). (A) La requête Cycle complet stable a été sélectionnée (flèche rouge) pour afficher les données respectives sur l’axe y dans le nuage de points. Les points bleus du nuage de points représentent les points sélectionnés à l’aide de la fonction Sélection de zone pour le nuage de points. La zone de sélection en pointillés a été illustrée pour montrer à quoi ressemble la sélection de la boîte. (B) Les entiers min et max de l’axe des y et de l’axe des x ont été saisis manuellement dans les réseaux sélectionnés à l’intérieur de ces limites (flèche verte). Après chaque sélection, le bouton Obtenir la prévalence edge à partir des réseaux sélectionnés (flèches jaunes) a été cliqué et les zones Edge Prevalence Table et Selected DSGRN Predicted Networks ont été générées. Dans l’index du réseau, vous pouvez cliquer sur les flèches haut et bas pour parcourir les réseaux sélectionnés (flèches bleues). Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 7 : Exemple de résultats de recherche de réseau IDP dans l’IDV à partir de l’utilisation du fichier de configuration IDP two_wts_NetFind_rd2_config.txt (fichier supplémentaire 12). (A-C) La sélection des réseaux a été effectuée en entrant des valeurs dans les zones de saisie min et max (flèches rouges). Le bouton Obtenir la prévalence Edge à partir des réseaux sélectionnés a été cliqué pour générer les zones Edge Prevalence Table et Selected DSGRN Predicted Networks. (D) Les arêtes d’intérêt ont été sélectionnées dans le tableau edge_list (flèche jaune) et le bouton Soumettre (flèche verte) a été cliqué pour calculer les scores de similitude à tracer dans le nuage de points par rapport à la requête sélectionnée (flèche bleue). La fonction Box Select a été utilisée pour sélectionner un ensemble de réseaux (flèche violette) afin de générer les zones Edge Prevalence Table et Selected DSGRN Predicted Networks. L’index réseau a été augmenté à 2 (flèche orange) pour afficher le deuxième réseau de la sélection. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Terme	Étape du pipeline	Définition
de Lichtenburg par JTK-CYCLE (DLxJTK)	Recherche de nœuds	Une seule mesure quantitative de la périodicité et de la force de régulation utilisée pour classer les gènes. Combine les mesures de périodicité précédemment publiées de Lichtenberg (DL) et JTK-CYCLE (JTK).
Expression maximale du premier cycle	Recherche de nœuds	L’expression maximale des gènes au cours du premier cycle d’expression périodique des gènes. Les gènes ordonnés par First Cycle Max Expression seront ordonnés en fonction du point temporel du premier cycle auquel ils atteignent leur expression génique maximale.
L’ordinateur Edge local (LEM)	Recherche de bord	Méthode d’inférence de réseau bayésien qui classe les modèles potentiels d’interactions géniques pour identifier le ou les régulateurs et les modes de régulation (activation ou répression) les plus probables d’un gène cible donné à l’aide de données d’expression génique de séries chronologiques.
Réseau de semences	Recherche de réseau	Une première supposition d’un réseau plausible d’interactions mondiales en sélectionnant les bords LEM les mieux classés. La graine localise une région de l’espace réseau qui est très oscillatoire avec une forte probabilité de montrer une cohérence avec les données de séries chronologiques fournies.
Signatures dynamiques générées par les réseaux de réglementation (DSGRN)	Recherche de réseau	Un progiciel pour calculer de manière exhaustive la variété des comportements dynamiques à long terme qu’un réseau peut présenter.
Prévalence Edge	Recherche de réseau	Pourcentage de réseaux les mieux notés de l’étape de recherche de réseau qui incluent la périphérie en question. Le score permet un classement des arêtes qui ont une prévalence non nulle.

Tableau 1 : Définition des termes Inherent Dynamics Pipeline et Inherent Dynamics Visualizer.

Fichier supplémentaire 1 : Données sur l’expression des gènes de la série chronologique (réplique 1) tirées d’Orlando, 200813. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 2 : Données sur l’expression des gènes de séries chronologiques (réplique 2) tirées d’Orlando, 200813. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 3 : Fichier d’annotation contenant tous les gènes trouvés dans le fichier supplémentaire 1 et le fichier supplémentaire 2. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 4 : Fichier de configuration Inherent Dynamics Pipeline entièrement paramétré. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 5 : Fichier de liste de gènes téléchargé à partir de la page De recherche de nœuds du visualiseur Inherent Dynamics. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 6 : fichier d’annotation téléchargé à partir de la page De recherche de nœuds du visualiseur Inherent Dynamics. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 7 : fichier de configuration du pipeline Dynamics inhérent paramétré uniquement pour l’étape Edge Finding. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 8 : fichier réseau d’amorçage téléchargé à partir de la page Edge Finding d’Inherent Dynamics Visualizer. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 9 : fichier de liste Edge téléchargé à partir de la page Recherche Edge du visualiseur Inherent Dynamics. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 10 : fichier de liste de nœuds téléchargé à partir de la page Edge Finding d’Inherent Dynamics Visualizer. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 11 : fichier de configuration du pipeline Dynamics inhérent paramétré uniquement pour l’étape de recherche de réseau. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 12 : Mise à jour du fichier de configuration Du pipeline Dynamics inhérent (fichier supplémentaire 11) paramétré uniquement pour l’étape Recherche de réseau. Veuillez cliquer ici pour télécharger ce fichier.

Fichier supplémentaire 13 : Répertoire contenant les résultats de la section Résultats représentatifs. Veuillez cliquer ici pour télécharger ce fichier.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

L’inférence des GRN est un défi important en biologie des systèmes. L’IDP génère des GRN modèles à partir de données d’expression génique à l’aide d’une séquence d’outils qui utilisent les données de manière de plus en plus complexe. Chaque étape nécessite des décisions sur la façon de traiter les données et quels éléments (gènes, interactions fonctionnelles) seront transmis à la couche suivante de l’IDP. Les répercussions de ces décisions sur les résultats des PDI ne sont pas aussi évidentes. Pour aider à cet égard, l’IDV fournit des visualisations interactives utiles des résultats des différentes étapes des outils d’inférence GRN au sein de l’IDP. L’IDV rationalise et facilite le processus d’évaluation des résultats de ces méthodes d’inférence computationnelle afin d’accélérer l’expérimentation et d’éclairer les choix d’analyse, ce qui permettra à son tour d’accélérer la production de modèles et d’hypothèses de réseau à haut niveau de confiance. L’IDV implémente également des fonctionnalités qui étendent les fonctionnalités de l’IDP, notamment le filtrage des bords par les choix de paramètres LEM ODE, le regroupement des gènes par leur temps d’expression et le regroupement des réseaux en fonction de la similitude avec un motif ou un réseau. Il est important de noter que l’IDV permet des interventions manuelles entre chaque étape de l’IDP, ce qui permet à l’utilisateur d’intégrer facilement les connaissances humaines et les informations antérieures de la littérature d’une manière qui ne peut pas être facilement automatisée. Une exécution naïve de l’IDP n’incorporera pas nativement ces informations, de sorte que l’utilisation de l’IDV augmentera la confiance dans les résultats chaque fois que des informations spécifiques à l’expérience sont disponibles. Dans l’ensemble, l’utilisation de l’IDV en conjonction avec l’IDP permet aux utilisateurs de créer des hypothèses de réseau pour les processus biologiques avec une plus grande confiance, même avec peu ou pas de connaissance du véritable GRN.

Il y a trois étapes critiques dans l’IDV. La première consiste à évaluer les résultats de la recherche de nœuds IDP dans l’IDV. La page De recherche de nœuds d’IDV peut produire une nouvelle liste de gènes et, si vous le souhaitez, un fichier d’annotation de gènes. La conservation d’une nouvelle liste de gènes est une étape critique car elle réduit considérablement l’espace réseau potentiel en limitant les gènes autorisés à être modélisés en tant que cibles GRN et / ou régulateurs. De plus, comme les GRN sont principalement constitués de facteurs de transcription, le fait d’avoir des annotations de gènes aidera grandement à créer des modèles GRN cohérents.

L’étape suivante consiste à évaluer les résultats de la recherche IDP Edge dans l’IDV. La conservation d’un nouveau réseau d’amorçage est une étape critique car elle localise la région de l’espace réseau qui sera échantillonnée à l’étape Recherche de réseau. Cependant, savoir par où commencer n’est pas toujours évident, il est donc recommandé d’utiliser des bords qui ont une certaine forme de preuve expérimentale pour donner l’assurance que l’on commence dans une région de l’espace réseau qui contient des bords à haute confiance. La page Edge Finding de l’IDV facilite l’assemblage des réseaux d’amorçage et génère le fichier de spécification de réseau DSGRN associé ainsi que des listes de nœuds et de bords.

La dernière étape consiste à évaluer les résultats de la recherche de réseau IDP dans l’IDV. La page Network Finding d’IDV permet d’explorer facilement les réseaux échantillonnés et leurs scores associés qui estiment la capacité du réseau à produire la dynamique observée. Alors que la recherche de nœuds et de bords renverra toujours des résultats (si au moins deux gènes sont transmis à partir de la découverte de nœuds), la découverte de réseau peut renvoyer zéro résultat. Par conséquent, savoir si des ajustements de paramètres sont nécessaires sera plus évident dans la recherche de réseau que dans la recherche de nœuds et de périphéries. De telles occurrences de peu ou pas de réseaux trouvés pourraient être le résultat de contraintes imposées sur les réseaux qui peuvent être analysés. Ces contraintes sont : 1) si les réseaux sont toujours fortement connectés ou non, 2) le nombre minimum et maximum d’arêtes d’entrée à chaque nœud, 3) les probabilités d’ajout et de suppression de nœuds et d’arêtes, et 4) le nombre d’ajouts et de suppressions de nœuds et d’arêtes autorisés. Si peu ou pas de réseaux admissibles par modèle sont trouvés, comme à la figure 2, il est recommandé de se référer à la documentation du PDI pour obtenir des conseils sur la reparamétrisation de l’une ou de toutes les étapes du PDI avec une évaluation ultérieure des résultats dans l’IDV.

Une limitation actuelle de cette approche est que la page De recherche de nœuds est principalement axée sur la dynamique oscillatoire, telle que celles observées dans les programmes transcriptionnels du cycle cellulaire et de l’horloge circadienne. En particulier, l’étape de recherche de nœuds IDP est actuellement configurée pour rechercher des gènes présentant une dynamique oscillatoire à une période spécifiée. Au fur et à mesure que l’IDP s’étend pour inclure des analyses capables de quantifier différents types de dynamique transcriptionnelle, l’IDV sera également mis à jour pour prendre en charge la visualisation et l’interrogation de ces autres comportements. La taille des réseaux recherchés et analysés à l’étape De recherche de réseau est actuellement limitée aux réseaux de plus petite taille, par exemple environ 10 gènes. C’est une nécessité car les calculs à l’échelle DSGRN se produisent combinatoirement. Une autre limitation est que l’exploration de l’espace des paramètres du modèle pour un réseau sélectionné n’est pas possible dans l’IDV. Cependant, le fichier de spécification du réseau DSGRN pour un réseau donné peut être téléchargé et la dynamique associée à chaque paramètre de modèle peut être visualisée sur le site Web de visualisation DSGRN (https://sites.math.rutgers.edu/~gameiro/dsgrn_viz/). Enfin, l’IDV a été testé en utilisant les systèmes Linux (Ubuntu) et iOS (Big Sur). L’IDV a été testé sur Windows 10 à l’aide du sous-système Windows pour Linux (WSL), qui permet aux utilisateurs de Windows 10 d’exécuter Linux et l’IDV sans avoir besoin d’un ordinateur différent, d’une machine virtuelle ou d’une configuration à double démarrage. IDV ne s’exécute pas actuellement sur Windows natif.

L’étude des GRN est difficile en raison de leur complexité inhérente et des outils d’inférence utiles tels que le PDI peuvent être difficiles à comprendre et à déployer en toute confiance. L’IDV fournit une méthode pour réduire la complexité de l’étude des GRN déduits à l’aide de l’IDP tout en facilitant l’inclusion d’informations supplémentaires au-delà de la dynamique de l’expression des gènes. L’utilisation de l’IDV en conjonction avec l’IDP comme décrit ici permettra aux chercheurs de développer et d’analyser des modèles fonctionnels de systèmes bien étudiés, tels que le cycle cellulaire humain. De plus, ces outils généreront des hypothèses testables pour des processus moins compris, comme le cycle de développement intra-érythrocytaire du paludisme, qui est suspecté d’être contrôlé par un ^GRN24 mais pour lequel un modèle n’a pas encore été proposé.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs n’ont rien à divulguer.

Acknowledgments

Ce travail a été financé par la subvention NIH R01 GM126555-01 et la subvention NSF DMS-1839299.

Materials

Name	Company	Catalog Number	Comments
Docker			https://docs.docker.com/get-docker/
Git			https://git-scm.com/
Inherent Dynamics Pipeline			https://gitlab.com/biochron/inherent_dynamics_pipeline
Inherent Dynamics Visualizer			https://gitlab.com/bertfordley/inherent_dynamics_visualizer
Miniconda			https://docs.conda.io/en/latest/miniconda.html
Pip			https://pip.pypa.io/en/stable/

DOWNLOAD MATERIALS LIST

References

Karlebach, G., Shamir, R. Modelling and analysis of gene regulatory networks. Nature Reviews Molecular Cell Biology. 9 (10), 770-780 (2008).
Aijö, T., Lähdesmäki, H. Learning gene regulatory networks from gene expression measurements using non-parametric molecular kinetics. Bioinformatics. 25 (22), 2937-2944 (2009).
Huynh-Thu, V. A., Sanguinetti, G. Combining tree-based and dynamical systems for the inference of gene regulatory networks. Bioinformatics. 31 (10), 1614-1622 (2015).
Oates, C. J., et al. Causal network inference using biochemical kinetics. Bioinformatics. 30 (17), 468-474 (2014).
Marbach, D., et al. Wisdom of crowds for robust gene network inference. Nature Methods. 9 (8), 796-804 (2012).
Inherent Dynamics Pipeline. , Available from: https://gitlab.com/biochron/inherent_dynamics_pipeline (2021).
Motta, F. C., Moseley, R. C., Cummins, B., Deckard, A., Haase, S. B. Conservation of dynamic characteristics of transcriptional regulatory elements in periodic biological processes. bioRxiv. , (2020).
LEMpy. , Available from: https://gitlab.com/biochron/lempy (2021).
McGoff, K. A., et al. The local edge machine: inference of dynamic models of gene regulation. Genome Biology. 17, 214 (2016).
Cummins, B., Gedeon, T., Harker, S., Mischaikow, K. Model rejection and parameter reduction via time series. SIAM Journal on Applied Dynamical Systems. 17 (2), 1589-1616 (2018).
Cummins, B., Gedeon, T., Harker, S., Mischaikow, K. Database of Dynamic Signatures Generated by Regulatory Networks (DSGRN). Lecture Notes in Computer Science. (including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). , 300-308 (2017).
Cummins, B., Gedeon, T., Harker, S., Mischaikow, K. DSGRN: Examining the dynamics of families of logical models. Frontiers in Physiology. 9. 9, 549 (2018).
DSGRN. , Available from: https://github.com/marciogameiro/DSGRN (2021).
Dsgm_Net_Gen. , Available from: https://github.com/breecummins/dsgrn_net_gen (2021).
Dsgrn_Net_Query. , Available from: https://github.com/breecummins/dsgrn_net_query (2021).
Orlando, D. A., et al. Global control of cell-cycle transcription by coupled CDK and network oscillators. Nature. 453 (7197), 944-947 (2008).
Monteiro, P. T., et al. YEASTRACT+: a portal for cross-species comparative genomics of transcription regulation in yeasts. Nucleic Acids Research. 48 (1), 642-649 (2020).
de Bruin, R. A. M., et al. Constraining G1-specific transcription to late G1 phase: The MBF-associated corepressor Nrm1 acts via negative feedback. Molecular Cell. 23 (4), 483-496 (2006).
Horak, C. E., et al. Complex transcriptional circuitry at the G1/S transition in Saccharomyces cerevisiae. Genes & Development. 16 (23), 3017-3033 (2002).
Cherry, J. M., et al. Saccharomyces genome database: The genomics resource of budding yeast. Nucleic Acids Research. 40, 700-705 (2012).
Zhu, G., et al. Two yeast forkhead genes regulate the cell cycle and pseudohyphal growth. Nature. 406 (6791), 90-94 (2000).
Loy, C. J., Lydall, D., Surana, U. NDD1, a high-dosage suppressor of cdc28-1N, is essential for expression of a subset of late-S-phase-specific genes in saccharomyces cerevisiae. Molecular and Cellular Biology. 19 (5), 3312-3327 (1999).
Cho, C. Y., Kelliher, C. M., Hasse, S. B. The cell-cycle transcriptional network generates and transmits a pulse of transcription once each cell cycle. Cell Cycle. 18 (4), 363-378 (2019).
Smith, L. M., et al. An intrinsic oscillator drives the blood stage cycle of the malaria parasite Plasmodium falciparum. Science. 368 (6492), 754-759 (2020).

Biology

Inherent Dynamics Visualizer, une application interactive pour évaluer et visualiser les résultats d’un pipeline d’inférence de réseau de régulation de gènes

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.