Biology

Inherent Dynamics Visualizer, un'applicazione interattiva per la valutazione e la visualizzazione di output da una pipeline di inferenza di rete di regolazione genica

Published: December 7, 2021 doi: 10.3791/63084

Robert C. Moseley¹, Sophia Campione¹, Bree Cummins², Francis Motta³, Steven B. Haase¹

¹Department of Biology, Duke University, ²Department of Mathematical Sciences, Montana State University, ³Department of Mathematical Sciences, Florida Atlantic University

Summary

Inherent Dynamics Visualizer è un pacchetto di visualizzazione interattivo che si collega a uno strumento di inferenza della rete di regolazione genica per una generazione migliorata e semplificata di modelli di rete funzionali. Il visualizzatore può essere utilizzato per prendere decisioni più informate per la parametrizzazione dello strumento di inferenza, aumentando così la fiducia nei modelli risultanti.

Abstract

Lo sviluppo di modelli di reti di regolazione genica è una sfida importante nella biologia dei sistemi. Diversi strumenti computazionali e pipeline sono stati sviluppati per affrontare questa sfida, tra cui la nuova Inherent Dynamics Pipeline. La pipeline di Dinamica intrinseca è costituita da diversi strumenti pubblicati in precedenza che funzionano sinergicamente e sono collegati in modo lineare, in cui l'output di uno strumento viene quindi utilizzato come input per lo strumento seguente. Come con la maggior parte delle tecniche computazionali, ogni passaggio della Inherent Dynamics Pipeline richiede all'utente di fare scelte su parametri che non hanno una definizione biologica precisa. Queste scelte possono avere un impatto sostanziale sui modelli di rete di regolazione genica prodotti dall'analisi. Per questo motivo, la capacità di visualizzare ed esplorare le conseguenze delle varie scelte di parametri in ogni fase può aiutare ad aumentare la fiducia nelle scelte e nei risultati. Inherent Dynamics Visualizer è un pacchetto di visualizzazione completo che semplifica il processo di valutazione delle scelte dei parametri attraverso un'interfaccia interattiva all'interno di un browser Web. L'utente può esaminare separatamente l'output di ogni passaggio della pipeline, apportare modifiche intuitive basate su informazioni visive e trarre vantaggio dalla produzione automatica dei file di input necessari per Inherent Dynamics Pipeline. L'Inherent Dynamics Visualizer fornisce un livello di accesso senza precedenti a uno strumento altamente complesso per la scoperta di reti di regolazione genica da dati trascrittomici di serie temporali.

Introduction

Molti importanti processi biologici, come la differenziazione cellulare e la risposta ambientale, sono governati da insiemi di geni che interagiscono tra loro in una rete di regolazione genica (GRN). Questi GRN producono le dinamiche trascrizionali necessarie per attivare e mantenere il fenotipo che controllano, quindi identificare i componenti e la struttura topologica del GRN è la chiave per comprendere molti processi e funzioni biologiche. Un GRN può essere modellato come un insieme di geni interagenti e/o prodotti genici descritti da una rete i cui nodi sono i geni e i cui bordi descrivono la direzione e la forma di interazione (ad esempio, attivazione/repressione della trascrizione, modifica post-traduzionale, ecc.) ¹. Le interazioni possono quindi essere espresse come modelli matematici parametrizzati che descrivono l'impatto che un gene regolatore ha sulla produzione dei suoi bersagli ^2,3,4. L'inferenza di un modello GRN richiede sia un'inferenza della struttura della rete di interazione che una stima dei parametri di interazione sottostanti. Sono stati sviluppati una varietà di metodi di inferenza computazionale che acquisiscono dati di espressione genica di serie temporali e modelli GRN di ^output5. Recentemente, è stato sviluppato un nuovo metodo di inferenza GRN, chiamato Inherent Dynamics Pipeline (IDP), che utilizza i dati di espressione genica di serie temporali per produrre modelli GRN con interazioni regolatore-bersaglio etichettate che sono in grado di produrre dinamiche che corrispondono alle dinamiche osservate nei dati di espressione ^genica6. L'IDP è una suite di strumenti collegati linearmente in una pipeline e può essere suddiviso in tre passaggi: un passaggio node finding che classifica i geni in base alle caratteristiche di espressione genica note o sospettate di essere correlate alla funzione del ^GRN7,8, un passaggio edge finding che classifica le relazioni regolatorie a ^coppie8^,⁹, e un passaggio di ricerca della rete che produce modelli GRN in grado di produrre le dinamiche osservate10,11,12,13,14,15.

Come la maggior parte dei metodi computazionali, l'IDP richiede un insieme di argomenti specificati dall'utente che dettano il modo in cui vengono analizzati i dati di input e diversi insiemi di argomenti possono produrre risultati diversi sugli stessi dati. Ad esempio, diversi metodi, incluso l'IDP, contengono argomenti che applicano una certa soglia ai dati e l'aumento/diminuzione di questa soglia tra le esecuzioni successive del particolare metodo può comportare risultati dissimili tra le esecuzioni (vedere La nota supplementare 10: Metodi di inferenza di rete ^di5). Capire come ogni argomento può influire sull'analisi e sui risultati successivi è importante per ottenere un'elevata fiducia nei risultati. A differenza della maggior parte dei metodi di inferenza GRN, l'IDP è costituito da più strumenti computazionali, ognuno con il proprio set di argomenti che un utente deve specificare e ognuno con i propri risultati. Mentre l'IDP fornisce un'ampia documentazione su come parametrizzare ogni utensile, l'interdipendenza di ciascun utensile dall'output del passaggio precedente rende difficile la parametrizzazione dell'intera pipeline senza analisi intermedie. Ad esempio, gli argomenti nelle fasi di Edge e Network Finding sono probabilmente informati da precedenti conoscenze biologiche e quindi dipenderanno dal set di dati e / o dall'organismo. Per interrogare i risultati intermedi, sarebbe necessaria una conoscenza di base della programmazione, nonché una profonda comprensione di tutti i file dei risultati e del loro contenuto dall'IDP.

Inherent Dynamics Visualizer (IDV) è un pacchetto di visualizzazione interattivo che viene eseguito nella finestra del browser di un utente e fornisce agli utenti dell'IDP un modo per valutare l'impatto delle loro scelte di argomento sui risultati di qualsiasi passaggio dell'IDP. L'IDV naviga in una complicata struttura di directory prodotta dall'IDP e raccoglie i dati necessari per ogni passaggio e presenta i dati in figure e tabelle intuitive e interattive che l'utente può esplorare. Dopo aver esplorato questi display interattivi, l'utente può produrre nuovi dati da un passaggio IDP che può essere basato su decisioni più informate. Questi nuovi dati possono quindi essere immediatamente utilizzati nella successiva fase rispettiva dell'IDP. Inoltre, l'esplorazione dei dati può aiutare a determinare se un passaggio IDP deve essere eseguito con parametri regolati. L'IDV può migliorare l'uso dell'IDP, oltre a rendere l'uso dell'IDP più intuitivo e accessibile, come dimostrato studiando l'oscillatore centrale GRN del ciclo cellulare del lievito. Il protocollo seguente include i risultati IDP di un'esecuzione IDP completamente parametrizzata rispetto a un approccio che incorpora l'IDV dopo l'esecuzione di ogni passaggio IDP, ovvero Node, Edge e Network Finding.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Installare L'IDP e l'IDV

Nota : questa sezione presuppone che docker, conda, pip e git siano già installati (Tabella dei materiali).

In un terminale, inserisci il comando: git clone https://gitlab.com/biochron/inherent_dynamics_pipeline.git.
Seguire le istruzioni di installazione nel file README dell'IDP.
In un terminale, inserisci il comando: git clone https://gitlab.com/bertfordley/inherent_dynamics_visualizer.git.
NOTA: la clonazione dell'IDV deve avvenire al di fuori della directory di primo livello dell'IDP.
Seguire le istruzioni di installazione nel file README dell'IDV.

2. Ricerca dei nodi

Creare un nuovo file di configurazione IDP che parametrizzi il passaggio Ricerca nodi.
Nota : tutte le virgolette nei passaggi seguenti non devono essere digitate. Le virgolette vengono utilizzate qui solo come delimitatore tra il testo del protocollo e ciò che deve essere digitato.
1. Aggiungere gli argomenti IDP principali al file di configurazione.
2. Aprire un nuovo file di testo in un editor di testo e digitare "data_file =", "annotation_file =", "output_dir =", "num_proc =" e "IDVconnection = True" sulle singole righe.
3. Per "data_file", dopo il segno uguale a, digitare il percorso e il nome del rispettivo file della serie temporale e digitare una virgola dopo il nome. Separare ogni dato con una virgola, se viene utilizzato più di un set di dati di serie temporali. Vedere File supplementare 1 e File supplementare 2 per un esempio di file di espressione genica di serie temporali.
4. Digitare il percorso e il nome del file di annotazione per "annotation_file", dopo il segno uguale. Vedere File supplementare 3 per un esempio di file di annotazione.
5. Per "output_file", dopo il segno uguale a, digitare il percorso e il nome della cartella in cui verranno salvati i risultati.
6. Dopo il segno uguale a, per "num_proc", digitare il numero di processi che l'IDP deve utilizzare.
7. Aggiungere argomenti di ricerca dei nodi al file di configurazione.
8. Nello stesso file di testo del passaggio 2.1.1, digitare l'ordine presentato "[dlxjtk_arguments]", "periods =" e "dlxjtk_cutoff =" sulle singole righe. Mettili dopo gli argomenti principali.
9. Per i "punti", dopo il segno uguale a, se viene utilizzato un set di dati di serie una tantum, digitare ogni lunghezza del punto separata da virgole. Per più set di dati di serie temporali, digitare ogni set di lunghezze di periodo come prima, ma posizionare le parentesi quadre attorno a ciascun set e posizionare una virgola tra gli insiemi.
10. Dopo il segno uguale a, per "dlxjtk_cutoff", digitare un numero intero specificando il numero massimo di geni da conservare nel gene_list_file output di de Lichtenberg per JTK_CYCLE (DLxJTK) (Tabella 1).
  NOTA: si consiglia vivamente di rivedere le sezioni dlxjtk_arguments nel file README IDP per ottenere una migliore comprensione di ogni argomento. Vedere File supplementare 4 per un esempio di file di configurazione con gli argomenti di ricerca dei nodi specificati.
Nel terminale, spostati nella directory IDP, denominata inherent_dynamics_pipeline.
Nel terminale, inserisci il comando: conda activate dat2net
Eseguire l'IDP utilizzando il file di configurazione creato nel passaggio 2.1 eseguendo questo comando nel terminale, dove è il nome del file: python src/dat2net.py
Nel terminale, spostati nella directory denominata inherent_dynamics_visualizer e inserisci il comando: . /viz_results.sh
NOTA: punterà alla directory utilizzata come directory di output per l'IDP.
In un browser Web, immettere http://localhost:8050/ come URL.
Con l'IDV ora aperto nel browser, fai clic sulla scheda Ricerca nodo e seleziona la cartella di ricerca del nodo di interesse dal menu a discesa.
Curare manualmente un nuovo elenco di geni dalla tabella dell'elenco dei geni nell'IDV da utilizzare per i successivi passaggi IDP.
1. Per estendere o accorciare la tabella dell'elenco dei geni, fare clic sulle frecce su o giù o inserire manualmente un numero intero compreso tra 1 e 50 nella casella accanto a Espressione genica dei geni classificati DLxJTK. In alto:.
2. Nella tabella dell'elenco dei geni, fare clic sulla casella accanto a un gene per visualizzarne il profilo di espressione genica in un grafico a linee. È possibile aggiungere più geni.
3. Facoltativamente specificare il numero di bin di dimensioni uguali per calcolare e ordinare i geni in base all'intervallo di tempo contenente la loro espressione di picco, inserendo un numero intero nella casella di input sopra la tabella dell'elenco dei geni etichettata Input integer per dividere il primo ciclo in bins:.
  NOTA: questa opzione è specifica per la dinamica oscillatoria e potrebbe non essere applicabile ad altri tipi di dinamica.
4. Selezionare una preferenza di visualizzazione della mappa di calore facendo clic su un'opzione in Ordina geni per: espressione massima del primo ciclo (Tabella 1) che ordina i geni in base al tempo del picco di espressione genica nel primo ciclo.
  NOTA: DLxJTK Rank ordina i geni in base alla classificazione di periodicità dell'algoritmo DLxJTK dell'IDP.
5. Fare clic sul pulsante Scarica elenco geni per scaricare l'elenco dei geni nel formato di file necessario per il passaggio Edge Finding. Vedere File supplementare 5 per un esempio di file di elenco di geni.
Nella tabella delle annotazioni genetiche modificabili, etichettare un gene come bersaglio, regolatore o entrambi nel file di annotazione per il passaggio Ricerca bordi in una nuova esecuzione di Ricerca bordi. Se un gene è un regolatore, etichettare il gene come attivatore, repressore o entrambi.
1. Per etichettare un gene come attivatore, fare clic sulla cella nella colonna tf_act e modificare il valore in 1. Per etichettare un gene come repressore, modificare il valore nella colonna tf_rep in 1. Un gene sarà autorizzato ad agire sia come attivatore che come repressore nel passaggio Edge Finding impostando i valori sia nella tf_act che nelle colonne tf_rep su 1.
2. Per etichettare un gene come bersaglio, fare clic sulla cella nella colonna di destinazione e modificare il valore in 1.
Fare clic sul pulsante Scarica annot. File per scaricare il file di annotazione nel formato di file necessario per il passaggio Di ricerca edge.

3. Ricerca dei bordi

Creare un nuovo file di configurazione IDP che parametrizzi il passaggio Ricerca bordi.
1. Aggiungere gli argomenti IDP principali al file di configurazione. Aprire un nuovo file di testo in un editor di testo e ripetere il passaggio 2.1.1.
2. Aggiungere gli argomenti di Ricerca edge al file di configurazione.
3. Nello stesso file di testo del passaggio 3.1.1, digitare nell'ordine presentato "[lempy_arguments]", "gene_list_file =", "[netgen_arguments]", "edge_score_column =", "edge_score_thresho =", "num_edges_for_list =", "seed_threshold =" e "num_edges_for_seed =" sulle singole righe. Questi dovrebbero andare al di sotto degli argomenti principali.
4. Per "gene_list_file", dopo il segno uguale a, immettere il percorso e il nome del file dell'elenco dei geni generato nel passaggio 2.8.5.
5. Per "edge_score_column", dopo il segno uguale a, immettere "pld" o "norm_loss" per specificare quale colonna di frame di dati dall'output lempy viene utilizzata per filtrare i bordi.
6. Seleziona "edge_score_threshold" o "num_edges_for_list" ed elimina l'altro. Se è stato selezionato "edge_score_threshold", immettere un numero compreso tra 0 e 1. Questo numero verrà utilizzato per filtrare gli spigoli in base alla colonna specificata nel passaggio 3.1.5.
  1. Se è stato selezionato "num_edges_for_list", immettete un valore uguale o inferiore al numero di spigoli possibili. Questo numero verrà utilizzato per filtrare i bordi in base alla loro classificazione nella colonna specificata nel passaggio 3.1.5. I bordi rimanenti verranno utilizzati per creare reti in Ricerca rete.
7. Seleziona "seed_threshold" o "num_edges_for_seed" ed elimina l'altro. Se è stato selezionato "seed_threshold", immettere un numero compreso tra 0 e 1. Questo numero verrà utilizzato per filtrare gli spigoli in base alla colonna specificata nel passaggio 3.1.5.
  1. Se è stato selezionato "num_edges_for_seed", immettete un valore uguale o inferiore al numero di spigoli possibili. Questo numero verrà utilizzato per filtrare i bordi in base alla loro classificazione nella colonna specificata nel passaggio 3.1.5. I bordi rimanenti verranno utilizzati per costruire la rete di seed (Tabella 1) utilizzata in Ricerca rete.
    NOTA: si consiglia vivamente di rivedere le sezioni lempy_arguments e netgen_arguments nel file README IDP per ottenere una migliore comprensione di ogni argomento. Vedere File supplementare 7 per un esempio di file di configurazione con gli argomenti di ricerca edge specificati.
Ripetere i passaggi 2.2 e 2.3.
Eseguire l'IDP utilizzando il file di configurazione creato nel passaggio 3.1 eseguendo questo comando nel terminale, dove è il nome del file: python src/dat2net.py
Se l'IDV è ancora in esecuzione, interromperlo premendo Ctrl C nella finestra del terminale per arrestare il programma. Ripetere i passaggi 2.5 e 2.6.
Con l'IDV aperto nel browser, fai clic sulla scheda Edge Finding e seleziona la cartella di ricerca dei bordi di interesse dal menu a discesa.
NOTA: se in Edge Finding vengono utilizzati più dataset, assicurarsi di selezionare l'ultimo dataset utilizzato nell'analisi LEM (Local Edge Machine) (Tabella 1). Quando si selezionano i bordi per la rete di inizializzazione o l'elenco dei bordi in base ai risultati LEM, è importante esaminare i dati dell'ultima serie temporale elencati nel file di configurazione, poiché questo output incorpora tutti i file di dati precedenti nella sua inferenza delle relazioni normative tra i nodi.
Per estendere o accorciare la tabella dei bordi, immettete manualmente un numero intero nella casella di input in Numero di spigoli:.
Facoltativamente filtrare gli spigoli sui parametri ODE LEM. Fate clic su e trascinate per spostare il lato sinistro o destro del dispositivo di scorrimento di ciascun parametro per rimuovere gli spigoli dalla tabella degli spigoli con parametri al di fuori dei nuovi limiti consentiti.
Facoltativamente, creare una nuova rete di seed se si desidera una rete seed diversa da quella proposta dall'IDP. Vedere File supplementare 8 per un esempio di file di rete di inizializzazione.
1. Selezionare Da seme per selezionare la rete di inizializzazione o Da selezione dal menu a discesa in Rete:.
2. Deselezionate/selezionate gli spigoli dalla tabella dei bordi facendo clic sulle caselle di controllo corrispondenti adiacenti a ciascun bordo per rimuovere/aggiungere spigoli dalla rete di inizializzazione.
Fare clic sul pulsante Scarica DSGRN NetSpec per scaricare la rete di seed nel formato di specifica di rete DSGRN (Dynamic Signatures Generated by Regulatory Networks) (Tabella 1).
Selezionare nodi e bordi aggiuntivi da utilizzare nel passaggio Ricerca rete.
1. Selezionate gli spigoli dalla tabella dei bordi facendo clic sulle caselle di controllo corrispondenti da includere nel file dell'elenco dei bordi utilizzato in Ricerca rete.
2. Fare clic su Scarica elenchi di nodi e bordi per scaricare i file dell'elenco dei nodi e dei bordi nel formato richiesto per il loro utilizzo in Ricerca rete. Vedere File supplementare 9 e File supplementare 10 per esempi di file di elenchi di nodi e edge, rispettivamente.
  NOTA: l'elenco dei nodi deve contenere tutti i nodi nel file dell'elenco dei bordi, pertanto l'IDV crea automaticamente il file dell'elenco dei nodi in base agli spigoli selezionati. Sono disponibili due opzioni per la visualizzazione dei bordi in Ricerca spigoli. L'opzione Tabella riepilogo LEM (LEM Summary Table ) presenta gli spigoli come un elenco classificato dei primi 25 spigoli. La tabella LEM Top-Line presenta gli spigoli in un elenco concatenato dei primi tre spigoli classificati per ogni possibile regolatore. Il numero di spigoli visualizzati per ciascuna opzione può essere regolato dall'utente modificando il numero nella casella di input Numero di spigoli .

4. Ricerca della rete

Creare un nuovo file di configurazione IDP che parametrizzi il passaggio Ricerca rete.
1. Aggiungere gli argomenti IDP principali al file di configurazione. Aprire un nuovo file di testo in un editor di testo e ripetere il passaggio 2.1.1.
2. Aggiungere argomenti di ricerca di rete al file di configurazione.
3. Nello stesso file di testo del passaggio 4.1.1, digitare nell'ordine presentato "[netper_arguments]", "edge_list_file =", "node_list_file =", "seed_net_file =", "range_operations =", "numneighbors =", "maxparams =", "[[probabilities]]", "addNode =", "addEdge =", "removeNode =" e "removeEdge =" sulle singole righe, sotto gli argomenti principali.
4. Per "seed_net_file", "edge_list_file" e "node_list_file", dopo il segno di uguale, immettere il percorso e il nome del file di rete di inizializzazione e i file di edge e di elenco dei nodi generati nei passaggi 3.9 e 3.10.2.
5. Dopo il segno di uguale, per "range_operations", digitare due numeri separati da una virgola. Il primo e il secondo numero sono rispettivamente il numero minimo e il numero massimo di aggiunta o rimozione di nodi o bordi per rete effettuata.
6. Per "numneighbors", dopo il segno uguale a, immettere un numero che rappresenta il numero di reti da trovare in Ricerca rete.
7. Per "maxparams", dopo il segno uguale a, immettere un numero che rappresenti il numero massimo di parametri DSGRN per consentire una rete.
8. Immettere valori compresi tra 0 e 1 per ciascuno di questi argomenti: "addNode", "addEdge", "removeNode" e "removeEdge", dopo il segno uguale a. I numeri devono essere sommati a 1.
  NOTA: si consiglia vivamente di rivedere le sezioni netper_arguments e netquery_arguments nel file LEGGIMI IDP per ottenere una migliore comprensione di ogni argomento. Vedere File supplementare 11 e File supplementare 12 per esempi di un file di configurazione con gli argomenti di ricerca di rete specificati.
Ripetere i passaggi 2.2 e 2.3.
Eseguire l'IDP utilizzando il file di configurazione creato nel passaggio 4.1 eseguendo questo comando nel terminale, dove è il nome del file: python src/dat2net.py
Se l'IDV è ancora in esecuzione, interromperlo premendo Ctrl C nella finestra del terminale per arrestare il programma. Ripetere i passaggi 2.5 e 2.6.
Con l'IDV aperto nel browser, fare clic sulla scheda Ricerca rete e selezionare la cartella di ricerca di rete di interesse.
Selezionare una rete o un insieme di reti per generare una tabella di prevalenza perimetrale (Tabella 1) e visualizzare le reti insieme ai rispettivi risultati delle query.
1. Per la selezione delle reti sono disponibili due opzioni: Opzione 1 - Immettere i limiti inferiore e superiore sui risultati delle query immettendo i valori minimi e massimi nelle caselle di input corrispondenti all'asse x e all'asse y del plottaggio. Opzione 2 - Fare clic e trascinare sulla grafico a dispersione per disegnare una casella attorno alle reti da includere. Dopo aver immesso i limiti di selezione o di input, premere il pulsante Ottieni prevalenza edge da reti selezionate .
  Nota : se è stata specificata più di una query DSGRN, utilizzare i pulsanti di opzione etichettati con il tipo di query per passare da un risultato all'altro di ogni query. Lo stesso vale se è stato specificato più di un epsilon (livello di rumore).
Fare clic sulle frecce sotto la tabella di prevalenza dei bordi per passare alla pagina successiva della tabella. Premere Scarica tabella per scaricare la tabella di prevalenza dei bordi.
Immettere un numero intero nella casella di input Indice di rete per visualizzare una singola rete dalla selezione effettuata nel passaggio 4.6. Fare clic su Scarica DSGRN NetSpec per scaricare la rete visualizzata nel formato delle specifiche di rete DSGRN.
Cerca nelle reti la somiglianza con un motivo specifico o una rete di interesse.
1. Utilizzare le caselle di controllo corrispondenti a ciascun bordo per selezionare i bordi da includere nella rete o il motivo utilizzato per l'analisi della somiglianza. Fare clic su Invia per creare il grafico a dispersione di somiglianza per il motivo o la rete selezionati.
  NOTA: utilizzare le frecce nell'elenco dei bordi per ordinare in ordine alfabetico e le frecce sotto la tabella per passare alla pagina successiva della tabella.
2. Fare clic e trascinare sul grafico a dispersione per disegnare una casella attorno alle reti da includere per selezionare una rete o un insieme di reti per generare una tabella di prevalenza dei bordi e visualizzare le reti insieme ai rispettivi risultati delle query.
  Nota : se è stata specificata più di una query DSGRN, utilizzare i pulsanti di opzione etichettati con il tipo di query per passare da un risultato all'altro di ogni query. Lo stesso vale se è stato specificato più di un epsilon (livello di rumore).
3. Ripetere i passaggi 4.7 e 4.8 per scaricare rispettivamente la tabella di prevalenza dei bordi e la rete visualizzata per l'analisi della somiglianza.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

I passaggi descritti testualmente sopra e graficamente nella Figura 1 sono stati applicati al GRN oscillante centrale del ciclo cellulare del lievito per vedere se è possibile scoprire modelli GRN funzionali in grado di produrre le dinamiche osservate nei dati di espressione genica delle serie temporali raccolti in uno studio sul ciclo cellulare del lievito16. Per illustrare come l'IDV può chiarire e migliorare l'output dell'IDP, i risultati, dopo aver eseguito questa analisi in due modi, sono stati confrontati: 1) eseguendo tutti i passaggi dell'IDP in un unico passaggio senza IDV e 2) passando attraverso l'IDP con l'aiuto dell'IDV, che consente l'aggiustamento dei risultati intermedi sia incorporando conoscenze biologiche precedenti sia facendo scelte raffinate basate sugli output IDP. Il ben studiato CICLO CELLULARE del lievito GRN usato come esempio ha molte delle sue relazioni regolatorie verificate sperimentalmente. Se si sta studiando un organismo o un processo biologico diverso e/o meno annotato, le scelte su come vengono regolati i risultati intermedi o i parametri potrebbero essere diverse. Per illustrare un tipo di query che può essere utilizzata per valutare le reti, è stata misurata la robustezza di ciascuna rete per supportare oscillazioni stabili e abbinare le dinamiche trascrizionali osservate dei loro nodi attraverso i parametri del modello.

I dati delle serie temporali di espressione genica di due serie replicate sono stati prelevati da Orlando 200816 e preelaborati per rimuovere qualsiasi espressione genica associata al metodo di sincronizzazione del ciclo cellulare applicato nell'esperimento originale (File supplementare 1 e File supplementare 2). È stato creato un file di annotazione contenente tutti i geni nei dati delle serie temporali che sono supportati sia dal legame del DNA che dalle prove di espressione trovate in ^Yeastract17 e quindi potrebbero funzionare come regolatori in un GRN. TOS4, PLM2 e NRM1 sono stati inclusi anche come regolatori, anche se non sono stati trovati in Yeastract per avere entrambi i tipi di prove, perché si ritiene che siano importanti per il nucleo di lievito GRN sulla base di prove in ^{letteratura18,19} (File supplementare 3). Tutti i regolatori sono stati etichettati sia come attivatore e repressore, sia come bersagli.

L'IDP è stato prima parametrizzato per essere eseguito attraverso tutti i passaggi dell'IDP, ovvero Node, Edge e Network Finding. È stata selezionata una serie di argomenti che sembravano appropriati in base all'attuale comprensione del ciclo cellulare del lievito GRN, un piccolo insieme di geni che partecipano a una rete fortemente connessa (File supplementare 4). Questa comprensione ha influenzato principalmente le scelte di Node e Edge Finding. I parametri di probabilità in Network Finding erano basati sul presupposto che solo i veri geni e le interazioni regolatorie sarebbero stati trasmessi al Network Finding. Questa esecuzione completamente parametrizzata dell'IDP ha prodotto risultati per Node and Edge Finding (Figura 2B,C), ma in Network Finding non sono state scoperte reti ammissibili al modello (Figura 2A,D). L'ammissibilità del modello è spiegata nella documentazione del codice del modulo python dsgrn_net_gen ¹⁴, una dipendenza dell'IDP. In breve, le reti che contengono bordi auto-repressivi o hanno troppi input o output in un singolo nodo non sono interrogabili dal software DSGRN (Tabella 1). L'IDP fornisce molte ragioni per cui le reti ammissibili al modello potrebbero non essere trovate e descrive i passaggi per la risoluzione dei problemi. In sostanza, ciò comporta la modifica dei parametri e / o dei file di input e la ripetizione del rispettivo passaggio IDP e l'esame dei risultati. L'IDV è stato utilizzato per rendere questo processo meno noioso e dispendioso in termini di tempo.

I risultati di Node Finding sono stati caricati nell'IDV per esaminare i geni passati alla fase Edge Finding dell'IDP. I nodi dati da IDP sono i primi geni N classificati da DLxJTK (Tabella 1), N specificato dall'utente, tuttavia, questo elenco di geni potrebbe non essere appropriato per l'obiettivo dell'analisi. Senza una precedente conoscenza biologica, la selezione automatica dei nodi utilizzando solo i punteggi DLxJTK ha restituito un gene con evidenza limitata di un ruolo nel ciclo cellulare del lievito (RME1), mentre alcuni regolatori trascrizionali noti del ciclo cellulare non erano altamente classificati (Figura 2B). Le prove sperimentali di Yeastract sono state utilizzate per selezionare tra i geni di più alto rango da DLxJTK quelli con annotazione del ciclo cellulare. Questi geni sono SWI4, YOX1, YHP1, HCM1, FKH2, NDD1 e SWI5. Le loro relazioni normative note possono essere viste nella Figura 3. FKH2 non appare tra i primi dieci geni (dlxjtk_cutoff è stato impostato su dieci nel file supplementare 4) come classificato da DLxJTK, quindi l'elenco dei geni è stato esteso utilizzando l'IDV fino a quando non è stato trovato FKH2 (Figura 4). Molti dei geni aggiuntivi nell'elenco esteso dei geni sono geni core noti e sarebbero stati persi senza indagare i risultati del Node Finding. Mentre i geni core più noti sono stati trovati estendendo l'elenco dei geni in fondo alla lista classificata DLxJTK, l'attenzione è stata mantenuta sui geni di interesse. Pertanto, alcuni geni di alto rango sono stati deselezionati, risultando in un elenco di geni (File supplementare 5) contenente sette geni (Figura 4). È stato creato un nuovo file di annotazione (File supplementare 6) basato su questi sette geni, ogni gene è stato etichettato come bersaglio e il tipo di regolatore è stato specificato utilizzando Yeastract. Il nuovo elenco di geni e il file di annotazione sono stati scaricati per un uso successivo nel passaggio IDP successivo, Edge Finding. Senza l'IDV, la procedura di aggiunta e rimozione di geni dall'elenco dei geni e dal file di annotazione richiederebbe modeste capacità di codifica.

Un nuovo file di configurazione IDP è stato parametrizzato solo per il passaggio Edge Finding (File supplementare 7), con il nuovo elenco di geni e il file di annotazione. Dopo il completamento dell'IDP con il nuovo file di configurazione, i risultati sono stati caricati nell'IDV (Figura 5A). Poiché il passaggio di ricerca della rete cerca stocasticamente intorno allo spazio di rete della rete di semi fornita ad esso, fornire una buona rete di semi può essere importante. Una buona rete di semi può essere pensata come una che contiene veri bordi. Con l'IDV e utilizzando database online come Yeastract e Saccharomyces Genome Database (SGD)²⁰, la rete di semi può essere visualizzata e regolata utilizzando le relazioni regolatorie di LEM (Tabella 1) che hanno prove sperimentali. Ad esempio, il bordo YHP1 = tf_act (HCM1) è stato deselezionato perché non vi è alcuna prova documentata di questa relazione (Figura 5B) in Yeastract. Il bordo SWI5 = tf_act (FKH2) è stato aggiunto in quanto vi sono prove documentate di questa ^relazione21. Una volta che la rete seed (Tabella 1) è stata soddisfacente, è stato scaricato il file delle specifiche di rete DSGRN per la rete (File supplementare 8).

Senza l'IDV, c'è una maggiore probabilità di bordi per i quali non ci sono prove sperimentali utilizzate per costruire la rete seed. Come si può vedere nella Figura 2C, la rete seed generata nel passaggio Edge Finding dall'esecuzione dell'IDP senza sosta attraverso ogni passaggio contiene un edge, SWI4 = tf_rep (NDD1), che non è supportato da prove sperimentali in Yeastract, probabilmente perché NDD1 è noto per essere un attivatore ^{trascrizionale22}. Queste informazioni non sono state codificate nel file di annotazione nella corsa non-stop, il che ha permesso a tutti i regolatori di essere sia attivatori che repressori.

Utilizzando l'IDV, è stata curata manualmente una rete seed che è una sottorete della Figura 3 e i restanti quattro bordi sono stati inseriti nell'elenco dei bordi utilizzato per il campionamento dello spazio di rete (YHP1 = tf_act (SWI4), YOX1 = tf_act (SWI4), SWI4 = tf_rep (YOX1), SWI5 = tf_act (NDD1)). La selezione dei bordi in base alle conoscenze biologiche precedenti può anche essere utilizzata per costruire l'elenco dei bordi; tuttavia, in questo caso, sono stati selezionati i primi 20 spigoli della vista Tabella riepilogativa LEM (File supplementare 9). Il file di elenco dei nodi viene creato automaticamente dai bordi selezionati (File supplementare 10). I parametri ODE di LEM possono anche essere utilizzati per filtrare i bordi se si ritiene che i parametri dedotti nel modello ODE non siano biologicamente realistici, ma queste informazioni non sono state utilizzate qui.

Successivamente, un nuovo file di configurazione IDP è stato parametrizzato per il passaggio Ricerca rete utilizzando i tre nuovi file. Poiché la rete di semi è stata creata con bordi ben supportati da prove sperimentali, è stata desiderata l'inclusione di questi bordi in tutte le reti. Pertanto, le probabilità di ricerca della rete sono state impostate per consentire l'aggiunta ma non la rimozione di nodi e bordi (file supplementare 11). Il parametro Network Finding numneighbors è stato impostato per cercare 2.000 reti. Dopo l'esecuzione dell'IDP, nel passaggio Ricerca rete sono state trovate 37 reti ammissibili al modello, a differenza dell'esecuzione non-stop che aveva zero. Caricando i risultati del Network Finding nell'IDV, il 64% (24) di queste 37 reti aveva la capacità di oscillare stabilmente (Figura 6A). Di queste 24 reti, le migliori performance sono state due reti che corrispondevano ai dati al 50% dei loro parametri di modello stabilmente oscillanti (Figura 6B).

La edge prevalence table (Tabella 1) tabula il numero di volte in cui un edge si verifica in una raccolta selezionata di reti, fornendo un'indicazione della sua prevalenza nelle reti ad alte prestazioni. L'esame della edge prevalence table prodotta selezionando le due reti precedenti nel grafico a dispersione rivela che tutti i bordi della rete seed sono presenti in ciascuna delle due reti, come previsto, insieme a due bordi di rete non seed (Figura 6B), SWI4 = tf_act (SWI5) e HCM1 = tf_rep (YHP1). Nessuno di questi due bordi aveva prove a sostegno di Yeastract. Poiché è stata esplorata una piccola quantità di spazio di rete, è difficile valutare l'importanza dei bordi e dei nodi nella produzione delle dinamiche osservate.

Solo 37 reti ammissibili al modello sono state trovate in Network Finding anche se il parametro numneighbors era impostato su 2.000, il che suggerisce che la ricerca in rete potrebbe essere stata indebitamente limitata. Come descritto nella documentazione per il modulo python dsgrn_net_gen nell'IDP, il problema potrebbe essere correlato alla rete seed, all'elenco dei bordi, all'elenco dei nodi, alle scelte dei parametri di ricerca della rete o a una combinazione di questi. Per indagare, sono stati utilizzati la stessa rete di seed, l'elenco edge e l'elenco dei nodi di prima, ma i parametri di ricerca della rete sono stati modificati aggiungendo la possibilità di rimuovere i bordi durante la generazione della rete (file supplementare 12). Il caricamento dei nuovi risultati di Network Finding nell'IDV mostra che in questo passaggio sono state trovate 612 reti, con il 67% (411) di queste reti che hanno la capacità di oscillare stabilmente (Figura 7A). È interessante notare che il 13% (82) delle reti che erano in grado di dinamica oscillatoria stabile non erano in grado di produrre dinamiche simili a quelle osservate nei dati (Figura 7B). Delle 411 reti, il 30% (124) ha mostrato solide corrispondenze ai dati (cioè, oltre il 50% dei parametri del modello stabilmente oscillanti mostrava una corrispondenza dei dati) (Figura 7C).

I numeri di prevalenza edge generati dal secondo round di Network Finding si basano ora su una selezione molto più ampia di reti e possono essere utilizzati con maggiore sicurezza per valutare l'importanza di una relazione normativa in un GRN. Ad esempio, HCM1 = tf_rep (YHP1) è ancora altamente rappresentato nelle reti che producono dinamiche robuste, suggerendo che questa relazione potrebbe valere la pena di essere studiata sperimentalmente (Figura 7C). Un ulteriore esame della Edge Prevalence Table (basata sulle 124 reti sopra menzionate) ha rivelato che i bordi SWI4 = tf_rep (YOX1) e YOX1 = tf_act (SWI4) non sono ancora altamente classificati i bordi SWI4 = tf_rep (YHP1) e YHP1 = tf_act (SWI4) sono altamente classificati (Figura 7C). Il feedback negativo è importante per la produzione di dinamica ^{oscillatoria23} ed entrambi questi insiemi di relazioni regolatorie forniscono questa funzione nel GRN nella Figura 3. Trovare se esiste una rete che contiene tutti e quattro questi bordi potrebbe fornire alcune informazioni sul motivo per cui questi non esistono frequentemente insieme nella raccolta di modelli GRN; tuttavia, fare clic su singole reti sarebbe noioso. Al contrario, la parte Analisi somiglianza della pagina Ricerca rete è stata utilizzata per cercare reti che possono contenere tutti e quattro i bordi (Figura 7D). Esaminando il grafico a dispersione che mostra quanto siano simili le reti 612 a un motivo di questi quattro bordi rispetto alla percentuale dello spazio dei parametri del modello che corrisponde alle dinamiche osservate, si scopre che solo lo 0,65% (4) delle reti 612 contiene tutti e quattro questi bordi (Figura 7D). Ciò suggerisce un'ipotesi verificabile che solo uno dei due cicli di feedback negativi sia necessario affinché una rete di queste dimensioni produca le dinamiche osservate. Questa ipotesi può essere ulteriormente studiata computazionalmente mediante la riparametrizzazione dei passaggi IDP e una ricerca più esaustiva dello spazio di rete o sperimentalmente, come i knockout genici. Tutti i risultati di questa analisi sono disponibili nel file supplementare 13.

Figura 1: Panoramica del flusso di lavoro IDP e IDV. Nella riga inferiore sono illustrati i tre passaggi principali dell'IDP: Nodo, Edge e Ricerca rete. La riga superiore illustra i passaggi principali dell'IDV e descrive vari modi in cui un utente può interagire con i risultati. Le frecce grigio scuro tra i due illustrano come l'IDV e l'IDP possono funzionare sinergicamente per consentire agli utenti di prendere decisioni informate per ogni fase dell'IDP, con singoli passaggi IDP che forniscono risultati per le visualizzazioni nell'IDV, singoli passaggi IDV che consentono l'input di parametri nuovi o regolati e risultati e input regolati per il successivo passaggio IDP. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 2: Esempio di risultati dell'esecuzione consecutiva di ogni passaggio dell'IDP senza utilizzare l'IDV tra un passaggio e l'altro. (A) Screenshot dell'output del terminale dall'esecuzione consecutiva di ogni passaggio IDP. L'IDP è stato completato, ma non sono state trovate reti durante il passaggio di ricerca della rete. (B) La directory dei risultati di Node Finding node_finding_20210705183301 (file supplementare 13) caricata nell'IDV. Tutti i geni nella tabella dell'elenco dei geni sono stati selezionati (freccia rossa) per mostrare i rispettivi profili di espressione nel grafico a linee e per generare una tabella di annotazione. La tabella delle annotazioni è stata compilata per riflettere il modo in cui i geni sono etichettati nel file di annotazione originale (freccia verde). (C) La directory dei risultati di Edge Finding edge_finding_20210705183301 (file supplementare 13) caricata nell'IDV. (D) Directory dei risultati di Network Finding network_finding_20210705183301 (file supplementare 13) caricati nell'IDV. La pagina Ricerca rete non mostra alcun risultato, suggerendo che è necessaria la riparametrizzazione del passaggio Ricerca rete o la rivalutazione del passaggio Ricerca nodo o Edge. La documentazione IDP contiene i passaggi per la risoluzione dei problemi per aiutare l'utente a determinare cosa potrebbe provare dopo. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 3: Un modello GRN a ciclo cellulare del lievito. Una serie di regolatori noti del ciclo cellulare del lievito sono stati selezionati da SGD e le relazioni regolatorie note tra i geni sono state estratte da Yeastract. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 4: Esempio di risultati di IDP Node Finding nell'IDV. Nell'IDV viene caricata la directory dei risultati di Node Finding node_finding_20210705183301 (File supplementare 13). I risultati corretti dopo aver ispezionato i database di lieviti online curati. La tabella dell'elenco dei geni è stata estesa (freccia gialla) per trovare il gene rimanente nel modello GRN della Figura 3 e i geni sono stati deselezionati per rimuovere i geni non trovati nello stesso modello GRN (freccia rossa). La tabella di annotazione è stata compilata in base alle prove di regolazione per ciascun gene trovato su Yeastract (freccia verde). Il nuovo elenco di geni e il file di annotazione sono stati scaricati selezionando i rispettivi pulsanti di download (frecce blu). Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 5: Esempio di risultati di IDP Edge Finding nell'IDV. Nell'IDV viene caricata la directory dei risultati di Edge Finding edge_finding_20210701100152 (file supplementare 13). (A) Il risultato iniziale prodotto dall'IDP. È stata selezionata l'opzione a discesa Rete da seme (freccia rossa) per visualizzare la rete di inizializzazione prodotta dall'IDP in base agli argomenti nel file di configurazione utilizzato (File supplementare 7). I geni selezionati nella tabella dei bordi sono i bordi utilizzati nella rete di semi. (B) I risultati corretti dopo aver ispezionato la rete di sementi per i bordi che non contengono prove sperimentali. È stata selezionata l'opzione a discesa Rete dalla selezione (freccia rossa). Gli spigoli sono stati selezionati/deselezionati dalla tabella degli spigoli (freccia verde). I file della rete seed, dell'elenco edge e dell'elenco dei nodi sono stati scaricati facendo clic sui rispettivi pulsanti (frecce gialle). La tabella dei bordi visualizzata è per i dati dell'ultima serie temporale elencati nel file di configurazione two_wts_EdgeFinding_config.txt (file supplementare 7). Quando si selezionano i bordi per la rete di inizializzazione o l'elenco dei bordi in base ai risultati LEM, è importante esaminare i dati dell'ultima serie temporale elencati nel file di configurazione, poiché questo output incorpora tutti i file di dati precedenti nella sua inferenza delle relazioni normative tra i nodi. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 6: Esempio di ricerca di rete IDP risultante nell'IDV dall'utilizzo del file di configurazione IDP two_wts_NetFind_rd1_config.txt (file supplementare 11). (A) È stata selezionata la query Stable Full Cycle (freccia rossa) per visualizzare i rispettivi dati sull'asse y nel grafico a dispersione. I punti blu nel grafico a dispersione rappresentano i punti selezionati utilizzando la funzione Box Select per il grafico a dispersione. La casella di selezione punteggiata è stata illustrata per mostrare l'aspetto della selezione della casella. (B) Gli interi min e max per l'asse y e l'asse x sono stati inseriti manualmente nelle reti selezionate entro questi limiti (freccia verde). Dopo ogni selezione, è stato fatto clic sul pulsante Ottieni prevalenza edge da reti selezionate (frecce gialle) e sono state generate le aree Edge Prevalence Table e Selected DSGRN Predicted Networks. Nell'indice di rete è possibile fare clic sulle frecce su e giù per sfogliare le reti selezionate (frecce blu). Fare clic qui per visualizzare una versione più grande di questa figura.

Figura 7: Esempio di ricerca di rete IDP che genera nell'IDV l'utilizzo del file di configurazione IDP two_wts_NetFind_rd2_config.txt (file supplementare 12). (A-C) La selezione delle reti è stata eseguita inserendo i valori nelle caselle di input min e max (frecce rosse). È stato fatto clic sul pulsante Ottieni prevalenza edge da reti selezionate per generare la tabella di prevalenza edge e le aree reti previste DSGRN selezionate. (D) I bordi di interesse sono stati selezionati nella tabella edge_list (freccia gialla) e il pulsante Invia (freccia verde) è stato cliccato per calcolare i punteggi di somiglianza da tracciare nel grafico a dispersione rispetto alla query selezionata (freccia blu). La funzione Box Select è stata utilizzata per selezionare un set di reti (freccia viola) per generare le aree Edge Prevalence Table e Selected DSGRN Predicted Networks. L'indice di rete è stato aumentato a 2 (freccia arancione) per visualizzare la seconda rete nella selezione. Fare clic qui per visualizzare una versione più grande di questa figura.

Termine	Passo pipeline	Definizione
de Lichtenburg di JTK-CYCLE (DLxJTK)	Ricerca dei nodi	Una singola misura quantitativa sia della periodicità che della forza di regolazione utilizzata per classificare i geni. Combina le metriche di periodicità precedentemente pubblicate de Lichtenberg (DL) e JTK-CYCLE (JTK).
Espressione massima del primo ciclo	Ricerca dei nodi	La massima espressione genica durante il primo ciclo di espressione genica periodica. I geni ordinati per First Cycle Max Expression saranno ordinati in base al punto temporale del primo ciclo in cui raggiungono la loro massima espressione genica.
Macchina perimetrale locale (LEM)	Ricerca dei bordi	Un metodo di inferenza di rete bayesiana che classifica potenziali modelli di interazioni geniche per identificare i regolatori e le modalità di regolazione più probabili (attivazione o repressione) di un determinato gene bersaglio utilizzando i dati di espressione genica di serie temporali.
Rete di semi	Ricerca di rete	Un'ipotesi iniziale su una rete plausibile di interazioni globali selezionando i bordi LEM più classificati. Il seed localizza una regione di spazio di rete altamente oscillatoria con un'alta probabilità di mostrare coerenza con i dati delle serie temporali forniti.
Firme dinamiche generate da reti normative (DSGRN)	Ricerca di rete	Un pacchetto software per calcolare in modo completo la varietà di comportamenti dinamici a lungo termine che una rete può esibire.
Prevalenza edge	Ricerca di rete	Percentuale di reti con il punteggio più alto dal passaggio di ricerca della rete che includono l'edge in questione. Il punteggio consente una classifica dei bordi che hanno una prevalenza diversa da zero.

Tabella 1: Definizione dei termini Inherent Dynamics Pipeline e Inherent Dynamics Visualizer.

File supplementare 1: Dati di espressione genica delle serie temporali (Replica 1) tratti da Orlando, 200813. Fare clic qui per scaricare questo file.

File supplementare 2: Dati di espressione genica di serie temporali (Replicate 2) tratti da Orlando, 200813. Fare clic qui per scaricare questo file.

File supplementare 3: file di annotazione contenente tutti i geni presenti nel file supplementare 1 e nel file supplementare 2. Fare clic qui per scaricare questo file.

File supplementare 4: file di configurazione di Inherent Dynamics Pipeline completamente parametrizzato. Fare clic qui per scaricare questo file.

File supplementare 5: file di elenco genetico scaricato dalla pagina Node Finding di Inherent Dynamics Visualizer. Fare clic qui per scaricare questo file.

File supplementare 6: file di annotazione scaricato dalla pagina Ricerca nodi di Inherent Dynamics Visualizer. Fare clic qui per scaricare questo file.

File supplementare 7: file di configurazione di Inherent Dynamics Pipeline parametrizzato solo per il passaggio Di ricerca edge. Fare clic qui per scaricare questo file.

File supplementare 8: file di rete seed scaricato dalla pagina Edge Finding di Inherent Dynamics Visualizer. Fare clic qui per scaricare questo file.

File supplementare 9: file di elenco Edge scaricato dalla pagina Ricerca edge di Inherent Dynamics Visualizer. Fare clic qui per scaricare questo file.

File supplementare 10: file di elenco dei nodi scaricato dalla pagina Ricerca bordi di Inherent Dynamics Visualizer. Fare clic qui per scaricare questo file.

File supplementare 11: file di configurazione di Inherent Dynamics Pipeline parametrizzato solo per il passaggio Ricerca rete. Fare clic qui per scaricare questo file.

File supplementare 12: file di configurazione della pipeline Inherent Dynamics aggiornato (file supplementare 11) parametrizzato solo per il passaggio ricerca di rete. Fare clic qui per scaricare questo file.

File supplementare 13: Directory contenente i risultati della sezione Risultati rappresentativi. Fare clic qui per scaricare questo file.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

L'inferenza dei GRN è una sfida importante nella biologia dei sistemi. L'IDP genera GRN modello da dati di espressione genica utilizzando una sequenza di strumenti che utilizzano i dati in modi sempre più complessi. Ogni passaggio richiede decisioni su come elaborare i dati e quali elementi (geni, interazioni funzionali) verranno passati al livello successivo dell'IDP. Gli impatti di queste decisioni sui risultati degli sfollati interni non sono così evidenti. Per aiutare in questo senso, l'IDV fornisce utili visualizzazioni interattive degli output dei singoli passaggi degli strumenti di inferenza GRN all'interno dell'IDP. L'IDV semplifica e facilita il processo di valutazione dei risultati di questi metodi di inferenza computazionale per accelerare la sperimentazione e informare le scelte di analisi, che a loro volta consentiranno la produzione accelerata di modelli e ipotesi di rete ad alta fiducia. L'IDV implementa anche funzionalità che espandono la funzionalità dell'IDP, tra cui il filtraggio dei bordi mediante le scelte dei parametri LEM ODE, il binning dei geni in base al loro tempo di espressione e le reti di clustering in base alla somiglianza con un motivo o una rete. È importante sottolineare che l'IDV consente interventi manuali tra ogni fase dell'IDP, che consente all'utente di incorporare facilmente la conoscenza umana e le informazioni preliminari della letteratura in modi che non possono essere facilmente automatizzati. Una corsa ingenua dell'IDP non incorporerà nativamente queste informazioni, quindi l'uso dell'IDV aumenterà la fiducia nei risultati ogni volta che sono disponibili informazioni specifiche per l'esperimento. Nel complesso, l'utilizzo dell'IDV in combinazione con l'IDP consente agli utenti di creare ipotesi di rete per processi biologici con maggiore sicurezza, anche con poca o nessuna conoscenza del vero GRN.

Ci sono tre passaggi critici nell'IDV. Il primo è la valutazione dei risultati di IDP Node Finding nell'IDV. La pagina Node Finding di IDV può produrre un nuovo elenco di geni e, se lo si desidera, un file di annotazione genica. Curare un nuovo elenco di geni è un passo fondamentale in quanto riduce notevolmente lo spazio potenziale della rete limitando quali geni possono essere modellati come bersagli e / o regolatori GRN. Inoltre, poiché i GRN sono per lo più costituiti da fattori di trascrizione, avere annotazioni geniche sarà di grande aiuto nella creazione di modelli GRN coerenti.

Il passaggio successivo consiste nel valutare i risultati di IDP Edge Finding nell'IDV. La cura di una nuova rete seed è un passaggio critico poiché localizza l'area dello spazio di rete che verrà campionata nel passaggio Ricerca rete. Tuttavia, sapere da dove iniziare non è sempre ovvio, quindi si consiglia di utilizzare bordi che hanno una qualche forma di prova sperimentale per fornire la certezza che si sta iniziando in una regione di spazio di rete che contiene bordi ad alta affidabilità. La pagina Edge Finding di IDV consente un facile assemblaggio delle reti seed e genera il file delle specifiche di rete DSGRN associato, nonché gli elenchi di nodi e bordi.

L'ultimo passaggio è valutare i risultati di IDP Network Finding nell'IDV. La pagina Network Finding di IDV consente una facile esplorazione delle reti campionate e dei punteggi associati che stimano la capacità della rete di produrre le dinamiche osservate. Mentre Node e Edge Finding restituiranno sempre risultati (se almeno due geni vengono trasmessi da Node Finding), Network Finding può restituire zero risultati. Pertanto, sapere se sono necessarie regolazioni nei parametri sarà più ovvio in Network Finding che in Node and Edge Finding. Tali occorrenze di poche o nessuna rete trovata potrebbero essere il risultato di vincoli posti su quali reti possono essere analizzate. Questi vincoli sono: 1) se le reti sono sempre fortemente connesse, 2) il numero minimo e massimo di bordi di input per ciascun nodo, 3) le probabilità di aggiungere e rimuovere nodi e bordi e 4) il numero di aggiunte e rimozioni di nodi e bordi consentiti. Se vengono trovate poche o nessuna rete ammissibile dal modello, come nella Figura 2, si consiglia di fare riferimento alla documentazione IDP per una guida sulla riparametrizzazione di uno o tutti i passaggi dell'IDP con successiva valutazione dei risultati nell'IDV.

Un limite attuale di questo approccio è che la pagina Node Finding è principalmente focalizzata sulla dinamica oscillatoria, come quelle osservate nei programmi trascrizionali del ciclo cellulare e dell'orologio circadiano. In particolare, la fase IDP Node Finding è attualmente configurata per la ricerca di geni che presentano dinamiche oscillatorie in un periodo specificato. Man mano che l'IDP si espande per includere analisi in grado di quantificare diversi tipi di dinamiche trascrizionali, anche l'IDV verrà aggiornato per supportare la visualizzazione e l'interrogazione di questi altri comportamenti. Le dimensioni delle reti ricercate e analizzate nella fase di ricerca della rete sono attualmente limitate a reti di dimensioni più piccole, ad esempio circa 10 geni. Questa è una necessità in quanto i calcoli nella scala DSGRN avvengono combinatoriamente. Un'altra limitazione è che l'esplorazione dello spazio dei parametri del modello per una rete selezionata non è possibile nell'IDV. Tuttavia, è possibile scaricare il file delle specifiche di rete DSGRN per una determinata rete e visualizzare le dinamiche associate a ciascun parametro del modello sul sito Web DSGRN Visualization (https://sites.math.rutgers.edu/~gameiro/dsgrn_viz/). Infine, l'IDV è stato testato utilizzando sistemi Linux (Ubuntu) e iOS (Big Sur). L'IDV è stato testato su Windows 10 utilizzando il sottosistema Windows per Linux (WSL), che consente agli utenti di Windows 10 di eseguire Linux e IDV senza la necessità di un computer diverso, una macchina virtuale o una configurazione a doppio avvio. IDV attualmente non viene eseguito su Windows nativo.

Studiare i GRN è difficile a causa della loro complessità intrinseca e utili strumenti di inferenza come l'IDP possono essere difficili da capire e implementare con sicurezza. L'IDV fornisce un metodo per ridurre la complessità dello studio dei GRN dedotti utilizzando l'IDP, facilitando al contempo l'inclusione di informazioni aggiuntive oltre le dinamiche di espressione genica. L'utilizzo dell'IDV in combinazione con l'IDP come descritto qui consentirà ai ricercatori di sviluppare e analizzare modelli funzionali di sistemi ben studiati, come il ciclo cellulare umano. Inoltre, questi strumenti genereranno ipotesi verificabili per processi meno compresi, come il ciclo di sviluppo intra-eritrocitico della malaria, che si sospetta sia controllato da un ^GRN24 ma per il quale un modello deve ancora essere proposto.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non hanno nulla da rivelare.

Acknowledgments

Questo lavoro è stato finanziato dalla sovvenzione NIH R01 GM126555-01 e dalla sovvenzione NSF DMS-1839299.

Materials

Name	Company	Catalog Number	Comments
Docker			https://docs.docker.com/get-docker/
Git			https://git-scm.com/
Inherent Dynamics Pipeline			https://gitlab.com/biochron/inherent_dynamics_pipeline
Inherent Dynamics Visualizer			https://gitlab.com/bertfordley/inherent_dynamics_visualizer
Miniconda			https://docs.conda.io/en/latest/miniconda.html
Pip			https://pip.pypa.io/en/stable/

DOWNLOAD MATERIALS LIST

References

Karlebach, G., Shamir, R. Modelling and analysis of gene regulatory networks. Nature Reviews Molecular Cell Biology. 9 (10), 770-780 (2008).
Aijö, T., Lähdesmäki, H. Learning gene regulatory networks from gene expression measurements using non-parametric molecular kinetics. Bioinformatics. 25 (22), 2937-2944 (2009).
Huynh-Thu, V. A., Sanguinetti, G. Combining tree-based and dynamical systems for the inference of gene regulatory networks. Bioinformatics. 31 (10), 1614-1622 (2015).
Oates, C. J., et al. Causal network inference using biochemical kinetics. Bioinformatics. 30 (17), 468-474 (2014).
Marbach, D., et al. Wisdom of crowds for robust gene network inference. Nature Methods. 9 (8), 796-804 (2012).
Inherent Dynamics Pipeline. , Available from: https://gitlab.com/biochron/inherent_dynamics_pipeline (2021).
Motta, F. C., Moseley, R. C., Cummins, B., Deckard, A., Haase, S. B. Conservation of dynamic characteristics of transcriptional regulatory elements in periodic biological processes. bioRxiv. , (2020).
LEMpy. , Available from: https://gitlab.com/biochron/lempy (2021).
McGoff, K. A., et al. The local edge machine: inference of dynamic models of gene regulation. Genome Biology. 17, 214 (2016).
Cummins, B., Gedeon, T., Harker, S., Mischaikow, K. Model rejection and parameter reduction via time series. SIAM Journal on Applied Dynamical Systems. 17 (2), 1589-1616 (2018).
Cummins, B., Gedeon, T., Harker, S., Mischaikow, K. Database of Dynamic Signatures Generated by Regulatory Networks (DSGRN). Lecture Notes in Computer Science. (including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). , 300-308 (2017).
Cummins, B., Gedeon, T., Harker, S., Mischaikow, K. DSGRN: Examining the dynamics of families of logical models. Frontiers in Physiology. 9. 9, 549 (2018).
DSGRN. , Available from: https://github.com/marciogameiro/DSGRN (2021).
Dsgm_Net_Gen. , Available from: https://github.com/breecummins/dsgrn_net_gen (2021).
Dsgrn_Net_Query. , Available from: https://github.com/breecummins/dsgrn_net_query (2021).
Orlando, D. A., et al. Global control of cell-cycle transcription by coupled CDK and network oscillators. Nature. 453 (7197), 944-947 (2008).
Monteiro, P. T., et al. YEASTRACT+: a portal for cross-species comparative genomics of transcription regulation in yeasts. Nucleic Acids Research. 48 (1), 642-649 (2020).
de Bruin, R. A. M., et al. Constraining G1-specific transcription to late G1 phase: The MBF-associated corepressor Nrm1 acts via negative feedback. Molecular Cell. 23 (4), 483-496 (2006).
Horak, C. E., et al. Complex transcriptional circuitry at the G1/S transition in Saccharomyces cerevisiae. Genes & Development. 16 (23), 3017-3033 (2002).
Cherry, J. M., et al. Saccharomyces genome database: The genomics resource of budding yeast. Nucleic Acids Research. 40, 700-705 (2012).
Zhu, G., et al. Two yeast forkhead genes regulate the cell cycle and pseudohyphal growth. Nature. 406 (6791), 90-94 (2000).
Loy, C. J., Lydall, D., Surana, U. NDD1, a high-dosage suppressor of cdc28-1N, is essential for expression of a subset of late-S-phase-specific genes in saccharomyces cerevisiae. Molecular and Cellular Biology. 19 (5), 3312-3327 (1999).
Cho, C. Y., Kelliher, C. M., Hasse, S. B. The cell-cycle transcriptional network generates and transmits a pulse of transcription once each cell cycle. Cell Cycle. 18 (4), 363-378 (2019).
Smith, L. M., et al. An intrinsic oscillator drives the blood stage cycle of the malaria parasite Plasmodium falciparum. Science. 368 (6492), 754-759 (2020).

Biology

Inherent Dynamics Visualizer, un'applicazione interattiva per la valutazione e la visualizzazione di output da una pipeline di inferenza di rete di regolazione genica

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.