Summary
Inherent Dynamics Visualizer は、遺伝子調節ネットワーク推論ツールに接続するインタラクティブな視覚化パッケージで、機能ネットワークモデルの強化と合理化の生成を実現します。ビジュアライザーを使用すると、推論ツールのパラメーター化についてより多くの情報に基づいた意思決定を行うことができ、結果のモデルの信頼性が向上します。
Abstract
遺伝子制御ネットワークモデルの開発は、システム生物学における大きな課題です。この課題に取り組むために、新しく開発された固有のダイナミクスパイプラインを含むいくつかの計算ツールとパイプラインが開発されています。固有のダイナミクスパイプラインは、相乗的に機能し、線形に接続された以前に公開されたいくつかのツールで構成され、1つのツールの出力が次のツールの入力として使用されます。ほとんどの計算手法と同様に、固有のダイナミクス パイプラインの各ステップでは、正確な生物学的定義を持たないパラメーターについてユーザーが選択する必要があります。これらの選択は、解析によって生成された遺伝子調節ネットワークモデルに大きく影響し得る。このため、各ステップでさまざまなパラメーター選択の結果を視覚化して探索する機能は、選択と結果に対する信頼性を高めるのに役立ちます。固有のダイナミクスビジュアライザーは、Webブラウザ内のインタラクティブなインターフェイスを介してパラメータの選択を評価するプロセスを合理化する包括的な視覚化パッケージです。ユーザーは、パイプラインの各ステップの出力を個別に調べ、視覚情報に基づいて直感的な変更を行い、固有のダイナミクス パイプラインに必要な入力ファイルの自動生成の恩恵を受けることができます。固有のダイナミクスビジュアライザーは、時系列トランスクリプトームデータから遺伝子調節ネットワークを発見するための非常に複雑なツールへの比類のないレベルのアクセスを提供します。
Introduction
細胞分化や環境応答などの多くの重要な生物学的プロセスは、遺伝子調節ネットワーク(GRN)内で互いに相互作用する一連の遺伝子によって支配されています。これらのGRNは、それらが制御する表現型を活性化および維持するために必要な転写ダイナミクスを産生するので、GRNの構成要素およびトポロジカル構造を特定することは、多くの生物学的プロセスおよび機能を理解するための鍵である。GRNは、ノードが遺伝子であり、その辺が相互作用の方向および形態(例えば、転写の活性化/抑制、翻訳後修飾など)を記述するネットワークによって記述される相互作用遺伝子および/または遺伝子産物のセットとしてモデル化され得る。1. 相互作用は、調節遺伝子がその標的の産生に及ぼす影響を記述するパラメータ化された数学的モデルとして表現することができる2,3,4。GRN モデルの推論には、相互作用ネットワークの構造の推論と、基になる相互作用パラメータの推定の両方が必要です。時系列遺伝子発現データを取り込み、GRNモデルを出力する様々な計算推論法が開発されている5。最近、時系列遺伝子発現データを利用して、遺伝子発現データで観察されたダイナミクスと一致するダイナミクスを生成することができる標識された調節因子-標的相互作用を有するGRNモデルを生成する、Inherent Dynamics Pipeline(IDP)と呼ばれる新しいGRN推論法が開発されました6。IDPは、パイプラインに直線的に接続された一連のツールであり、GRN7,8の機能に関連することが知られている、または関連している疑いのある遺伝子発現特性に基づいて遺伝子をランク付けするノードファインディングステップ、ペアワイズ調節関係をランク付けするエッジファインディングステップ8、図9は、観測されたダイナミクス10、11、12、13、14、15を生成するGRNモデルを生成するネットワーク探索ステップとを含む。
ほとんどの計算方法と同様に、IDP には、入力データの分析方法を指定するユーザー指定の引数のセットが必要であり、引数のセットが異なると、同じデータに対して異なる結果が生成される可能性があります。たとえば、IDP を含むいくつかのメソッドには、データに何らかのしきい値を適用する引数が含まれており、特定のメソッドの連続した実行間でこのしきい値を増減すると、実行間で結果が異なる場合があります (補足注 10: ネットワーク推論メソッド of5 を参照)。各引数が分析とその後の結果にどのように影響するかを理解することは、結果に対する高い信頼性を達成するために重要です。ほとんどの GRN 推論メソッドとは異なり、IDP は複数の計算ツールで構成され、それぞれがユーザーが指定する必要がある独自の引数セットを持ち、それぞれに独自の結果があります。IDP は各ツールをパラメーター化する方法に関する広範なドキュメントを提供していますが、前のステップの出力に対する各ツールの相互依存関係により、中間分析なしでパイプライン全体をパラメーター化することは困難です。たとえば、エッジとネットワーク検索のステップの議論は、事前の生物学的知識によって通知される可能性が高いため、データセットおよび/または生物に依存します。中間結果を調べるには、プログラミングの基本的な理解と、IDP からのすべての結果ファイルとその内容の深い理解が必要です。
固有のダイナミクス ビジュアライザー (IDV) は、ユーザーのブラウザー ウィンドウで実行される対話型の視覚化パッケージで、IDP のユーザーが引数の選択が IDP の任意のステップの結果に与える影響を評価する方法を提供します。IDV は、IDP によって生成された複雑なディレクトリ構造をナビゲートし、各ステップに必要なデータを収集し、ユーザーが探索できるように直感的でインタラクティブな図と表でデータを表示します。これらの対話型ディスプレイを探索した後、ユーザーは、より多くの情報に基づいた意思決定に基づくことができる IDP ステップから新しいデータを生成できます。これらの新しいデータは、IDP の次の各ステップですぐに使用できます。さらに、データの探索は、IDP ステップを調整済みパラメーターで再実行する必要があるかどうかを判断するのに役立ちます。IDVは、酵母細胞周期のコア発振器GRNを調査することによって実証されるように、IDPの使用を強化するだけでなく、IDPの使用をより直感的で親しみやすいものにすることができる。次のプロトコルには、完全にパラメーター化された IDP 実行からの IDP 結果と、各 IDP ステップの実行後に IDV を組み込んだアプローチ (ノード、エッジ、およびネットワーク検索) が含まれています。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
1. IDP と IDV をインストールする
注:このセクションでは、ドッカー、コンダ、ピップ、およびgitがすでにインストールされていることを前提としています(材料表)。
- ターミナルで、git clone https://gitlab.com/biochron/inherent_dynamics_pipeline.git コマンドを入力します。
- IDP の README ファイルのインストール手順に従います。
- ターミナルで、git clone https://gitlab.com/bertfordley/inherent_dynamics_visualizer.git コマンドを入力します。
メモ: IDV のクローン作成は、IDP の最上位ディレクトリの外部で行う必要があります。 - IDV の README ファイルのインストール手順に従います。
2. ノード検索
- ノード検索ステップをパラメータ化する新しい IDP 構成ファイルを作成します。
メモ: 次の手順のすべての引用符は入力しないでください。引用符は、プロトコルテキストと入力されるものの間の区切り文字としてのみ使用されます。- メインの IDP 引数を構成ファイルに追加します。
- テキストエディタで新しいテキストファイルを開き、個々の行に「data_file =」、「annotation_file =」、「output_dir =」、「num_proc =」、「IDVconnection = True」と入力します。
- "data_file" の場合、等号の後に、それぞれの時系列ファイルのパスと名前を入力し、名前の後にコンマを入力します。複数の時系列データ・セットが使用されている場合は、各データをコンマで区切ります。時系列遺伝子発現 ファイル の例については、 補足ファイル 1 および補足ファイル 2 を参照してください。
- "annotation_file" のアノテーション ファイルのパスと名前を等号の後に入力します。アノテーション ・ファイル の例については、補足ファイル 3 を参照してください。
- 「output_file」の場合は、等号の後に、結果が保存されるフォルダーのパスと名前を入力します。
- 等号の後の "num_proc" に、IDP が使用するプロセス数を入力します。
- ノード検索引数を構成ファイルに追加します。
- 手順 2.1.1 と同じテキスト ファイルに、個々の行に "[dlxjtk_arguments]"、"ピリオド ="、および "dlxjtk_cutoff =" と表示されている順序で入力します。これらをメイン引数の後に置きます。
- 「期間」の場合、等号の後に、1 つの時系列データ・セットが使用されている場合は、各期間の長さをコンマで区切って入力します。複数の時系列データ・セットの場合は、期間の長さの各セットを以前と同じように入力しますが、各セットを角括弧で囲み、セット間にコンマを入れます。
- 等号の後の「dlxjtk_cutoff」に、de Lichtenberg by gene_list_file (DLxJTK) によるJTK_CYCLE出力で保持する遺伝子の最大数を指定する整数を入力します (表 1)。
注: IDP README のdlxjtk_argumentsのセクションを確認して、各引数の理解を深めることを強くお勧めします。ノード検索引数が指定された構成ファイルの例については、 補足ファイル 4 を参照してください。
- ターミナルで、inherent_dynamics_pipelineという名前の IDP ディレクトリに移動します。
- ターミナルで、コマンドを入力します: conda activate dat2net
- ターミナルでこのコマンドを実行して、手順 2.1 で作成した構成ファイルを使用して IDP を実行します。
はファイルの名前 です: python src/dat2net.py - ターミナルで、inherent_dynamics_visualizer という名前のディレクトリーに移動し、コマンドを入力します。/viz_results.sh
メモ:は、IDP の出力ディレクトリとして使用されるディレクトリを指します。 - Web ブラウザーで、URL として http://localhost:8050/ を入力します。
- IDVをブラウザで開いたら、[ノード検索]タブをクリックし、ドロップダウンメニューから目的の ノード検索 フォルダを選択します。
- IDV の遺伝子リストテーブルから新しい遺伝子リストを手動でキュレーションし、後続の IDP ステップに使用します。
- 遺伝子リスト表を延長または短縮するには、上向き矢印または下向き矢印をクリックするか、 DLxJTKランクの遺伝子の遺伝子発現の横にあるボックスに1〜50の整数を手動で入力します。トップ:。
- 遺伝子リストテーブルで、遺伝子の横にあるボックスをクリックすると、その遺伝子発現プロファイルが折れ線グラフで表示されます。複数の遺伝子を追加することができます。
- オプションで、遺伝子を計算および順序付けする同じサイズのビンの数を指定し、遺伝子リスト表の上にある入力ボックスに整数を入力して、最初のサイクルをビンに分割します。
メモ: このオプションは振動ダイナミクスに固有であり、他のタイプのダイナミクスには適用できない場合があります。 - ヒートマップの表示設定を選択するには、[遺伝子の順序 付け方法:第1 サイクルの最大発現](表1)のオプションをクリックして、最初のサイクルの遺伝子発現ピークの時間に基づいて遺伝子を順序付けます。
注: DLxJTK ランクは、IDP の DLxJTK アルゴリズムからの周期性ランキングに基づいて遺伝子を並べ替えます。 - [遺伝子リストの ダウンロード] ボタンをクリックして、遺伝子リストをエッジ検索ステップに必要なファイル形式にダウンロードします。遺伝子リストファイルの例については、 補足ファイル5 を参照してください。
- 編集可能な遺伝子アノテーションテーブルで、新しいエッジ検出実行のエッジ検出ステップの注釈ファイルで、遺伝子をターゲット、調節因子、またはその両方としてラベル付けします。遺伝子が調節因子である場合は、その遺伝子をアクチベーター、リプレッサー、またはその両方として標識します。
- 遺伝子を活性化剤として標識するには、tf_act列の細胞をクリックし、値を1に変更します。遺伝子をリプレッサーとしてラベル付けするには、tf_rep列の値を 1 に変更します。遺伝子は、tf_act列とtf_rep列の両方の値を1に設定することにより、エッジ検出ステップでアクチベーターとリプレッサーの両方として機能することができます。
- 遺伝子をターゲットとしてラベル付けするには、ターゲット列の細胞をクリックし、値を1に変更します。
- 「アノットをダウンロード。ファイル」ボタンをクリックして、エッジ検索ステップに必要なファイル形式に アノテーションファイル をダウンロードします。
3. エッジ検索
- エッジ検索ステップをパラメータ化する新しい IDP 構成ファイルを作成します。
- メインの IDP 引数を構成ファイルに追加します。テキストエディタで新しいテキストファイルを開き、手順2.1.1を繰り返します。
- エッジ検索引数を構成ファイルに追加します。
- 手順 3.1.1 と同じテキスト ファイルに、"[lempy_arguments]"、"gene_list_file ="、"[netgen_arguments]"、"edge_score_column ="、"edge_score_thresho ="、"num_edges_for_list ="、"seed_threshold ="、および "num_edges_for_seed =" の順に、個々の行に入力します。これらは主な引数の下に行くべきです。
- 「gene_list_file」の場合、等号の後に、ステップ2.8.5で生成した遺伝子リストファイルへのパスと名前を入力します。
- "edge_score_column" の場合、等号の後に "pld" または "norm_loss" と入力して、エッジのフィルター処理に使用するレンピー出力のデータフレーム列を指定します。
- 「edge_score_threshold」または「num_edges_for_list」のいずれかを選択し、もう一方を削除します。「edge_score_threshold」を選択した場合は、0 ~ 1 の数値を入力します。この番号は、手順 3.1.5 で指定した列に基づいてエッジをフィルター処理するために使用されます。
- 「num_edges_for_list」を選択した場合は、可能なエッジの数以下の値を入力します。この数値は、ステップ 3.1.5 で指定した列でのエッジのランク付け方法に基づいてエッジをフィルター処理するために使用されます。残ったエッジは、ネットワーク検索でネットワークを構築するために使用されます。
- 「seed_threshold」または「num_edges_for_seed」のいずれかを選択し、もう一方を削除します。「seed_threshold」を選択した場合は、0 ~ 1 の数値を入力します。この番号は、手順 3.1.5 で指定した列に基づいてエッジをフィルター処理するために使用されます。
- 「num_edges_for_seed」を選択した場合は、可能なエッジの数以下の値を入力します。この数値は、ステップ 3.1.5 で指定した列でのエッジのランク付け方法に基づいてエッジをフィルター処理するために使用されます。残ったエッジは、ネットワーク検索で使用されるシード ネットワーク(表 1)の構築に使用されます。
注: IDP README のlempy_argumentsとnetgen_argumentsのセクションを確認して、各引数の理解を深めることを強くお勧めします。Edge 検索引数が指定された構成ファイルの例については、 補足ファイル 7 を参照してください。
- 「num_edges_for_seed」を選択した場合は、可能なエッジの数以下の値を入力します。この数値は、ステップ 3.1.5 で指定した列でのエッジのランク付け方法に基づいてエッジをフィルター処理するために使用されます。残ったエッジは、ネットワーク検索で使用されるシード ネットワーク(表 1)の構築に使用されます。
- 手順 2.2 と 2.3 を繰り返します。
- ターミナルでこのコマンドを実行して、手順 3.1 で作成した構成ファイルを使用して IDP を実行します。
はファイルの名前 です: python src/dat2net.py - IDV がまだ実行中の場合は、端末ウィンドウで 制御 C を押してプログラムを停止します。手順 2.5 と 2.6 を繰り返します。
- ブラウザでIDVを開いた状態で、[エッジ検索]タブをクリックし、ドロップダウンメニューから目的の エッジ検索 フォルダを選択します。
注: エッジ検索で複数のデータセットを使用する場合は、ローカル エッジ マシン (LEM) 分析で最後に使用されたデータセットを必ず選択してください (表 1)。LEM の結果に基づいてシード ネットワークまたはエッジ リストのエッジを選択するときは、構成ファイルにリストされている最後の時系列データを調べることが重要です。この出力には、ノード間の規制関係の推論に先行するすべてのデータ ファイルが組み込まれているためです。 - エッジテーブルを延長または短縮するには、「 エッジ数:」の下の入力ボックスに整数を手動で入力します。
- オプションで、LEM ODE パラメーターのエッジをフィルター処理します。クリックしてドラッグし、各パラメータのスライダの左側または右側を移動して、新しいパラメータ境界の外側にパラメータがあるエッジをエッジテーブルから削除します。
- IDP によって提案されたものとは異なるシードネットワークが必要な場合は、オプションで新しいシードネットワークを作成します。シード・ネットワーク ・ファイル の例については、補足ファイル 8 を参照してください。
- シードネットワークを選択するには「 シードから 」を選択するか、「ネットワーク:」の下のドロップダウン メニューから「選択 から 」を選択します。
- 各エッジの横にある対応するチェックボックスをクリックして、エッジテーブルからエッジの選択/選択を解除し、シードネットワークからエッジを削除/追加します。
- 「 DSGRN NetSpec のダウンロード 」ボタンをクリックして、規制ネットワークによって生成される動的署名 (DSGRN) (表 1) ネットワーク仕様フォーマットでシード・ネットワークをダウンロードします。
- 「ネットワーク検索」ステップで使用する追加のノードとエッジを選択します。
- 対応するチェックボックスをクリックしてエッジテーブルからエッジを選択し、ネットワーク検索で使用されるエッジリストファイルに含める。
- [ ノード リストとエッジ リスト のダウンロード] をクリックして、ノード リストとエッジ リスト ファイルをネットワーク検索での使用に必要な形式でダウンロードします。エッジ ファイルとノード リスト ファイルの例については、それぞれ補足ファイル 9 と 補足ファイル 10 を参照してください。
メモ: ノードリストにはエッジリストファイル内のすべてのノードが含まれている必要があるため、IDV は選択したエッジに基づいてノードリストファイルを自動的に作成します。エッジ検索でエッジを表示するには、2 つのオプションを使用できます。 LEM サマリーテーブル オプションは、エッジを上位 25 個のエッジのランク付けされたリストとして表示します。 トップラインLEMテーブル は、可能な各レギュレータの上位3つのランク付けされたエッジの連結リストでエッジを表示します。各オプションに表示されるエッジの数は、[ エッジの数] 入力ボックスの数値を変更することで、ユーザーが調整できます。
4. ネットワーク検索
- ネットワーク検索ステップをパラメータ化する新しい IDP 構成ファイルを作成します。
- メインの IDP 引数を構成ファイルに追加します。テキストエディタで新しいテキストファイルを開き、手順2.1.1を繰り返します。
- ネットワーク検索引数を構成ファイルに追加します。
- 手順 4.1.1 と同じテキスト ファイルに、"[netper_arguments]"、"edge_list_file ="、"node_list_file ="、"seed_net_file ="、"range_operations="、"numneighbors ="、"maxparams ="、"[[確率]]"、"addNode ="、"addEdge ="、"removeNode ="、および "removeEdge =" の順に、メイン引数の下に入力します。
- 「seed_net_file」、「edge_list_file」、および「node_list_file」の場合、等号の後に、シード・ネットワーク・ファイル、およびステップ 3.9 および 3.10.2 で生成されたエッジ・リスト・ファイルとノード・リスト・ファイルへのパスと名前を入力します。
- 等号の後の "range_operations" には、2 つの数値をコンマで区切って入力します。1 番目と 2 番目の数字は、それぞれ、作成されたネットワークごとのノードまたはエッジの追加または削除の最小数と最大数です。
- "numneighbors" の場合、等号の後に、ネットワーク検索で検索するネットワークの数を表す数値を入力します。
- 「maxparams」の場合、等号の後に、ネットワークに許可する DSGRN パラメーターの最大数を表す数値を入力します。
- これらの引数のそれぞれに、等号の後に "addNode"、"addEdge"、"removeNode"、および "removeEdge" の各引数に 0 ~ 1 の値を入力します。数値の合計は 1 にする必要があります。
注: IDP README のnetper_argumentsとnetquery_argumentsのセクションを確認して、各引数の理解を深めることを強くお勧めします。 ネットワーク検索 引数が指定された構成ファイルの例については、 補足ファイル 11 および補足ファイル 12 を参照してください。
- 手順 2.2 と 2.3 を繰り返します。
- ターミナルでこのコマンドを実行して、手順 4.1 で作成した構成ファイルを使用して IDP を実行します。
はファイルの名前です: python src/dat2net.py - IDV がまだ実行中の場合は、端末ウィンドウで 制御 C を押してプログラムを停止します。手順 2.5 と 2.6 を繰り返します。
- ブラウザでIDVを開いた状態で、[ネットワーク検索]タブをクリックし、目的の ネットワーク検索 フォルダを選択します。
- ネットワークまたはネットワークのセットを選択して、エッジ普及率テーブル (表 1) を生成し、それぞれのクエリ結果と共にネットワークを表示します。
- ネットワークの選択には、オプション 1 - プロットの x 軸と y 軸に対応する入力ボックスに最小値と最大値を入力して、クエリ結果の下限と上限を入力する 2 つのオプションを使用できます。オプション 2 - 散布図をクリックしてドラッグし、含めるネットワークの周りにボックスを描画します。選択範囲または入力境界を入力したら、[ 選択したネットワークからエッジの有病率を取得] ボタンを押します。
注: 複数の DSGRN 照会が指定されている場合は、照会タイプでラベル付けされたラジオ・ボタンを使用して、各照会の結果を切り替えます。複数のイプシロン(ノイズレベル)が指定されている場合も同様です。
- ネットワークの選択には、オプション 1 - プロットの x 軸と y 軸に対応する入力ボックスに最小値と最大値を入力して、クエリ結果の下限と上限を入力する 2 つのオプションを使用できます。オプション 2 - 散布図をクリックしてドラッグし、含めるネットワークの周りにボックスを描画します。選択範囲または入力境界を入力したら、[ 選択したネットワークからエッジの有病率を取得] ボタンを押します。
- エッジ有病率表の下にある矢印をクリックして、表の次のページに移動します。 [テーブルのダウンロード ] を押して、エッジの有病率テーブルをダウンロードします。
- [ネットワークインデックス]入力ボックスに整数を入力して、手順4.6で選択したネットワークを1つ表示します。「 DSGRN NetSpec のダウンロード」をクリックして、表示されたネットワークを DSGRN ネットワーク仕様フォーマットでダウンロードします。
- 指定したモチーフまたは目的のネットワークとの類似性をネットワークで検索します。
- 各エッジに対応するチェックボックスを使用して、類似度解析に使用するネットワークまたはモチーフに含めるエッジを選択します。 [送信] をクリックして、選択したモチーフまたはネットワークの類似度散布図を作成します。
メモ: エッジリストの矢印を使用してアルファベット順に並べ替え、表の下の矢印を使用して表の次のページに移動します。 - 散布図をクリックしてドラッグし、含めるネットワークの周囲にボックスを描画し、ネットワークまたはネットワークのセットを選択してエッジ有病率テーブルを生成し、ネットワークをそれぞれのクエリ結果と共に表示します。
注: 複数の DSGRN 照会が指定されている場合は、照会タイプでラベル付けされたラジオ・ボタンを使用して、各照会の結果を切り替えます。複数のイプシロン(ノイズレベル)が指定されている場合も同様です。 - 手順 4.7 と 4.8 を繰り返して、類似度分析用にエッジ有病率テーブルと表示されたネットワークをそれぞれダウンロードします。
- 各エッジに対応するチェックボックスを使用して、類似度解析に使用するネットワークまたはモチーフに含めるエッジを選択します。 [送信] をクリックして、選択したモチーフまたはネットワークの類似度散布図を作成します。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
上記でテキストで説明し、 図1 でグラフィカルに説明したステップを酵母細胞周期のコア振動GRNに適用して、酵母細胞周期研究で収集された時系列遺伝子発現データで観察されたダイナミクスを生成することができる機能的GRNモデルを発見できるかどうかを調べた16。IDVがIDP出力をどのように明確化し、改善できるかを説明するために、この分析を2つの方法で実行した後、結果を比較した:1)IDVなしで1回のパスでIDPのすべてのステップを実行すること、および2)IDVの助けを借りてIDPをステップ実行し、事前の生物学的知識を取り入れることによって、およびIDP出力に基づいて洗練された選択を行うことによって中間結果の調整を可能にする。例としてよく研究された酵母細胞周期GRNは、その調節関係の多くを実験的に検証している。異なる、および/または注釈の付いていない生物または生物学的プロセスが研究されている場合、中間結果またはパラメータの調整方法に関する選択肢は異なる可能性がある。ネットワークの評価に使用できるクエリの 1 つのタイプを説明するために、各ネットワークの堅牢性を測定して、安定した振動をサポートし、モデル パラメーター間でノードの観測された転写ダイナミクスを一致させました。
2つの複製系列の遺伝子発現時系列データをOrlando 200816から取得し、元の実験(補足ファイル1および補足ファイル2)で適用された細胞周期同期法に関連する遺伝子発現を除去するために前処理した。Yeastract17で見つかったDNA結合と発現の証拠の両方によって支持され、GRNの調節因子として機能する可能性のある時系列データ内のすべての遺伝子を含む注釈ファイルが作成されました。TOS4、PLM2、およびNRM1は、文献18,19(補足ファイル3)の証拠に基づいて酵母コアGRNにとって重要であると考えられているため、Yeastractでは両方のタイプの証拠を有することが見つからなかったにもかかわらず、規制当局としても含まれていた。すべてのレギュレーターは、アクチベーターとリプレッサーの両方、および標的としてラベル付けされました。
IDP は、IDP のすべてのステップ (ノード、エッジ、およびネットワーク検索) を実行するように最初にパラメーター化されました。強く接続されたネットワークに関与する遺伝子の小さなセットである酵母細胞周期GRNの現在の理解に基づいて適切と思われる一連の議論が選択された(補足ファイル4)。この理解は、主にノードとエッジ検索の選択肢に影響を与えました。ネットワークファインディングの確率パラメータは、真の遺伝子と調節相互作用のみがネットワークファインディングに渡されるという仮定に基づいていました。この完全にパラメータ化されたIDPの実行により、ノードとエッジの検出の結果が生成されましたが(図2B、C)、ネットワーク検出ではモデル許容可能なネットワークは検出されませんでした(図2A、D)。モデルの許容性は、IDP の依存関係である python モジュール dsgrn_net_gen 14 のコードドキュメントで説明されています。簡単に言うと、自己抑制エッジを含むネットワークや、1 つのノードに入力または出力が多すぎるネットワークは、DSGRN ソフトウェアでは照会できません (表 1)。IDP には、モデル許容ネットワークが見つからない理由が多数あり、問題を解決するためのトラブルシューティング手順が説明されています。基本的に、これには、パラメータや入力ファイルの変更、それぞれのIDPステップの再実行、および結果の検証が含まれます。IDVは、このプロセスの退屈さと時間のかかる作業を減らすために使用されました。
ノード検出の結果をIDVにロードし、IDPのエッジ検出ステップに渡される遺伝子を調べました。IDPによって与えられたノードは、DLxJTKによってランク付けされた上位N個の遺伝子であり(表1)、Nはユーザーによって指定されているが、この遺伝子リストは解析の目的には適していない可能性がある。事前の生物学的知識がなければ、DLxJTKスコアのみを用いたノードの自動選択は、酵母細胞周期(RME1)における役割の限られた証拠を有する遺伝子を返したが、いくつかの既知の細胞周期転写調節因子は高度にランク付けされなかった(図2B)。Yeastract実験的証拠を用いて、DLxJTKによって最も高いランク付けされた遺伝子の中から細胞周期注釈を有するものを選択した。これらの遺伝子は、 SWI4、YOX1、YHP1、HCM1、FKH2、NDD1、 および SWI5である。それらの既知の規制関係を 図3に示します。 FKH2 はDLxJTKによってランク付けされた上位10の遺伝子(補足 ファイル4では10に設定さdlxjtk_cutoff)に現れないため、 FKH2 が見つかるまでIDVを使用して遺伝子リストを拡張しました(図4)。拡張遺伝子リスト内の追加遺伝子のいくつかは既知のコア遺伝子であり、ノードファインディングの結果を調査せずに見逃されていたでしょう。遺伝子リストをDLxJTKランクリストの下に拡張することによって、より既知のコア遺伝子が見出されているが、焦点は関心のある遺伝子にとどめられた。したがって、いくつかの上位遺伝子が選択解除され、7つの遺伝子を含む遺伝子リスト(補足ファイル5)が得られた(図4)。これら7つの遺伝子に基づいて新しいアノテーションファイル(補足ファイル6)を作成し、各遺伝子を標的として標識し、Yeastractを用いて調節因子型を特定した。新しい遺伝子リストと注釈ファイルは、次のIDPステップであるエッジファインディングでの使用のためにダウンロードされました。IDVがなければ、遺伝子リストと注釈ファイルに遺伝子を追加したり、アノテーションファイルから遺伝子を削除したりする手順には、控えめなコーディングスキルが必要です。
新しい IDP 構成ファイルは、エッジ検索ステップ (補足ファイル 7) のみに対してパラメーター化され、新しい遺伝子リストと注釈ファイルが追加されました。新しい構成ファイルで IDP が完了すると、結果が IDV に読み込まれました (図 5A)。「ネットワーク検索」ステップでは、提供されるシード・ネットワークのネットワーク空間を確率的に検索するため、良好なシード・ネットワークを提供することが重要になります。優れたシードネットワークは、真のエッジを含むネットワークと考えることができます。IDVとYeastractやSaccharomyces Genome Database(SGD)20などのオンラインデータベースを使用すると、実験的証拠を持つLEMの規制関係(表1)を使用して種子ネットワークを表示および調整できます。例として、エッジYHP1 = tf_act(HCM1)は、Yeastractにこの関係の文書化された証拠がないため(図5B)、選択解除されました。エッジSWI5 = tf_act(FKH2)は、この関係の文書化された証拠があるため、追加されました21。シード・ネットワーク (表 1) が満足のいくものになると、そのネットワークの DSGRN ネットワーク仕様ファイルがダウンロードされました (補足ファイル 8)。
IDV がなければ、シード ネットワークの構築に実験的証拠が使用されないエッジが発生する可能性が高くなります。 図2Cに見られるように、IDPをノンストップで実行してから各ステップにかけてエッジファインディングステップで生成されたシードネットワークには、エッジ、SWI4=tf_rep(NDD1)が含まれており、これはYeastractにおける実験的証拠によって支持されていないためであり、 NDD1 が転写活性化因子であることが知られているためである可能性が高い22。この情報はノンストップ実行の注釈ファイルにエンコードされなかったため、すべてのレギュレータがアクティベーターとリプレッサーの両方になることができました。
IDV を使用して、 図 3 のサブネットワークであるシード ネットワークを手動でキュレーションし、残りの 4 つのエッジをネットワーク空間のサンプリングに使用するエッジ リストに配置しました (YHP1 = tf_act(SWI4)、YOX1 = tf_act(SWI4)、SWI4 = tf_rep(YOX1)、SWI5 = tf_act(NDD1))。事前の生物学的知識に基づいてエッジを選択することも、エッジリストを構築するために使用することができる。ただし、この場合、LEM サマリーテーブルビューの上位 20 個のエッジが選択されました (補足ファイル 9)。ノード・リスト・ファイルは、選択したエッジから自動的に作成されます (補足ファイル 10)。LEMのODEパラメータは、ODEモデルで推論されたパラメータが生物学的に現実的ではないと思われる場合、エッジをフィルタリングするためにも使用できますが、この情報はここでは使用されていません。
次に、3 つの新しいファイルを使用して、ネットワーク検索ステップ用に新しい IDP 構成ファイルがパラメーター化されました。シードネットワークは、実験的証拠によって十分に支持されたエッジで作成されたため、これらのエッジをすべてのネットワークに含めることが望まれました。したがって、ネットワーク探索確率は、ノードとエッジの追加は許可するが、削除は許可しないように設定されました(補足ファイル 11)。ネットワーク検索パラメーター numneighbors は、2,000 個のネットワークを検索するように設定されました。IDP を実行した後、ゼロのノンストップ実行とは対照的に、ネットワーク検索ステップで 37 のモデル許容ネットワークが見つかりました。ネットワーク・ファインディングの結果をIDVにロードすると、これら37のネットワークのうち64%(24)が安定して発振する能力を持っていました(図6A)。これら24のネットワークのうち、最もパフォーマンスが高かったのは、安定して振動するモデルパラメータの50%でデータを一致させた2つのネットワークでした(図6B)。
エッジ普及率表 (表 1) には、選択したネットワークのコレクションでエッジが発生する回数が表形式で表示され、パフォーマンスの高いネットワークでのエッジの普及率が表示されます。散布図で前の 2 つのネットワークを選択して生成されたエッジ有病率表を調べると、予想どおり、すべてのシード ネットワーク エッジが、2 つの非シード ネットワーク エッジ (図 6B)、SWI4 = tf_act(SWI5) および HCM1 = tf_rep(YHP1) と共に、2 つのネットワークのそれぞれに存在することがわかります。これら二つの縁のどちらも、イェーストラクトでそれらを裏付ける証拠を持っていなかった。このように少量のネットワーク空間が探索されたため、観測されたダイナミクスを生成する際のエッジとノードの重要性を評価することは困難です。
パラメーター numneighbors が 2,000 に設定されていたにもかかわらず、ネットワーク検索で見つかったモデル許容ネットワークは 37 個のみであり、これはネットワーク検索が過度に制限されていた可能性があることを示唆しています。IDP の dsgrn_net_gen Python モジュールのドキュメントで説明されているように、この問題はシードネットワーク、エッジリスト、ノードリスト、ネットワーク検索パラメータの選択、またはこれらの組み合わせに関連している可能性があります。調査のために、以前と同じシード ネットワーク、エッジ リスト、およびノード リストを使用しましたが、ネットワーク生成中にエッジを削除する機能を追加することで、ネットワーク検索パラメーターが変更されました (補足ファイル 12)。新しいネットワーク検索の結果をIDVにロードすると、このステップで612のネットワークが見つかり、これらのネットワークの67%(411)が安定して発振する能力を持っていることがわかります(図7A)。興味深いことに、安定した振動ダイナミクスが可能なネットワークの13%(82)は、データに見られるようなダイナミクスを生成することができませんでした(図7B)。411のネットワークのうち、30%(124)がデータに対して堅牢な一致を示した(すなわち、それらの安定的に振動するモデルパラメータの50%以上がデータ一致を示した)(図7C)。
ネットワーク検索の第 2 ラウンドによって生成されたエッジ有病率の数値は、現在、はるかに多くのネットワークの選択に基づいており、GRN における規制関係の重要性を評価する際に、より自信を持って使用できます。たとえば、HCM1 = tf_rep(YHP1)は、堅牢なダイナミクスを生成するネットワークでは依然として大きく表されており、この関係を実験的に調査する価値がある可能性があることを示唆しています(図7C)。エッジ有病率表(上記の124ネットワークに基づく)をさらに調べると、エッジSWI4 = tf_rep(YOX1)およびYOX1 = tf_act(SWI4)は高くランク付けされていないが、エッジSWI4 = tf_rep(YHP1)およびYHP1 = tf_act(SWI4)は高いランク付けされていることが明らかになった(図7C)。負のフィードバックは振動ダイナミクス23 を生成するために重要であり、これらの規制関係のセットの両方が 図3のGRNでこの機能を提供します。これらの 4 つのエッジすべてを含むネットワークが存在するかどうかを調べると、GRN モデルのコレクションにこれらが頻繁に一緒に存在しない理由をある程度知ることができます。ただし、個々のネットワークをクリックするのは面倒です。代わりに、[ネットワーク検索] ページの [類似性分析] 部分を使用して、4 つのエッジすべてを含む可能性のあるネットワークを検索しました (図 7D)。612ネットワークがこれら4つのエッジのモチーフとどの程度類似しているかを示す散布図と、観測されたダイナミクスに一致するモデルパラメータ空間の割合を調べると、612ネットワークのわずか0.65%(4)のみがこれらの4つのエッジをすべて含んでいることがわかります(図7D)。これは、このサイズのネットワークが観測されたダイナミクスを生成するために2つの負帰還ループのうちの1つだけが必要であるというテスト可能な仮説を示唆しています。この仮説は、IDPステップの再パラメータ化とネットワーク空間のより徹底的な探索によって、または遺伝子ノックアウトなどの実験的に計算的にさらに調査することができます。この分析からのすべての結果は、 補足ファイル 13 にあります。
図 1: IDP および IDV ワークフローの概要 一番下の行は、IDP の 3 つの主要なステップ (ノード、エッジ、およびネットワーク検索) を示しています。一番上の行は、IDV の主要なステップを示し、ユーザーが結果を操作できるさまざまな方法を説明しています。2 つの間の濃い灰色の矢印は、IDV と IDP が相乗的に機能して、ユーザーが IDP の各ステップについて十分な情報に基づいた意思決定を行えるようにする方法を示しており、個々の IDP ステップは IDV のビジュアライゼーションの結果を提供し、個々の IDV ステップは新規または調整されたパラメーターの入力を可能にし、調整された結果と後続の IDP ステップの入力を可能にします。 この図の拡大版を表示するには、ここをクリックしてください。
図 2: ステップ間で IDV を使用せずに、IDP のすべてのステップを連続して実行した場合の結果の例 。(A) すべての IDP ステップを連続して実行した場合の端末出力のスクリーンショット。IDP は完了するまで実行されましたが、ネットワーク検索ステップ中にゼロのネットワークが見つかりました。(B) ノード検索結果ディレクトリ node_finding_20210705183301 (補足ファイル 13) が IDV にロードされます。遺伝子リストテーブル内のすべての遺伝子を選択し(赤い矢印)、それぞれの発現プロファイルを折れ線グラフに表示し、注釈テーブルを生成しました。注釈テーブルは、元の注釈ファイル(緑色の矢印)で遺伝子がどのようにラベル付けされているかを反映するために記入されました。(C) エッジ検索結果ディレクトリ edge_finding_20210705183301 (補足ファイル 13) が IDV にロードされます。(D) ネットワーク検索結果ディレクトリ network_finding_20210705183301 (補足ファイル 13) が IDV にロードされます。[ネットワーク検索] ページには結果が表示されないため、ネットワーク検索ステップの再パラメータ化、またはノードまたはエッジの検出手順の再評価が必要であることが示唆されます。IDP のドキュメントには、ユーザーが次に試すことができるかどうかを判断するのに役立つトラブルシューティング手順が記載されています。 この図の拡大版を表示するには、ここをクリックしてください。
図3:酵母細胞周期GRNモデル。 既知の酵母細胞周期調節因子のセットをSGDから選択し、遺伝子間の既知の調節関係をYeastractから抽出した。 この図の拡大版を表示するには、ここをクリックしてください。
図 4: IDV での IDP ノード検出結果の例 IDV にロードされるのは、ノード検索結果ディレクトリー node_finding_20210705183301 (補足ファイル 13) です。キュレーションされたオンライン酵母データベースを検査した後の調整結果。遺伝子リスト表を拡張し(黄色矢印)、 図3 のGRNモデルで残りの遺伝子を見つけ、同じGRNモデルに見つからなかった遺伝子を除去するために遺伝子の選択を解除した(赤矢印)。注釈表は、Yeastract(緑色の矢印)で見つかった各遺伝子の調節の証拠に基づいて記入された。新しい遺伝子リストと注釈ファイルは、それぞれのダウンロードボタン(青い矢印)を選択してダウンロードされました。 この図の拡大版を表示するには、ここをクリックしてください。
図 5: IDV での IDP エッジ検出結果の例 IDV にロードされるのは、エッジ検索結果ディレクトリ edge_finding_20210701100152 (補足ファイル 13) です。(A) IDPが作成した初期結果。 [ネットワーク ] ドロップダウン オプション [シードから ] が選択され (赤い矢印)、使用された構成ファイル (補足ファイル 7) の引数に基づいて IDP によって生成されたシード ネットワークが表示されます。エッジテーブルで選択された遺伝子は、シードネットワークで使用されるエッジです。(B)実験的証拠を含まないエッジについてシードネットワークを検査した後の調整結果。[ ネットワーク ] ドロップダウン オプション [選択範囲から] が選択されました (赤い矢印)。エッジがエッジテーブルから選択/選択解除されました(緑色の矢印)。シード・ネットワーク、エッジ・リスト、およびノード・リスト・ファイルは、それぞれのボタン (黄色の矢印) をクリックしてダウンロードされました。示されているエッジ テーブルは、構成ファイル two_wts_EdgeFinding_config.txt (補足ファイル 7) にリストされている最後の時系列データ用です。LEM の結果に基づいてシード ネットワークまたはエッジ リストのエッジを選択するときは、構成ファイルにリストされている最後の時系列データを調べることが重要です。この出力には、ノード間の規制関係の推論に先行するすべてのデータ ファイルが組み込まれているためです。 この図の拡大版を表示するには、ここをクリックしてください。
図 6: IDP ネットワーク検索の例 IDP 構成ファイル two_wts_NetFind_rd1_config.txt (補足ファイル 11) を使用した IDV の結果。(A) 散布図の y 軸にそれぞれのデータを表示するために、クエリ [安定したフル サイクル] が選択されました (赤い矢印)。散布図の青い点は、散布図のボックス選択関数を使用して選択した点を表します。点線の選択ボックスは、ボックスの選択がどのように見えるかを示すために図示されています。(B) Y 軸と X 軸の最小値と最大値の整数は、これらの境界内の選択したネットワークに手動で入力されました (緑色の矢印)。各選択の後、[選択したネットワークからエッジの有病率を取得] ボタン (黄色の矢印) がクリックされ、[エッジの有病率テーブル] エリアと [選択した DSGRN 予測ネットワーク] エリアが生成されました。ネットワーク インデックスでは、上向き矢印と下向き矢印をクリックして、選択したネットワークを参照できます (青い矢印)。この図の拡大版を表示するには、ここをクリックしてください。
図 7: IDP 構成ファイル two_wts_NetFind_rd2_config.txt (補足ファイル 12) を使用した IDV での IDP ネットワーク検索の結果の例。 (A-C)ネットワークの選択は、最小入力ボックスと最大入力ボックス(赤い矢印)に値を入力することによって実行されました。[選択したネットワークからエッジの有病率を取得] ボタンをクリックすると、[エッジの有病率] テーブルと [選択した DSGRN 予測ネットワーク エリア] が生成されました。(D) edge_list表で目的のエッジが選択され (黄色の矢印)、送信ボタン (緑色の矢印) をクリックして類似性スコアを計算し、選択したクエリに対して散布図にプロットしました (青い矢印)。Box Select 関数を使用して、一連のネットワーク (紫色の矢印) を選択し、[エッジ有病率テーブル] エリアと [選択された DSGRN 予測ネットワーク] エリアを生成しました。ネットワーク インデックスを 2 (オレンジ色の矢印) に増やし、選択範囲内の 2 番目のネットワークを表示しました。この図の拡大版を表示するには、ここをクリックしてください。
用語 | パイプラインステップ | 定義 | ||
de Lichtenburg by JTK-CYCLE (DLxJTK) | ノード検索 | 遺伝子をランク付けするために使用される周期性と調節強度の両方の単一の定量的尺度。以前に公開された周期性メトリック de Lichtenberg (DL) と JTK-CYCLE (JTK) を組み合わせたものです。 | ||
第1サイクル最大式 | ノード検索 | 周期的な遺伝子発現の第1サイクルにおける最大遺伝子発現。第1サイクル最大発現によって順序付けられた遺伝子は、それらが最大遺伝子発現に達する第1サイクルからの時点に基づいて順序付けられる。 | ||
ローカルエッジマシン(LEM) | エッジ検索 | 時系列遺伝子発現データを使用して、所与の標的遺伝子の最も可能性の高い調節因子および調節様式(活性化または抑制)を同定するために、遺伝子相互作用の潜在的なモデルをランク付けするベイジアンネットワーク推論法。 | ||
シードネットワーク | ネットワーク検索 | トップランクのLEMエッジを選択することによって、グローバルな相互作用のもっともらしいネットワークの最初の推測。シードは、提供された時系列データとの一貫性を示す高い確率で、高度に振動するネットワーク空間の領域をローカライズします。 | ||
規制ネットワークによって生成される動的署名 (DSGRN) | ネットワーク検索 | ネットワークが示す可能性のあるさまざまな長期動的動作を包括的に計算するためのソフトウェアパッケージ。 | ||
エッジの有病率 | ネットワーク検索 | ネットワーク検索ステップの上位スコアリング ネットワークのうち、問題のエッジを含むネットワークの割合。このスコアでは、有病率がゼロ以外のエッジのランク付けが許可されます。 |
表 1: 固有のダイナミクス パイプラインと固有のダイナミクス ビジュアライザー用語の定義。
補足ファイル 1: 時系列遺伝子発現データ (Replicate 1) from Orlando, 200813. このファイルをダウンロードするには、ここをクリックしてください。
補足ファイル 2: オーランド、200813 から取得した時系列遺伝子発現データ (Replicate 2) 。このファイルをダウンロードするには、ここをクリックしてください。
補足ファイル3:補足ファイル1および補足ファイル2に見られるすべての遺伝子を含む注釈ファイル。このファイルをダウンロードするには、ここをクリックしてください。
補足ファイル 4: 完全にパラメーター化された固有の Dynamics パイプライン構成ファイル。このファイルをダウンロードするには、ここをクリックしてください。
補足ファイル 5: 固有のダイナミクス ビジュアライザーのノード検索ページからダウンロードした遺伝子リスト ファイル。このファイルをダウンロードするには、ここをクリックしてください。
補足ファイル 6: 固有のダイナミクス ビジュアライザーのノード検索ページからダウンロードされた注釈ファイル。このファイルをダウンロードするには、ここをクリックしてください。
補足ファイル 7: エッジ検索ステップのみに対してパラメーター化された固有の Dynamics パイプライン構成ファイル。このファイルをダウンロードするには、ここをクリックしてください。
補足ファイル 8: 固有のダイナミクス ビジュアライザーのエッジ検索ページからダウンロードしたシード ネットワーク ファイル。このファイルをダウンロードするには、ここをクリックしてください。
補足ファイル 9: 固有のダイナミクス ビジュアライザーのエッジ検索ページからダウンロードされたエッジ リスト ファイル。このファイルをダウンロードするには、ここをクリックしてください。
補足ファイル 10: 固有ダイナミクス ビジュアライザーのエッジ検索ページからダウンロードしたノード リスト ファイル。このファイルをダウンロードするには、ここをクリックしてください。
補足ファイル 11: ネットワーク検索ステップのみのためにパラメーター化された固有の Dynamics パイプライン構成ファイル。このファイルをダウンロードするには、ここをクリックしてください。
補足ファイル 12: ネットワーク検索ステップのみに対してパラメーター化された固有の Dynamics パイプライン構成ファイル (補足ファイル 11) を更新しました。このファイルをダウンロードするには、ここをクリックしてください。
補足ファイル 13: 代表的な結果セクションの結果を含むディレクトリ。このファイルをダウンロードするには、ここをクリックしてください。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
GRNの推論は、システム生物学における重要な課題である。IDPは、ますます複雑な方法でデータを利用する一連のツールを使用して、遺伝子発現データからモデルGRNを生成します。各ステップでは、データの処理方法と、IDPの次の層に渡される要素(遺伝子、機能的相互作用)に関する決定が必要です。これらの決定がIDPの結果に与える影響は、それほど明白ではありません。この点を支援するために、IDV は、IDP 内の GRN 推論ツールの個々のステップからの出力の有用な対話式視覚化を提供します。IDVは、これらの計算推論手法の結果を評価するプロセスを合理化および促進し、実験をスピードアップし、分析の選択を知らせ、信頼性の高いネットワークモデルと仮説の迅速な生成を可能にします。IDVはまた、LEM ODEパラメータの選択によるエッジのフィルタリング、発現時間による遺伝子のビニング、モチーフまたはネットワークとの類似性に基づくネットワークのクラスタリングなど、IDPの機能を拡張する機能も実装しています。重要なことに、IDVは各IDPステップ間の手動介入を可能にし、ユーザーは容易に自動化できない方法で文献から人間の知識と事前情報を簡単に組み込むことができます。IDP を素朴に実行してもこの情報はネイティブに組み込まれないため、IDV を使用すると、実験に固有の情報が利用可能になるたびに結果の信頼性が高まります。全体として、IDVをIDPと組み合わせて使用することで、ユーザーは真のGRNに関する知識がほとんどまたはまったくなくても、生物学的プロセスのネットワーク仮説をより自信を持って作成できます。
IDVには3つの重要なステップがあります。1 つ目は、IDV での IDP ノード検索の結果を評価することです。IDV の [ノード検索] ページでは、新しい遺伝子リストと、必要に応じて遺伝子注釈ファイルを生成できます。新しい遺伝子リストをキュレーションすることは、GRN標的および/または調節因子としてモデル化できる遺伝子を制限することにより、潜在的なネットワーク空間を大幅に削減するため、重要なステップです。さらに、GRNは主に転写因子で構成されているため、遺伝子注釈を持つことは、一貫性のあるGRNモデルの作成に大きく役立ちます。
次のステップは、IDV での IDP エッジ検出結果の評価です。新しいシード ネットワークのキュレーションは、[ネットワーク検索] ステップでサンプリングされるネットワーク空間の領域をローカライズするため、重要な手順です。ただし、どこから開始すべきかを知ることは必ずしも明確ではないため、何らかの形式の実験的証拠を持つエッジを使用して、信頼度の高いエッジを含むネットワーク空間の領域から開始しているという確信を与えることをお勧めします。IDV の「エッジ検索」ページでは、シード・ネットワークを簡単に組み立てることができ、関連する DSGRN ネットワーク仕様ファイル、およびノードおよびエッジ・リストが生成されます。
最後のステップは、IDV での IDP ネットワーク検索の結果を評価することです。IDV の [ネットワーク検索] ページでは、サンプリングされたネットワークとそれに関連するスコアを簡単に探索して、観測されたダイナミクスを生成するネットワークの容量を推定できます。ノード検索とエッジ検索は常に結果を返しますが (ノード検索から少なくとも 2 つの遺伝子が渡された場合)、ネットワーク検索はゼロの結果を返すことができます。したがって、パラメータの調整が必要かどうかを知ることは、ノードとエッジの検索よりもネットワーク検索の方が明確になります。このようなネットワークがほとんどまたはまったく見つからなかった場合は、分析できるネットワークに制約が課せられた結果である可能性があります。これらの制約は、1) ネットワークが常に強く接続されているかどうか、2) 各ノードへの入力エッジの最小数と最大数、3) ノードとエッジの追加と削除の確率、4) 許可されるノードとエッジの追加と削除の数です。 図 2 のように、モデル許容可能なネットワークがほとんど見つからない場合、IDP の一部またはすべてのステップの再パラメーター化と、その後の IDV での結果の評価に関するガイダンスとして、IDP のドキュメントを参照することをお勧めします。
このアプローチの現在の制限は、ノード検索ページが主に、細胞周期や概日時計の転写プログラムに見られるような振動ダイナミクスに焦点を当てていることです。特に、IDPノード検索ステップは、現在、指定された期間に振動ダイナミクスを示す遺伝子を検索するように構成されている。IDPがさまざまな種類の転写ダイナミクスを定量化できる分析を含むように拡大するにつれて、IDVも更新され、これらの他の動作の視覚化と調査がサポートされます。ネットワーク検索ステップで検索および分析されるネットワークのサイズは、現在、より小さいサイズ、例えば約10個の遺伝子のネットワークに制限されている。DSGRNスケールでの計算は組み合わせて行われるため、これは必要です。もう 1 つの制限は、選択したネットワークのモデル・パラメーター・スペースを IDV で探索できないことです。ただし、特定のネットワークの DSGRN ネットワーク仕様ファイルをダウンロードし、各モデル パラメーターに関連付けられたダイナミクスを DSGRN 視覚化 Web サイト (https://sites.math.rutgers.edu/~gameiro/dsgrn_viz/) で視覚化できます。最後に、IDVはLinux(Ubuntu)とiOS(Big Sur)システムを使用してテストされています。IDV は Windows 10 で Windows Subsystem for Linux (WSL) を使用してテストされており、Windows 10 ユーザーは別のコンピューター、仮想マシン、またはデュアルブートセットアップを必要とせずに Linux と IDV を実行できます。IDV は現在、ネイティブ Windows では実行されません。
GRNの研究は、その固有の複雑さのために困難であり、IDPなどの有用な推論ツールを理解して自信を持って展開することは困難です。IDVは、IDPを用いて推定されるGRNの研究の複雑さを軽減し、遺伝子発現ダイナミクスを超えた追加情報の包含を容易にする方法を提供する。ここで説明するようにIDVをIDPと組み合わせて使用すると、研究者は人間の細胞周期などのよく研究されたシステムの機能モデルを開発および分析できるようになります。さらに、これらのツールは、GRN24 によって制御されていると疑われているが、モデルがまだ提案されていないマラリア内赤血球発生サイクルなど、あまり理解されていないプロセスについてテスト可能な仮説を生成する。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
著者らは開示するものは何もありません。
Acknowledgments
この研究は、NIH助成金R01 GM126555-01とNSF助成金DMS-1839299によって資金提供されました。
Materials
Name | Company | Catalog Number | Comments |
Docker | https://docs.docker.com/get-docker/ | ||
Git | https://git-scm.com/ | ||
Inherent Dynamics Pipeline | https://gitlab.com/biochron/inherent_dynamics_pipeline | ||
Inherent Dynamics Visualizer | https://gitlab.com/bertfordley/inherent_dynamics_visualizer | ||
Miniconda | https://docs.conda.io/en/latest/miniconda.html | ||
Pip | https://pip.pypa.io/en/stable/ |
References
- Karlebach, G., Shamir, R. Modelling and analysis of gene regulatory networks. Nature Reviews Molecular Cell Biology. 9 (10), 770-780 (2008).
- Aijö, T., Lähdesmäki, H. Learning gene regulatory networks from gene expression measurements using non-parametric molecular kinetics. Bioinformatics. 25 (22), 2937-2944 (2009).
- Huynh-Thu, V. A., Sanguinetti, G. Combining tree-based and dynamical systems for the inference of gene regulatory networks. Bioinformatics. 31 (10), 1614-1622 (2015).
- Oates, C. J., et al. Causal network inference using biochemical kinetics. Bioinformatics. 30 (17), 468-474 (2014).
- Marbach, D., et al. Wisdom of crowds for robust gene network inference. Nature Methods. 9 (8), 796-804 (2012).
- Inherent Dynamics Pipeline. , Available from: https://gitlab.com/biochron/inherent_dynamics_pipeline (2021).
- Motta, F. C., Moseley, R. C., Cummins, B., Deckard, A., Haase, S. B. Conservation of dynamic characteristics of transcriptional regulatory elements in periodic biological processes. bioRxiv. , (2020).
- LEMpy. , Available from: https://gitlab.com/biochron/lempy (2021).
- McGoff, K. A., et al. The local edge machine: inference of dynamic models of gene regulation. Genome Biology. 17, 214 (2016).
- Cummins, B., Gedeon, T., Harker, S., Mischaikow, K. Model rejection and parameter reduction via time series. SIAM Journal on Applied Dynamical Systems. 17 (2), 1589-1616 (2018).
- Cummins, B., Gedeon, T., Harker, S., Mischaikow, K. Database of Dynamic Signatures Generated by Regulatory Networks (DSGRN). Lecture Notes in Computer Science. (including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). , 300-308 (2017).
- Cummins, B., Gedeon, T., Harker, S., Mischaikow, K. DSGRN: Examining the dynamics of families of logical models. Frontiers in Physiology. 9. 9, 549 (2018).
- DSGRN. , Available from: https://github.com/marciogameiro/DSGRN (2021).
- Dsgm_Net_Gen. , Available from: https://github.com/breecummins/dsgrn_net_gen (2021).
- Dsgrn_Net_Query. , Available from: https://github.com/breecummins/dsgrn_net_query (2021).
- Orlando, D. A., et al. Global control of cell-cycle transcription by coupled CDK and network oscillators. Nature. 453 (7197), 944-947 (2008).
- Monteiro, P. T., et al. YEASTRACT+: a portal for cross-species comparative genomics of transcription regulation in yeasts. Nucleic Acids Research. 48 (1), 642-649 (2020).
- de Bruin, R. A. M., et al. Constraining G1-specific transcription to late G1 phase: The MBF-associated corepressor Nrm1 acts via negative feedback. Molecular Cell. 23 (4), 483-496 (2006).
- Horak, C. E., et al. Complex transcriptional circuitry at the G1/S transition in Saccharomyces cerevisiae. Genes & Development. 16 (23), 3017-3033 (2002).
- Cherry, J. M., et al. Saccharomyces genome database: The genomics resource of budding yeast. Nucleic Acids Research. 40, 700-705 (2012).
- Zhu, G., et al. Two yeast forkhead genes regulate the cell cycle and pseudohyphal growth. Nature. 406 (6791), 90-94 (2000).
- Loy, C. J., Lydall, D., Surana, U. NDD1, a high-dosage suppressor of cdc28-1N, is essential for expression of a subset of late-S-phase-specific genes in saccharomyces cerevisiae. Molecular and Cellular Biology. 19 (5), 3312-3327 (1999).
- Cho, C. Y., Kelliher, C. M., Hasse, S. B. The cell-cycle transcriptional network generates and transmits a pulse of transcription once each cell cycle. Cell Cycle. 18 (4), 363-378 (2019).
- Smith, L. M., et al. An intrinsic oscillator drives the blood stage cycle of the malaria parasite Plasmodium falciparum. Science. 368 (6492), 754-759 (2020).