Summary
固有动力学可视化工具是一个交互式可视化包,可连接到基因调控网络推理工具,以增强、简化功能网络模型的生成。可视化工具可用于为推理工具的参数化做出更明智的决策,从而提高对结果模型的信心。
Abstract
开发基因调控网络模型是系统生物学中的主要挑战。已经开发了几种计算工具和管道来应对这一挑战,包括新开发的固有动力学管道。固有动力学管道由几个以前发布的工具组成,这些工具协同工作并以线性方式连接,其中一个工具的输出随后用作下一个工具的输入。与大多数计算技术一样,固有动力学管道的每个步骤都要求用户对没有精确生物学定义的参数进行选择。这些选择可以极大地影响分析产生的基因调控网络模型。因此,在每一步可视化和探索各种参数选择的后果的能力有助于提高对选择和结果的信心。固有动态可视化工具是一个全面的可视化包,通过 Web 浏览器中的交互式界面简化了评估参数选择的过程。用户可以单独检查管道每个步骤的输出,根据视觉信息进行直观的更改,并从为固有动力学管道自动生成必要的输入文件中受益。固有动力学可视化工具为从时间序列转录组学数据中发现基因调控网络提供了无与伦比的访问水平, 以访问高度复杂的工具。
Introduction
许多重要的生物过程,如细胞分化和环境反应,由基因调节网络(GRN)中相互作用的基因集控制。这些GRN产生激活和维持它们控制的表型所需的转录动力学,因此识别GRN的组分和拓扑结构是理解许多生物过程和功能的关键。GRN可以被建模为一组相互作用的基因和/或基因产物,这些基因和/或基因产物由一个网络描述,其节点是基因,其边缘描述了相互作用的方向和形式(例如,转录的激活/抑制,翻译后修饰等)。1.然后,相互作用可以表示为参数化的数学模型,描述调节基因对其靶标产生的影响2,3,4。GRN 模型的推理既需要推断交互网络的结构,也需要估计底层交互参数。已经开发了多种计算推理方法,用于摄取时间序列基因表达数据并输出GRN模型5。最近,开发了一种新的GRN推理方法,称为固有动力学管道(IDP),该方法利用时间序列基因表达数据来生成具有标记调节因子 - 靶标相互作用的GRN模型,这些模型能够产生与基因表达数据中观察到的动力学相匹配的动力学6。IDP是一套线性连接到管道中的工具,可以分为三个步骤:节点查找步骤,根据已知或怀疑与GRN7,8的功能相关的基因表达特征对基因进行排名,边缘发现步骤对成对调节关系进行排名8,9,以及一个网络查找步骤,该步骤生成能够生成观察到的动态的 GRN 模型10、11、12、13、14、15。
与大多数计算方法一样,IDP 需要一组用户指定的参数,这些参数指示如何分析输入数据,并且不同的参数集可以对同一数据产生不同的结果。例如,包括 IDP 在内的几种方法包含对数据应用某个阈值的参数,在特定方法的连续运行之间增加/减少此阈值可能会导致运行之间的结果不同(请参见补充说明 10:网络推理方法 5)。了解每个参数如何影响分析和后续结果对于实现对结果的高置信度非常重要。与大多数 GRN 推理方法不同,IDP 由多个计算工具组成,每个工具都有自己的一组参数,用户必须指定这些参数,并且每个工具都有自己的结果。虽然 IDP 提供了有关如何参数化每个工具的大量文档,但每个工具与上一步输出的相互依赖性使得在没有中间分析的情况下对整个管道进行参数化具有挑战性。例如,边缘和网络查找步骤中的论点可能由先前的生物学知识提供信息,因此将取决于数据集和/或生物体。要询问中间结果,需要对编程有基本的了解,并且需要深入了解IDP的所有结果文件及其内容。
固有动态可视化工具 (IDV) 是一个交互式可视化包,它在用户的浏览器窗口中运行,为 IDP 的用户提供了一种方法来评估其参数选择对 IDP 中任何步骤的结果的影响。IDV 导航由 IDP 生成的复杂目录结构,并为每个步骤收集必要的数据,并以直观和交互式的图形和表格呈现数据,供用户浏览。在浏览了这些交互式显示之后,用户可以从 IDP 步骤生成新数据,这些数据可以基于更明智的决策。然后,这些新数据可以立即用于 IDP 的下一个相应步骤。此外,浏览数据有助于确定是否应使用调整的参数重新运行 IDP 步骤。IDV可以增强IDP的使用,并使IDP的使用更加直观和平易近人,正如研究酵母细胞周期的核心振荡器GRN所证明的那样。以下协议包括来自完全参数化的 IDP 运行的 IDP 结果,以及在每个 IDP 步骤(即节点、边缘和网络查找)运行后合并 IDV 的方法。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
1. 安装 IDP 和 IDV
注意:本节假设 Docker、conda、pip 和 git 已经安装(材料表)。
- 在终端中,输入命令: git clone https://gitlab.com/biochron/inherent_dynamics_pipeline.git。
- 按照 IDP 的自述文件中的安装说明进行操作。
- 在终端中,输入命令: git clone https://gitlab.com/bertfordley/inherent_dynamics_visualizer.git。
注意:IDV 的克隆应在 IDP 的顶级目录之外进行。 - 按照 IDV 自述文件中的安装说明进行操作。
2. 节点查找
- 创建一个新的 IDP 配置文件,用于参数化"节点查找"步骤。
注意:不应键入以下步骤中的所有引号。引号在这里仅用作协议文本和要键入的内容之间的分隔符。- 将主 IDP 参数添加到配置文件中。
- 在文本编辑器中打开一个新的文本文件,然后在单独的行上键入"data_file ="、"annotation_file ="、"output_dir ="、"num_proc ="和"IDVconnection = True"。
- 对于"data_file",在等号之后,键入相应时间序列文件的路径和名称,并在名称后键入逗号。如果正在使用多个时序数据集,则用逗号分隔每个数据。有关时间序列基因表达文件的示例,请参阅补充文件 1 和补充文件 2。
- 在"annotation_file"的等号后键入注释文件的路径和名称。有关注释文件的示例,请参见 补充文件 3 。
- 对于"output_file",在等号后,键入将保存结果的文件夹的路径和名称。
- 在等号之后,对于"num_proc",键入 IDP 应使用的进程数。
- 将"节点查找"参数添加到配置文件中。
- 在与步骤 2.1.1 相同的文本文件中,按在各行上显示的顺序键入"[dlxjtk_arguments]"、"句点 ="和"dlxjtk_cutoff ="。将它们放在主要参数之后。
- 对于"周期",在等号之后,如果使用一次性序列数据集,请键入每个周期长度,以逗号分隔。对于多个时间序列数据集,请像以前一样键入每组周期长度,但在每个集合周围放置方括号,并在集合之间放置逗号。
- 在等号之后,对于"dlxjtk_cutoff",键入一个整数,指定de Lichtenberg通过JTK_CYCLE输出gene_list_file中保留的最大基因数(DLxJTK)(表1)。
注意:强烈建议查看 IDP 自述文件中的dlxjtk_arguments部分,以便更好地了解每个参数。有关指定了"节点查找"参数的配置文件的示例,请参阅 补充文件 4 。
- 在终端中,移动到名为 inherent_dynamics_pipeline 的 IDP 目录。
- 在终端中,输入命令: conda 激活 dat2net
- 通过在终端中运行此命令,使用在步骤 2.1 中创建的配置文件运行 IDP,其中<配置文件名>是文件的名称: python src/dat2net.py
- 在终端中,移动到名为 inherent_dynamics_visualizer 的目录,然后输入命令:。/viz_results.sh
注意:将指向用作 IDP 输出目录的目录。 - 在 Web 浏览器中,输入 http://localhost:8050/ 作为 URL。
- 现在在浏览器中打开 IDV 后,单击" 节点查找 "选项卡,然后从下拉菜单中选择感兴趣的节点查找文件夹。
- 从 IDV 的基因列表表中手动整理新的基因列表,以用于后续的 IDP 步骤。
- 要扩展或缩短基因列表表,请单击向上或向下箭头,或在 DLxJTK排名基因的基因表达旁边的框中手动输入1到50之间的整数。顶部:.
- 在基因列表表中,单击基因旁边的框,以折线图形式查看其基因表达谱。可以添加多个基因。
- (可选)指定大小相等的条柱的数量,并按包含其峰值表达的时间间隔对基因进行排序,方法是在标记为"输入整数"的基因列表表上方的输入框中输入一个 整数,将第一个周期划分为 bins:。
注:此选项特定于振荡动态,可能不适用于其他类型的动态。 - 通过单击" 基因排序依据:第一周期最大表达量 "(表1)下的选项来选择热图查看首选项,该选项根据第一个周期中基因表达峰的时间对基因进行排序。
注意: DLxJTK Rank 根据 IDP 的 DLxJTK 算法的周期性排名对基因进行排序。 - 单击" 下载基因列表 "按钮,将基因列表下载为"边缘查找"步骤所需的文件格式。有关基因列表文件的示例,请参见 补充文件 5 。
- 在 "可编辑的基因注释表"中,将基因标记为靶标和/或调节因子,用于新"边缘查找"运行中"边缘查找"步骤。如果基因是调节因子,则将基因标记为激活剂、抑制因子或两者兼而有之。
- 要将基因标记为激活剂,请单击tf_act列中的细胞并将值更改为1。要将基因标记为抑制因子,请将tf_rep列中的值更改为 1。在边缘查找步骤中,通过将tf_act和tf_rep列中的值设置为1,将允许基因同时充当激活剂和抑制因子。
- 要将基因标记为靶标,请单击靶列中的细胞并将值更改为1。
- 单击" 下载注释文件" 按钮,将注释文件下载为"边缘查找"步骤所需的文件格式。
3. 边缘查找
- 创建一个新的 IDP 配置文件,用于参数化"边缘查找"步骤。
- 将主 IDP 参数添加到配置文件中。在文本编辑器中打开一个新的文本文件,然后重复步骤 2.1.1。
- 将边缘查找参数添加到配置文件中。
- 在与步骤 3.1.1 相同的文本文件中,按在各个行上显示的顺序键入"[lempy_arguments]"、"gene_list_file ="、"[netgen_arguments]"、"edge_score_column ="、"edge_score_thresho ="、"num_edges_for_list ="、"seed_threshold ="和"num_edges_for_seed ="。这些应该低于主要论点。
- 对于"gene_list_file",在等号之后,输入步骤2.8.5中生成的基因列表文件的路径和名称。
- 对于"edge_score_column",在等号之后输入"pld"或"norm_loss"以指定使用 lempy 输出中的哪个数据框列来过滤边缘。
- 选择"edge_score_threshold"或"num_edges_for_list",然后删除另一个。如果选择了"edge_score_threshold",请输入一个介于 0 和 1 之间的数字。此数字将用于根据步骤 3.1.5 中指定的列筛选边缘。
- 如果选择了"num_edges_for_list",请输入一个等于或小于可能边数的值。此数字将用于根据边在步骤 3.1.5 中指定的列中的排名来筛选边。剩余的边缘将用于在网络查找中构建网络。
- 选择"seed_threshold"或"num_edges_for_seed",然后删除另一个。如果选择了"seed_threshold",请输入一个介于 0 和 1 之间的数字。此数字将用于根据步骤 3.1.5 中指定的列筛选边缘。
- 如果选择了"num_edges_for_seed",请输入一个等于或小于可能边数的值。此数字将用于根据边在步骤 3.1.5 中指定的列中的排名来筛选边。剩余的边缘将用于构建网络查找中使用的种子网络(表 1)。
注意:强烈建议您查看 IDP 自述文件中的lempy_arguments和netgen_arguments部分,以便更好地了解每个参数。有关指定了 Edge 查找参数的配置文件的示例,请参阅 补充文件 7 。
- 如果选择了"num_edges_for_seed",请输入一个等于或小于可能边数的值。此数字将用于根据边在步骤 3.1.5 中指定的列中的排名来筛选边。剩余的边缘将用于构建网络查找中使用的种子网络(表 1)。
- 重复步骤 2.2 和 2.3。
- 通过在终端中运行此命令,使用在步骤 3.1 中创建的配置文件运行 IDP,其中<配置文件名>是文件的名称: python src/dat2net.py
- 如果 IDV 仍在运行,请按终端窗口中的 Control C 停止程序。重复步骤 2.5 和 2.6。
- 在浏览器中打开 IDV 后,单击" 边缘查找 "选项卡,然后从下拉菜单中选择感兴趣的边缘查找文件夹。
注意:如果在边缘查找中使用了多个数据集,请确保选择在本地边缘计算机 (LEM) 分析中使用的最后一个数据集(表 1)。在根据 LEM 结果为种子网络或边缘列表选择边缘时,查看配置文件中列出的上一个时间序列数据非常重要,因为此输出在其对节点之间调节关系的推断中合并了所有前面的数据文件。 - 要扩展或缩短边表,请在输入框中 的"边数:"下手动输入一个整数。
- (可选)过滤 LEM ODE 参数上的边缘。单击并拖动以移动每个参数滑块的左侧或右侧,以从边缘表中删除参数超出其新允许参数边界的边缘。
- 如果需要与 IDP 提议的种子网络不同的种子网络,则可选择创建新的种子网络。有关种子网络文件的示例,请参阅 补充文件 8 。
- 选择"从种子"以选择种子网络,或从"网络:"下拉菜单中选择"从选择"。
- 通过单击每个边相邻的相应复选框从种子网络中删除/添加边,从边表中取消选择/选择边。
- 单击" 下载 DSGRN NetSpec "按钮,以"由监管网络生成的动态特征码"(DSGRN)(表 1)网络规范格式下载种子网络。
- 选择要在网络查找步骤中使用的其他节点和边。
- 通过单击要包含在网络查找中使用的边缘列表文件中的相应复选框,从边缘表中选择边。
- 单击" 下载节点和边缘列表" ,以在网络查找中使用所需的格式下载节点列表和边缘列表文件。有关边缘和节点列表 文件 的示例,请参阅 补充文件 9 和补充文件 10 。
注意:节点列表必须包含边缘列表文件中的所有节点,因此 IDV 会根据所选边缘自动创建节点列表文件。有两个选项可用于查看"边缘查找"中的边。 "LEM 汇总表" 选项将边显示为前 25 条边的排名列表。 顶线LEM表 显示了每个可能的稳压器的前三个排名边的串联列表中的边缘。用户可以通过更改"边数"输入框中的数字来调整每个选项查看 的边数 。
4. 网络查找
- 创建一个新的 IDP 配置文件,用于参数化"网络查找"步骤。
- 将主 IDP 参数添加到配置文件中。在文本编辑器中打开一个新的文本文件,然后重复步骤 2.1.1。
- 将网络查找参数添加到配置文件。
- 在与步骤 4.1.1 相同的文本文件中,在主参数下方的各个行上按显示的顺序键入"[netper_arguments]"、"edge_list_file ="、"node_list_file ="、"seed_net_file ="、"range_operations ="、"numneighbors ="、"maxparams ="、"[[probabilities]]"、"addNode ="、"addEdge ="、"removeNode ="和"removeEdge ="。
- 对于"seed_net_file"、"edge_list_file"和"node_list_file",在等号后,输入种子网络文件的路径和名称,以及步骤 3.9 和 3.10.2 中生成的边缘和节点列表文件。
- 在"等于"后,对于"range_operations",键入两个以逗号分隔的数字。第一个和第二个数字分别是每个网络添加或删除节点或边缘的最小和最大数量。
- 对于"numneighbors",在等号之后,输入一个数字,表示在"网络查找"中要查找的网络数。
- 对于"maxparams",在等号之后输入一个数字,表示允许网络的最大 DSGRN 参数数。
- 为每个参数输入 0 和 1 之间的值:"addNode"、"addEdge"、"removeNode"和"removeEdge",在等号后面。数字之和必须为 1。
注意:强烈建议查看 IDP 自述文件中的netper_arguments和netquery_arguments部分,以便更好地了解每个参数。有关指定了 " 网络查找"参数的配置文件的示例,请参阅 补充文件 11 和补充文件 12 。
- 重复步骤 2.2 和 2.3。
- 通过在终端中运行此命令,使用在步骤 4.1 中创建的配置文件运行 IDP,其中<配置文件名>是文件的名称: python src/dat2net.py
- 如果 IDV 仍在运行,请按终端窗口中的 Control C 停止程序。重复步骤 2.5 和 2.6。
- 在浏览器中打开 IDV 后,单击" 网络查找 "选项卡,然后选择感兴趣的网络查找文件夹。
- 选择一个网络或一组网络以生成边缘流行率表(表 1),并查看网络及其各自的查询结果。
- 有两个选项可用于选择网络:选项 1 - 通过在与图的 x 轴和 y 轴对应的输入框中输入最小值和最大值来输入查询结果的下限和上限。选项 2 - 单击并拖动散点图,以在要包含的网络周围绘制一个框。输入选择或输入边界后,按 从所选网络获取边缘流行度 按钮。
注意:如果指定了多个 DSGRN 查询,请使用标有查询类型的单选按钮在每个查询的结果之间切换。如果指定了多个 epsilon(噪声级别),则同样适用。
- 有两个选项可用于选择网络:选项 1 - 通过在与图的 x 轴和 y 轴对应的输入框中输入最小值和最大值来输入查询结果的下限和上限。选项 2 - 单击并拖动散点图,以在要包含的网络周围绘制一个框。输入选择或输入边界后,按 从所选网络获取边缘流行度 按钮。
- 单击边缘流行度表下方的箭头可移动到表的下一页。按 下载表 下载边缘流行度表。
- 在"网络索引"输入框中输入一个整数,以显示步骤 4.6 中所做的选择中的单个网络。单击" 下载 DSGRN NetSpec" 以 DSGRN 网络规范格式下载显示的网络。
- 搜索网络以查找与指定主题或感兴趣网络的相似性。
- 使用与每个边对应的复选框来选择要包括在用于相似性分析的网络或基序中的边。 单击提交 ,为所选图案或网络创建相似性散点图。
注意:使用边缘列表中的箭头按字母顺序排序,使用表格下方的箭头移动到表格的下一页。 - 单击并拖动散点图,在要包含的网络周围绘制一个框,以选择一个网络或一组网络以生成边缘流行度表并查看网络及其各自的查询结果。
注意:如果指定了多个 DSGRN 查询,请使用标有查询类型的单选按钮在每个查询的结果之间切换。如果指定了多个 epsilon(噪声级别),则同样适用。 - 重复步骤 4.7 和 4.8,分别下载边缘流行率表和显示的网络以进行相似性分析。
- 使用与每个边对应的复选框来选择要包括在用于相似性分析的网络或基序中的边。 单击提交 ,为所选图案或网络创建相似性散点图。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
将上述文本描述的步骤和 图1 中以图形方式描述的步骤应用于酵母细胞周期的核心振荡GRN,以查看是否有可能发现能够产生在酵母细胞周期研究中收集的时间序列基因表达数据中观察到的动力学的功能性GRN模型16。为了说明IDV如何澄清和改善IDP输出,在以两种方式执行此分析后,对结果进行了比较:1)在没有IDV的情况下一次性运行IDP的所有步骤,以及2)借助IDV逐步通过IDP,这允许通过结合先前的生物学知识并根据IDP输出做出精细选择来调整中间结果。作为示例,经过充分研究的酵母细胞周期GRN已经通过实验验证了许多调控关系。如果正在研究不同的和/或较少注释的生物体或生物过程,则关于如何调整中间结果或参数的选择可能会有所不同。为了说明一种可用于评估网络的查询类型,测量了每个网络的鲁棒性,以支持稳定的振荡,并跨模型参数匹配其节点的观测到的转录动态。
两个重复序列的基因表达时间序列数据取自Orlando 200816,并进行预处理以去除与原始实验中应用的细胞周期同步方法相关的任何基因表达(补充文件1和补充文件2)。创建了一个注释文件,其中包含时间序列数据中的所有基因,这些基因由在Latherract17中发现的DNA结合和表达证据支持,因此可以作为GRN中的调节因子。TOS4,PLM2和NRM1也被列为调节剂,尽管它们在Weasterract中没有发现具有两种类型的证据,因为根据文献中的证据,它们被认为对酵母核心GRN很重要18,19(补充文件3)。所有监管机构都被标记为激活剂和抑制剂以及目标。
首先对 IDP 进行参数化,以运行 IDP 的所有步骤,即节点、边缘和网络查找。根据目前对酵母细胞周期GRN的理解,选择了一组看起来合适的论点,GRN是参与强连接网络的一小组基因(补充文件4)。这种理解主要影响了节点和边缘查找的选择。网络查找中的概率参数基于这样的假设,即只有真正的基因和调控相互作用才会传递到网络查找中。IDP的这种完全参数化的运行产生了节点和边缘查找的结果(图2B,C),但在网络查找中未发现模型允许的网络(图2A,D)。模型可接受性在 python 模块 dsgrn_net_gen 14 的代码文档中进行了解释,IDP 的依赖项。简而言之,包含自抑制边缘或在单个节点上具有太多输入或输出的网络无法被DSGRN软件查询(表1)。IDP 给出了可能无法找到模型可接受网络的许多原因,并描述了解决问题的故障排除步骤。从本质上讲,这涉及更改参数和/或输入文件,重新运行相应的 IDP 步骤,并检查结果。IDV用于使此过程不那么繁琐和耗时。
将节点查找结果加载到IDV中,以检查传递到IDP的边缘查找步骤的基因。IDP给出的节点是DLxJTK排名前N个基因(表1),N由用户指定,但是,该基因列表可能不适合分析目标。在没有先验生物学知识的情况下,仅使用DLxJTK评分自动选择节点返回了一个在酵母细胞周期(RME1)中的作用证据有限的基因,而一些已知的细胞周期转录调节因子的排名并不高(图2B)。使用酵母菌实验证据从DLxJTK具有细胞周期注释的基因中排名最高的基因中进行选择。这些基因是 SWI4,YOX1,YHP1,HCM1,FKH2,NDD1 和 SWI5。它们已知的监管关系如图 3所示。 FKH2 没有出现在DLxJTK排名的前十个基因中(dlxjtk_cutoff在 补充文件4中设置为十个),因此使用IDV扩展了基因列表,直到找到 FKH2 (图4)。扩展基因列表中的几个其他基因是已知的核心基因,如果不调查节点发现结果,就会被遗漏。虽然通过将基因列表向下扩展DLxJTK排名列表发现了更多已知的核心基因,但重点仍然放在感兴趣的基因上。因此,一些高级基因被取消选择,导致包含七个基因的基因列表(补充文件5)(图4)。基于这七个基因创建了一个新的注释文件(补充文件6),每个基因都被标记为一个靶标,并且使用Laverstract指定调节器类型。下载了新的基因列表和注释文件,以供后续在下一个 IDP 步骤"边缘查找"中使用。如果没有IDV,在基因列表和注释文件中添加和删除基因的过程将需要适度的编码技能。
新的 IDP 配置文件仅针对边缘查找步骤(补充文件 7)进行了参数化,并带有新的基因列表和注释文件。使用新配置文件完成 IDP 后,将结果加载到 IDV 中(图 5A)。由于网络查找步骤在提供给它的种子网络的网络空间中随机搜索,因此提供良好的种子网络可能很重要。一个好的种子网络可以被认为是包含真实边缘的网络。使用IDV并使用在线数据库,如Aetherract和Saccharomyces基因组数据库(SGD)20,可以使用具有实验证据的LEM(表1)中的调节关系来查看和调整种子网络。例如,边缘YHP1 = tf_act(HCM1)被取消选择,因为在Theastract中没有记录这种关系的证据(图5B)。添加了边缘 SWI5 = tf_act(FKH2),因为有记录的证据证明存在这种关系21。种子网络(表 1)满意后,下载该网络的 DSGRN 网络规范文件(补充文件 8)。
没有IDV,没有实验证据用于构建种子网络的边缘的可能性更高。如图 2C所示,在边缘查找步骤中从不间断运行IDP到每个步骤生成的种子网络包含一个边缘,SWI4 = tf_rep(NDD1),这没有得到Therweract中实验证据的支持,可能是因为 NDD1 已知是转录激活剂22。在不间断运行中,此信息未编码在注释文件中,这使得所有调节器既是激活器又是抑制器。
使用 IDV,手动策划了一个种子网络,如图 3 所示的子网,其余四条边被放置在用于采样网络空间的边缘列表中(YHP1 = tf_act(SWI4),YOX1 = tf_act(SWI4),SWI4 = tf_rep(YOX1),SWI5 = tf_act(NDD1))。基于先前的生物学知识选择边缘也可用于构建边缘列表;但是,在本例中,选择了 LEM 汇总表视图中的前 20 条边(补充文件 9)。节点列表文件是从选定的边缘自动创建的(补充文件 10)。如果人们认为ODE模型中推断的参数在生物学上不现实,则LEM中的ODE参数也可用于过滤边缘,但此处未使用此信息。
接下来,使用三个新文件为"网络查找"步骤参数化了新的 IDP 配置文件。由于种子网络是在实验证据充分支持的边缘下创建的,因此希望将这些边缘包含在所有网络中。因此,网络查找概率设置为允许添加节点和边缘,但不允许删除节点和边缘(补充文件 11)。网络查找参数 numneighbors 设置为搜索 2,000 个网络。运行 IDP 后,在"网络查找"步骤中找到了 37 个可接受的模型网络,而不是零的不间断运行。将网络查找结果加载到 IDV 中,这 37 个网络中有 64% (24 个) 具有稳定振荡的能力(图 6A)。在这24个网络中,表现最好的是两个网络,它们在稳定振荡模型参数的50%处匹配数据(图6B)。
边缘流行率表(表 1)将边在选定网络集合中出现的次数制成表格,指示其在高性能网络中的流行程度。通过在散点图中选择前两个网络而生成的边缘流行率表显示,正如预期的那样,所有种子网络边缘都存在于两个网络中的每一个中,以及两个非种子网络边缘(图 6B),SWI4 = tf_act(SWI5) 和 HCM1 = tf_rep(YHP1)。这两个边缘都没有证据支持它们在酵母中。由于探索了如此少量的网络空间,因此很难评估边缘和节点在产生观察到的动态中的重要性。
在网络查找中只发现了37个模型可接受的网络,即使参数numneighbors设置为2,000,这表明网络搜索可能受到不适当的限制。如 IDP 中dsgrn_net_gen python 模块的文档中所述,问题可能与种子网络、边缘列表、节点列表、网络查找参数选择或这些选项的某种组合有关。为了进行调查,使用了与以前相同的种子网络、边缘列表和节点列表,但通过添加在网络生成期间删除边缘的功能(补充文件 12)更改了网络查找参数。将新的网络查找结果加载到 IDV 中显示,在此步骤中发现了 612 个网络,其中 67% (411 个) 网络具有稳定振荡的能力(图 7A)。有趣的是,13%(82)能够产生稳定振荡动力学的网络无法产生类似于数据中看到的动态(图7B)。在411个网络中,30%(124个)表现出与数据的鲁棒匹配(即,超过50%的稳定振荡模型参数表现出数据匹配)(图7C)。
第二轮网络查找生成的边缘流行率数字现在基于更多的网络选择,可以更自信地用于评估GRN中监管关系的重要性。例如,HCM1 = tf_rep(YHP1)在产生鲁棒动态的网络中仍然具有很高的代表性,这表明这种关系可能值得实验研究(图7C)。对边缘流行率表的进一步检查(基于上面提到的124个网络)显示,边缘SWI4 = tf_rep(YOX1)和YOX1 = tf_act(SWI4)的排名并不高,但边缘SWI4 = tf_rep(YHP1)和YHP1 = tf_act(SWI4)的排名很高(图7C)。负反馈对于产生振荡动态非常重要23 ,这两组调节关系都在 图 3 中的 GRN 中提供了此功能。查找是否存在包含所有这四条边的网络,可以深入了解为什么这些边在 GRN 模型集合中不经常一起存在;但是,通过单个网络进行点击会很乏味。相反,"网络查找"页面的相似性分析部分用于搜索可能包含所有四条边的网络(图 7D)。检查显示 612 网络与这四条边的基序的相似程度与与观测到的动力学匹配的模型参数空间百分比的散点图,发现 612 个网络中只有 0.65% (4) 包含所有这四条边(图 7D)。这表明了一个可测试的假设,即这种规模的网络只需要两个负反馈环路中的一个来产生观察到的动力学。这一假设可以通过IDP步骤的重新参数化和对网络空间的更详尽的搜索或实验(例如基因敲除)在计算上进一步研究。此分析的所有结果都可以在 补充文件 13 中找到。
图 1:IDP 和 IDV 工作流概述。 底行描述了 IDP 的三个主要步骤:节点、边缘和网络查找。顶行描述了 IDV 的主要步骤,并描述了用户与结果交互的各种方式。两者之间的深灰色箭头描述了 IDV 和 IDP 如何协同工作,以允许用户为 IDP 的每个步骤做出明智的决策,各个 IDP 步骤为 IDV 中的可视化提供结果,单个 IDV 步骤允许输入新的或调整的参数,以及为后续 IDP 步骤调整的结果和输入。 请点击此处查看此图的放大版本。
图 2:在步骤之间不使用 IDV 的情况下连续运行 IDP 的每个步骤的结果示例。 (A) 连续运行每个 IDP 步骤的最终输出的屏幕截图。IDP 运行完成,但在"网络查找"步骤中找不到任何网络。(B) 加载到 IDV 中的节点查找结果目录node_finding_20210705183301(补充文件 13)。选择基因列表表中的所有基因(红色箭头),以在折线图中显示其各自的表达谱并生成注释表。填写注释表以反映基因在原始注释文件中的标记方式(绿色箭头)。(C) 加载到 IDV 中的边缘查找结果目录edge_finding_20210705183301(补充文件 13)。(D) 网络查找结果目录network_finding_20210705183301(补充文件 13)加载到 IDV 中。"网络查找"页未显示任何结果,建议需要重新参数化"网络查找"步骤或重新评估"节点"或"边缘查找"步骤。IDP 文档包含故障排除步骤,可帮助用户确定接下来可以尝试的操作。 请点击此处查看此图的放大版本。
图3:酵母细胞周期GRN模型。 从SGD中选择了一组已知的酵母细胞周期调节因子,并从Semeract中提取了基因之间的已知调节关系。 请点击此处查看此图的放大版本。
图 4:IDV 中的 IDP 节点查找结果示例。 加载到 IDV 中的是节点查找结果目录node_finding_20210705183301(补充文件 13)。检查策划的在线酵母数据库后调整后的结果。扩展基因列表表(黄色箭头)以查找 图3 的GRN模型中的剩余基因,并取消选择基因以删除在同一GRN模型中未找到的基因(红色箭头)。注释表是根据在酵母(绿色箭头)上发现的每个基因的调控证据填写的。新的基因列表和注释文件是通过选择各自的下载按钮(蓝色箭头)来下载的。 请点击此处查看此图的放大版本。
图 5:IDV 中的 IDP 边缘查找结果示例。 加载到 IDV 中的是边缘查找结果目录edge_finding_20210701100152(补充文件 13)。(A) 国内流离失所者产生的初步结果。选择了" 网络 "下拉选项" 从种子 "(红色箭头),以查看 IDP 根据所使用的配置文件(补充文件 7)中的参数生成的种子网络。边缘表中选定的基因是种子网络中使用的边缘。(二)种子网络中未包含实验证据的边缘检查后的调整结果。已选择" 网络 "下拉选项" 从所选内容 "(红色箭头)。已从边缘表中选取/取消选取边缘(绿色箭头)。种子网络、边缘列表和节点列表文件是通过单击它们各自的按钮(黄色箭头)下载的。显示的边缘表用于配置文件two_wts_EdgeFinding_config.txt(补充文件 7)中列出的最后一个时序数据。在根据 LEM 结果为种子网络或边缘列表选择边缘时,查看配置文件中列出的上一个时间序列数据非常重要,因为此输出在其对节点之间调节关系的推断中合并了所有前面的数据文件。 请点击此处查看此图的放大版本。
图 6:IDP 网络查找示例,使用 IDP 配置文件two_wts_NetFind_rd1_config.txt(补充文件 11)在 IDV 中产生结果。 (A) 选择了" 稳定完整周期" 查询(红色箭头),以在散点图的 y 轴上显示相应的数据。散点图中的蓝点使用散点图的框选择函数表示所选点。对虚线选择框进行了说明,以显示框选择的外观。(B) y 轴和 x 轴的最小和最大整数是手动输入到这些边界内的选定网络的(绿色箭头)。每次选择后,单击从 所选网络获取边缘流行率 按钮(黄色箭头),并生成边缘流行率表和所选 DSGRN 预测网络区域。在网络索引中,可以单击向上和向下箭头以浏览所选网络(蓝色箭头)。 请点击此处查看此图的放大版本。
图 7:IDP 网络查找示例,使用 IDP 配置文件two_wts_NetFind_rd2_config.txt(补充文件 12)导致 IDV。 (A-C)通过在最小值和最大值输入框(红色箭头)中输入值来执行网络选择。单击从所选网络获取边缘流行率按钮以生成边缘流行率表和所选 DSGRN 预测网络区域。(D) 在edge_list表中选择感兴趣的边缘(黄色箭头),然后单击提交按钮(绿色箭头)以计算相似性分数,以根据所选查询在散点图中绘制(蓝色箭头)。Box Select 函数用于选择一组网络(紫色箭头)以生成边缘流行率表和选定的 DSGRN 预测网络区域。网络索引已增加到 2(橙色箭头),以查看所选内容中的第二个网络。请点击此处查看此图的放大版本。
术语 | 管道步骤 | 定义 | ||
de Lichtenburg by JTK-CYCLE (DLxJTK) | 节点查找 | 用于对基因进行排名的周期性和调节强度的单一定量度量。结合了以前发布的周期性指标 de Lichtenberg (DL) 和 JTK-CYCLE (JTK)。 | ||
第一周期最大表达 | 节点查找 | 周期性基因表达第一周期的最大基因表达。由第一周期最大表达排序的基因将根据第一周期达到最大基因表达的时间点进行排序。 | ||
本地边缘计算机 (LEM) | 边缘查找 | 一种贝叶斯网络推理方法,该方法对基因相互作用的潜在模型进行排名,以使用时间序列基因表达数据确定给定靶基因最可能的调节因子和调节模式(激活或抑制)。 | ||
种子网络 | 网络查找 | 通过选择排名靠前的 LEM 边缘,对合理的全球交互网络进行初步猜测。种子定位网络空间中高度振荡的区域,并且很有可能显示与提供的时间序列数据的一致性。 | ||
监管网络 (DSGRN) 生成的动态签名 | 网络查找 | 一个软件包,用于全面计算网络可以表现出的各种长期动态行为。 | ||
边缘流行率 | 网络查找 | 网络查找步骤中包含相关边缘的得分最高的网络的百分比。该分数允许对具有非零流行率的边缘进行排名。 |
表 1:固有动力学管道和固有动力学可视化工具术语的定义。
补充文件 1:时间序列基因表达数据(副本 1),取自奥兰多,200813。请单击此处下载此文件。
补充文件 2:时间序列基因表达数据(重复 2),取自奥兰多,200813。请单击此处下载此文件。
补充文件3:注释文件,其中包含在补充文件1和补充文件2中找到的所有基因。请点击此处下载此文件。
补充文件 4:完全参数化的固有动力学管线配置文件。请点击此处下载此文件。
补充文件5:从固有动力学可视化工具的"节点查找"页面下载的基因列表文件。请点击此处下载此文件。
补充文件 6:从固有动态可视化工具的"节点查找"页面下载的注释文件。请点击此处下载此文件。
补充文件 7:仅为"边缘查找"步骤参数化的固有动力学管线配置文件。请点击此处下载此文件。
补充文件 8:从固有动态可视化工具的"边缘查找"页面下载的种子网络文件。请点击此处下载此文件。
补充文件 9:从"固有动态可视化工具"的"边缘查找"页面下载的边缘列表文件。请点击此处下载此文件。
补充文件 10:从固有动态可视化工具的"边缘查找"页面下载的节点列表文件。请点击此处下载此文件。
补充文件 11:仅为"网络查找"步骤参数化的固有动态管道配置文件。请点击此处下载此文件。
补充文件 12:更新了仅针对"网络查找"步骤参数化的固有动态管道配置文件(补充文件 11)。请点击此处下载此文件。
补充文件13:包含"代表性成果"部分结果的目录。请点击此处下载此文件。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
GRN的推断是系统生物学中的一个重要挑战。IDP使用一系列工具从基因表达数据中生成模型GRN,这些工具以越来越复杂的方式利用数据。每个步骤都需要决定如何处理数据以及哪些元素(基因,功能相互作用)将传递给IDP的下一层。这些决定对国内流离失所者结果的影响并不那么明显。为了在这方面提供帮助,IDV 提供了 IDP 中 GRN 推理工具各个步骤的输出的有用交互式可视化。IDV简化并促进了评估这些计算推理方法的结果的过程,以加快实验并为分析选择提供信息,从而加速高置信度网络模型和假设的产生。IDV还实现了扩展IDP功能的功能,包括通过LEM ODE参数选择过滤边缘,按表达时间对基因进行分箱,以及根据与基序或网络的相似性对网络进行聚类。重要的是,IDV允许在每个IDP步骤之间进行手动干预,这使用户能够以不容易自动化的方式轻松地将人类知识和文献中的先前信息整合在一起。IDP 的幼稚运行不会本机包含此信息,因此,只要有特定于实验的信息可用,使用 IDV 将增加对结果的信心。总体而言,将IDV与IDP结合使用,即使对真正的GRN知之甚少或一无所知,用户也可以更有信心地为生物过程创建网络假设。
IDV 中有三个关键步骤。首先是评估 IDV 中的 IDP 节点查找结果。IDV的节点查找页面可以生成新的基因列表,如果需要,还可以生成基因注释文件。策划新的基因列表是关键的一步,因为它通过限制允许哪些基因被建模为GRN靶标和/或调节因子,大大减少了潜在的网络空间。此外,由于GN主要由转录因子组成,因此具有基因注释将极大地帮助创建连贯的GRN模型。
下一步是评估 IDV 中的 IDP 边缘查找结果。策划新的种子网络是一个关键步骤,因为它本地化了将在"网络查找"步骤中采样的网络空间区域。但是,知道从哪里开始并不总是显而易见的,因此建议使用具有某种形式的实验证据的边缘,以提供可信度,即从包含高置信度边缘的网络空间区域开始。IDV 的边缘查找页面可以轻松组装种子网络,并生成关联的 DSGRN 网络规范文件以及节点和边缘列表。
最后一步是评估 IDV 中的 IDP 网络查找结果。IDV的网络查找页面允许轻松浏览采样网络及其相关分数,这些分数估计网络产生观察到的动态的能力。虽然节点和边缘查找将始终返回结果(如果至少有两个基因从节点查找传递),但网络查找可能返回零结果。因此,在"网络查找"中了解是否需要调整参数将比在"节点"和"边缘查找"中更为明显。这种很少或根本没有发现网络的出现可能是对可以分析的网络施加的约束的结果。这些约束是:1)网络是否始终强连接,2)每个节点的最小和最大输入边数,3)添加和删除节点和边的概率,以及4)允许的节点和边的添加和删除数。如果发现很少或根本没有模型可接受的网络,如图 2 所示,则建议参考 IDP 文档,以指导 IDP 的任何或所有步骤的重新参数化,并随后评估 IDV 中的结果。
这种方法目前的局限性是,"节点查找"页面主要关注振荡动力学,例如在细胞周期和生物钟的转录程序中看到的振荡动力学。特别是,IDP节点查找步骤当前配置为搜索在指定时间段表现出振荡动力学的基因。随着 IDP 扩展到包括可以量化不同类型的转录动态的分析,IDV 也将更新以支持这些其他行为的可视化和询问。在网络查找步骤中搜索和分析的网络的大小目前仅限于较小规模的网络,例如,大约10个基因。这是必要的,因为DSGRN尺度的计算是组合发生的。另一个限制是无法在 IDV 中探索所选网络的模型参数空间。但是,可以下载给定网络的 DSGRN 网络规范文件,并且可以在 DSGRN 可视化网站 (https://sites.math.rutgers.edu/~gameiro/dsgrn_viz/) 上可视化与每个模型参数关联的动态。最后,IDV已经使用Linux(Ubuntu)和iOS(Big Sur)系统进行了测试。IDV已使用Windows子系统linux(WSL)在Windows 10上进行了测试,该系统允许Windows 10用户运行Linux和IDV,而无需其他计算机,虚拟机或双启动设置。IDV 当前未在本机 Windows 上运行。
研究 GRN 是很困难的,因为它们具有固有的复杂性,而 IDP 等有用的推理工具可能难以理解和自信地部署。IDV提供了一种方法来降低研究使用IDP推断的GRN的复杂性,同时促进包含基因表达动力学之外的其他信息。将IDV与此处描述的IDP结合使用将使研究人员能够开发和分析经过充分研究的系统的功能模型,例如人类细胞周期。此外,这些工具将为鲜为人知的过程生成可测试的假设,例如疟疾红细胞内发育周期,该周期被怀疑由GRN24 控制,但尚未提出模型。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
作者没有什么可透露的。
Acknowledgments
这项工作由NIH拨款R01 GM126555-01和NSF拨款DMS-1839299资助。
Materials
Name | Company | Catalog Number | Comments |
Docker | https://docs.docker.com/get-docker/ | ||
Git | https://git-scm.com/ | ||
Inherent Dynamics Pipeline | https://gitlab.com/biochron/inherent_dynamics_pipeline | ||
Inherent Dynamics Visualizer | https://gitlab.com/bertfordley/inherent_dynamics_visualizer | ||
Miniconda | https://docs.conda.io/en/latest/miniconda.html | ||
Pip | https://pip.pypa.io/en/stable/ |
References
- Karlebach, G., Shamir, R. Modelling and analysis of gene regulatory networks. Nature Reviews Molecular Cell Biology. 9 (10), 770-780 (2008).
- Aijö, T., Lähdesmäki, H. Learning gene regulatory networks from gene expression measurements using non-parametric molecular kinetics. Bioinformatics. 25 (22), 2937-2944 (2009).
- Huynh-Thu, V. A., Sanguinetti, G. Combining tree-based and dynamical systems for the inference of gene regulatory networks. Bioinformatics. 31 (10), 1614-1622 (2015).
- Oates, C. J., et al. Causal network inference using biochemical kinetics. Bioinformatics. 30 (17), 468-474 (2014).
- Marbach, D., et al. Wisdom of crowds for robust gene network inference. Nature Methods. 9 (8), 796-804 (2012).
- Inherent Dynamics Pipeline. , Available from: https://gitlab.com/biochron/inherent_dynamics_pipeline (2021).
- Motta, F. C., Moseley, R. C., Cummins, B., Deckard, A., Haase, S. B. Conservation of dynamic characteristics of transcriptional regulatory elements in periodic biological processes. bioRxiv. , (2020).
- LEMpy. , Available from: https://gitlab.com/biochron/lempy (2021).
- McGoff, K. A., et al. The local edge machine: inference of dynamic models of gene regulation. Genome Biology. 17, 214 (2016).
- Cummins, B., Gedeon, T., Harker, S., Mischaikow, K. Model rejection and parameter reduction via time series. SIAM Journal on Applied Dynamical Systems. 17 (2), 1589-1616 (2018).
- Cummins, B., Gedeon, T., Harker, S., Mischaikow, K. Database of Dynamic Signatures Generated by Regulatory Networks (DSGRN). Lecture Notes in Computer Science. (including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). , 300-308 (2017).
- Cummins, B., Gedeon, T., Harker, S., Mischaikow, K. DSGRN: Examining the dynamics of families of logical models. Frontiers in Physiology. 9. 9, 549 (2018).
- DSGRN. , Available from: https://github.com/marciogameiro/DSGRN (2021).
- Dsgm_Net_Gen. , Available from: https://github.com/breecummins/dsgrn_net_gen (2021).
- Dsgrn_Net_Query. , Available from: https://github.com/breecummins/dsgrn_net_query (2021).
- Orlando, D. A., et al. Global control of cell-cycle transcription by coupled CDK and network oscillators. Nature. 453 (7197), 944-947 (2008).
- Monteiro, P. T., et al. YEASTRACT+: a portal for cross-species comparative genomics of transcription regulation in yeasts. Nucleic Acids Research. 48 (1), 642-649 (2020).
- de Bruin, R. A. M., et al. Constraining G1-specific transcription to late G1 phase: The MBF-associated corepressor Nrm1 acts via negative feedback. Molecular Cell. 23 (4), 483-496 (2006).
- Horak, C. E., et al. Complex transcriptional circuitry at the G1/S transition in Saccharomyces cerevisiae. Genes & Development. 16 (23), 3017-3033 (2002).
- Cherry, J. M., et al. Saccharomyces genome database: The genomics resource of budding yeast. Nucleic Acids Research. 40, 700-705 (2012).
- Zhu, G., et al. Two yeast forkhead genes regulate the cell cycle and pseudohyphal growth. Nature. 406 (6791), 90-94 (2000).
- Loy, C. J., Lydall, D., Surana, U. NDD1, a high-dosage suppressor of cdc28-1N, is essential for expression of a subset of late-S-phase-specific genes in saccharomyces cerevisiae. Molecular and Cellular Biology. 19 (5), 3312-3327 (1999).
- Cho, C. Y., Kelliher, C. M., Hasse, S. B. The cell-cycle transcriptional network generates and transmits a pulse of transcription once each cell cycle. Cell Cycle. 18 (4), 363-378 (2019).
- Smith, L. M., et al. An intrinsic oscillator drives the blood stage cycle of the malaria parasite Plasmodium falciparum. Science. 368 (6492), 754-759 (2020).