Biochemistry

JUMPn：蛋白质共表达聚类和网络分析在蛋白质组学中的简化应用

Published: October 19, 2021 doi: 10.3791/62796

David Vanderwall¹, Poudel Suresh^1,2, Yingxue Fu², Ji-Hoon Cho², Timothy I. Shaw^2,3, Ashutosh Mishra², Anthony A. High², Junmin Peng^1,2, Yuxin Li^1,2

¹Departments of Structural Biology and Developmental Neurobiology, St. Jude Children’s Research Hospital, ²Center for Proteomics and Metabolomics, St. Jude Children’s Research Hospital, ³Department of Computational Biology, St. Jude Children’s Research Hospital

Summary

我们提出了一个系统生物学工具JUMPn，用于执行和可视化定量蛋白质组学数据的网络分析，其详细的方案包括数据预处理，共表达聚类，途径富集和蛋白质 - 蛋白质相互作用网络分析。

Abstract

随着基于质谱的蛋白质组学技术的最新进展，对数百个蛋白质组进行深度分析变得越来越可行。然而，从这些有价值的数据集中获取生物学见解是具有挑战性的。在这里，我们介绍了一个基于生物学的系统软件JUMPn及其相关协议，以将蛋白质组组织成跨样品的蛋白质共表达簇和由模块连接的蛋白质 - 蛋白质相互作用（PPI）网络（例如，蛋白质复合物）。使用R/Shiny平台，JUMPn软件通过集成的数据可视化和用户友好的界面，简化了共表达聚类、通路富集和PPI模块检测的分析。该协议的主要步骤包括安装JUMPn软件，定义差异表达的蛋白质或（dys）调节的蛋白质组，确定有意义的共表达簇和PPI模块，以及结果可视化。虽然该方案使用基于等压标记的蛋白质组谱进行演示，但JUMPn通常适用于广泛的定量数据集（例如，无标记蛋白质组学）。因此，JUMPn软件和协议为定量蛋白质组学中的生物学解释提供了强大的工具。

Introduction

基于质谱的鸟枪鱼蛋白质组学已成为分析复杂样品蛋白质组多样性的关键方法¹。随着质谱仪器²^，³，色谱⁴，⁵，离子淌度检测⁶，采集方法（与数据无关^的7和数据依赖的采集⁸），定量方法（多重等压肽标记方法，例如TMT⁹^，¹⁰和无标记定量¹¹^，¹²）和数据分析策略的最新进展/软件开发¹³^，¹⁴^，¹⁵^，¹⁶^，¹⁷^，¹⁸，整个蛋白质组（例如，超过10，000个蛋白质）的定量现在是常规的¹⁹^，²⁰^，²¹。然而，如何从如此深入的定量数据集中获得机械洞察力仍然是一个挑战²²。研究这些数据集的最初尝试主要依赖于对数据中各个元素的注释，独立处理每个组分（蛋白质）。然而，生物系统及其行为不能仅仅通过检查单个组分²³来解释。因此，将量化的生物分子置于相互作用网络背景下的系统方法对于理解复杂系统和相关过程（例如胚胎发生，免疫反应和人类疾病的发病机制）至关重要²⁴。

基于网络的系统生物学已成为分析大规模定量蛋白质组学数据^25，26^，^27，28^，²⁹^，^30，31^，³²^，³³的强大范^式。从概念上讲，诸如哺乳动物细胞之类的复杂系统可以建模为分层网络³⁴^，³⁵，其中整个系统以层表示：首先由许多大型组件表示，然后由较小的子系统迭代建模。从技术上讲，蛋白质组动力学的结构可以通过共表达蛋白质簇的相互连接的网络（因为共表达的基因/蛋白质通常具有相似的生物学功能或调节^机制36）和物理相互作用的PPI模块³⁷来呈现。作为最近的示例²⁵，我们在T细胞活化过程中生成了整个蛋白质组和磷酸蛋白质组的时间谱，并使用具有PPI的整合共表达网络来鉴定介导T细胞静止退出的功能模块。突出了多个生物能量相关模块并进行了实验验证（例如，线粒体和复合IV模块²⁵，以及单碳模块³⁸）。在另一个示例²⁶中，我们进一步扩展了我们的方法来研究阿尔茨海默病的发病机制，并成功地优先考虑与疾病进展相关的蛋白质模块和分子。重要的是，我们的许多无偏倚发现都得到了独立患者队列²⁶^，²⁹和/或疾病小鼠模型^26的验证。这些例子说明了系统生物学方法在通过定量蛋白质组学和其他组学整合来解剖分子机制方面的力量。

在这里，我们介绍 JUMPn，这是一款简化的软件，它使用基于网络的系统生物学方法探索定量蛋白质组学数据。JUMPn作为已建立的JUMP蛋白质组学软件套件¹³^，¹⁴^，³⁹的下游组件，旨在使用系统生物学方法填补从单个蛋白质定量到生物学上有意义的途径和蛋白质模块的空白。通过以差异表达（或最可变）蛋白质的定量基质作为输入，JUMPn旨在将蛋白质组组织成跨样品和密集连接的PPI模块（例如，蛋白质复合物）共表达的蛋白质簇的分层层次结构，这些模块通过过度表示（或富集）分析进一步注释公共途径数据库（图1）。JUMPn与R/Shiny平台⁴⁰ 一起开发，具有用户友好的界面，并集成了三个主要功能模块：共表达聚类分析，途径富集分析和PPI网络分析（图1）。每次分析后，结果都会自动可视化，并可通过R / shiny小部件功能进行调整，并可轻松下载为Microsoft Excel格式的发布表。在以下实验方案中，我们使用定量全蛋白质组数据作为示例，并描述使用JUMPn的主要步骤，包括安装JUMPn软件，定义差异表达的蛋白质或（dys）调节的蛋白质组，共表达网络分析和PPI模块分析，结果可视化和解释以及故障排除。JUMPn 软件在 GitHub⁴¹ 上免费提供。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

注意：在该协议中，JUMPn的使用通过利用由TMT等压标记试剂²⁷定量的B细胞分化期间全蛋白质组分析的已发表数据集来说明。

1. JUMPn 软件的设置

注：为设置 JUMPn 软件提供了两个选项：（i）在本地计算机上安装以供个人使用;（ii）在本地计算机上安装以供个人使用;（iii）在本地计算机上安装以供个人使用;（ii）在远程闪亮服务器上为多个用户部署JUMPn。对于本地安装，具有Internet访问权限和≥4 Gb RAM的个人计算机足以对样本量较小的数据集（n <30）运行JUMPn分析;大队列分析需要更大的RAM（例如，16 Gb）（例如，n = 200个样本）。

在本地计算机上安装软件。安装后，允许 Web 浏览器启动 JUMPn，并让分析在本地计算机上运行。
1. 按照在线说明安装 anaconda⁴² 或 miniconda⁴³ 。
2. 下载 JUMPn 源代码⁴¹.双击解压缩下载的文件 JUMPn_v_1.0.0.zip;将创建一个名为 JUMPn_v_1.0.0 的新文件夹。
3. 打开命令行终端。在 Windows 上，使用 Anaconda Prompt。在 MacOS 上，使用内建的“终端”应用程序。
4. 创建 JUMPn Conda 环境：获取 JUMPn_v_1.0.0 文件夹的绝对路径（例如，/path/to/JUMPn_v_1.0.0）。要创建并激活空的 Conda 环境，请在终端上键入以下命令
  conda create -p /path/to/JUMPn_v_1.0.0/JUMPn -y
  conda activate /path/to/JUMPn_v_1.0.0/JUMPn
5. 安装 JUMPn 依赖项：安装 R（在终端上，键入 conda install -c conda-forge r=4.0.0 -y），将当前目录更改为 JUMPn_v_1.0.0 文件夹（在终端上，键入 cd path/to/JUMPn_v_1.0.0），然后安装依赖项包（在终端上，键入 Rscript 引导程序）。R)
6. 在 Web 浏览器上启动 JUMPn：将当前目录更改为执行文件夹（在终端上，键入 cd execution）并启动 JUMPn（在终端上，键入 R -e“shiny：：runApp（）”）
7. 执行上述操作后，终端屏幕将显示在 http：//127.0.0.1：XXXX 上侦听 （此处 XXXX 表示 4 个随机数）。将 http：//127.0.0.1：XXXX 复制并粘贴到 Web 浏览器上，JUMPn 欢迎页面将显示在该浏览器上（图 2）。
在闪亮服务器上部署。Shiny Server的示例包括商业 shinyapps.io 服务器或任何机构支持的Shiny服务器。
1. 按照说明⁴⁴ 下载并安装 RStudio。
2. 获取闪亮服务器的部署权限。对于 shinyapps.io 服务器，按照说明⁴⁵设置用户帐户。对于机构 Shiny 服务器，请与服务器管理员联系以请求权限。
3. 将 JUMPn 源代码⁴¹ 下载到本地计算机;无需安装。打开任一服务器。R 或 ui。R 文件中的 R 文件，然后单击 RStudio IDE 右上角的 “发布到服务器 ”下拉菜单。
4. 在 “发布到帐户” 面板中，键入服务器地址。按“ 发布 ”按钮。通过从 RStudio 自动重定向到部署应用程序的 RShiny 服务器，将验证部署是否成功。

2. 使用示例数据集进行演示运行

注意：JUMPn使用已发布的B细胞蛋白质组学数据集提供演示运行。该演示运行演示了一个简化的工作流程，该工作流程以差异表达蛋白的定量矩阵作为输入，并按顺序执行共表达聚类、通路富集和 PPI 网络分析。

在 JUMPn 主页（图 2）上，单击“ 开始分析 ”按钮以启动 JUMPn 分析。
在 开始分析 页面（图3）的左下角，单击 上传演示B细胞蛋白质组学数据 按钮;将出现一个对话框，通知数据上传成功。
在页面右下角，单击“ 提交 JUMPn 分析 ”按钮，使用默认参数启动演示运行;将出现一个进度条，表示分析过程。等到进度条完成（预计3分钟）。
演示运行完成后，将出现一个对话框，其中包含成功运行消息和结果文件夹的绝对路径。单击“ 继续到结果” 以继续。
该网页将首先引导用户查看WGCNA的共表达聚类结果。单击对话框窗口中的“ 查看结果 ”以继续。
在 结果第1页：WGCNA输出 页面的左侧找到蛋白质共表达模式。单击 “选择表达式格式 ”下拉框以在两种图形格式之间导航：
1. 选择 “趋势 ”以显示趋势图，每条线代表样品中单个蛋白质丰度。每条线的颜色表示表达式模式与共表达聚类共识（即WGCNA算法定义的“特征基因”）的接近程度。
2. 选择 箱线图 以箱线图格式显示每个样本的共表达式模式。
查看WGCNA输出页面右侧的途径/本体富集热图。每个聚类中高度丰富的路径一起显示在热图中，颜色强度反映了Benjamini-Hochberg调整后的p值。
向下滚动网页以查看单个蛋白质的表达模式。
1. 使用下拉框 选择共表达簇 以查看每个簇中的蛋白质（默认为簇 1）。在表格中选择一种特定的蛋白质，在此基础上，表格下方的条形图将自动更新以反映其蛋白质丰度。
2. 使用表格右侧的“搜索”框搜索特定蛋白质名称，以查找特定蛋白质。
若要查看 PPI 结果，请单击顶部的“ 结果页面 2：PPI 输出 ”。
单击 “选择共表达式聚类” 以查看特定共表达式聚类的结果（默认为聚类 1）。此页面上所有图形面板的显示将针对新选择的集群进行更新。
在左图面板上查看所选共表达聚类的 PPI 网络：
1. 单击 按组选择 下拉框以突出显示网络中的各个 PPI 模块。单击 “选择网络布局格式 ”下拉框以更改网络布局（默认为 Fruchterman Reingold）。
2. 使用鼠标和触控板执行步骤 2.11.3-2.11.5。
3. 根据需要放大或缩小 PPI 网络。当充分放大时，将显示网络中每个节点的基因名称。
4. 放大后，选择并单击某个蛋白质以突出显示该蛋白质及其网络邻居。
5. 拖动网络中的某个节点（蛋白质）以更改其在布局中的位置;因此，用户可以重新组织网络布局。
在 PPI 结果页面的右侧面板上，查看有助于解释 PPI 结果的共表达聚类级别信息：
1. 默认情况下，以箱线图形式查看所选聚类的共表达式模式。
2. 单击 “选择表达式格式 ”下拉框以获取更多信息，或按步骤 2.12.3-2.12.5 中所述进行显示。
3. 选择“ 趋势 ”以显示共表达式模式的趋势图。
4. 选择 通路条形图 以显示共表达簇的显著富集通路。
5. 选择 通路圆图 以圆图格式显示共表达聚类的显著富集途径。
向下滚动 “结果页面 2：PPI 输出” 网页，查看各个 PPI 模块级别的结果。单击 “选择模块” 下拉框以选择要显示的特定 PPI 模块（群集 1：默认情况下显示模块 1 ）。
查看左侧面板上的 PPI 模块。要操作网络显示，请按照步骤 2.11.2-2.11.5 操作。
在右侧面板上查看通路/本体富集结果。单击 “选择路径注释样式 ”下拉框以获取更多信息，并显示：
1. 选择 条形图 以显示所选 PPI 模块的显著丰富的路径。
2. 选择 “圆图 ”以圆图的格式显示所选 PPI 模块的显著丰富的路径。
3. 选择 “热图 ”以显示所选 PPI 模块中显著富集的通路和相关基因名称。
4. 选择表以显示详细的途径富集结果，包括途径/本体术语的名称，基因名称以及Fisher精确检验的P值。
以电子表格格式查看出版物表格：按照绝对路径（打印在两个结果页面的顶部）并找到名为 ComprehensiveSummaryTables 的出版物电子表格.xlsx。

3. 准备输入文件并上传到 JUMPn

注意：JUMPn将差异表达蛋白（监督法）或最可变蛋白质（无监督法）的定量基质作为输入。如果项目的目标是了解在多种条件下变化的蛋白质（例如，不同的疾病组或生物过程的时间序列分析），则首选执行DE分析的监督方法;否则，选择最可变蛋白质的无监督方法可用于探索目的。

生成蛋白质定量表，其中每个蛋白质为行，每个样品为列。通过基于现代质谱的蛋白质组学软件套件（例如，JUMP套件^13，14^，³⁹，蛋白质组发现者，Maxquant¹⁵^，⁴⁶）实现这一目标。
定义可变蛋白质组。
1. 使用蛋白质组学软件套件提供的统计分析结果来定义差异表达（DE）蛋白质（例如，调整p值<0.05）。
2. 或者，用户可以按照示例R代码⁴⁷ 来定义DE或大多数可变蛋白质。
使用定义的变量蛋白质组设置输入文件的格式。
注意：所需的输入文件格式（图4）包括标题行;这些列包括蛋白质加入（或任何唯一ID），GN（官方基因符号），蛋白质描述（或任何用户提供的信息），然后是单个样品的蛋白质定量。
1. 按照步骤 3.1 中指定的列的顺序进行操作，但标题的列名对用户来说是灵活的。
2. 对于TMT（或类似）量化蛋白质组，使用汇总的TMT报告基因强度作为输入量化值。对于无标记数据，使用归一化光谱计数（例如，NSAF⁴⁸）或基于强度的方法（例如，Maxquant⁴⁶报告的LFQ强度或iBAQ蛋白强度）。
3. JUMPn 分析允许缺少值。确保在定量基质中将其标记为NA。但是，建议仅在超过50%的样品中使用定量的蛋白质。
4. 将生成的输入文件另存为.txt、.xlsx或.csv格式（JUMPn 支持这三种格式）。
上传输入文件：
1. 单击 浏览器 按钮并选择输入文件（图3，左侧面板）;将自动检测文件格式（支持 xlsx、 csv 和 txt ）。
2. 如果输入文件包含类似强度的量化值（例如，由 JUMP 套件³⁹ 生成的值）或类似比率的值（例如，来自蛋白质组发现器），则为“执行 Log2-数据转换选项”选择“是”;否则，数据可能已经过日志转换，因此请选择此选项选择“否”。

4. 共表达聚类分析

注：我们的组²⁵^，²⁶^，²⁷ 和其他²⁸^，²⁹^，³¹ 组已经证明了WGCNA⁴⁹ 是定量蛋白质组学共表达聚类分析的有效方法。JUMPn遵循WGCNA分析²⁵^，⁵⁰的3步程序：（i）通过基于拓扑重叠基质的动态树切割⁵¹ （TOM;通过基因/蛋白质之间的定量相似性确定）的共表达基因/蛋白质簇的初始定义;（ii）合并相似的聚类以减少冗余（基于特征相似性的树状图）;（iii）最终将超过最小Pearson相关截止值的基因/蛋白质分配给每个簇。

配置 WGCNA 参数（图 3，中间面板）。以下三个参数分别控制这三个步骤：
1. 将最小群集大小设置为 30。此参数定义了基于 TOM 的混合动态树切割的初始步骤（i）中每个共表达簇所需的最小蛋白数量。该值越大，算法返回的聚类数就越少。
2. 将最小聚类距离设置为 0.2。增加此值（例如，从 0.2-0.3）可能会在步骤（ii）期间导致更多的簇合并，从而导致簇数减少。
3. 将最小 kME 设置为 0.7。蛋白质将被分配到步骤（ii）中定义的最相关的簇，但只有具有Pearson相关性通过此阈值的蛋白质才会被保留。在此步骤中失败的蛋白质将不会被分配到任何簇（最终报告中失败蛋白质的“NA”簇）。
启动分析。提交共表达聚类分析的方法有两种：
1. 点击右下角的 提交JUMPn分析 按钮，自动启动WGCNA综合分析，然后进行PPI网络分析。
2. 或者，选择仅执行 WGCNA 步骤（特别是出于参数调整的目的;请参阅步骤 4.2.3-4.2.4）：
3. 单击“开始分析”页面底部的“高级参数”按钮;将弹出一个新的参数窗口。在底部微件中选择分析模式，选择仅 WGCNA，然后单击“关闭”以继续。
4. 在 “开始分析” 页上，单击“ 提交 JUMPn 分析” 按钮。
5. 在上述任一情况下，提交分析时都会出现一个进度条。
  注意：分析完成后（ 仅 WGCNA 分析通常 <为 1 分钟，综合分析通常为 <3 分钟），将出现一个对话框，其中包含成功运行消息和结果文件夹的绝对路径。
检查 WGCNA 结果，如步骤 2.4-2.8 所示（图 5）。请注意，文件co_exp_clusters_3colums.txt的绝对路径在 结果页面的顶部突出显示：WGCNA输出 记录每个蛋白质的簇成员身份，并将其用作 仅PPI 分析的输入。
故障排除。讨论了以下三种常见情况。更新参数后，如下所述，请按照步骤4.2.2-4.2.4生成新的WCCNA结果。
1. 如果数据中预期有一个重要的共表达模式，但算法遗漏了，请按照步骤 4.4.2-4.4.4
2. 对于小的共表达簇，缺失的簇尤其可能，即只有有限数量（例如，<30）的蛋白质表现出这种模式。在重新分析之前，重新检查蛋白质定量基质的输入文件，并找到几种符合该重要共表达模式的阳性对照蛋白。
3. 要拯救小聚类，请减小 最小聚类大小 （例如，10;小于 10 的聚类大小可能不可靠，因此不建议这样做），并减少 最小聚类距离 （例如，0.1;此处也允许设置为 0，这意味着将跳过自动聚类合并）。
4. 使用更新的参数执行共表达聚类步骤后，首先检查是否从 共表达模式图中拯救了该簇，然后通过从 详细蛋白质定量 中搜索其蛋白质种质来检查阳性对照（确保在搜索之前从左侧下拉小部件中选择适当的共表达簇）。
  注意：可能需要多次迭代参数调整和重新运行才能进行救援。
5. 如果有太多的蛋白质无法分配给任何簇，请按照步骤4.4.6-4.4.7进行操作。
  注意：通常，一小部分（通常为<10%）的蛋白质可能不会被分配到任何簇，因为这些蛋白质可能是不遵循数据集的任何常见表达模式的异常值蛋白质。然而，如果该百分比显著（例如，>30%），则表明存在其他不可忽视的共表达模式。
6. 同时减小 “最小聚类大小”和 “最小聚类距离”参数，以通过检测“新”共表达聚类来缓解这种情况。
7. 此外，降低 最小皮尔逊相关（kME） 参数以缩小这些“NA簇”蛋白。
  注意：调整此参数不会生成新的簇，而是通过接受阈值较低的更多以前失败的蛋白质来增加“现有”簇的大小;然而，这也将增加每个簇的异质性，因为现在允许更多嘈杂的蛋白质。
8. 两个集群的模式差异非常小;按照步骤 4.4.9-4.4.11 将它们合并到一个群集中。
9. 增加 最小聚类距离参数以解决问题。
10. 但是，在某些情况下，算法可能永远不会返回所需的模式;在这样的时刻，手动调整或编辑文件中的集群成员资格，co_exp_clusters_3colums.txt（步骤4.3中的文件）进行合并。
11. 将经过编辑后的文件作为下游 PPI 网络分析的输入。在手动编辑的情况下，请证明聚类分配的标准，并记录手动编辑的过程。

5. 蛋白质-蛋白质相互作用网络分析

注意：通过将共表达簇叠加到 PPI 网络上，每个共表达簇进一步分层为更小的 PPI 模块。对每个共表达簇进行分析，包括两个阶段：在第一阶段，JUMPn将共表达簇中的蛋白质叠加到PPI网络上，并找到所有连接的组分（即，连接节点/蛋白质的多个簇;例如，参见 图6A）;然后，将使用拓扑重叠矩阵（TOM）方法⁵²迭代地检测每个连接组件的社区或模块（密集连接的节点）。

配置 PPI 网络分析的参数（图 3，右面板）。
1. 将 最小 PPI 模块大小 设置为 2。此参数定义第一阶段分析中断开连接的组件的最小尺寸。任何小于指定参数的组件都将从最终结果中删除。
2. 将 最大 PPI 模块大小 设置为 40。通过此阈值的大型断开连接组件将进行基于 TOM 的第二阶段分析。第二阶段的分析将进一步将每个大组件拆分为更小的模块：每个模块可能包含比原始组件作为一个整体更密集连接的蛋白质。
启动分析。提交 PPI 网络分析的方法有两种：
1. 点击 “提交 JUMPn 分析 ”按钮，默认在 WGCNA 分析之后自动执行 PPI 分析。
2. 或者，上传自定义的共表达聚类结果，并按照步骤 5.2.3-5.2.5 执行 仅 PPI 分析。
3. 按照文件的格式准备输入文件co_exp_clusters_3colums.txt（请参阅第 4.4 小节）。
4. 单击“开始分析”页面底部的“高级参数”按钮;将弹出一个新的参数窗口。在上一个会话上传“仅PPI”分析的共表达式聚类结果中，单击浏览器以上传步骤5.2.3准备的输入文件。
5. 在底部微件 的“选择分析模式”中，选择“ 仅 PPI”， 然后单击“ 关闭 ”以继续。在 “开始分析” 页上，单击“ 提交 JUMPn 分析” 按钮。
分析完成后（通常为<3分钟），检查步骤2.10-2.15所示的PPI结果（图6）。
可选高级步骤）通过调整参数来调整 PPI 模块化：
1. 增加 最大模块大小 参数以允许 PPI 结果中包含更多蛋白质。按照步骤 5.4.2-5.4.3 上传自定义的 PPI 网络以涵盖未记录的交互。
2. 单击“开始分析”页面底部的“高级参数”按钮;将弹出一个新的参数窗口。准备自定义的PPI文件，其中包含三列，格式为，C;这里由每种蛋白质的官方基因名称表示。
3. 在 “上载 PPI 数据库”中，单击“ 浏览 ”按钮以上载自定义的 PPI 文件。

6. 通路富集分析

注意：其中共表达簇和 PPI 模块的 JUMPn 派生分层结构使用 Fisher 的精确测试，使用过度表示的途径自动注释。使用的途径/拓扑数据库包括Gene Ontology（GO），KEGG，Hallmark和Reactome。用户可以使用高级选项上传用于分析的定制数据库（例如，在分析来自非人类物种的数据的情况下）。

默认情况下，通路富集分析通过共表达聚类和 PPI 网络分析自动启动。
查看通路富集结果：
1. 按照步骤 2.7、2.12 和 2.15 在结果页面上可视化不同的格式。在综合摘要表.xlsx文件中的电子表格发布表中查看详细结果（步骤 2.16）。
（可选高级步骤）上传用于通路富集分析的定制数据库：
1. 准备基因背景文件，该文件通常包含一个物种所有基因的官方基因名称。
2. 按照步骤 6.3.3-6.3.4 准备本体库文件。
3. 从公共网站下载本体库文件，包括 EnrichR⁵³ 和 MSigDB⁵⁴。例如，从EnrichR网站⁵⁵下载果蝇的本体。
4. 使用两列编辑所需格式的下载文件：途径名称作为第一列，然后官方基因符号（由“/”分隔）作为第二列。详细的文件格式在 JUMPn R 闪亮软件 的帮助 页面中进行了描述。
  注意：在 JUMPn GitHub 站点⁵⁶ 中查找基因背景和本体文库（以果蝇为实例）的示例文件。
5. 单击“开始分析”页面底部的“ 高级参数 ”按钮;将弹出一个新的参数窗口。
6. 找到 “上传路径富集分析”项的后台文件 ，然后单击 “浏览器 ”以上传在步骤 6.3.1 中准备的后台文件。然后在会话中， 选择要用于途径富集分析的背景，单击 “用户提供的背景”。
7. 查找 “上传本体库文件以进行通路富集分析” 项目，然后单击 “浏览器 ”以上传在步骤 6.3.2-6.3.4 中准备的本体库文件。然后在会话中， 选择“用于路径扩充分析的数据库”，单击“ 用户提供的.xlsx格式的数据库”。
单击右下角的 提交 JUMPn 分析 按钮，使用自定义数据库启动分析。

7. 大样本量数据集分析

注意：JUMPn 支持分析具有大样本量的数据集（测试的样本多达 200 个）。为了便于大样本量的可视化，需要一个指定样本组的附加文件（名为“meta file”）来促进共表达聚类结果的显示。

准备并上传元文件。
1. 按照步骤 7.1.2-7.1.3 为每个样本准备指定组信息（例如，对照组和疾病组）的 meta 文件。
2. 确保meta文件至少包含两列：列1必须包含与蛋白质定量基质文件中的列名称和顺序相同的样品名称和顺序（如步骤3.3中准备的那样）;第 2 列以后将用于用户定义的任意数量要素的组分配。列数是灵活的。
3. 确保元文件的第一行包含每列的列名;从第二行开始，应列出组的单个样本信息或其他特征（例如，性别，年龄，治疗等）。
4. 通过单击“开始分析”页面底部的“高级参数”按钮上传元文件;将弹出一个新的参数窗口。继续执行步骤 7.1.5
5. 找到 上传元文件 项目，然后单击 浏览器 上传背景文件。如果 JUMPn 检测到意外的格式或不匹配的示例名称，则会弹出一条错误消息，以便进一步格式化元文件（步骤 7.1.1-7.1.3）。
调整共表达聚类分析的参数：将 最小皮尔逊相关设置为 0.2。由于样本量较大，因此需要放宽此参数。
单击右下角的“ 提交 JUMPn 分析 ”按钮以提交分析。
查看分析结果：除了显示共表达聚类模式外，所有数据输出都相同。
1. 在 结果页面 1：WGCNA 输出 页面中，将共表达聚类可视化为箱线图，其中的样本由用户定义的样本组或要素分层。图中的每个点都表示由 WGCNA 算法计算的特征基因（即聚类的共识模式）。
2. 如果用户提供了多个特征（例如，年龄、性别、治疗等）对样本进行分组，请单击 “选择表达式格式 ”下拉框以选择其他要素对样本进行分组。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

我们使用已发布的深度蛋白质组学数据集²⁵^、²⁶^、²⁷^、³⁰ （图 5 和 图 6）以及数据模拟⁵⁷ （表 1）来优化和评估 JUMPn 性能。对于通过WGCNA进行的共表达蛋白聚类分析，我们建议使用样品之间显着变化的蛋白质作为输入（例如，通过统计分析检测到的差异表达（DE）蛋白）。虽然将非DE蛋白包含在分析中可能会导致程序返回更多的共表达簇（由于输入尺寸较大），但我们假设将真实信号（例如DE蛋白）与背景（剩余的非DE）混合以进行系统级分析可能会稀释信号并掩盖底层网络结构。为了验证这一点，在两种不同的条件下进行模拟分析：i）高动态蛋白质组（例如，T细胞活化^25中50%的改变）和ii）相对稳定的蛋白质组（例如，2%的蛋白质组在AD²⁶中发生变化）。对于高动态蛋白质组，从50%蛋白质组模拟了六个共表达簇，这些簇的大小和表达模式（即特征基因）与我们发表的结果相同²⁵.同样，对于相对稳定的蛋白质组，我们在最近的AD蛋白质组学研究²⁶之后模拟了来自2%蛋白质组的三个簇。正如预期的那样，增加蛋白质的输入数量会增加检测到的簇的数量（表1）。对于高动态蛋白质组，使用所有蛋白质作为输入可以捕获大多数真实簇（6个模拟真实簇中的5个;83%的召回率）的精度为63%（返回的簇中有5个是真阳性;即，其余3个簇是假阳性）。然而，对于相对稳定的蛋白质组，增加非DE蛋白的输入尺寸会大大降低精度（表1）。例如，使用整个蛋白质组作为输入，检测到169个模块，其中只有2个是正确的（1.2%的精度;其余98.8%检测到的模块是假阳性）。因此，这些结果表明，仅选择变化的蛋白质组作为输入将提高共表达分析的精度，特别是对于相对稳定的蛋白质组。

在检测共表达蛋白簇后，每个簇将由JUMPn使用途径富集分析进行注释（图1）。当前版本包括四个常用的通路数据库，包括Gene Ontology（GO），KEGG，Hallmark和Reactome。用户还可以以GMT格式⁵⁴编译自己的数据库，这些数据库可以上传到JUMPn中。集成多个数据库进行通路富集分析可以提供更全面的视图;然而，不同途径数据库的大小差异很大，这可能会对某些（特别是大型）数据库产生不必要的偏差。JUMPn 中提供了两种解决方案。首先，使用统计方法，通过Benjamini-Hochberg方法⁵⁸调整（或惩罚）多假设检验的名义p值，与小型数据库相比，更大的数据库需要更显着的名义p值才能达到相同的调整p水平。其次，JUMPn 分别突出显示 了每个 数据库的顶部显著富集路径，因此始终显示特定于数据库的顶部富集路径。

与途径富集分析类似，通过结合STRING⁵⁹^，60，BioPlex⁶¹^，⁶²和InWeb_IM⁶³数据库来编译复合PPI网络。BioPlex数据库是使用亲和力纯化，然后在人类细胞系中进行质谱分析创建的，而STRING和InWeb包含来自各种来源的信息。因此，STRING和InWeb数据库进一步按边缘分数进行过滤，以确保高质量，截止值由最适合无刻度标准²⁴确定。最终合并的PPI网络覆盖了超过20，000个具有约1，100，000个边缘的人类基因（表2）。这个全面的相互作用单元与我们的 JUMPn 软件一起包含在一个捆绑包中，用于敏感的 PPI 分析。

分析完成后，JUMPn 将生成发布表电子表格文件 ComprehensiveSummaryTables.xlsx，该文件由三个单独的工作表组成。第一张纸包含共表达蛋白簇的结果，每行一个蛋白：第一列指示每个输入蛋白的簇成员身份，其余列从用户输入文件中复制，该文件包含蛋白加入、基因名称、蛋白描述和单个样品的定量。第二张表包含通路富集分析的结果，显示了每个共表达簇中富集的重要通路。该表首先按不同的通路数据库进行组织，然后按共表达簇、功能通路、通路基因总数、单个簇中的基因总数、重叠的基因数和名称、富集折叠、Fisher精确测试导出的P值和Benjamini-Hochberg错误发现率进行排序。第三张表包含每行一个PPI模块的PPI模块分析结果;其列包括模块名称（由其共表达成员资格和模块ID定义，例如 ，Cluster1_Module1），映射的蛋白质和数字，以及通过根据途径数据库搜索模块蛋白质来定义的功能途径。

图 1：JUMPn 的工作流程。 将差异表达（DE）蛋白的顶级变量的定量基质作为输入，并通过WCCNA算法将蛋白质分组为共表达簇。然后通过途径富集分析对每个共表达进行注释，并进一步叠加到蛋白质 - 蛋白质相互作用（PPI）网络上，以进行密集连接的蛋白质模块鉴定。请点击此处查看此图的大图。

图 2：JUMPn 欢迎页面。请单击此处查看此图的放大版本。

图 3：JUMPn 的输入页。 该页面包括分别用于共表达聚类和 PPI 网络分析的输入文件上传面板和参数配置面板。请点击此处查看此图的大图。

图4：量化矩阵的示例输入文件。色谱柱包括蛋白质加入（或任何唯一ID），GN（官方基因符号），蛋白质描述（或任何用户提供的信息），然后是单个样品的蛋白质定量。请点击此处查看此图的大图。

图 5：JUMPn 报告的共表达聚类结果。 图中显示了共表达聚类模式（A），跨簇的顶部富集通路热图（B）以及每个簇的详细蛋白质丰度（C）。用户可以选择各种显示选项，并通过选择框在不同的集群之间导航。请点击此处查看此图的大图。

图 6：JUMPn 报告的 PPI 网络分析结果。 图中显示了全局模块间网络（A），然后是单个模块（B）及其显着丰富的路径（C）的子网。用户可以选择各种显示选项，并通过选择框在不同的集群和模块之间导航。请点击此处查看此图的大图。

用于分析的顶级蛋白质百分比	# 模拟模块	# 检测到的模块	# 重新捕获的模块¹	精度²	召回³
高动态蛋白质组（例如，在T细胞活化期间）：来自50%蛋白质组的6个模拟模块
2	6	2	2	1	0.33
5	6	2	2	1	0.33
10	6	3	3	1	0.5
20	6	4	4	1	0.67
50	6	6	6	1	1
100	6	8	5	0.63	0.83
相对稳定的蛋白质组（例如，在 AD 发病机制期间）：来自 2% 蛋白质组的 3 个模拟模块
1	3	1	1	1	0.33
2	3	3	3	1	1
5	3	8	3	0.38	1
10	3	13	3	0.23	1
20	3	19	3	0.16	1
50	3	71	2	0.03	0.67
100	3	169	2	0.01	0.67
^{1 个}重新捕获的模块是检测到的模块，其特征根与模拟特征征之一高度相关（Pearson R > 0.95）。
²精度 = # 重新捕获的模块 / # 检测到的模块
³次召回 = # 重新捕获的模块 / # 模拟的模块

表1：共表达聚类检测的模拟研究。

PPI 网络	不。节点数	不。边缘数
BioPlex 3.0 组合（293T+HCT116）	14,551	1,67,399
InBio_Map_core_2016_09_12	17,429	6,08,166
字符串（v11.0）	18,954	5,87,482
复合 PPI 网络	20,485	11,52,607

表2：人类蛋白质- 蛋白质相互作用（PPI）网络的统计数据。 PPI 网络按边缘分数进行过滤，以确保高质量，分数截止值由最适合无标度标准确定。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

在这里，我们介绍了我们的JUMPn软件及其协议，它们已应用于多个项目中，使用深度定量蛋白质组学数据^25，26^，²⁷^，³⁰^，⁶⁴解剖分子机制。JUMPn软件和实验方案已经过全面优化，包括考虑用于共表达网络分析的DE蛋白，综合和高质量PPI网络的汇编，严格的统计分析（例如，通过考虑多个假设检验）以及简化和用户友好的界面。JUMPn鉴定的多种蛋白质模块已通过功能实验研究²⁵^，²⁷或独立患者队列²⁶的验证，证明了JUMPn是鉴定不同生物过程下的关键分子和途径的有效工具。

该协议的关键步骤包括生成共表达簇和PPI模块的最优结果，这可能需要多次迭代参数调整，以及上传定制的PPI网络。在我们的实验方案中，我们讨论了常见的实际场景，包括如何处理重要簇的缺失，高百分比的未分配蛋白质，两个冗余簇的合并以及PPI模块中重要蛋白质的缺失。我们建议用户制备几种阳性对照蛋白，并确认它们在最终共表达簇中的存在。有时，由于PPI网络数据库不完整，最终的PPI模块中永远不会包含阳性对照。为了部分缓解这种情况，我们更新了我们的PPI网络，使用了最新版本的BioPlex V3⁶² 和STRING V11⁶⁰。此外，JUMPn允许用户上传定制的PPI网络。例如，使用重要的阳性对照蛋白作为诱饵的亲和纯化质谱（AP-MS）实验衍生的新型相互作用可以与当前的复合PPI网络集成以进行更定制的分析。

通过使用每个共表达蛋白簇的途径富集分析框架，可以扩展JUMPn以推断转录因子（TF）活性。假设是，如果在共表达簇中存在特定TF的靶基因的过度表示（即，这些靶标差异表达并遵循相同的表达模式），则该TF的活性可能会在实验条件下改变，因为其靶蛋白丰度一致地变化。从技术上讲，这可以通过JUMPn简单地实现，方法是用TF-target数据库替换当前的路径数据库（例如，来自ENCODE项目⁶⁵）。同样，激酶活性也可以通过利用激酶 - 底物数据库，以深层磷酸蛋白质组学作为输入来推断。作为一个例子，我们成功地鉴定了失调的TF和激酶，这些突变体是脑肿瘤发病机制^64的基础。事实上，使用网络方法进行活动推断已经成为识别人类疾病失调驱动因素的强大方法⁶⁶^，⁶⁷。

JUMPn 软件可轻松应用于各种数据类型。尽管使用同位异位标记定量蛋白质组作为说明性示例，但相同的方案也适用于无标记定量蛋白质组学数据，以及全基因组表达谱（例如，通过RNA-seq或微阵列定量;请参阅我们最近将JUMPn应用于基因和蛋白质表达谱的示例²⁷）。JUMPn也可以采用磷酸化蛋白质组学数据来鉴定共表达的磷酸盐，然后进行激酶活性推断²⁵。此外，由AP-MS方法生成的相互作用组数据也将是合适的，通过该方法，遵循相似的诱饵相互作用强度和化学计量的猎物蛋白将形成共表达簇，并进一步与已知的PPI重叠以进行数据解释⁶⁸。

当前版本的 JUMPn 存在一些限制。首先，安装过程是基于命令行的，需要计算机科学的基本知识。这阻碍了JUMPn的更广泛使用，特别是对于没有计算背景的生物学家。更理想的实现是在联机服务器上发布 JUMPn。其次，目前的数据库以人为中心，因为我们专注于人类疾病研究。请注意，JUMPn还使用这种以人为中心的数据库²⁵^，²⁷分析了小鼠生成的蛋白质组学数据，假设大多数PPI在两个物种中都是保守的⁶⁹^，⁷⁰。这种方法不会捕获小鼠特异性信号，但在这些人类研究中不感兴趣。但是，对于非哺乳动物模型系统（例如斑马鱼，苍蝇或酵母），应使用高级选项准备特定于物种的数据库并将其上传到JUMPn。其他物种的资源可以通过未来的JUMPn释放提供。第三，本体/通路分析的当前步骤需要花费大量时间，可以通过并行计算进一步优化。

总之，我们提出了JUMPn软件和协议，用于探索定量蛋白质组学数据，以通过系统生物学方法识别和可视化共表达和潜在的物理相互作用的蛋白质模块。将JUMPn与其他⁵³^，⁷¹，⁷²区分开来的关键特征包括：（i）JUMPn集成并简化了通路和网络分析的四个主要组成部分（图1）;（ii）与大多数以简单的基因列表作为输入的途径分析软件不同，JUMPn从量化矩阵开始，通过该矩阵，定量信息可以与文献记录的途径和网络无缝集成;（iii）共表达蛋白簇和相互作用模块均按已知途径自动注释，并使用用户友好的网络浏览器通过R/Shiny相互作用平台进行可视化;（四）最后结果分为三个表格，这些表格随时可以Excel格式发布。因此，我们预计JUMPn和该协议将广泛适用于许多使用定量蛋白质组学数据进行解剖机制的研究。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

作者没有什么可透露的。

Acknowledgments

美国国立卫生研究院（NIH）（R01AG047928，R01AG053987，RF1AG064909，RF1AG068581和U54NS110435）和ALSAC（美国黎巴嫩叙利亚联合慈善机构）提供了资金支持。MS分析在圣裘德儿童研究医院的蛋白质组学和代谢组学中心进行，该中心由NIH癌症中心支持补助金（P30CA021765）部分支持。内容完全由作者负责，并不一定代表美国国立卫生研究院的官方观点。

Materials

Name	Company	Catalog Number	Comments
MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7.	Apple Inc.	MacBook Pro 13''	Hardware used for software development and testing
Anoconda	Anaconda, Inc.	version 4.9.2	https://docs.anaconda.com/anaconda/install/
miniconda	Anaconda, Inc.	version 4.9.2	https://docs.conda.io/en/latest/miniconda.html
RStudio	RStudio Public-benefit corporation	version 4.0.3	https://www.rstudio.com/products/rstudio/download/
Shiny Server	RStudio Public-benefit corporation		https://shiny.rstudio.com/articles/shinyapps.html