Cancer Research

用相似有效的二元分类性能选择多个生物标记子集

Published: October 11, 2018 doi: 10.3791/57738

Xin Feng¹, Shaofei Wang¹, Quewang Liu¹, Han Li², Jiamei Liu², Cheng Xu², Weifeng Yang², Yayun Shu², Weiwei Zheng¹, Bingxin Yu³, Mingran Qi⁴, Wenyang Zhou¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²College of Software, Jilin University, ³Ultrasonography Department, China-Japan Union Hospital of Jilin University, ⁴Department of Pathogenobiology, College of Basic Medical Science, Jilin University

Summary

现有算法为生物标志物检测数据集生成一个解决方案。该协议演示了多个类似的有效解决方案的存在, 并提供了一个用户友好的软件, 以帮助生物医学研究人员调查其数据集的建议的挑战。计算机科学家也可以在他们的生物标志物检测算法中提供这一特性。

Abstract

生物标志物检测是高通量 "组学" 研究人员最重要的生物医学问题之一, 几乎所有现有的生物标志物检测算法都能通过对给定数据集的优化性能测量来生成一个生物标记子集。.然而, 最近的一项研究表明, 有多个生物标志物子集具有相似的有效甚至相同的分类性能。该协议提供了一种简单明了的方法, 用于检测具有二进制分类性能的生物标记子集, 优于用户定义的截止。该协议包括数据准备和加载、基线信息汇总、参数调整、生物标志物筛选、结果可视化和解释、生物标记基因注释、结果和可视化输出出版质量。所提出的生物标志物筛选策略是直观的, 并证明了开发生物标志物检测算法的一般规则。使用编程语言 Python 开发了用户友好的图形用户界面 (GUI), 使生物医学研究人员能够直接访问其结果。kSolutionVis 的源代码和手册可以从 http://www.healthinformaticslab.org/supp/resources.php 下载。

Introduction

二进制分类是生物医学领域中最常见、最具挑战性的数据挖掘问题之一, 用于构建对两组样本进行培训的分类模型, 其中最精确的判别功率为¹^,²^,³^,⁴^,⁵^,⁶^,⁷. 然而, 生物医学领域产生的大数据具有固有的 "大 p 小 n" 范式, 其特征数通常远远大于样本⁶^、⁸^、⁹的数量。因此, 生物医学研究人员必须在使用分类算法之前减少特征维度, 以避免过度拟合问题⁸^,⁹。诊断生物标志物被定义为从健康对照样本¹⁰^,¹¹分离某一疾病患者的检测特征的子集。患者通常被定义为阳性样本, 健康控制被定义为阴性样本¹²。

最近的研究表明, 生物医学数据集⁵具有相同或类似有效的分类性能的一个以上的解决方案。几乎所有的特征选择算法都是确定性算法, 只为同一数据集生成一个解决方案。遗传算法可以同时生成具有类似性能的多个解决方案, 但他们仍然尝试选择一个具有最佳健身功能的解决方案, 作为给定数据集¹³^、¹⁴的输出。

特征选择算法可以大致分组为过滤器或包装¹²。筛选器算法根据要素相互独立的假设, 选择与二进制类标签的重要个人关联排名的顶级k要素¹⁵^、¹⁶^、¹⁷.尽管此假设对于几乎所有实际数据集都不适用, 但启发式筛选规则在许多情况下都很好地执行, 例如, mRMR (最小冗余和最大相关性) 算法、基于魏氏测试的功能筛选 (WRank)算法, 以及 ROC (接收机操作特性) 基于图的滤波 (ROCRank) 算法。mRMR 是一种有效的滤波算法, 因为它近似于一系列较小问题的组合估计问题, 与最大依赖特征选择算法相比, 其中每一个只涉及两个变量,因此使用更健壮的¹⁸^、¹⁹的成对联合概率。但是, mRMR 可能低估某些功能的用处, 因为它不测量可以增加相关性的要素之间的交互, 因此错过了一些单独无用但仅在组合时有用的要素组合。WRank 算法计算一个非参数分数, 说明特征在两类样本之间的判别方式, 并以其对异常值²⁰^、²¹的鲁棒性而著称。此外, ROCRank 算法评估特定特征的 ROC 曲线 (AUC) 下的区域对于调查的二进制分类性能²²^、²³的重要性。

另一方面, 包装器会评估给定要素子集的预定义分类程序的性能, 并通过启发式规则迭代生成, 并使用最佳性能测量²⁴创建特征子集。包装通常优于分类性能中的过滤器, 但运行速度较慢²⁵。例如, 正则随机林 (RRF)²⁶^、²⁷算法使用贪婪规则, 方法是在每个随机林节点上评估训练数据子集上的要素, 其要素重要性分数由基尼索引评估.如果其信息增益不能提高所选要素的性能, 则选择新特征将受到惩罚。此外, 微阵列 (PAM)²⁸^、²⁹算法的预测分析, 还有一个包装算法, 计算每个类标签的质心, 然后选择特征, 以缩小基因质心向整体类质心。PAM 具有强大的外围功能。

对于任何给定数据集, 可能需要具有顶级分类性能的多个解决方案。首先, 确定算法的优化目标是由一个数学公式定义的,例如最小误差率³⁰, 这不一定是生物样本的理想选择。其次, 数据集可能具有多个、显著不同的解决方案, 具有类似的有效或甚至相同的性能。几乎所有现有的特征选择算法都将随机选择其中一个解决方案作为输出³¹。

本研究将介绍一种信息分析协议, 用于为任何给定的二进制分类数据集生成具有相似性能的多特征选择解。考虑到大多数生物医学研究人员不熟悉地学信息技术或计算机编码, 开发了一个用户友好的图形用户界面 (GUI), 以便快速分析生物医学二进制分类数据集。分析协议包括数据加载和汇总、参数调整、管道执行和结果解释。通过简单的单击, 研究人员能够生成生物标记子集和出版物质量可视化图。该协议已通过转录两个二进制分类数据集的急性淋巴细胞白血病 (ALL),即ALL1 和 ALL2¹²进行了测试。ALL1 和 ALL2 的数据集是从 http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi 的广泛的研究所基因组数据分析中心下载的。ALL1 包含128个具有12625个特征的样本。这些样本中, 95 是 B 细胞全部, 33 是 T 细胞。ALL2 还包括100个具有12625个功能的样本。在这些样本中, 有65例患者复发和35例没有。ALL1 是一个简单的二进制分类数据集, 最小精度为四个过滤器和四个包装为 96.7%, 6 的8功能选择算法实现 100%¹²。虽然 ALL2 是一个比较困难的数据集, 但上面的8个特征选择算法达到了83.7% 精度¹²。通过封装算法检测到的56特性、基于相关性的特征选择 (CFS), 实现了最佳精度。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

注: 以下协议描述了主要模块的信息学分析程序和伪代码的详细信息。自动分析系统是使用 python 版本3.6.0 和 python 模块 (熊猫、abc、numpy、scipy、sklearn、sys、PyQt5、sys、mRMR、数学和 matplotlib) 开发的。本研究中使用的材料列在材料表中。

1. 准备数据矩阵和类标签

将数据矩阵文件作为制表符或逗号分隔的矩阵文件进行准备, 如图 1A所示。
注: 每一行都有要素的所有值, 第一项是要素名称。特征是基于微阵列的转录组数据集的 probeset id, 或者可能是另一个值 id, 如半胱氨酸残留及其在 methylomic 数据集中的甲基化值。每个列提供给定示例的要素值, 第一个项目是示例名称。一行由制表符 (图 1B) 或逗号 (图 1C) 分隔成列。制表符分隔的矩阵文件由文件扩展名. tsv 识别, 逗号分隔的矩阵文件具有扩展名. csv。此文件可能是通过将矩阵保存为. tsv 或. csv 格式的软件 (如 Microsoft Excel) 生成的。数据矩阵也可以通过计算机编码生成。
准备类标签文件作为制表符或逗号分隔的矩阵文件 (图 1D), 类似于数据矩阵文件。
注意: 第一列提供了示例名称, 每个示例的类标签都在标题为class的列中给出。在编码过程中考虑最大兼容性, 以便可以添加其他列。类标签文件可以格式化为. tsv 或. csv 文件。列类中的名称可以是任何术语, 并且可能有两个以上的示例类。用户可以选择任意两个类进行以下分析。

2. 加载数据矩阵和类标签

将数据矩阵和类标签加载到软件中。单击按钮加载数据矩阵以选择用户指定的数据矩阵文件。单击按钮加载类标签以选择相应的类标签文件。
注意: 两个文件加载后, kSolutionVis 将执行常规屏幕的兼容性两个文件。
从数据矩阵文件中汇总特征和样本。估计数据矩阵文件的大小。
从类标签文件中汇总示例和类。估计类标签文件的大小。
测试数据矩阵中的每个样本是否具有类标签。使用类标签汇总示例的编号。

3. 汇总和显示数据集的基线统计信息

单击 "汇总" 按钮, 无需任何指定的关键字输入, 软件将显示20索引要素和相应要素名称。
注意: 用户需要指定他们希望查找的功能名称, 以查看其基线统计信息和所有输入样本之间的相应值分布。
在文本框功能中提供关键字,例如"1000_at", 以查找要汇总的特定功能。单击 "汇总" 按钮以获取此给定要素的基线统计信息。
注意: 关键字可能出现在目标要素名称的任何位置, 方便用户搜索过程。
单击 "汇总" 以使用给定的关键字查找多个要素, 然后指定唯一功能 ID 以继续执行上述步骤总结一个特定要素。

4. 确定类标签和排名最高的要素数

在下拉框类中选择正数 ("P (33)") 和负数 ("N (95)") 类, 如图 2 (中间) 所示.
注意: 建议选择平衡的二进制分类数据集,即阳性和阴性样本数之间的差异极小。在两个下拉框中的每个类标签的名称之后, 还会在括号中给出样本数。
在下拉框Top_X (？)中, 选择10作为顶排要素 (参数pTopX) 的数量。功能子集的全面屏幕。
注: 软件会自动将所有要素按由每个要素的 t-检验计算的P值进行排序, 比较正负类。具有较小P值的特征在两类样本之间具有更好的辨别力。全面的筛选模块是计算密集型的。默认情况下, 参数pTopX为10。用户可以更改此参数的范围为10到 50, 直到他们找到满意的特征子集具有良好的分类性能。

5. 调整不同性能的系统参数

在所选分类器极限学习机 (榆木) 的下拉框中, 选择性能测量 (pMeasurement) 精度 (acc) bAcc (？) 。此参数的另一个选项是测量平衡精度 (bAcc)。
注意: 让 TP、FN、TN 和 FP 分别是真实阳性、假阴性、真底片和误报的数量。测量Acc是定义为 (tp + tn)/(tp + FN + TN + FP), 它最适用于平衡数据集⁶。但是, 对于Acc进行优化的分类器往往会将所有样本分配给负类, 如果负样本的数量远远大于正的样品。bAcc定义为 (sn + Sp)/2, 其中 sn = TP/(TP + FN) 和 Sp = tn/(tn + FP) 是正确预测的阳性和阴性样品的费率, 分别。因此, bAcc 对两个类的预测性能进行规范化, 并可能导致两个不平衡类的预测性能平衡。Acc是pMeasurement的默认选择。软件默认使用分类器榆木来计算分类性能。用户还可以从 SVM (支持向量机)、KNN (k 最近邻)、决策树或幼稚贝叶斯选择分类器。
在输入框pCutoff:中为指定的性能测量选择截止值 0.70 (参数pCutoff)。
注意: Acc和bAcc范围介于0和1之间, 用户可以指定一个值 pCutoff[0, 1] 作为截止显示匹配的解决方案。该软件进行了全面的功能子集筛选, pCutoff的适当选择将使3D 可视化更加直观和明确。pCutoff的默认值为0.70。

6. 运行管道并生成交互式可视化结果

单击 "分析" 以运行管道并生成可视化图, 如图 2 (底部) 所示。
注意: 左表提供了所有的要素子集及其pMeasurement , 由分类器榆木的10倍交叉验证策略计算, 如前⁵所述。使用当前参数设置为特征子集筛选过程生成两个3D 散点图和两行图解。
选择0.70 作为pMeasurement截止 (参数piCutoff、输入框值) 和10作为最佳要素子集 (参数piFSNum) 数量的默认值。
注意: 管道是使用参数pTopX、 pMeasurement和pCutoff执行的。检测到的要素子集可以使用截止piCutoff进一步筛选, 但是piCutoff不能小于pCutoff。因此, piCutoff初始化为pCutoff , 只有性能测量≥ piCutoff的要素子集才会被可视化。piCutoff的默认值为pCutoff。有时 kSolutionVis 检测到许多解决方案, 并且只有最佳piFSNum (默认值:10) 功能子集将被可视化。如果软件检测到的要素子集的数量小于piFSNum, 则所有要素子集都将可视化。
收集和解释软件检测到的功能, 如图 3所示。
注: 左框中的表显示检测到的要素子集及其性能测量值。前三列的名称为 "F1"、"F2" 和 "F3"。每个要素子集中的三要素都按其在一行中的排名顺序 (F1 < F2 < F3) 提供。最后一列提供了每个要素子集的性能测量 (acc或bAcc), 其列名 (acc或bAcc) 是pMeasurement的值。

7. 解释3D 散点图-使用3D 散点图可视化和解释具有相似有效二进制分类性能的特征子集

单击该按钮分析, 生成由软件检测到的最佳分类性能 (Acc或bAcc) 的前10个要素子集的3D 散点图, 如图 3 (中间框) 所示。按秩的升序对要素子集中的三要素进行排序, 并使用三要素的秩作为 F1/F2/F3 轴,即F1 < F2 < F3。
注: 点的颜色表示相应要素子集的二进制分类性能。数据集可能具有具有类似有效性能测量的多个要素子集。因此, 需要一个交互式和简化的散点图。
将值更改为0.70 在输入框pCutoff:并单击按钮分析以生成3D 散点图的要素子集与性能测量≥ piCutoff, 如图 3 (右框) 中所示。单击按钮3D 调整以打开一个新窗口, 手动调整3D 散点图的查看角度。
注: 每个要素子集的表示方式与上面的点相同。3D 散点图是以默认角度生成的。为便于3D 可视化和调谐, 可通过单击按钮3D 调整来打开一个单独的窗口。
单击该按钮减少以减少检测到的要素子集的冗余。
注意: 如果用户希望进一步选择功能三胞胎并最小化要素子集的冗余, 软件还会使用 mRMR 特征选择算法提供此功能。单击 "减少" 按钮后, kSolutionVis 将删除功能三胞胎中的这些冗余功能, 并重新生成表和上面提到的两个散点图。特征三胞胎的移除特征将替换为表中的关键字。F1/F2/F3 轴中无的值将被表示为piFSNum的值 (F1/F2/F3 的法线值的范围是 [1, top_x])。因此, 包含None值的点可能在3D 图中显示为 "异常点"。手动调谐的3D 图解可以在补充材料中的 "3D 点图的手动调谐" 中找到。

8. 查找基因注解及其与人类疾病的关联

注: 步骤8至10将说明如何从 DNA 和蛋白质的序列水平对基因进行注释。首先, 从³²的数据库中检索上述步骤中每个生物标志物 ID 的基因符号, 然后将两个代表的 web 服务器分别用于从 DNA 和蛋白质的层次分析这个基因符号。服务器 GeneCard 提供了一个给定基因符号的全面功能注释, 而人类数据库中的在线孟德尔遗传 (OMIM) 提供了疾病-基因关联的最全面的组织。服务器 UniProtKB 是最全面的蛋白质数据库之一, 基于服务器组的预测系统 (GPS) 预测信号磷酸化是一个非常大的激酶列表。

将数据库 DAVID 的 web 链接复制并粘贴到 web 浏览器中, 然后打开该数据库的网页。单击图 4A中所示的链接基因 id 转换, 并输入数据集 ALL1 的第一个生物标记子集的特征 id 38319_at/38147_at/33238_at (图 4B)。单击链接基因列表, 然后单击提交列表, 如图 4B所示。检索感兴趣的注释, 然后单击显示基因列表(图 4C)。获取基因符号列表 (图 4D).
注: 此处检索的基因符号将用于后续步骤中的进一步功能注释。
将数据库基因卡的 web 链接复制并粘贴到 web 浏览器中, 然后打开该数据库的网页。在数据库查询输入框中搜索基因名称 CD3D, 并从基因卡³³^、³⁴中查找该基因的注释, 如表 1和图 5A所示。
注: 基因卡是一个综合性的基因知识库, 提供命名、基因组学、蛋白质组学、亚细胞定位以及相关通路和其他功能模块。它还提供外部链接到各种其他生物医学数据库, 如 PDB/PDB_REDO³⁵、Entrez 基因³⁶、OMIM³⁷和 UniProtKB³⁸。如果要素名称不是标准基因符号, 请使用数据库 ENSEMBL 将其转换为³⁹。CD3D 是基因 T 细胞受体 T3 三角洲链的名称。
将数据库 OMIM 的 web 链接复制并粘贴到 web 浏览器中, 然后打开该数据库的网页。搜索一个基因的名字 CD3D, 并找到这个基因的注释从数据库 OMIM³⁷, 如表 1和图 5B所示。
注意: OMIM 现在作为人类基因与可遗传疾病的联系的最全面和权威性的来源之一。OMIM 是由维克多博士麦库西克, 以目录疾病相关的基因突变⁴⁰。OMIM 现在涵盖了超过1.5万个人类基因和超过8500表型, 截至 12月1日^st 2017。

9. 注释编码的蛋白质和翻译后修改

将数据库 UniProtKB 的 web 链接复制并粘贴到 web 浏览器中, 然后打开该数据库的网页。在 UniProtKB 的查询输入框中搜索基因名称 CD3D, 并从数据库³⁸中查找此基因的注释, 如表 1和图 5C所示。
注: UniProtKB 收集蛋白质的丰富注解来源, 包括命名和功能信息。此数据库还提供指向其他广泛使用的数据库的外部链接, 包括 PDB/PDB_REDO³⁵、OMIM³⁷和 Pfam⁴¹。
将 web 服务器 GPS 的 web 链接复制并粘贴到 web 浏览器中, 然后打开此 web 服务器的网页。从 UniProtKB 数据库³⁸中检索由生物标记基因 CD3D 编码的蛋白质序列, 并使用在线工具 GPS 预测蛋白质的后平移修饰 (PTM) 残留, 如表 1和图 5D所示。
注意: 生物系统是动态和复杂的, 现有数据库只收集已知信息。因此, 生物医学预测在线工具以及离线程序可能提供有用的证据来补充虚拟机制。GPS 已经开发和改进了超过12年⁷^,⁴² , 可用于预测蛋白质的 PTM 残留在给定的肽序列⁴³^,⁴⁴。工具也可用于各种研究课题, 包括预测蛋白质的亚细胞位置⁴⁵和转录因子结合图案⁴⁶等。

10. 注释蛋白质-蛋白质相互作用及其丰富的功能模块

将 web 服务器字符串的 web 链接复制并粘贴到 web 浏览器中, 然后打开此 web 服务器的网页。搜索 CD3D 和 P53 基因的列表, 并使用数据库字符串⁴⁷查找其编排的属性。同样的过程可以使用另一个 web 服务器进行, 大卫³²。
注意: 除了上述个别基因的注解外, 还有许多大型信息学工具可用于调查一组基因的性质。最近的一项研究表明, 个别不良标记基因可能构成一个大大改进的基因组⁵。因此, 对更复杂的生物标志物进行屏幕计算成本是值得的。数据库字符串可能会可视化已知或预测的交互连接, 而 David 服务器可能会在查询的基因⁴⁷、³²中检测具有重要表型关联的功能模块。还提供各种其他大型信息学分析工具。

11. 导出生成的生物标志物子集和可视化图解

将检测到的生物标记子集导出为. tsv 或. csv 文本文件以供进一步分析。单击按钮将表导出到所有检测到的生物标记子集的表下, 然后选择要另存为的文本格式。
将可视化图形导出为图像文件。单击每个图解下的 "保存" 按钮, 然后选择要另存为的图像格式。
注意: 该软件支持像素格式. png 和矢量格式. svg。像素图像很适合在计算机屏幕上显示, 而矢量图像可能会转换为期刊发布目的所需的任何分辨率。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

此工作流的目标 (图 6) 是检测多个具有类似效率的二进制分类数据集的生物标记子集。整个过程由两个示例数据集 ALL1 和 ALL2 从最近发布的生物标志物检测研究中提取¹²^,⁴⁸。用户可以按照补充材料中的说明安装 kSolutionVis。

数据集 ALL1 分析了 12 625 转录组功能 95 B 细胞和 33 T 细胞所有患者血液样本。虽然数据集 ALL2 检测到 12 625 转录组功能的表达水平65所有患者在治疗后复发和35所有患者谁没有。为方便用户, 转录组数据集及其类标签均在软件版本1.4 中提供。这两个数据集都位于软件源代码目录的子目录 "数据" 中。

两个数据集 (ALL1 和 ALL2) 格式化为. csv 文件, 并使用加载数据矩阵和加载类标签按钮加载到软件中, 如图 7A-B所示。图 7A显示所有128个具有 12 625 要素的样本均已加载, 所有128样本也具有类标签。最终的数据矩阵有95个阴性样本 (B 细胞全部) 和33阳性样本 (T 细胞全部)。此外, 用户还可以确定哪个类标签是正类标签 (图 7A, 底部)。如果类标签文件定义了两个以上的类, 则用户可能希望选择要调查的两个类标签。也对 ALL2 的复杂数据集进行了类似的操作, 如图 7B所示。

在搜索功能名称中的特定于用户的关键字时, 可以通过单击按钮汇总来调查数据矩阵中要素的值分布, 如图 8所示。图 8A说明了数据集 ALL1 中要素1012_at 的直方图。此外, 如图 8B所示, 相同的特征1012_at 在两个数据集中具有相似的表达式分布。如果用户未指定关键字, 则会列出一些功能名称, 以帮助用户决定要汇总哪些功能。

更容易的数据集 ALL1 筛选了pMeasurement Acc ≥ 0.90 (pCutoff) 的生物标志物子集的前10项排名特征 (pTopX)。单击按钮运行后, 该算法被执行, 并在图 9A中看到的结果在几秒钟后在软件的底部进行了说明。由此, 在图 9A的左表中检测到120个合格的生物标志物子集并列出。ALL1 是一个易于辨别的数据集, 因为它具有57个三重生物标记子集, 100% 在Acc中。此协议强调存在多个类似的有效解决方案的二进制分类问题。因此, 第一个3D 散点图可以说明超过 10 (参数piFSNum) 生物标记子集, 如果它们具有的分类性能Acc (参数pMeasurement) ≥的前10排名 (参数piFSNum) 生物标志物子集。用户还可以通过在图 9A的表格上方的参数框中更改参数piCutoff来选择显示较少的生物标记子集。3D 图解的手动调谐可在辅助材料中的3D 点图的手动调谐部分中找到。

此外, 所有结果都可以导出为外部文件, 以便进一步分析, 方法是单击按钮导出表或散点图下的表, 如图 9所示。

选择数据集 ALL1 的第一个生物标记子集 (38319_at、38147_at 和 33238_at) 用于功能调查, 如图 9A所示。ENSEMBL (http://useast.ensembl.org/Multi/Search/New？db=core) 的搜索模块将这三特征标注为分化3三角洲 (CD3D、38319_at)、信号淋巴细胞活化分子相关基因 (SH2D1A、38147_at) 的基因组。) 和淋巴细胞特异蛋白酪氨酸激酶 (LCK, 33238_at)。此外, 基因疾病协会数据库 OMIM³⁷^,⁴⁰建议基因 CD3D 编码的 T 细胞抗原受体复合的三角洲亚单位和参与11q23 易位经常观察到急性人类白血病⁴⁹^,⁵⁰。OMIM 还建议, Xq25 染色体区域内基因 SH2D1A 的突变可能与 B 细胞白血病⁵¹^、⁵²有关。此外, OMIM 还突出了一个可能的 t 细胞所有相关的 LCK 和β t 细胞受体 (TCRB)⁵³的融合事件。用户可以调查这些生物标志物的其他功能方面的基因符号,例如, Entrez 基因³⁶中的基因功能注释, UniProtKB³⁸或 Pfam⁴¹中的蛋白质功能注释, 3D 蛋白PDB/PDB_REDO³⁵中的结构, 以及在 GPS⁷^、⁴²^、⁴³^、⁴⁴中的 PTM 残余物。相互作用的子网络 (数据库字符串⁴⁷) 和丰富的功能模块 (数据库 David³²) 也可以作为整体筛选这些生物标记。其他各种数据库或 web 服务器也可以使用这些基因的符号或主要基因/蛋白质序列来促进注释和硅预测。

如表 2所示, 检测具有相同或类似有效性能的多个解决方案的必要性是显而易见的, 其中57组特征具有二进制分类精度 100%, B 细胞和 T 细胞均为样本。这些特殊的生物标志物子集被称为完美的解决方案。相当多的生物标志物出现在这些完美的解决方案反复, 表明它们可能代表的关键差异, 在分子水平, 在 B 和 T 细胞之间的所有。如果生物标志物检测算法在检测三基因 CD3D/SH2D1A/LCK 的第一个完美溶液时停止, 则 CD74/HLA-DPB1/PRKCQ 将错过另一个完美的解决方案。例如, 已知 HLA-DPB1 与儿科 T 细胞所有, 但不是 B 细胞所有⁵⁴显著关联。

ALL2 的第一个生物标志物子集的三特征是染色质组装因子1亚基 B (CHAF1B、36912_at)、外切酶 1 (EXO1、36041_at)、信号换能器和转录 6 (STAT6、41222_at) 的活化剂。CHAF1B 在白血病细胞系中表现出高度表达, 在急性髓细胞白血病 (AML) 患者中, 对 CHAF1B 编码蛋白的抗体显著发展⁵⁵。EXO1 在急性白血病⁵⁶和上调白血病细胞系 HL-60 [R] 的某些情况下丢失。它也被发现对替代延长端粒 (alt) 通路, 这有助于形成 ALT 相关的 PML (早幼粒细胞白血病) 身体 (通缉令)⁵⁷的负面调节。在复发性 AML⁵⁸的情况下, STAT6 磷酸化激活亲生存和增殖信号通路。两者结合在一起, 三基因与白血病的发展和复发有关, 但没有明确的证据发表在他们的协会与所有复发。这可能是进一步调查的一个有趣的主题。

在 ALL1 和 ALL2 的任何生物标志物子集上都可以进行相同的注释过程。上述部分调查的三生物标志物未被确定为数据集 ALL2 中的复发生物标志物, 如图 9B所示。这表明生物标志物是表型特异性的, 这是生物标志物检测的另一个主要挑战, 同时存在多个类似有效的解决方案。

一些技术模块是在这里为感兴趣的用户执行和描述的。当软件执行过程中出现错误时, 错误处理模块为用户提供信息性消息。主要错误消息列出并在补充材料中的 "错误消息" 中解释。对具有多个 CPU 内核的计算机实现了生物标记的并行计算。对运行时间的详细改进可在补充材料的 "平行运行时间" 中找到。数据表明, 由于不同 cpu 内核之间切换的成本, 更多 cpu 内核的使用可能无法提高运行时间。

图 1: 从转录组数据集 ALL1 提取的示例数据集具有 ALL1 的前九个示例的前六个功能.数据矩阵的格式为 (a) 可视化形式、(b) 制表符分隔的文本格式文件和 (c) 以逗号分隔的文本格式文件。(d) 类标签数据在可视化形式中格式化。由于制表符是不可见的, 因此它被说明为 (b) 中的[制表符] 。列平台给出了芯片平台Affy (b), 不是必需的数据列。请点击这里查看这个数字的更大版本.

图 2: 软件的图形用户界面.基线统计信息汇总在左上框中。用户可以搜索感兴趣的功能, 并调查两个右上框中的值分布。生物标志物检测程序的所有参数都可以在中间水平条中调节。所有生物标志物子集及其相应的可视化分布可在底部找到。请点击这里查看这个数字的更大版本.

图 3: 生物标志物子集及其生成的可视化效果.用户可以使用参数piCutoff和piFSNum进一步细化表和两个3D 散点图。请点击这里查看这个数字的更大版本.

图 4: 本研究中检测到的特征 id 的基因注解.取数据集 ALL1 的第一个生物标记子集的三要素 id 38319_at/38147_at/33238_at。(a) 通过单击链接基因 id 转换获取 id 转换模块。(b) 输入红色方框1中的特征 id, 选择红色框2中的特征类型 (默认 "AFFYMETRIX_3PRIME_IVT_ID" 是正确的此研究), 选择红色框3中的基因列表, 然后单击红色框4中的提交列表。(c) 获取此页面中的所有功能注释, 然后单击显示基因列表以获取这些查询特征的基因符号。(d) 获取查询的特征 id 的基因符号。请点击这里查看这个数字的更大版本.

图 5: 检测到的要素子集的注解和富集分析.(a) 基因卡的基因注释. (b) OMIM 描述每个特征/基因的疾病关联。(c) 对数据库 UniProtKB 中感兴趣基因编码的蛋白质进行注释。(d) 使用在线工具 GPS 预测给定蛋白质中的酪氨酸磷酸化残留量。添加了一个红色框, 以显示用户在何处单击以输入查询数据。示例蛋白 CD3D 的主要序列可以从 (c) 中的红色框中检索为 FASTA 格式, 并通过单击 (d) 中的红色框在查询窗口中输入。请点击这里查看这个数字的更大版本.

图 6: kSolutionVis 的工作流.上述协议中描述了软件的每个模块。请点击这里查看这个数字的更大版本.

图 7: 两个代表性数据集的基线统计信息.计算了 (a) ALL1 和 (b) ALL2 中的样本、特征和类的数量。还检测到数据矩阵和类标签的文件大小。并从带有类标签的样本中提取新的数据矩阵。请点击这里查看这个数字的更大版本.

图 8: 两个数据集中的要素1012_at 的直方图可视化.为 (a) ALL1 和 (b) ALL2 生成基线统计信息和直方图。请点击这里查看这个数字的更大版本.

图 9: 生物标志物子集和两个数据集的散点图.用户可以更改第二行参数框中的参数, 以进一步细化数据集 (a) ALL1 和 (b) ALL2 的生物标记子集和3D 散点图的列表。请点击这里查看这个数字的更大版本.

网站	链接	功能
GeneCards	http://www.genecards.org/cgi-bin/carddisp.pl？gene=CD3D	基因注释
OMIM	https://omim.org/entry/186790？search=CD3D & highlight=cd3d	基因疾病协会
UniProtKB	http://www.uniprot.org/uniprot/P04234	蛋白质注释
Gps	http://gps.biocuckoo.org/	蛋白质的 PTM 预测
字符串	https://string-db.org/	蛋白质-蛋白质相互作用
大卫	https://david.ncifcrf.gov/	基因组富集分析

表1。用于注释和分析检测到的生物标志物的网站.帮助注释检测到的生物标志的有用在线工具列表。

f1	f2	f3	Acc	Symbol1	Symbol2	Symbol3
38319_at	38147_at	33238_at	1.0000	CD3D	SH2D1A	LCK
33238_at	35016_at	37039_at	1.0000	LCK	CD74	HLA-DRA
38147_at	33238_at	35016_at	1.0000	SH2D1A	LCK	CD74
38147_at	33238_at	2059_s_at	1.0000	SH2D1A	LCK	LCK
38147_at	33238_at	37039_at	1.0000	SH2D1A	LCK	HLA-DRA
38147_at	33238_at	38095_i_at	1.0000	SH2D1A	LCK	HLA-DPB1
38147_at	33238_at	33039_at	1.0000	SH2D1A	LCK	TRAT1
38147_at	35016_at	2059_s_at	1.0000	SH2D1A	CD74	LCK
38147_at	35016_at	33039_at	1.0000	SH2D1A	CD74	TRAT1
38147_at	35016_at	38949_at	1.0000	SH2D1A	CD74	PRKCQ
38147_at	2059_s_at	37039_at	1.0000	SH2D1A	LCK	HLA-DRA
38147_at	2059_s_at	38095_i_at	1.0000	SH2D1A	LCK	HLA-DPB1
38147_at	37039_at	33039_at	1.0000	SH2D1A	HLA-DRA	TRAT1
38147_at	37039_at	38949_at	1.0000	SH2D1A	HLA-DRA	PRKCQ
38319_at	38147_at	35016_at	1.0000	CD3D	SH2D1A	CD74
38147_at	38833_at	38949_at	1.0000	SH2D1A	HLA-DPA1	PRKCQ
33238_at	35016_at	33039_at	1.0000	LCK	CD74	TRAT1
38319_at	38833_at	38949_at	1.0000	CD3D	HLA-DPA1	PRKCQ
33238_at	35016_at	38949_at	1.0000	LCK	CD74	PRKCQ
33238_at	2059_s_at	37039_at	1.0000	LCK	LCK	HLA-DRA
33238_at	37039_at	38095_i_at	1.0000	LCK	HLA-DRA	HLA-DPB1
33238_at	37039_at	33039_at	1.0000	LCK	HLA-DRA	TRAT1
33238_at	37039_at	38949_at	1.0000	LCK	HLA-DRA	PRKCQ
33238_at	38095_i_at	38949_at	1.0000	LCK	HLA-DPB1	PRKCQ
33238_at	38833_at	38949_at	1.0000	LCK	HLA-DPA1	PRKCQ
33238_at	33039_at	38949_at	1.0000	LCK	TRAT1	PRKCQ
35016_at	2059_s_at	33039_at	1.0000	CD74	LCK	TRAT1
35016_at	2059_s_at	38949_at	1.0000	CD74	LCK	PRKCQ
35016_at	38095_i_at	38949_at	1.0000	CD74	HLA-DPB1	PRKCQ
2059_s_at	37039_at	33039_at	1.0000	LCK	HLA-DRA	TRAT1
2059_s_at	38095_i_at	38949_at	1.0000	LCK	HLA-DPB1	PRKCQ
2059_s_at	38833_at	38949_at	1.0000	LCK	HLA-DPA1	PRKCQ
38319_at	33039_at	38949_at	1.0000	CD3D	TRAT1	PRKCQ
38147_at	38095_i_at	38949_at	1.0000	SH2D1A	HLA-DPB1	PRKCQ
38319_at	33238_at	38833_at	1.0000	CD3D	LCK	HLA-DPA1
38319_at	2059_s_at	38833_at	1.0000	CD3D	LCK	HLA-DPA1
38319_at	33238_at	33039_at	1.0000	CD3D	LCK	TRAT1
38319_at	33238_at	38095_i_at	1.0000	CD3D	LCK	HLA-DPB1
38319_at	33238_at	37039_at	1.0000	CD3D	LCK	HLA-DRA
38319_at	35016_at	38833_at	1.0000	CD3D	CD74	HLA-DPA1
38319_at	33238_at	2059_s_at	1.0000	CD3D	LCK	LCK
38319_at	35016_at	33039_at	1.0000	CD3D	CD74	TRAT1
38319_at	33238_at	35016_at	1.0000	CD3D	LCK	CD74
38319_at	35016_at	38949_at	1.0000	CD3D	CD74	PRKCQ
38319_at	2059_s_at	37039_at	1.0000	CD3D	LCK	HLA-DRA
38319_at	38147_at	38949_at	1.0000	CD3D	SH2D1A	PRKCQ
38319_at	38147_at	33039_at	1.0000	CD3D	SH2D1A	TRAT1
38319_at	33238_at	38949_at	1.0000	CD3D	LCK	PRKCQ
38319_at	2059_s_at	38095_i_at	1.0000	CD3D	LCK	HLA-DPB1
38319_at	38147_at	38833_at	1.0000	CD3D	SH2D1A	HLA-DPA1
38319_at	2059_s_at	33039_at	1.0000	CD3D	LCK	TRAT1
38319_at	38147_at	38095_i_at	1.0000	CD3D	SH2D1A	HLA-DPB1
38319_at	37039_at	33039_at	1.0000	CD3D	HLA-DRA	TRAT1
38319_at	38147_at	37039_at	1.0000	CD3D	SH2D1A	HLA-DRA
38319_at	38147_at	2059_s_at	1.0000	CD3D	SH2D1A	LCK
38319_at	2059_s_at	38949_at	1.0000	CD3D	LCK	PRKCQ
38319_at	35016_at	2059_s_at	1.0000	CD3D	CD74	LCK
2059_s_at	37039_at	38095_i_at	0.9922	LCK	HLA-DRA	HLA-DPB1
35016_at	33039_at	38949_at	0.9922	CD74	TRAT1	PRKCQ
2059_s_at	37039_at	38949_at	0.9922	LCK	HLA-DRA	PRKCQ
35016_at	2059_s_at	37039_at	0.9922	CD74	LCK	HLA-DRA
35016_at	37039_at	38949_at	0.9922	CD74	HLA-DRA	PRKCQ
35016_at	38833_at	38949_at	0.9922	CD74	HLA-DPA1	PRKCQ
2059_s_at	33039_at	38949_at	0.9922	LCK	TRAT1	PRKCQ
37039_at	38833_at	38949_at	0.9922	HLA-DRA	HLA-DPA1	PRKCQ
37039_at	33039_at	38949_at	0.9922	HLA-DRA	TRAT1	PRKCQ
38319_at	38095_i_at	38949_at	0.9922	CD3D	HLA-DPB1	PRKCQ
33238_at	37039_at	38833_at	0.9922	LCK	HLA-DRA	HLA-DPA1
38095_i_at	33039_at	38949_at	0.9922	HLA-DPB1	TRAT1	PRKCQ
33238_at	2059_s_at	38949_at	0.9922	LCK	LCK	PRKCQ
38319_at	38833_at	33039_at	0.9922	CD3D	HLA-DPA1	TRAT1
38833_at	33039_at	38949_at	0.9922	HLA-DPA1	TRAT1	PRKCQ
38147_at	33039_at	38949_at	0.9922	SH2D1A	TRAT1	PRKCQ
38319_at	37039_at	38833_at	0.9922	CD3D	HLA-DRA	HLA-DPA1
38147_at	2059_s_at	38949_at	0.9922	SH2D1A	LCK	PRKCQ
38147_at	38095_i_at	38833_at	0.9922	SH2D1A	HLA-DPB1	HLA-DPA1
38147_at	33238_at	38949_at	0.9922	SH2D1A	LCK	PRKCQ
38147_at	2059_s_at	33039_at	0.9922	SH2D1A	LCK	TRAT1
38319_at	37039_at	38949_at	0.9922	CD3D	HLA-DRA	PRKCQ
38319_at	38095_i_at	38833_at	0.9922	CD3D	HLA-DPB1	HLA-DPA1
38147_at	2059_s_at	38833_at	0.9922	SH2D1A	LCK	HLA-DPA1
33238_at	35016_at	2059_s_at	0.9922	LCK	CD74	LCK
38319_at	35016_at	38095_i_at	0.9922	CD3D	CD74	HLA-DPB1
33238_at	35016_at	38095_i_at	0.9922	LCK	CD74	HLA-DPB1
38319_at	35016_at	37039_at	0.9922	CD3D	CD74	HLA-DRA
38147_at	33238_at	38833_at	0.9922	SH2D1A	LCK	HLA-DPA1
38147_at	37039_at	38095_i_at	0.9844	SH2D1A	HLA-DRA	HLA-DPB1
38147_at	35016_at	38833_at	0.9844	SH2D1A	CD74	HLA-DPA1
38147_at	35016_at	38095_i_at	0.9844	SH2D1A	CD74	HLA-DPB1
35016_at	2059_s_at	38095_i_at	0.9844	CD74	LCK	HLA-DPB1
38147_at	37039_at	38833_at	0.9844	SH2D1A	HLA-DRA	HLA-DPA1
35016_at	2059_s_at	38833_at	0.9844	CD74	LCK	HLA-DPA1
38319_at	37039_at	38095_i_at	0.9844	CD3D	HLA-DRA	HLA-DPB1
37039_at	38095_i_at	38949_at	0.9844	HLA-DRA	HLA-DPB1	PRKCQ
38147_at	38833_at	33039_at	0.9844	SH2D1A	HLA-DPA1	TRAT1
38095_i_at	38833_at	38949_at	0.9844	HLA-DPB1	HLA-DPA1	PRKCQ
33238_at	35016_at	38833_at	0.9844	LCK	CD74	HLA-DPA1
38319_at	38095_i_at	33039_at	0.9844	CD3D	HLA-DPB1	TRAT1
2059_s_at	37039_at	38833_at	0.9844	LCK	HLA-DRA	HLA-DPA1
2059_s_at	38833_at	33039_at	0.9766	LCK	HLA-DPA1	TRAT1
2059_s_at	38095_i_at	33039_at	0.9766	LCK	HLA-DPB1	TRAT1
2059_s_at	38095_i_at	38833_at	0.9766	LCK	HLA-DPB1	HLA-DPA1
33238_at	2059_s_at	38095_i_at	0.9766	LCK	LCK	HLA-DPB1
35016_at	38095_i_at	33039_at	0.9766	CD74	HLA-DPB1	TRAT1
38147_at	38095_i_at	33039_at	0.9766	SH2D1A	HLA-DPB1	TRAT1
33238_at	2059_s_at	33039_at	0.9766	LCK	LCK	TRAT1
35016_at	37039_at	33039_at	0.9766	CD74	HLA-DRA	TRAT1
33238_at	38095_i_at	33039_at	0.9766	LCK	HLA-DPB1	TRAT1
33238_at	38833_at	33039_at	0.9766	LCK	HLA-DPA1	TRAT1
35016_at	38833_at	33039_at	0.9766	CD74	HLA-DPA1	TRAT1
33238_at	38095_i_at	38833_at	0.9688	LCK	HLA-DPB1	HLA-DPA1
37039_at	38833_at	33039_at	0.9688	HLA-DRA	HLA-DPA1	TRAT1
38147_at	35016_at	37039_at	0.9688	SH2D1A	CD74	HLA-DRA
33238_at	2059_s_at	38833_at	0.9688	LCK	LCK	HLA-DPA1
37039_at	38095_i_at	33039_at	0.9688	HLA-DRA	HLA-DPB1	TRAT1
38095_i_at	38833_at	33039_at	0.9609	HLA-DPB1	HLA-DPA1	TRAT1
35016_at	38095_i_at	38833_at	0.9609	CD74	HLA-DPB1	HLA-DPA1
37039_at	38095_i_at	38833_at	0.9531	HLA-DRA	HLA-DPB1	HLA-DPA1
35016_at	37039_at	38095_i_at	0.9531	CD74	HLA-DRA	HLA-DPB1
35016_at	37039_at	38833_at	0.9531	CD74	HLA-DRA	HLA-DPA1

表2。数据集 ALL1 中所有要素的注释.这是 B 单元格和 T 细胞所有样本之间的二进制分类数据集。在过去的三列中, 收集了所有芯片特征的基因符号。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

本研究为用户指定的二进制分类数据集提供了易于遵循的多解决方案生物标志物检测和表征协议。该软件强调了用户友好性和灵活的导入/导出接口的各种文件格式, 使生物医学研究员可以很容易地使用软件 GUI 调查他们的数据集。本研究还强调了生成多个具有类似有效建模性能的解决方案的必要性, 以前许多现有的生物标记检测算法都忽略了这些方法。在未来, 新开发的生物标志物检测算法可能包括此选项通过记录所有中间生物标志物子集具有足够的建模性能。

在本协议中, 步骤1和5是最重要的, 因为软件是一个完全自动化的系统, 它依赖于正确格式化的输入文件。发现在测试步骤中, 数据矩阵和类标签文件中的样本名称的错误匹配可能会导致软件出错, 软件将弹出有关此错误的警告对话框。因此, 如果用户发现没有从数据矩阵或类标签文件加载任何示例, 则故障排除技巧是仔细检查两个输入文件中的示例名称是否不一致。如果3D 散射图中没有可视化点, 则这可能是由于参数pCutoff高于最佳解决方案。在此实例中, 故障排除技巧是降低分类性能测量 (参数pCutoff) 的中断。然而, 生物标志物子集所达到的最大性能测量可能仍然被难以实现的数据集的中断所阻挡。警告对话框将提供最佳性能测量, 用户可以选择较小的中断来继续进一步分析。

软件的主要局限性是它的计算速度慢, 而且它能够只专注于三个功能。特征选择是一个 NP 难问题, 定义为一个计算问题, 其全局最优解不能在多项式时间⁵⁹内解决。综合生物标志物子集筛选步骤消耗大量的计算能力。kSolutionVis 的运行时间复杂度为 O (n³), 其中n是参数pTopX。此外, 这种多生物标记检测算法侧重于可视化功能的屏幕, 因此将要素数限制为三或更少。此限制可能会妨碍某些用户可能会处理棘手的问题, 并希望查找包含三多个功能的功能子集。但是, 该软件可视化3D 空间中的要素子集, 很难直接在超过三维度中直观显示要素子集。此外, 根据上述的代表性结果, kSolutionVis 选择的多特征三胞胎是一种高效的分类方法, 具有重要的生物医学意义。

该软件代表了对现有特征选择算法有用的互补软件。在生物医学领域, 特征选择被称为生物标志物, 目标是找到一个功能子集, 以实现改进的建模性能⁶⁰^、⁶¹^、⁶²。该软件是基于最近研究⁵中提出的策略的所有三重生物标志物子集的综合筛选工具。由软件协议筛选的两个代表性数据集, 其结果显示了相当多的解决方案的存在, 类似的有效甚至相同的建模性能。但是, 启发式规则⁶³^、⁶⁴^、⁶⁵^、⁶⁶可能被用于查找次最优解, 但这种算法有一个强烈的倾向, 只产生一个解决方案, 忽略许多其他具有相似有效甚至相同建模性能的解决方案。因此, 计算机电源和软件的冗长运行时间是值得的, 以确保更全面地检测潜在的生物标志物在未来。

代表性的结果是在两个转录组数据集上计算的, 但是, 该软件以各种标准文件格式处理输入数据, 也可用于分析其他 "omic" 数据集, 包括蛋白质蛋白和代谢学。此外, 并行化可以加速软件中生物标志物检测模块的计算。有一些多核硬件, 包括 GPGPU (通用图形处理联合) 和英特尔至强 Phi 处理器可用于此目的。但是, 这些技术需要不同的编码策略, 并将在软件的下一个版本中加以考虑。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

我们没有与本报告有关的利益冲突。

Acknowledgments

这项工作得到了中国科学院战略优先研究计划 (XDB13040400) 和吉林大学启动补助金的支持。匿名审阅者和生物医学测试用户对提高 kSolutionVis 的可用性和功能的建设性意见表示赞赏。

Materials

Name	Company	Catalog Number	Comments
Hardware
laptop	Lenovo	X1 carbon	Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU
Name	Company	Catalog Number	Comments
Software
Python 3.0	WingWare	Wing Personal	Any python programming and running environments support Python version 3.0 or above