Method Article

用相似有效的二元分类性能选择多个生物标记子集

DOI:

10.3791/57738

October 11th, 2018

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

现有算法为生物标志物检测数据集生成一个解决方案。该协议演示了多个类似的有效解决方案的存在, 并提供了一个用户友好的软件, 以帮助生物医学研究人员调查其数据集的建议的挑战。计算机科学家也可以在他们的生物标志物检测算法中提供这一特性。

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

生物标志物检测是高通量 "组学" 研究人员最重要的生物医学问题之一, 几乎所有现有的生物标志物检测算法都能通过对给定数据集的优化性能测量来生成一个生物标记子集。.然而, 最近的一项研究表明, 有多个生物标志物子集具有相似的有效甚至相同的分类性能。该协议提供了一种简单明了的方法, 用于检测具有二进制分类性能的生物标记子集, 优于用户定义的截止。该协议包括数据准备和加载、基线信息汇总、参数调整、生物标志物筛选、结果可视化和解释、生物标记基因注释、结果和可视化输出出版质量。所提出的生物标志物筛选策略是直观的, 并证明了开发生物标志物检测算法的一般规则。使用编程语言 Python 开发了用户友好的图形用户界面 (GUI), 使生物医学研究人员能够直接访问其结果。kSolutionVis 的源代码和手册可以从 http://www.healthinformaticslab.org/supp/resources.php 下载。

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

二进制分类是生物医学领域中最常见、最具挑战性的数据挖掘问题之一, 用于构建对两组样本进行培训的分类模型, 其中最精确的判别功率为1,2,3,4,5,6,7. 然而, 生物医学领域产生的大数据具有固有的 "大 p 小 n" 范式, 其特征数通常远远大于样本689的数量。因此, 生物医学研究人员必须在使用分类算法之前减少特征维度, 以避免过度拟合问题8,9。诊断生物标志物被定义为从健康对照样本10,11分离某一疾病患者的检测特征的子集。患者通常被定义为阳性....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

注: 以下协议描述了主要模块的信息学分析程序和伪代码的详细信息。自动分析系统是使用 python 版本3.6.0 和 python 模块 (熊猫、abc、numpy、scipy、sklearn、sys、PyQt5、sys、mRMR、数学和 matplotlib) 开发的。本研究中使用的材料列在材料表中。

1. 准备数据矩阵和类标签

  1. 将数据矩阵文件作为制表符或逗号分隔的矩阵文件进行准备, 如图 1A所示。
    注: 每一行都有要素的所有值, 第一项是要素名称。特征是基于微阵列的转录组数据集的 probeset id, 或者可能是另一个值 id, 如半胱氨酸残留及其在 methylomic 数据集中的甲基化值。每个列提供给定示例的要素值, 第一个项目是示例名称。一行由制表符 (图 1B) 或逗号 (图 1C) 分隔成列。制表符分隔的矩阵文件由文件扩展名. tsv 识别, 逗号分隔的矩阵文件具有扩展名. csv。此文件可能是通过将矩阵保存为. tsv 或. csv 格式的软件 (如 Microsoft Excel) 生成的。数据矩阵也可以通过计算机编码生成。
  2. 准备类标签文件作为制表符或逗号分隔的矩阵文件 (

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

此工作流的目标 (图 6) 是检测多个具有类似效率的二进制分类数据集的生物标记子集。整个过程由两个示例数据集 ALL1 和 ALL2 从最近发布的生物标志物检测研究中提取12,48。用户可以按照补充材料中的说明安装 kSolutionVis。

数据集 ALL1 分析了 12 625 转录组功能 95 B 细胞和 33 T 细胞所有患者血液样本。虽然数据集 ALL2 检测到 12 625 转录组功能的表达水平65所有患者在治疗后复发和35所有患者谁没有。为方便用户, 转录组数据集及其类标签均在软件版本1.4 中提供。这两个数据集都位于软件源代码目录的子目录 "数据" 中。

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

本研究为用户指定的二进制分类数据集提供了易于遵循的多解决方案生物标志物检测和表征协议。该软件强调了用户友好性和灵活的导入/导出接口的各种文件格式, 使生物医学研究员可以很容易地使用软件 GUI 调查他们的数据集。本研究还强调了生成多个具有类似有效建模性能的解决方案的必要性, 以前许多现有的生物标记检测算法都忽略了这些方法。在未来, 新开发的生物标志物检测算法可能包括此选项通过记录所有中间生物标志物子集具有足够的建模性能。

在本协议中, 步骤1和5是最重要的, 因为软件是一个完全自动化的系统, 它依赖于正确格式化的输入文件。发现在测试步骤中, 数据矩阵和类标签文件中的样本名称的错误匹配可能会导致软件出错, 软件将弹出有关此错误的警告对话框。因此, 如果用户发现没有从数据矩阵或类标签文件加载任何示例, 则故障排除技巧是仔细检查两个输入文件中的示例名称是否不一致。如果3D 散射图中没有可视化点, 则这可能是由于参数pCutoff高于最佳解决方案。在此实例中, 故障排除技巧是降低分类性能测量 (参数pCutoff) 的中断。然而, 生物标志物子集所达到的.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

我们没有与本报告有关的利益冲突。

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

这项工作得到了中国科学院战略优先研究计划 (XDB13040400) 和吉林大学启动补助金的支持。匿名审阅者和生物医学测试用户对提高 kSolutionVis 的可用性和功能的建设性意见表示赞赏。

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
硬件
laptop联想X1 carbon任何电脑都可以工作。建议最低配置:1GB 额外硬盘空间、1 GB 内存、2.0MHz CPU
名称Company>目录号注释
Software
Python 3.0WingWareWing 个人版任何 python 编程和运行环境都支持 Python 3.0 或更高版本

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Heckerman, D., et al. Genetic variants associated with physical performance and anthropometry in old age: a genome-wide association study in the ilSIRENTE cohort. Scientific Reports. 7, 15879(2017).
  2. Li, Z., et al.

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Biomarker DetectionBinary ClassificationFeature Subset SelectionPerformance MeasurementGraphical User InterfaceData PreparationParameter TuningResult VisualizationGene AnnotationExport Visualization

Related Articles