Method Article

使用基于 Mime 的机器学习框架构建和可视化模型

DOI:

10.3791/68553

July 22nd, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Mime 是一个灵活的计算框架,用于构建基于机器学习的集成模型,具有卓越的性能。在这里,我们提供了开发高精度预测模型的详细分步程序,利用复杂的数据集来识别与疾病进展、患者预后和治疗反应相关的关键基因。

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

广泛的高通量测序技术显著增强了我们对生物学和癌症异质性的理解。转录数据上的机器学习算法对于预测患者预后和临床反应至关重要。尽管机器学习算法取得了进步,但仍然没有一个开源平台,该平台在转录数据上集成了最复杂的机器学习算法。为了解决这一差距,我们开发了 Mime,这是一种多功能机器学习框架,用于增强临床特征和基因特征预测模型的构建和可视化。通过集成不同的数据集并采用最先进的特征选择技术,Mime 解决了临床预测中的关键挑战。它提供三个主要功能,包括模型构建、特征选择和数据可视化。模型构建包括一系列机器学习算法,包括但不限于决策树、支持向量机和集成方法,使研究人员能够为其特定分析选择最合适的方法。特征选择利用递归特征消除和 LASSO 回归等高级算法来简化数据集并专注于信息量最大的特征。该框架支持通过交叉验证方法进行可自定义的参数调整,从而优化模型性能,同时降低过拟合风险。Mime 中集成的可视化工具使研究人员能够有效地解释模型结果,提供特征重要性和预测性能指标的图形表示。在这份手稿中,我们提供了关于这个多功能机器学习框架的逐步过程的详细教程。

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

高通量测序技术的广泛采用极大地影响了我们对生物学和癌症异质性的理解1。生物技术的这一突破性进步不仅加深了我们的科学知识,也彻底改变了医学研究领域。高通量测序使科学家能够快速准确地对大量遗传物质进行测序,从而加速了新基因、突变和生物通路的发现。越来越多的研究从测序数据中描绘了与疾病进展、患者预后和治疗反应性相关的特定分子特征 2,3,4。这些特异性特征为理解肿瘤生物学背后的转录调控网络提供了全面的前景,包括肿瘤起源、分化、迁移和治疗耐药性5。这些特色通常是多种多样的,涵盖了多个方面,而不是局限于单个展览。这使得筛选和识别与疾病高度相关的特定基因变得困难。因此,迫切需要合理的计算策略来筛选与疾病有关的关键基因。

机器学习 (ML) 是人工智能的一个分支,专注于构建可以从复杂数据集中学习、识别模式并开发高精度预测模型的系统,为决策提供参考6。最近,基于机器学习的模型从转录组数据开发出来,用于预测患者预后或诊断疾病,在各种疾病中取得了迅速进展 ....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

注意:本研究的教程均使用 R 软件在 Linux 平台上运行。该协议中使用的 R 包版本列在 材料表中。分析所需的每个步骤如下所示,详细的协议也可以在 GitHub (https://github.com/l-magnificence/Mime) 上获得。遇到 Mime 问题的用户可以访问 GitHub 问题页面 (https://github.com/l-magnificence/Mime/issues) 提供反馈。

1. 准备 MIME 和示例数据集

  1. 使用以下代码从 GitHub 安装 Mime 的开发版本:
    devtools::install_github("l-magnificence/Mime")
  2. 准备多个队列,其中包含转录测序数据,其中包含有关生存或对治疗的临床反应的信息。此处,两个示例数据(Example.cohort 和 Example.ici)用于运行 Mime。Example.cohort 包含两个神经胶质瘤数据集;每个样本分别从 TCGA 和 CGGA 数据库中随机选择 100 个样本。而 Example.ici 包含随机选择的 100 个具有免疫检查点抑制剂的处理前样本,这些样本来自之前的研究

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

通过在 Mime 中集成 10 种机器学习算法,使用 genelist 和 Example.cohort (包括一个训练队列和一个验证队列)构建预后模型。在 Mime 构建的 117 个预后模型中,StepCox[forward] + plsRcox 组合模型 (SPCOM) 在所有队列中具有最高的 C 指数,表明其出色的表现(图 1A)。根据 SPCOM 计算的中位风险评分将患者进一步分为高危组和低危组。有趣的是,在所有队列中,高风险评分的患者的结局明显更差(图 1B)。值得注意的是,SPCOM 预测的 1 年 AUC 在所有队列中排名第一,AUC 平均值最高(图 1C,D)。这些结果表明,基于 Mime 的机器学习框架使用户能够根据提供的基因集和数据集轻松构建预后模型。

通过在 Mime 中集成 7 种机器学习算法,使用 genelist 和 Example.ici .......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

在本研究中,我们详细介绍了如何使用 Mime 包为转录组数据开发强大而强大的机器学习预测模型。在以前的研究中,研究人员经常难以根据测序数据的具体特征选择合适的预测模型算法13,14。此外,对于没有计算机科学背景的研究人员来说,稳定机器学习环境、选择合适的参数和同时部署模型存在一定的难度15。为了解决这个问题,我们在 Mime 包中集成了 10 种机器学习预后模型算法、7 种二元响应机器学习算法和 8 种与预后相关的核心特征选择算法。通过全面比较不同机器学习算法在同一训练集上的预测性能,研究人员可以选择性能最佳的模型。

补充表 1 还总结了用于模型构建的常用机器学习工具的概述。相较于其他工具,Mime 提供了更多的算法来训练模型进行生存预测、临床分类和特征选择,其中算法也可以同时组合。借.......

Access restricted. Please log in or start a trial to view this content.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

我们感谢所有参与数据生成的参与者和研究人员。

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
包裹名称版本软件
剧情0.1.10R工作室
巴特2.9.4R工作室
博鲁塔8.0.0R工作室
癌症类1.38.0R工作室
插入符号6.0-89R工作室
Ckmeans.1d.dp4.3.5R工作室
比较C1.3.2R工作室
复杂热图2.15.1R工作室
成分2.0-4R工作室
数据表1.14.0R工作室
do并行1.0.16R工作室
dplyr1.1.3R工作室
第1071号1.7-7R工作室
森林绘图机1.1.0R工作室
前途1.21.0R工作室
英国大道金2.1.8.1R工作室
格布雷克0.1.1R工作室
ggplot23.4.1R工作室
ggpubr0.4.0R工作室
GGSCI的2.9R工作室
GLMNET4.1-2R工作室
网 格4.1.3R工作室
网格额外2.3R工作室
GSEA乙烯1.54.0R工作室
GSVA的1.40.1R工作室
Hmisc5.1-1R工作室
KKNN1.3.1R工作室
针织器1.42R工作室
马格里特尔2.7.2R工作室
矩阵1.5-4R工作室
5.2-0R工作室
杂项工具0.6-28R工作室
混合组学6.18.1R工作室
混合工具1.2.0R工作室
PB应用1.4-3R工作室
plsRcox1.7.7R工作室
pROC1.18.0R工作室
R4.1.3R工作室
随机森林SRC4.6-14R工作室
读取器1.4.0R工作室
食谱0.1.17R工作室
重塑21.4.4R工作室
r标记降低2.8R工作室
ROCit2.1.1R工作室
中华民国1.0-11R工作室
尺度1.2.1R工作室
麻雀1.0.3R工作室
纵线1.5.0R工作室
超级电脑1.12R工作室
生存3.3-1R工作室
生存ROC1.0.3R工作室
生存SVM0.0.5R工作室
SVA3.40.0R工作室
test的3.1.0R工作室
蒂布尔3.2.1R工作室
蒂迪尔1.3.0R工作室
整洁宇宙1.3.1R工作室
UpSetR1.4.0R工作室
绿0.6.1R工作室

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Reuter, J. A., Spacek, D. V., Snyder, M. P. High-throughput sequencing technologies. Mol Cell. 58 (4), 586-597 (2015).
  2. Adam, G., et al. Machine learning approaches to drug response prediction: challenges and recent progress. NPJ Precision Oncol. 4....

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Machine Learning FrameworkPredictive Model ConstructionFeature SelectionData VisualizationTranscriptional SequencingPrognosis ModelingTherapeutic Response PredictionSurvival AnalysisCore Gene IdentificationModel Performance Metrics

Related Articles