July 22nd, 2025
Mime 是一个灵活的计算框架,用于构建基于机器学习的集成模型,具有卓越的性能。在这里,我们提供了开发高精度预测模型的详细分步程序,利用复杂的数据集来识别与疾病进展、患者预后和治疗反应相关的关键基因。
高全程测序技术显着影响了我们对生物学和癌症异质性的理解。然而,由于大量高全程测序数据,很难快速筛选和识别疾病相关基因和生物标志物。存在许多机器学习框架,但没有一个提供综合比较以做出明智的决策。为了解决这一差距,我们开发了 Mime,这是一个用于评估模型压力和弱点的统一平台。
Mime 提供四种功能,最佳预后建模、二元反应预测、共同预后特征识别和模型性能可视化,利用自训练机器学习算法进行集成临界间分析。
研究人员经常在选择预测算法和管理机器学习环境方面遇到困难。Mime 开源 R 打包简化了模型设置、参数选择和部署,使用户能够轻松分析自己的数据。
Mime 标志着将人工智能应用于生物医学的一个里程碑,将机器学习集成到单细胞测序层,利用肿瘤内多样性揭示瘤内异质性。
[旁白]首先,在台式计算机上打开 GitHub 网站。使用 R 中的 devtools 包从 GitHub 安装 Mime 的开发版本。准备多个队列,其中包含具有生存或临床反应信息的转录测序数据。使用示例数据集 Example.cohort 和 Example.ici,这些数据集可从 Mime GitHub 存储库访问。Example.cohort 包含两个神经胶质瘤数据集,分别从 TCGA 和 CGGA 数据库中随机选择 100 个样本。在 Example.cohort 中包含多个数据集以构建预后预测模型。验证数据集格式是否包括第一列中的样本 ID、第二列和第三列中的存活时间和状态,以及其余列中的日志转化基因表达水平。确认 Dataset1 用于训练和其他数据集进行验证。接下来,加载 Example.ici 数据集并确认格式包括第一列中的样本 ID、第二列中的治疗反应以及其余列中的日志转化基因表达水平。使用基因列表文件中与 R 中的 Wnt/β-连环蛋白信号转导相关的基因集准备基因列表。使用函数 ML.Dev.Prog.Sig 和给定的代码根据 Example.cohort 和基因列表构建预后预测模型。然后使用函数cindex_dis_all绘制每个模型的C指数并确定最优模型。使用不同数据集中的特定模型使用风险评分计算患者的生存曲线,并使用给定的代码在 Mime 中进行处理。使用函数cal_AUC_ml_res和给定代码计算预测模型的时间相关 AUC。现在,使用函数auc_dis_all和给定的代码绘制每个模型的时间相关 AUC。使用函数 roc_vis 和给定的代码在 Mime 中处理特定模型在不同数据集中的时间相关 ROC 曲线。要构建治疗反应的预测模型,请使用基于 Example.ici 数据集和基因列表的函数 ML.Dev.Pred.Category.Sig。使用 auc_vis_category_all 可视化每个响应模型的 AUC。然后,使用 roc_vis_category 为每个模型生成 ROC 曲线。对于核心特征选择,根据 Example.cohort 和 genelist 使用 ML.Corefeature.Prog.Screen 识别与预后相关的核心基因。使用core_feature_rank绘制通过不同方法过滤的基因的排名,以突出显示经常识别的核心基因。在Mime构建的117个预后模型中,StepCox[Forward]+plsRcox组合模型在所有队列中显示出最高的一致性指数。在所有队列中,具有高风险评分的患者预后明显更差。SPCOM预测的一年曲线下面积在所有模型中排名最高,各队列的平均AUC值最高。在7个治疗反应预测模型中,svmRadialWeights模型取得了最高的性能,在训练数据集中的曲线下面积为0.81,在验证数据集中为0.68。核心特征选择根据PSEN2、WNT5B和SKP2在不同算法中的复发率确定为排名靠前的基因。
View the full transcript and gain access to thousands of scientific videos
Mime是一个用于构建基于机器学习的疾病相关基因预测集成模型的计算框架。本文概述了使用复杂数据集开发高精度预测模型的分步过程。