Method Article

MIMEベースの機械学習フレームワークを用いたモデルの構築と可視化

DOI:

10.3791/68553

July 22nd, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Mime は、機械学習ベースの統合モデルをエレガントなパフォーマンスで構築するための柔軟な計算フレームワークです。ここでは、複雑なデータセットを活用して、疾患の進行、患者の転帰、治療反応に関連する重要な遺伝子を特定し、高精度の予測モデルを開発するための詳細なステップバイステップの手順を提供します。

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

広く普及したハイスループットシーケンシング技術により、生物学とがんの不均一性に関する理解が大幅に向上しました。転写データに対する機械学習アルゴリズムは、患者の予後と臨床反応を予測するために不可欠になっています。機械学習アルゴリズムの進歩にもかかわらず、文字起こしデータに最も洗練された機械学習アルゴリズムを組み込んだオープンソースのプラットフォームは、まだ存在していません。このギャップに対処するために、私たちは、臨床的特徴と遺伝子シグネチャーの予測モデルの構築と視覚化を強化するための汎用性の高い機械学習フレームワークであるMimeを開発しました。Mime は、多様なデータセットを統合し、最先端の特徴選択技術を採用することで、臨床予測における重要な課題に対処します。モデルの構築、特徴の選択、データの視覚化など、3つの主要な機能を提供します。モデル構築には、決定木、サポートベクターマシン、アンサンブル法など、さまざまな機械学習アルゴリズムが含まれており、研究者は特定の分析に最適なアプローチを選択できます。特徴選択では、再帰的特徴消去やLASSO回帰などの高度なアルゴリズムを利用して、データセットを合理化し、最も有益な特徴に焦点を当てます。このフレームワークは、クロスバリデーション手法によるカスタマイズ可能なパラメーター調整をサポートし、モデルのパフォーマンスを最適化しながら、オーバーフィットのリスクを軽減します。Mimeに統合された可視化ツールにより、研究者はモデルの結果を効率的に解釈し、特徴の重要度と予測パフォーマンスメトリクスをグラフィカルに表現することができます。この原稿では、この汎用性の高い機械学習フレームワークの段階的な手順に関する詳細なチュートリアルを提供します。

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

ハイスループットシーケンシング技術の広範な採用は、生物学とがんの不均一性1に対する私たちの理解に大きな影響を与えています。このバイオテクノロジーの画期的な進歩は、私たちの科学的知識を深めただけでなく、医学研究の分野にも革命をもたらしました。科学者が大量の遺伝物質のシーケンシングを迅速かつ正確に行えるようになったことで、ハイスループットシーケンシングは新しい遺伝子、突然変異、生物学的経路の発見を加速させました。シーケンシングデータ2,3,4から、疾患の進行、患者の予後、および治療反応性に関連する特定の分子シグネチャーが明らかになる研究が増えています。これらの特異的なシグネチャーは、腫瘍の起源、分化、遊走、治療抵抗性など、腫瘍生物学の根底にある転写制御ネットワークを理解するための包括的な展望を提供します5。これらの特徴は、多くの場合、多様で多様であり、単一の展示に限定されるのではなく、複数の側面を包含しています。これにより、疾患に強く関連する特定の遺伝子をスクリーニングして特定することが困難になります。したがって、疾患に関与する重要な遺伝子をスクリーニングするための賢明な計算戦略が緊急に必....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

注:このスタディのチュートリアルはすべて、Rソフトウェアを使用してLinuxプラットフォームで実行されます。このプロトコルで使用される R パッケージのバージョンは、 資料の表に記載されています。解析に必要な各ステップを以下に示し、詳細なプロトコールはGitHub(https://github.com/l-magnificence/Mime)でも入手できます。Mime で問題が発生した場合は、GitHub の問題ページ (https://github.com/l-magnificence/Mime/issues) にアクセスしてフィードバックを提供できます。

1. MIMEとサンプルデータセットの準備

  1. 以下のコードを使用して、GitHubからMimeの開発バージョンをインストールします。
    devtools::install_github("l-magnificence/Mime")
  2. 生存率または治療に対する臨床的反応に関する情報を含む転写シーケンシングデータを含む複数のコホートを準備します。ここでは、2つのサンプルデータ(Example.cohortとExample.ici)をMimeの実行に使用しました。Example.cohort には 2 ....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

genelistとExample.cohort(1つのトレーニングコホートと1つの検証コホートを含む)を使用して、Mimeに10の機械学習アルゴリズムを統合して予後モデルを構築しました。Mimeが構築した117の予後モデルのうち、StepCox[forward] + plsRcox combined model(SPCOM)は、全コホートの中で最も高いC指数を示し、優れた性能を示しました(図1A)。患者はさらに、SPCOMによって計算されたリスクスコアの中央値に従って、高リスクグループと低リスクグループに分けられました。興味深いことに、高リスクスコアの患者は、すべてのコホートで転帰が有意に悪かった(図1B)。注目すべきは、SPCOMが予測した1年間のAUCが、すべてのコホートでAUCの平均が最も高い1位にランクされたことです(図1C、D)。これらの結果から、MIMEベースの機械学習フレームワークにより、提供された遺伝子セットと.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

この研究では、Mime パッケージを使用して、トランスクリプトーム データの堅牢で強力な機械学習予測モデルを開発する方法について詳しく説明します。以前の研究では、研究者は、シーケンシングデータの特定の特性に基づいて適切な予測モデルアルゴリズムを選択するのに苦労することがよくありました13,14。さらに、コンピュータサイエンスのバックグラウンドを持たない研究者にとって、機械学習環境を安定させ、適切なパラメータを選択し、モデルを同時にデプロイすることはある程度の困難があります15。この問題に対処するために、10 個の機械学習予後モデル アルゴリズム、7 個のバイナリ応答機械学習アルゴリズム、および予後に関連する 8 個のコア特徴選択アルゴリズムを MIME パッケージに統合しました。同じ学習セットで異なる機械学習アルゴリズムの予測パフォーマンスを包括的に比較することで、研究者は最もパフォーマンスの高いモデルを選.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

利益相反は宣言されていません。

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

データ作成に携わったすべての参加者と研究者に感謝します。

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
パッケージ名バージョンソフトウェア
アプロット0.1.10Rスタジオ
バート2.9.4Rスタジオ
ボルタ8.0.0Rスタジオ
がんクラス1.38.0Rスタジオ
キャレット6.0-89Rスタジオ
Ckmeans.1d.dp4.3.5Rスタジオ
比較C1.3.2Rスタジオ
コンプレックスヒートマップ2.15.1Rスタジオ
組成2.0-4Rスタジオ
データ.テーブル1.14.0Rスタジオ
doパラレル1.0.16Rスタジオ
dplyr1.1.3Rスタジオ
1071年末1.7-7Rスタジオ
フォレストプロータ1.1.0Rスタジオ
未来1.21.0Rスタジオ
GBMの2.1.8.1Rスタジオ
グブレイク0.1.1Rスタジオ
ggplot23.4.1Rスタジオ
ggpubr0.4.0Rスタジオ
ggsci2.9Rスタジオ
GLMNET4.1-2Rスタジオ
グリッド4.1.3Rスタジオ
グリッドエクストラ2.3Rスタジオ
GSEAベーゼ1.54.0Rスタジオ
GSVAの1.40.1Rスタジオ
ヒミスク5.1-1Rスタジオ
kknn1.3.1Rスタジオ
ニットル1.42Rスタジオ
マグリットル2.7.2Rスタジオ
行列1.5-4Rスタジオ
メタ5.2-0Rスタジオ
その他のツール0.6-28Rスタジオ
ミックスオミクス6.18.1Rスタジオ
ミックスツール1.2.0Rスタジオ
pbapply1.4-3Rスタジオ
plsRcox1.7.7Rスタジオ
pROCの1.18.0Rスタジオ
R4.1.3Rスタジオ
ランダムフォレストSRC4.6-14Rスタジオ
リーダー1.4.0Rスタジオ
レシピ0.1.17Rスタジオ
形状変更21.4.4Rスタジオ
rマークダウン2.8Rスタジオ
ROCit2.1.1Rスタジオ
ROCRの1.0-11Rスタジオ
1.2.1Rスタジオ
1.0.3Rスタジオ
ストリンガー1.5.0Rスタジオ
スーパーPC1.12Rスタジオ
生存3.3-1Rスタジオ
生存ROC1.0.3Rスタジオ
サバイバルSVM0.0.5Rスタジオ
SVA3.40.0Rスタジオ
testを3.1.0Rスタジオ
ティブル3.2.1Rスタジオ
ティディル1.3.0Rスタジオ
ティディバース1.3.1Rスタジオ
アップセットR1.4.0Rスタジオ
ビリディス0.6.1Rスタジオ

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Reuter, J. A., Spacek, D. V., Snyder, M. P. High-throughput sequencing technologies. Mol Cell. 58 (4), 586-597 (2015).
  2. Adam, G., et al. Machine learning approaches to drug response prediction: challenges and recent progress. NPJ Precision Oncol. 4....

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Machine Learning FrameworkPredictive Model ConstructionFeature SelectionData VisualizationTranscriptional SequencingPrognosis ModelingTherapeutic Response PredictionSurvival AnalysisCore Gene IdentificationModel Performance Metrics

Related Articles