July 22nd, 2025
Mime は、機械学習ベースの統合モデルをエレガントなパフォーマンスで構築するための柔軟な計算フレームワークです。ここでは、複雑なデータセットを活用して、疾患の進行、患者の転帰、治療反応に関連する重要な遺伝子を特定し、高精度の予測モデルを開発するための詳細なステップバイステップの手順を提供します。
ハイオールシーケンシング技術は、生物学とがんの不均一性に対する私たちの理解に大きな影響を与えます。しかし、ハイオールシーケンシングデータが多数あるため、疾患関連遺伝子やバイオマーカーを迅速にスクリーニングして同定することは困難です。数多くの機械学習フレームワークが存在しますが、情報に基づいた意思決定のための統合比較を提供するものはありません。このギャップに対処するために、私たちはモデルのストレスと弱点を評価するための統合プラットフォームである Mime を開発しました。
Mime は、最適な予後モデリング、バイナリ応答予測、共予後特徴の識別、モデル パフォーマンスの視覚化の 4 つの機能を提供し、統合された臨界間分析のための自己トレーニング機械学習アルゴリズムを活用します。
研究者は、予測アルゴリズムの選択や機械学習環境の管理に苦労することがよくあります。MIME オープンソース R パッケージは、モデルのセットアップ、パラメーターの選択、デプロイを簡素化し、ユーザーが自分のデータを簡単に分析できるようにします。
Mime は、AI を生物医学に適用し、単一細胞配列決定層全体に機械学習を統合し、腫瘍内の多様性を使用して腫瘍内の不均一性を明らかにするマイルストーンを示します。
[ナレーター]まず、デスクトップ コンピューターで GitHub Web サイトを開きます。R の devtools パッケージを使用して、GitHub から Mime の開発バージョンをインストールします。生存または臨床反応情報を含む転写シーケンス データを含む複数のコホートを準備します。Mime GitHub リポジトリからアクセスできるサンプル データセット Example.cohort と Example.ici を使用します。Example.cohort には、TCGA データベースと CGGA データベースからそれぞれランダムに選択された 100 個のサンプルを含む 2 つの神経膠腫データセットが含まれています。複数のデータセットを含めて、Example.cohort で予後の予測モデルを構築します。データセット形式に、最初の列にサンプル ID、2 番目と 3 番目の列に生存時間と状態、残りの列に変換された遺伝子発現レベルがログに含まれていることを確認します。Dataset1 がトレーニングに使用され、検証のために他のデータセットが使用されていることを確認します。次に、Example.iciデータセットをロードし、形式に最初の列にサンプルID、2番目の列に治療反応、残りの列に変換された遺伝子発現レベルがログが含まれていることを確認します。ジェネリストファイルからRのWnt / β-カテニンシグナル伝達に関連する遺伝子セットを使用して、ジェネリストを準備します。関数ML.Dev.Prog.Sigと指定されたコードを使用して、Example.cohortとgenelistに基づいて予後の予測モデルを構築します。次に、関数 cindex_dis_all を使用して各モデルの C インデックスをプロットし、最適なモデルを特定します。異なるデータセット間の特定のモデルを使用してリスクに応じたスコアを使用して患者の生存曲線を計算し、指定されたコードを使用して Mime で処理します。関数cal_AUC_ml_resと指定されたコードを使用して、予測モデルの時間依存 AUC を計算します。次に、関数auc_dis_allと指定されたコードを使用して、各モデルの時間依存AUCをプロットします。関数roc_visと指定されたコードを使用して、Mime の異なるデータセット間で特定のモデルの時間依存 ROC 曲線を処理します。治療反応の予測モデルを構築するには、Example.iciデータセットとgenelistに基づいて関数ML.Dev.Pred.Category.Sigを使用します。auc_vis_category_allを使用して、応答モデルごとのAUCを可視化します。次に、roc_vis_categoryを使用して各モデルのROC曲線を生成します。コア特徴の選択では、Example.cohort と genelist に基づいて ML.Corefeature.Prog.Screen を使用して、予後に関連するコア遺伝子を特定します。core_feature_rankを使用して、さまざまな方法でフィルタリングされた遺伝子のランクをプロットし、頻繁に同定されるコア遺伝子を強調表示します。Mimeが構築した117の予後モデルのうち、StepCox[Forward] + plsRcoxの組み合わせモデルは、すべてのコホートで最も高い一致指数を示しました。リスクスコアが高い患者は、すべてのコホートで有意に転帰が悪化した。SPCOMが予測した曲線下の1年間の面積は、コホート全体の平均AUC値が最も高かったすべてのモデルの中で最も高くランク付けされました。7つの治療反応予測モデルの中で、svmRadialWeightsモデルは、トレーニングデータセットで0.81、検証データセットで0.68の曲線下面積で最高のパフォーマンスを達成しました。コア特徴の選択により、PSEN2、WNT5B、およびSKP2は、さまざまなアルゴリズムでの再発に基づいて上位にランクされた遺伝子として特定されました。
View the full transcript and gain access to thousands of scientific videos
Mimeは、疾患に関連する遺伝子を予測するための機械学習ベースの統合モデルを構築するために設計された計算フレームワークです。この記事では、複雑なデータセットを使用して高精度の予測モデルを開発するための手順を段階的に説明します。