Method Article

Mime-based Machine-learning Framework를 사용한 모델 구축 및 시각화

DOI:

10.3791/68553

July 22nd, 2025

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

MIME은 우아한 성능의 기계 학습 기반 통합 모델을 구축하기 위한 유연한 계산 프레임워크입니다. 여기에서는 복잡한 데이터 세트를 활용하여 질병 진행, 환자 결과 및 치료 반응과 관련된 중요한 유전자를 식별하여 높은 정확도로 예측 모델을 개발하기 위한 상세한 단계별 절차를 제공합니다.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

널리 보급된 고처리량 염기서열분석 기술은 생물학 및 암 이질성에 대한 이해를 크게 향상시켰습니다. 전사 데이터에 대한 머신 러닝 알고리즘은 환자의 예후와 임상 반응을 예측하는 데 필수적이 되었습니다. 기계 학습 알고리즘의 발전에도 불구하고 전사 데이터에 가장 정교한 기계 학습 알고리즘을 통합하는 오픈 소스 플랫폼은 여전히 부재합니다. 이러한 격차를 해소하기 위해 우리는 임상적 특성과 유전자 서명에 대한 예측 모델의 구성 및 시각화를 향상시키기 위한 다목적 기계 학습 프레임워크인 Mime을 개발했습니다. 다양한 데이터 세트를 통합하고 가장 진보된 기능 선택 기술을 사용함으로써 Mime은 임상 예측의 중요한 문제를 해결합니다. 모델 구성, 기능 선택 및 데이터 시각화를 포함한 세 가지 주요 기능을 제공합니다. 모델 구성에는 의사 결정 트리, 지원 벡터 머신 및 앙상블 방법을 포함하되 이에 국한되지 않는 다양한 기계 학습 알고리즘이 포함되므로 연구원은 특정 분석에 가장 적합한 접근 방식을 선택할 수 있습니다. 기능 선택은 재귀 기능 제거 및 LASSO 회귀와 같은 고급 알고리즘을 활용하여 데이터 세트를 간소화하고 가장 유익한 기능에 집중합니다. 이 프레임워크는 교차 검증 방법을 통해 사용자 정의 가능한 매개변수 조정을 지원하여 모델 성능을 최적화하는 동시에 과적합 위험을 완화합니다. Mime에 통합된 시각화 도구를 통해 연구원은 모델 결과를 효과적으로 해석하여 기능 중요도 및 예측 성능 메트릭을 그래픽으로 표현할 수 있습니다. 이 원고에서는 이 다재다능한 기계 학습 프레임워크의 단계별 절차에 대한 자세한 자습서를 제공합니다.

Introduction

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

고처리량 염기서열분석 기술의 광범위한 채택은 생물학 및 암 이질성에 대한 이해에 상당한 영향을 미쳤습니다1. 이러한 생명 공학의 획기적인 발전은 우리의 과학적 지식을 심화시켰을 뿐만 아니라 의학 연구 분야에도 혁명을 일으켰습니다. 과학자들이 많은 양의 유전 물질을 빠르고 정확하게 염기서열 분석할 수 있도록 함으로써 고처리량 염기서열분석은 새로운 유전자, 돌연변이 및 생물학적 경로의 발견을 가속화했습니다. 점점 더 많은 연구가 염기서열분석 데이터를 통해 질병 진행, 환자 예후 및 치료 반응성과 관련된 특정 분자 신호를 설명하고 있습니다 2,3,4. 이러한 특정 서명은 종양 기원, 분화, 이동 및 치료 내성을 포함하여 종양 생물학의 기저에 있는 전사 조절 네트워크를 이해하는 데 포괄적인 환경을 제공합니다5. 이러한 특징은 종종 다양하고 다양하며 단일 전시회에 국한되지 않고 여러 측면을 포괄합니다. 이로 인해 질병과 밀접한 관련이 있는 특정 유전자를 선별하고 식별하기가 어렵습니다. 따라서....

Access restricted. Please log in or start a trial to view this content.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

참고: 이 연구의 자습서는 모두 R 소프트웨어를 사용하여 Linux 플랫폼에서 실행됩니다. 이 프로토콜에 사용된 R 패키지의 버전은 재료 표에 나열되어 있습니다. 분석에 필요한 각 단계는 아래와 같으며, GitHub(https://github.com/l-magnificence/Mime)에서도 자세한 프로토콜을 얻을 수 있습니다. Mime에 문제가 발생하는 사용자는 GitHub https://github.com/l-magnificence/Mime/issues 문제 페이지를 방문하여 피드백을 제공할 수 있습니다.

1. MIME 및 예제 데이터셋 준비

  1. 아래 코드를 사용하여 GitHub에서 Mime의 개발 버전을 설치합니다.
    devtools::install_github("l-magnificence/Mime")
  2. 생존 또는 치료에 대한 임상적 반응에 대한 정보와 함께 전사 염기서열분석 데이터를 포함하는 여러 코호트를 준비합니다. 여기서, 두 개의 예시 데이터(Example.cohort 및 Example.ici)가 Mime을 실행하는 데 사용되었습니....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1개의 훈련 코호트와 1개의 검증 코호트를 포함하는 genelist와 Example.cohort는 Mime에 10개의 기계 학습 알고리즘을 통합하여 예후 모델을 구성하는 데 사용되었습니다. Mime이 구축한 117개의 예후 모델 중 StepCox[forward] + plsRcox 결합 모델(SPCOM)이 모든 코호트 중에서 가장 높은 C-index를 보여 뛰어난 성능을 나타냈습니다(그림 1A). 환자들은 SPCOM이 계산한 위험 점수 중앙값에 따라 고위험군과 저위험군으로 더 구분되었다. 흥미롭게도, 고위험 점수를 받은 환자는 모든 코호트에서 결과가 유의하게 더 나빴습니다(그림 1B). 주목할 점은 SPCOM이 예측한 1년 AUC가 모든 코호트에서 AUC의 평균이 가장 높은 1위를 차지했다는 것입니다(그림 1C,D). 이러한 결과는 MIME .......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

이 연구에서는 Mime 패키지를 사용하여 전사체 데이터에 대한 강력하고 강력한 기계 학습 예측 모델을 개발하는 방법에 대한 자세한 설명을 제공합니다. 이전 연구에서 연구자들은 염기서열분석 데이터의 특정 특성을 기반으로 적절한 예측 모델 알고리즘을 선택하는 데 어려움을 겪는 경우가 많았습니다 13,14. 또한 컴퓨터 공학에 대한 배경지식이 없는 연구자의 경우 기계 학습 환경을 안정화하고, 적절한 매개변수를 선택하고, 모델을 동시에 배포하는 데 일정한 어려움이 있습니다15. 이 문제를 해결하기 위해 예후와 관련된 10개의 기계 학습 예측 모델 알고리즘, 7개의 이진 응답 기계 학습 알고리즘 및 예후와 관련된 8개의 핵심 기능 선택 알고리즘을 Mime 패키지에 통합했습니다. 동일한 훈련 세트에서 서로 다른 기계 학습 알고리즘의 .......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

선언된 이해 상충이 없습니다.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

데이터 생산에 참여한 모든 참가자와 연구자에게 감사드립니다.

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
패키지 이름버전소프트웨어
플롯0.1.10R 스튜디오
바트2.9.4R 스튜디오
보루타8.0.0R 스튜디오
암클래스1.38.0R 스튜디오
캐럿6.0-89R 스튜디오
Ckmeans.1d.dp4.3.5R 스튜디오
비교C1.3.2R 스튜디오
컴플렉스 히트맵2.15.1R 스튜디오
작곡2.0-4R 스튜디오
데이터.테이블1.14.0R 스튜디오
도병렬1.0.16R 스튜디오
디플리르1.1.3R 스튜디오
1071회1.7-7R 스튜디오
산림 플로터1.1.0R 스튜디오
미래1.21.0R 스튜디오
GBM2.1.8.1R 스튜디오
그브레이크0.1.1R 스튜디오
ggplot23.4.1R 스튜디오
ggpubr0.4.0R 스튜디오
ggsci2.9R 스튜디오
GLMNET4.1-2R 스튜디오
그리드4.1.3R 스튜디오
그리드 엑스트라2.3R 스튜디오
GSEA베이스1.54.0R 스튜디오
GSVA1.40.1R 스튜디오
Hmisc5.1-1R 스튜디오
kknn1.3.1R 스튜디오
니트1.42R 스튜디오
마그리트2.7.2R 스튜디오
행렬1.5-4R 스튜디오
메타5.2-0R 스튜디오
기타 도구0.6-28R 스튜디오
믹스오믹스6.18.1R 스튜디오
믹스툴1.2.0R 스튜디오
pb적용1.4-3R 스튜디오
plsRcox1.7.7R 스튜디오
프로시저1.18.0R 스튜디오
R4.1.3R 스튜디오
랜덤포레스트SRC4.6-14R 스튜디오
읽기1.4.0R 스튜디오
조리법0.1.17R 스튜디오
모양 변경21.4.4R 스튜디오
r마크다운2.8R 스튜디오
ROCit2.1.1R 스튜디오
ROCR1.0-11R 스튜디오
저울1.2.1R 스튜디오
참새1.0.3R 스튜디오
스트링거1.5.0R 스튜디오
슈퍼PC1.12R 스튜디오
생존3.3-1R 스튜디오
생존ROC1.0.3R 스튜디오
생존SVM0.0.5R 스튜디오
SVA3.40.0R 스튜디오
test해당3.1.0R 스튜디오
티블3.2.1R 스튜디오
정리1.3.0R 스튜디오
정리1.3.1R 스튜디오
업셋R1.4.0R 스튜디오
비리디스0.6.1R 스튜디오

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Reuter, J. A., Spacek, D. V., Snyder, M. P. High-throughput sequencing technologies. Mol Cell. 58 (4), 586-597 (2015).
  2. Adam, G., et al. Machine learning approaches to drug response prediction: challenges and recent progress. NPJ Precision Oncol. 4....

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Machine Learning FrameworkPredictive Model ConstructionFeature SelectionData VisualizationTranscriptional SequencingPrognosis ModelingTherapeutic Response PredictionSurvival AnalysisCore Gene IdentificationModel Performance Metrics

Related Articles