July 22nd, 2025
MIME은 우아한 성능의 기계 학습 기반 통합 모델을 구축하기 위한 유연한 계산 프레임워크입니다. 여기에서는 복잡한 데이터 세트를 활용하여 질병 진행, 환자 결과 및 치료 반응과 관련된 중요한 유전자를 식별하여 높은 정확도로 예측 모델을 개발하기 위한 상세한 단계별 절차를 제공합니다.
높은 전체 시퀀싱 기술은 생물학 및 암 이질성에 대한 이해에 큰 영향을 미칩니다. 그러나 수많은 높은 시퀀싱 데이터로 인해 질병 관련 유전자 및 바이오마커를 신속하게 스크리닝하고 식별하기가 어렵습니다. 수많은 기계 학습 프레임워크가 존재하지만 정보에 입각한 의사 결정을 위한 통합 비교를 제공하는 것은 없습니다. 이러한 격차를 해소하기 위해 우리는 모델 스트레스와 약점을 평가하기 위한 통합 플랫폼인 Mime을 개발했습니다.
Mime은 최적의 예후 모델링, 이진 반응 예측, 공동 예후 특징 식별 및 모델 성능 시각화의 네 가지 기능을 제공하며, 통합 임계 간 분석을 위해 자체 훈련된 기계 학습 알고리즘을 활용합니다.
연구자들은 종종 예측 알고리즘을 선택하고 기계 학습 환경을 관리하는 데 어려움을 겪습니다. Mime 오픈 소스 R 패키징은 모델 설정, 매개변수 선택 및 배포를 단순화하여 사용자가 자신의 데이터를 쉽게 분석할 수 있도록 합니다.
Mime은 AI를 생물의학에 적용하여 단일 세포 시퀀싱 계층 전반에 걸쳐 기계 학습을 통합하여 종양 내 다양성을 사용하여 종양 내 이질성을 밝히는 이정표를 세웠습니다.
[해설자] 시작하려면 데스크톱 컴퓨터에서 GitHub 웹 사이트를 엽니다. R의 devtools 패키지를 사용하여 GitHub에서 Mime의 개발 버전을 설치합니다. 생존 또는 임상 반응 정보가 포함된 전사 시퀀싱 데이터가 포함된 여러 코호트를 준비합니다. Mime GitHub 리포지토리에서 액세스할 수 있는 예제 데이터 세트인 Example.cohort 및 Example.ici를 사용합니다. Example.cohort에는 TCGA 및 CGGA 데이터베이스에서 각각 무작위로 선택된 100개의 샘플이 있는 두 개의 신경아교종 데이터 세트가 포함되어 있습니다. Example.cohort에서 예후를 위한 예측 모델을 구성하기 위해 여러 데이터 세트를 포함합니다. 데이터 세트 형식에 첫 번째 열에 샘플 ID, 두 번째 및 세 번째 열에 생존 시간 및 상태, 나머지 열에 변환된 유전자 발현 수준을 기록하는지 확인합니다. Dataset1이 학습 및 검증을 위한 기타 데이터 세트에 사용되는지 확인합니다. 그런 다음 Example.ici 데이터 세트를 로드하고 형식에 첫 번째 열의 샘플 ID, 두 번째 열의 치료 반응, 나머지 열의 변환된 유전자 발현 수준을 로그에 포함하는지 확인합니다. 유전자 목록 파일에서 R의 Wnt/베타-카테닌 신호 전달과 관련된 유전자 세트를 사용하여 유전자 목록을 준비합니다. ML.Dev.Prog.Sig 함수와 주어진 코드를 사용하여 Example.cohort 및 genelist를 기반으로 예후를 위한 예측 모델을 구성합니다. 그런 다음 함수 cindex_dis_all를 사용하여 각 모델의 C-지수를 플로팅하고 최적의 모델을 식별합니다. 서로 다른 데이터 세트 중 특정 모델을 사용하여 위험에 따른 점수를 사용하여 환자의 생존 곡선을 계산하고 주어진 코드를 사용하여 Mime에서 처리합니다. 함수 cal_AUC_ml_res와 주어진 코드를 사용하여 예측 모델에 대한 시간 종속 AUC를 계산합니다. 이제 함수 auc_dis_all와 주어진 코드를 사용하여 각 모델에 대한 시간 종속 AUC를 플로팅합니다. 함수 roc_vis와 주어진 코드를 사용하여 Mime의 서로 다른 데이터 세트 간에 특정 모델의 시간 종속 ROC 곡선을 처리합니다. 치료 반응에 대한 예측 모델을 구성하려면 Example.ici 데이터 세트와 유전자 목록을 기반으로 ML.Dev.Pred.Category.Sig 함수를 사용합니다. auc_vis_category_all를 사용하여 각 반응 모델에 대한 AUC를 시각화합니다. 그런 다음 roc_vis_category를 사용하여 각 모델에 대한 ROC 곡선을 생성합니다. 핵심 기능 선택의 경우 Example.cohort 및 genelist를 기반으로 ML.Corefeature.Prog.Screen을 사용하여 예후와 관련된 핵심 유전자를 식별합니다. 자주 식별되는 핵심 유전자를 강조 표시하기 위해 core_feature_rank를 사용하여 다양한 방법으로 필터링된 유전자의 순위를 플로팅합니다. Mime이 구축한 117개의 예후 모델 중 StepCox[Forward] + plsRcox 결합 모델은 모든 코호트에서 가장 높은 일치 지수를 보였습니다. 고위험 점수를 가진 환자는 모든 코호트에서 유의하게 더 나쁜 결과를 보였다. SPCOM이 예측한 곡선 아래 1년 면적은 코호트 전체에서 평균 AUC 값이 가장 높은 모든 모델 중에서 가장 높은 순위를 차지했습니다. 7개의 치료 반응 예측 모델 중 svmRadialWeights 모델은 훈련 데이터 세트에서 0.81, 검증 데이터 세트에서 0.68의 곡선 아래 면적으로 가장 높은 성능을 달성했습니다. 핵심 특징 선택은 PSEN2, WNT5B 및 SKP2를 다양한 알고리즘에 대한 재발을 기반으로 상위 유전자로 식별했습니다.
View the full transcript and gain access to thousands of scientific videos
Mime는 질병 관련 유전자를 예측하기 위한 기계 학습 기반 통합 모델을 구성하도록 설계된 계산 프레임워크입니다. 이 문서는 복잡한 데이터 세트를 사용하여 고정확도 예측 모델을 개발하기 위한 단계별 절차를 설명합니다.