Biology

작은 데이터 세트에서 예측 작업 및 다크 바이오마커 검출을 위한 전사체 특징의 전사체 조절 보기 생성

Published: March 1, 2024 doi: 10.3791/66030

Kewei Li¹, Yusi Fan¹, Yaqing Liu¹, Hongmei Liu², Gongyou Zhang², Meiyu Duan¹, Lan Huang¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²School of Biology and Engineering, Guizhou Medical University

Summary

여기에서는 전사체 데이터를 mqTrans 보기로 변환하여 다크 바이오마커를 식별할 수 있는 프로토콜을 소개합니다. 기존의 전사체 분석에서는 차등적으로 발현되지 않지만, 이러한 바이오마커는 mqTrans 보기에서 차등 발현을 나타냅니다. 이 접근법은 전통적인 방법을 보완하는 기술 역할을 하며, 이전에 간과되었던 바이오마커를 밝혀냅니다.

Abstract

전사체는 샘플에서 많은 유전자의 발현 수준을 나타내며 생물학 연구 및 임상 실습에서 널리 사용되었습니다. 연구자들은 일반적으로 표현형 그룹과 샘플의 대조군 사이에 차이 표현을 가진 전사체 바이오마커에 초점을 맞췄습니다. 이 연구는 참조 샘플의 복잡한 유전자 간 상호 작용을 학습하기 위한 멀티태스킹 그래프-주의 네트워크(GAT) 학습 프레임워크를 제시했습니다. 시범적 참조 모델은 건강한 샘플(HealthModel)에 대해 사전 학습되었으며, 이는 독립적인 테스트 전사체의 모델 기반 정량적 전사 조절(mqTrans) 보기를 생성하는 데 직접 사용할 수 있습니다. 생성된 전사체의 mqTrans 보기는 예측 작업 및 다크 바이오마커 검출에 의해 입증되었습니다. "다크 바이오마커(dark biomarker)"라는 용어는 다크 바이오마커가 mqTrans 뷰에서 차등 표현을 나타내지만 원래 발현 수준에서는 차등 발현을 나타내지 않는다는 정의에서 비롯되었습니다. 어두운 바이오마커는 차등 발현이 없기 때문에 전통적인 바이오마커 검출 연구에서 항상 간과되었습니다. 파이프라인 HealthModelPipe의 소스 코드 및 매뉴얼은 http://www.healthinformaticslab.org/supp/resources.php 에서 다운로드할 수 있습니다.

Introduction

전사체는 샘플에 있는 모든 유전자의 발현으로 구성되며 마이크로어레이 및 RNA-seq¹과 같은 고처리량 기술로 프로파일링할 수 있습니다. 데이터 세트에서 한 유전자의 발현 수준을 전사체 특징이라고 하며, 표현형과 대조군 간의 전사체 특징의 차등 표현은 이 유전자를 이 표현형 ^2,3의 바이오마커로 정의합니다. 전사체 바이오마커는 질병 진단⁴, 생물학적 메커니즘⁵, 생존 분석^6,7 등의 연구에 광범위하게 활용되어 왔다.

건강한 조직의 유전자 활동 패턴은 생명에 대한 중요한 정보를 담고 있다 ^8,9. 이러한 패턴은 귀중한 통찰력을 제공하며, 양성 질환(benign disorders^)10,11 및 치명적 질환(lethal diseases⁾¹²의 복잡한 발달 궤적을 이해하기 위한 이상적인 참고 자료 역할을 한다. 유전자는 서로 상호 작용하며, 전사체는 복잡한 상호 작용 후 최종 발현 수준을 나타냅니다. 이러한 패턴은 전사 조절 네트워크^{(transcriptional} regulation network)13 및 대사 네트워크^{(metabolism network)14} 등으로 공식화된다. 메신저 RNA(mRNA)의 발현은 전사 인자(TF) 및 긴 유전자 간 비코딩 RNA(lincRNA)에 의해 전사적으로 조절될 수 있습니다15,16,17. 종래의 차등 발현 분석은 특징간 독립성(inter-feature independence)을 가정한 이러한 복잡한 유전자 상호작용을 무시하였다^18,19.

그래프 신경망(GNN)의 최근 발전은 암 연구⁽²⁰)를 위한 OMIC 기반 데이터로부터 중요한 정보를 추출하는 데 있어 비범한 잠재력을 보여주는데, 예를 들어, 공발현 모듈(²¹)을 식별한다. GNN의 타고난 능력은 유전자^22,23 사이의 복잡한 관계와 의존성을 모델링하는 데 이상적입니다.

생물의학 연구는 종종 대조군에 대한 표현형을 정확하게 예측하는 데 중점을 둡니다. 이러한 작업은 일반적으로 이진 분류(binary classifications)24,25,26으로 공식화된다. 여기서 두 클래스 레이블은 일반적으로 1과 0, true 및 false 또는 양수 및 음수²⁷로 인코딩됩니다.

이 연구는 사전 훈련된 GAT(Graph-Attention Network) 참조 모델을 기반으로 전사체 데이터 세트의 전사 조절(mqTrans) 보기를 생성하기 위한 사용하기 쉬운 프로토콜을 제공하는 것을 목표로 했습니다. 이전에 공개된 작업⁽²⁶ )으로부터의 멀티태스킹 GAT 프레임워크를 사용하여 전사체 특징을 mqTrans 특징들로 변환하였다. UCSC(University of California, Santa Cruz) Xena 플랫폼²⁸ 의 건강한 전사체에 대한 대규모 데이터 세트를 사용하여 조절 인자(TF 및 lincRNA)에서 표적 mRNA까지의 전사 조절을 정량적으로 측정한 참조 모델(HealthModel)을 사전 훈련했습니다. 생성된 mqTrans 뷰는 예측 모델을 구축하고 다크 바이오마커를 감지하는 데 사용할 수 있습니다. 이 프로토콜은 TCGA(The Cancer Genome Atlas) 데이터베이스(²⁹ )의 결장 선암종(COAD) 환자 데이터 세트를 예시로 사용합니다. 이러한 맥락에서 I기 또는 II기의 환자는 음성 샘플로 분류되고 III 또는 IV기의 환자는 양성 샘플로 간주됩니다. 26개의 TCGA 암 유형에 대한 어두운 바이오마커와 전통적인 바이오마커의 분포도 비교됩니다.

HealthModel 파이프라인에 대한 설명
이 프로토콜에 사용된 방법론은 그림 1에 요약된 바와 같이 이전에 발표된 프레임워크²⁶을 기반으로 합니다. 시작하려면 사용자가 입력 데이터 세트를 준비하고, 제안된 HealthModel 파이프라인에 공급하고, mqTrans 기능을 가져와야 합니다. 자세한 데이터 준비 지침은 프로토콜 섹션의 섹션 2에 나와 있습니다. 그 후, 사용자는 mqTrans 기능을 원래 전사체 기능과 결합하거나 생성된 mqTrans 기능만 진행할 수 있습니다. 생성된 데이터 세트는 기능 선택 프로세스를 거치며, 사용자는 분류를 위한 k-폴드 교차 검증에서 k에 대해 선호하는 값을 유연하게 선택할 수 있습니다. 이 프로토콜에서 사용되는 기본 평가 메트릭은 정확도입니다.

HealthModel²⁶은 전사체 특징을 TF(전사 인자), lincRNA(긴 유전자 간 비코딩 RNA) 및 mRNA(메신저 RNA)의 세 가지 그룹으로 분류합니다. TF 특징은 Human Protein Atlas^30,31에서 사용할 수 있는 주석을 기반으로 정의됩니다. 이 작업은 GTEx 데이터 세트³²의 lincRNA 주석을 활용합니다. KEGG 데이터베이스(³³)에서 3단계 경로에 속하는 유전자는 mRNA 특징으로서 고려된다. mRNA 특징이 TRRUST 데이터베이스(³⁴)에 문서화된 바와 같이 표적 유전자에 대한 조절 역할을 나타내면, TF 클래스로 재분류된다는 점에 주목할 필요가 있다.

이 프로토콜은 또한 조절 인자(regulatory_geneIDs.csv)와 표적 mRNA(target_geneIDs.csv)의 유전자 ID에 대한 두 개의 예제 파일을 수동으로 생성합니다. 조절 특징(TF 및 lincRNA) 간의 쌍별 거리 매트릭스는 Pearson 상관 계수에 의해 계산되고 널리 사용되는 도구인 WGCNA(Weighted Gene Co-Expression Network Analysis)³⁶ (adjacent_matrix.csv)에 의해 클러스터링됩니다. 사용자는 이러한 예제 구성 파일과 함께 HealthModel 파이프라인을 직접 활용하여 전사체 데이터 세트의 mqTrans 보기를 생성할 수 있습니다.

HealthModel의 기술적 세부 사항
HealthModel은 TF와 lincRNA 간의 복잡한 관계를 그래프로 나타내며, 입력 특징은 V로 표시된 꼭짓점과 E로 지정된 꼭짓점 간 가장자리 행렬 역할을 합니다. 각 샘플은 V^K×1로 기호화된 K 조절 특징이 특징입니다. 특히, 데이터 세트에는 425개의 TF와 375개의 lincRNA가 포함되어 있어 K = 425 + 375 = 800의 샘플 차원을 얻을 수 있었습니다. 에지 매트릭스 E를 확립하기 위해 이 작업에서는 널리 사용되는 도구인 WGCNA³⁵를 사용했습니다. 및 Equation 2 로 표시된 Equation 1 두 꼭짓점을 연결하는 쌍별 가중치는 Pearson 상관 계수에 의해 결정됩니다. 유전자 조절 네트워크(gene regulatory network)는 중추적인 기능적 역할을 하는 허브 유전자(hub gene)의 존재를 특징으로 하는 비늘 없는 토폴로지(scale-free topology⁾⁽³⁶)를 나타낸다. 두 피처 또는 꼭짓점 간의 상관 관계를 계산하고 Equation 2 , Equation 1 다음과 같이 TOM(Topological Overlap Measure)을 사용합니다.

Equation 3 (1)

Equation 4 (2)

소프트 임계값 β는 WGCNA 패키지의 'pickSoft Threshold' 함수를 사용하여 계산됩니다. 거듭제곱 지수 함수 _{a ij}가 적용되며, 여기서 Equation 5 는 i와 j를 제외한 유전자를 나타내고 Equation 6 꼭짓점 연결을 나타냅니다. WGCNA는 일반적으로 사용되는 비유사성 측정(dissimilarity measure)을 사용하여 전사체 특징의 발현 프로파일을 여러 모듈로 클러스터링합니다( Equation 7 ³⁷.

HealthModel 프레임워크는 원래 멀티태스킹 학습 아키텍처^{(multitask learning architecture)로} 설계되었다(26). 이 프로토콜은 트랜스크립토믹 mqTrans 보기의 구성을 위해 모델 사전 학습 작업만 사용합니다. 사용자는 추가 작업별 전사체 샘플을 사용하여 멀티태스킹 그래프 주의 네트워크 하에서 사전 훈련된 HealthModel을 더욱 구체화하도록 선택할 수 있습니다.

기능 선택 및 분류에 대한 기술적 세부 사항
기능 선택 풀은 11개의 FS(기능 선택) 알고리즘을 구현합니다. 그 중 SK_mic(Maximal Information Coefficient)를 사용하여 K 최상의 특징을 선택하고, MIC의 FPR을 기반으로 K 특징을 선택하고(SK_fpr), MIC의 오탐지율이 가장 높은 K 특징을 선택(SK_fdr)하는 세 가지 필터 기반 FS 알고리즘입니다. 또한 세 가지 트리 기반 FS 알고리즘은 지니 지수(DT_gini), 적응형 부스트 의사 결정 트리(AdaBoost) 및 랜덤 포레스트(RF_fs)가 있는 의사 결정 트리를 사용하여 개별 기능을 평가합니다. 또한 풀은 선형 서포트 벡터 분류자(RFE_SVC)를 사용한 재귀적 기능 제거와 로지스틱 회귀 분류자(RFE_LR)를 사용한 재귀적 기능 제거라는 두 가지 래퍼 방법을 통합합니다. 마지막으로, 최상위 L1 기능 중요도 값(lSVC_L1)이 있는 선형 SVC 분류자와 최상위 L1 기능 중요도 값(LR_L1)이 있는 로지스틱 회귀 분류자의 두 가지 임베딩 알고리즘이 포함됩니다.

분류자 풀은 7개의 서로 다른 분류자를 사용하여 분류 모델을 빌드합니다. 이러한 분류기는 선형 서포트 벡터 머신(SVC), 가우스 나이브 베이즈(GNB), 로지스틱 회귀 분류기(LR), k-최근접이웃(k가 기본적으로 5로 설정됨(KNN), XGBoost, 랜덤 포레스트(RF) 및 의사 결정 트리(DT)로 구성됩니다.

데이터셋을 train: test 서브셋으로 임의로 분할하는 것은 명령줄에서 설정할 수 있습니다. 시연된 예제에서는 train: test = 8:2의 비율을 사용합니다.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

참고: 다음 프로토콜은 주요 모듈의 정보학 분석 절차 및 Python 명령에 대한 세부 정보를 설명합니다. 그림 2는 이 프로토콜에서 사용되는 예제 명령과 함께 세 가지 주요 단계를 설명하며 자세한 기술 세부 사항은 이전에 발표된 저작물^26,38을 참조하십시오. 컴퓨터 시스템의 일반 사용자 계정으로 다음 프로토콜을 수행하고 관리자 또는 루트 계정을 사용하지 마십시오. 이것은 계산 프로토콜이며 생물 의학적 위험 요소가 없습니다.

1. Python 환경 준비

가상 환경을 만듭니다.
1. 이 연구는 Python 3.7에서 Python 프로그래밍 언어와 Python 가상 환경(VE)을 사용했습니다. 다음 단계를 수행합니다(그림 3A).
  conda create -n healthmodel 파이썬=3.7
  conda create 는 새 VE를 만드는 명령입니다. 매개 변수 -n은 새 환경의 이름(이 경우 healthmodel)을 지정합니다. 그리고 python=3.7 은 설치할 Python 버전을 지정합니다. 위의 명령을 지원하는 원하는 이름과 Python 버전을 선택합니다.
2. 명령을 실행한 후 출력은 그림 3B와 유사합니다. y 를 입력하고 프로세스가 완료될 때까지 기다립니다.
가상 환경 활성화
1. 대부분의 경우 다음 명령을 사용하여 생성된 VE를 활성화합니다(그림 3C).
  conda 활성화 healthmodel
2. 일부 플랫폼에서 사용자가 활성화를 위해 플랫폼별 구성 파일을 업로드해야 하는 경우 VE 활성화에 대한 플랫폼별 지침을 따릅니다.
PyTorch 1.13.1 설치
1. PyTorch는 인공 지능(AI) 알고리즘을 위한 인기 있는 Python 패키지입니다. CUDA 11.7 GPU 프로그래밍 플랫폼을 기반으로 하는 PyTorch 1.13.1을 예로 사용합니다. https://pytorch.org/get-started/previous-versions/ 에서 다른 버전을 찾으십시오. 다음 명령을 사용합니다(그림 3D).
  pip3 토치 설치 torchvision torchaudio
  참고: PyTorch 버전 1.12 이상을 사용하는 것이 좋습니다. 그렇지 않으면 공식 torch_geometric 웹 사이트 https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html 에 명시된 것처럼 필요한 패키지를 torch_geometric 설치하는 것이 어려울 수 있습니다.
torch-geometric을 위한 추가 패키지 설치
1. https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html 의 지침에 따라 다음 명령을 사용하여 torch_scatter, torch_sparse, torch_cluster 및 torch_spline_conv 패키지를 설치합니다(그림 3E).
  pip 설치 pyg_lib torch_scatter torch_sparse torch_cluster torch_spline_conv -f https://data.pyg.org/whl/torch-1.13.0+cu117.html
torch-geometric 패키지를 설치합니다.
1. 이 연구에는 torch-geometric 패키지의 특정 버전 2.2.0이 필요합니다. 명령을 실행합니다(그림 3F).
  pip 설치 torch_geometric==2.2.0
다른 패키지를 설치합니다.
1. pandas와 같은 패키지는 일반적으로 기본적으로 사용할 수 있습니다. 그렇지 않은 경우 pip 명령을 사용하여 설치합니다. 예를 들어 pandas 및 xgboost를 설치하려면 다음을 실행합니다.
  핍 설치 팬더
  pip 설치 xgboost

2. 사전 훈련된 HealthModel을 사용하여 mqTrans 기능 생성

코드 및 미리 학습된 모델을 다운로드합니다.
1. http://www.healthinformaticslab.org/supp/resources.php(HealthModel-mqTrans-v1-00.tar.gz)라는 웹 사이트에서 코드와 사전 훈련된 HealthModel을 다운로드합니다(그림 4A). 다운로드한 파일은 사용자가 지정한 경로로 압축을 풀 수 있습니다. 구현된 프로토콜의 자세한 공식화 및 지원 데이터는²⁶에서 찾을 수 있습니다.
HealthModel을 실행하기 위한 파라미터를 소개합니다.
1. 먼저 명령행에서 작업 디렉토리를 HealthModel-mqTrans 폴더로 변경하십시오. 다음 구문을 사용하여 코드를 실행합니다.
  파이썬 main.py <데이터 폴더> <모델 폴더> <출력 폴더>
  각 매개 변수와 데이터, 모델 및 출력 폴더에 대한 세부 정보는 다음과 같습니다.
  데이터 폴더: 원본 데이터 폴더이며 각 데이터 파일은 csv 형식입니다. 이 데이터 폴더에는 두 개의 파일이 있습니다(2.3단계 및 2.4단계의 자세한 설명 참조). 이러한 파일은 개인 데이터로 바꿔야 합니다.
  data.csv: 전사체 매트릭스 파일입니다. 첫 번째 행에는 특징(또는 유전자) ID가 나열되고 첫 번째 열에는 샘플 ID가 표시됩니다. 유전자 목록에는 조절 인자(TF 및 lincRNA)와 조절된 mRNA 유전자가 포함됩니다.
  label.csv: 샘플 레이블 파일입니다. 첫 번째 열에는 샘플 ID가 나열되고 이름이 "label"인 열에는 샘플 레이블이 제공됩니다.
  model folder: 모델에 대한 정보를 저장할 폴더입니다.
  HealthModel.pth: 미리 학습된 HealthModel입니다.
  regulatory_geneIDs.csv: 이 연구에 사용된 조절 유전자 ID입니다.
  target_geneIDs.csv: 본 연구에서 사용된 표적 유전자.
  adjacent_matrix.csv: 조절 유전자의 인접 매트릭스.
  output folder: 출력 파일은 코드에 의해 생성된 이 폴더에 기록됩니다.
  test_target.csv: Z-Normalization 및 imputation 후 표적 유전자의 유전자 발현 값.
  pred_target.csv: 표적 유전자의 예측된 유전자 발현 값.
  mq_target.csv: 표적 유전자의 예측된 유전자 발현 값.
csv 형식의 전사체 매트릭스 파일을 준비합니다.
1. 각 행은 샘플을 나타내고 각 열은 유전자를 나타냅니다(그림 4B). 트랜스크립토믹 데이터 매트릭스 파일의 이름을 데이터 폴더에 data.csv으로 지정합니다.
  알림: 이 파일은 Microsoft Excel과 같은 소프트웨어에서 데이터 매트릭스를 .csv 형식으로 수동으로 저장하여 생성할 수 있습니다. 전사체 매트릭스는 또한 컴퓨터 프로그래밍에 의해 생성될 수 있다.
csv 형식의 레이블 파일을 준비합니다.
1. 전사체 매트릭스 파일과 마찬가지로 레이블 파일의 이름을 데이터 폴더의 label.csv로 지정합니다(그림 4C).
  참고: 첫 번째 열은 샘플 이름을 제공하고 각 샘플의 클래스 레이블은 레이블이라는 열에 제공됩니다. 레이블 열의 0 값은 이 샘플이 음수임을 의미하고 1은 양성 샘플을 의미합니다.
mqTrans 기능을 생성하십시오.
1. 다음 명령을 실행하여 mqTrans 기능을 생성하고 그림 4D에 표시된 출력을 가져오십시오. mqTrans 기능은 ./output/mq_targets.csv 파일로 생성되고 레이블 파일은 ./output/label.csv 파일로 다시 저장됩니다. 추가 분석의 편의를 위해 mRNA 유전자의 원래 발현 값도 ./output/ test_target.csv 파일로 추출됩니다.
  파이썬 ./Get_mqTrans/code/main.py ./data ./Get_mqTrans/model ./output

3. mqTrans 기능 선택

기능 선택 코드의 구문
1. 먼저 작업 디렉토리를 HealthModel-mqTrans 폴더로 변경하십시오. 다음 구문을 사용합니다.
  파이썬 ./FS_classification/testMain.py
  각 매개변수의 세부 정보는 다음과 같습니다.
  in-data-file: 입력 데이터 파일
  in-label-file: 입력 데이터 파일의 레이블
  output 폴더: 이 폴더에는 Output-score.xlsx (기능 선택 방법 및 해당 분류자의 정확도) 및 Output-SelectedFeatures.xlsx (각 기능 선택 알고리즘에 대해 선택한 기능 이름)를 포함하여 두 개의 출력 파일이 저장됩니다.
  1. select_feature_number: 1에서 데이터 파일의 기능 수까지 기능 수를 선택합니다.
  2. test_size: 분할할 테스트 샘플의 비율을 설정합니다. 예를 들어, 0.2는 입력 데이터셋이 0.8:0.2의 비율로 train: test 부분 집합으로 임의로 분할됨을 의미합니다.
  3. combine: true인 경우, 기능 선택(예: 원래 표현식 값 및 mqTrans 기능)을 위해 두 개의 데이터 파일을 함께 결합합니다. false인 경우, 기능 선택에 하나의 데이터 파일(예: 원래 표현식 값 또는 mqTrans 기능)만 사용하십시오.
  4. combine file: comparent가 true이면 이 파일 이름을 제공하여 결합된 데이터 행렬을 저장합니다.
    참고: 이 파이프라인은 생성된 mqTrans 기능이 분류 태스크에서 어떻게 수행되는지 보여주는 것을 목표로 하며, 다음 조작을 위해 섹션 2에서 생성된 파일을 직접 사용합니다.
mqTrans 기능 선택에 대한 기능 선택 알고리즘을 실행하십시오.
1. 사용자가 mqTrans 기능 또는 원래 기능을 선택하는 경우 결합 =False 를 설정하십시오.
2. 먼저 800개의 원래 기능을 선택하고 데이터 세트를 학습(test=0.8:0.2)으로 분할합니다.
  파이썬 ./FS_classification/testMain.py ./output/test_target.csv ./output/label.csv ./result 800 0.2 거짓
3. 사용자가 mqTrans 기능을 원래 표현식 값과 결합하여 기능을 선택하려는 경우 combine =True를 설정하십시오. 여기서 시연 예제는 800개의 기능을 선택하고 데이터 세트를 train으로 분할하는 것입니다(test=0.8:0.2).
  파이썬 ./FS_classification/testMain.py ./output/mq_targets.csv ./output/label.csv ./result_combine 800 0.2 True ./output/test_target.csv
  참고: 그림 5 는 출력 정보를 보여줍니다. 이 프로토콜에 필요한 보충 파일은 HealthModel-mqTrans-v1-00.tar 폴더(보충 코딩 파일 1)에 있습니다.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

전사체 데이터 세트의 mqTrans 보기 평가
테스트 코드는 11개의 기능 선택(FS) 알고리즘과 7개의 분류자를 사용하여 전사체 데이터 세트의 생성된 mqTrans 보기가 분류 작업에 어떻게 기여하는지 평가합니다(그림 6). 테스트 데이터 세트는 TCGA(The Cancer Genome Atlas) 데이터베이스²⁹의 317개 결장 선암종(COAD)으로 구성됩니다. I기 또는 II기의 COAD 환자는 음성 샘플로 간주되고 III 또는 IV기의 환자는 양성 샘플로 간주됩니다.

11개의 FS 알고리즘이 테스트 코드에 구현됩니다. MIC에 의한 K 최상의 특징 선택(SK_mic), MIC의 FPR에 의한 K 특징 선택(SK_fpr), MIC의 가장 높은 FDR에 의한 K 특징 선택(SK_fpr)을 포함한 세 가지 필터 기반 FS 알고리즘이 있습니다. 세 가지 트리 기반 FS 알고리즘은 각각 지니 지수(DT_gini), 적응형 부스트 의사결정 트리(AdaBoost) 및 랜덤 포레스트(RF_fs)를 사용하여 개별 기능을 평가합니다. 또한 테스트 코드의 FS 풀은 선형 서포트 벡터 분류자(SVC)(RFE_SVC)를 사용하는 RFE(재귀 기능 제거)와 로지스틱 회귀 분류자(RFE_LR)를 사용하는 RFE, 그리고 최상위 L1 기능 중요도 값(lSVC_L1)을 사용하는 선형 SVC 분류자 및 최상위 L1 기능 중요도 값(LR_L1)을 사용하는 로지스틱 회귀 분류자 등 두 개의 래퍼를 평가합니다.

테스트 코드는 선형 서포트 벡터 머신(SVC), 가우스 나이브 베이즈(GNB), 로지스틱 회귀 분류기(LR), k-최근접 이웃, k-5 기본값(KNN), XGBoost, 랜덤 포레스트(RF) 및 의사 결정 트리(DT)를 포함한 7개의 분류기를 사용하여 분류 모델을 빌드합니다.

그림 6은 mqTrans 특징, 원래 mRNA 특징, 각 FS 알고리즘에서 권장하는 mRNA 및 mqTrans 특징의 결합된 하위 집합의 최대 테스트 정확도를 보여줍니다.

결합된 특징 서브세트(mRNA+mqTrans)는 "SK_fpr" FS 분석법에서 가장 높은 정확도인 0.7656을 달성했으며, 이는 개별 특징 유형 mqTrans(0.7188) 및 오리지널 mRNA(0.7188)보다 우수합니다. 다른 FS 알고리즘에서도 유사한 패턴을 관찰할 수 있습니다. 사용자는 출력 파일 Output-SelectedFeatures.csv에서 선택한 기능을 확인할 수 있습니다.

다크 바이오마커 검출
이전 연구에서는 표현형 및 대조군 간에 현저하게 다르게 표현된 mqTrans 값을 갖는 미분화 발현 유전자의 존재를 보여주었습니다 26,38,39. 이러한 유전자는 다크 바이오마커(dark biomarker)라고 불리는데, 이는 전통적인 바이오마커 검출 연구가 비차별적 발현으로 이를 무시하기 때문입니다. Microsoft Excel의 통계 분석 함수 t.test를 사용하여 통계적 p-값이 0.05보다 작은 경우 차등적으로 표현되는 특성을 정의할 수 있습니다.

생성된 mqTrans 값을 가진 3062개의 특징 중 221개의 다크 바이오마커가 검출되었습니다(그림 7). 3위를 차지한 유전자 ENSG00000163697(APBB2, Amyloid Beta Precursor Protein Binding Family B Member 2)은 유의미하게 다르게 표현된 mqTrans 값(mqTrans.P = 2.03 x ^10-4)을 보인 반면, 원래 발현 수준은 차등 발현을 나타내지 않았습니다(mRNA.P = 3.80 x ^10-1). 키워드 APBB2는 PubMed 데이터베이스⁴⁰개에서 27개의 간행물에 적중했으나 결장이나 장과의 연관성은 발견되지 않았다.

또 다른 유전자 ENSG00000048052(HDAC9, 히스톤 탈아세틸화효소 9)은 표현형과 대조군 간에 실질적으로 동일한 정규 분포(mRNA.P = 9.62 x ^10-1)를 유지하면서 다르게 표현된 mqTrans 값(mqTrans.P = 6.09 x ^10-3)을 갖습니다. 키워드 HDAC9은 PubMed 데이터베이스에서 417개의 출판물을 기록했습니다. 3건의 연구는 초록⁴¹^, ⁴²^, ⁴³에서 "결장(colon)" 또는 "장(intestine)"이라는 키워드를 언급했다. 그러나 그들 중 누구도 대장암에서 HDAC9의 역할을 조사하지 않았다.

이 데이터는 전사 후 활동, 예를 들어 번역된 단백질 수준^44,45에서 이러한 어두운 바이오마커의 추가 평가의 필요성을 시사했습니다.

대사 관련 다크 및 전통적 바이오마커의 범암 분포
대사 관련 전통적 바이오마커를 스크리닝하여 TCGA 데이터 세트³⁸의 26개 암 유형에 걸쳐 어두운 바이오마커와 비교했습니다. 두 범주의 바이오마커 모두 초기(I기 및 II) 및 후기(III기 및 IV) 암 단계에서 유의성 수준을 식별하기 위해 통계적 평가를 거쳤습니다. 이 평가는 p-값에 대해 스튜던트 t-검정을 사용했으며, 이후 FDR(False Discovery Rate)을 사용하여 여러 테스트에 대해 수정되었습니다. 26가지 암 유형 각각에 대한 자세한 데이터는 그림 8에 나와 있습니다.

FDR 보정된 p-값이 0.05 미만인 유전자는 전통적인 바이오마커로 분류되었습니다. 대조적으로, 다크 바이오마커는 mqTrans 보기에서 FDR 보정된 p-값이 0.05 미만인 것으로 정의되었으며, 동시에 발현 수준에서 통계적으로 유의한 차이를 나타내지 않았습니다.

그림 9는 대부분의 암 유형에서 전통적인 바이오마커와 비교하여 다크 바이오마커가 일반적으로 부족하다는 것을 보여줍니다. 주목할 만한 예외로는 BRCA, MESO 및 TGCT가 있으며, 이들은 다크 바이오마커의 더 큰 유병률을 나타냅니다. 전사 인자, 메틸화 패턴, 유전자 돌연변이 및 환경 조건을 포함한 다양한 요인이 이러한 어두운 바이오마커의 전사 조절 장애를 조절할 수 있음이 밝혀졌습니다. 다크 바이오마커의 발현 수준을 혼동할 수 있는 겹치는 비코딩 RNA 전사체로 인해 더 많은 복잡성이 발생할 수 있습니다. 일부 다크 바이오마커의 전사 조절 장애는 차등 단백질 수준^44,45에 의해 뒷받침되었습니다. 다크 바이오마커는 전통적인 연구에서 종종 간과되며 미래의 기계론적 연구를 위한 흥미로운 길을 제시합니다.

그림 1: 이 프로토콜의 HealthModel 및 기능 선택 모듈에 대한 개요입니다. 사용자가 Python 프로그래밍에 익숙한 경우 기능 선택 풀과 분류자 풀의 특정 알고리즘을 바꿉니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

그림 2: 이 프로토콜에 대한 전체 코드 흐름. (a) Python 환경을 준비합니다. 시작하려면 가상 환경을 만들고 필수 패키지를 설치합니다. 자세한 지침은 섹션 1을 참조하십시오. (b) mqTrans 기능을 생성합니다. 제공된 코드를 단계별로 실행하여 mqTrans 기능을 확보하십시오. 자세한 설명은 섹션 2에서 찾을 수 있습니다. (c) mqTrans 기능을 선택합니다. 이 절에서는 mqTrans 기능 평가에 초점을 맞춥니다. 자세한 내용은 섹션 3을 참조하십시오. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

그림 3: Python을 위한 환경을 준비합니다. (A) healthmodel을 만드는 명령입니다. (B) VE 생성 과정에서 y 를 입력합니다. (C) VE를 활성화하기 위한 가장 일반적인 명령입니다. (D) 토치 설치 명령 1.13.1. (E) torch-geometric 패키지에 대한 추가 라이브러리를 설치합니다. (F) torch-geometric 패키지를 설치합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

그림 4: HealthModel을 실행하여 mqTrans 기능을 가져옵니다. (ᅡ) 코드를 다운로드합니다. (B) 데이터 파일의 예. 각 열에는 조절 인자의 모든 값이 있으며 첫 번째 항목은 유전자 ID입니다. 각 행은 지정된 샘플의 값을 제공하며 첫 번째 항목은 샘플 이름입니다. (C) 라벨 파일의 예. 첫 번째 열은 샘플 이름을 제공하고 각 샘플의 클래스 레이블은 레이블이라는 열에 제공됩니다. 레이블 열의 0 값은 이 샘플이 활성 상태임을 의미하고 1은 비활성을 의미합니다. (D) mqTrans의 출력. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

그림 5: mqTrans 기능에 대한 기능 선택 알고리즘을 실행합니다. 기능 선택 알고리즘의 결과가 사용자에게 표시됩니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

그림 6: 각 기능 선택 알고리즘의 최대 테스트 세트 정확도. 가로축은 기능 선택 알고리즘을 나열하고 세로축은 정확도 값을 제공합니다. 히스토그램은 세 가지 설정, 즉 mqTrans, mRNA, mRNA+mqTrans의 실험 데이터를 보여줍니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

그림 7: mqTrans 보기에서 p-값이 가장 작은 상위 50개의 어두운 바이오마커. "Dark Biomarker" 열은 다크 바이오마커 이름을 제공합니다. "mRNA.P" 및 "mqTrans.P" 열은 표현형과 대조군 간의 통계적 t-검정 p-값입니다. p-값의 배경색은 p-값 1.00(파란색)과 0.00(빨간색) 사이에 있고 흰색은 p-값 = 0.05를 나타냅니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

그림 8: TCGA(The Cancer Genome Atlas)에 있는 26개 암의 세부 정보를 서로 다른 단계에서 보여줍니다. "Cohort" 및 "Disease Tissue" 열은 각 데이터 세트에 대한 환자 그룹 및 질병이 있는 조직을 설명합니다. 마지막 4개의 열은 각각 발달 단계 I, II, III 및 IV의 샘플 수를 제공합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

그림 9: 26개 암에서 다크 바이오마커와 전통적인 바이오마커의 수. 가로축에는 26가지 암 유형이 나열되어 있습니다. 세로축은 이러한 암 유형에 대한 어두운 바이오마커와 전통적인 바이오마커의 수를 제공합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

보충 코딩 파일 1: HealthModel-mqTrans-v1-00.tar 이 파일을 다운로드하려면 여기를 클릭하십시오.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

프로토콜의 섹션 2(사전 학습된 HealthModel을 사용하여 mqTrans 기능 생성)는 이 프로토콜 내에서 가장 중요한 단계입니다. 섹션 1에서 계산 작업 환경을 준비한 후 섹션 2에서는 사전 훈련된 대형 참조 모델을 기반으로 전사체 데이터 세트의 mqTrans 보기를 생성합니다. 섹션 3은 바이오마커 검출 및 예측 작업을 위해 생성된 mqTrans 기능을 선택하는 데모 예제입니다. 사용자는 자신의 도구 또는 코드를 사용하여 이 mqTrans 데이터 세트에 대해 다른 전사체 분석을 수행할 수 있습니다.

원래 HealthModel 프레임워크는²⁶에 설명된 대로 멀티태스킹 아키텍처를 사용하여 사전 훈련된 HealthModel을 더욱 구체화할 수 있습니다. 이 프로토콜은 전사체 데이터 세트의 mqTrans 보기를 생성하기 위해 사전 훈련된 참조 모델의 활용에 중점을 둡니다.

기본 사전 훈련된 참조 모델은 건강한 샘플에 대해 설정되었으며 일부 특정 작업(예: 원발암과 전이성 암 간의 조사)에는 적합하지 않을 수 있습니다. 또한 대규모 전사체 데이터 세트의 경우 계산 속도가 느립니다.

이 프로토콜의 중요성은 가장 풍부하게 사용 가능한 OMIC 데이터 유형(예: 트랜스크립톰)에 대한 보완적인 mqTrans 보기를 제공하는 것입니다. 다크 바이오마커는 기존의 전사체 분석에서 무시된 미분화 발현 유전자에서 밝힐 수 있습니다. 최근 연구에서는 총⁴⁴개 샘플로 구성된 805개 샘플로 구성된 3개의 독립적인 코호트를 기반으로 전이성 대장암(mCC)의 7가지 어두운 바이오마커를 검출했습니다. 다크 바이오마커는 비차별적 발현으로 인해 제한된 습식 실험실 조사를 받았습니다. 그러나, 검출된 mCC 다크 바이오마커 YTHDC2 중 하나는 2를 포함하는 단백질 YTH 도메인을 암호화하며, 이의 단백질 수준은 인간 위암 세포⁽⁴⁶ ) 및 결장암(⁴⁷)의 전이 상태와 양의 상관관계가 있는 것으로 관찰되었다. 다크 바이오마커에 대한 새로운 생물학적 통찰력은 in vitro 및 in vivo 기술을 통해 해결되어야 합니다.

이 프로토콜은 완전히 모듈식으로 설계되었습니다. 원발암과 같은 다른 대규모 데이터 세트에서 사전 훈련된 참조 모델은 종양 전이 조사를 용이하게 합니다. 이 프로토콜은 식물, 균류 및 미생물을 포함한 다른 생명 영역의 응용 분야에서도 탐구될 것입니다.

이 프로토콜의 계산 효율성은 병렬화 및 알고리즘 최적화를 통해 향상될 계획입니다.

이 프로토콜은 전사체 데이터 세트를 새로운 mqTrans 보기로 변환하는 절차를 설명하며, 유전자의 변환된 mqTrans 값은 참조 샘플과 비교하여 전사 조절 변화를 정량적으로 측정합니다. 기본 모델은 건강한 전사체에 대해 사전 학습되었으며 참조 HealthModel로 릴리스되었습니다.

생물의학 연구자가 이 프로토콜을 쉽게 활용할 수 있도록 두 가지 다운스트림 작업의 소스 코드가 제공됩니다. 실험 데이터는 변환된 mqTrans 기능이 원래 표현식 레벨만 사용하여 예측 태스크를 개선할 수 있음을 보여줍니다. mqTrans 보기는 또한 원본 전사체 데이터에서 차등 발현 없이 일부 어두운 바이오마커의 잠재 표현형 연결을 밝힐 수 있습니다.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

저자는 공개할 것이 없습니다.

Acknowledgments

이 작업은 시니어 및 주니어 기술 혁신팀(20210509055RQ), 구이저우성 과학기술프로젝트(ZK2023-297), 구이저우성 위생건강위원회 과학기술재단(gzwkj2023-565), 길림성 교육부 과학기술프로젝트(JJKH20220245KJ, JJKH20220226SK), 중국 국가자연과학재단(U19A2061), 길림성 빅데이터 지능컴퓨팅 중점연구소의 지원을 받았다 (20180622002JC) 및 중앙 대학을 위한 기초 연구 기금, JLU. 우리는 이 프로토콜의 엄격함과 명확성을 실질적으로 향상시키는 데 중요한 역할을 한 건설적인 비평에 대해 리뷰 편집자와 세 명의 익명 리뷰어에게 진심으로 감사를 표합니다.

Materials

Name	Company	Catalog Number	Comments
Anaconda	Anaconda	version 2020.11	Python programming platform
Computer	N/A	N/A	Any general-purpose computers satisfy the requirement
GPU card	N/A	N/A	Any general-purpose GPU cards with the CUDA computing library
pytorch	Pytorch	version 1.13.1	Software
torch-geometric	Pytorch	version 2.2.0	Software