대량 RNA-seq 데이터를 기반으로 한 전사체 분석

Ruimin Shan; Ran Li; Yan Liu; Yao Geng

doi:10.3791/69611

Method Article

대량 RNA-seq 데이터를 기반으로 한 전사체 분석

DOI:

10.3791/69611

⸱

January 16th, 2026

Ruimin Shan^*¹ , Ran Li^*¹ , Yan Liu¹ , Yao Geng²

¹Nanjing Medical University, ²Rehabilitation Medicine Center, The First Affiliated Hospital of Nanjing Medical University

^* These authors contributed equally

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

본 프로토콜은 원시 데이터에서 기능 풍부 분석까지 대량 RNA-seq 과정을 분석하는 완전한 파이프라인을 구축합니다.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

비알코올성 지방간(NAFL)은 일반적으로 양성 질환으로 간주됩니다; 그러나 비알코올성 지방간염(NASH)으로 진행되면 환자들은 말기 간 질환 발병 위험이 유저히 증가합니다. 많은 연구들이 NAFL에서 NASH로의 전환 기전을 밝히려는 시도를 하고 있습니다. 고처리량 시퀀싱 기술(예: 대량 RNA-seq)은 전사체를 분석하여 분자의 발현, 신호 전달 경로의 활성화 및 질병 진행과 관련된 기타 요인을 밝혀내어 연구자들에게 더 깊은 이해를 제공했습니다. 연구자들이 질병 치료의 잠재적 표적을 식별하기 위해 분석할 수 있는 풍부한 오픈 소스 데이터가 있습니다. 그러나 관련 연구는 전사체의 상류 분석을 위한 효율적이고 신뢰할 수 있는 프로세스의 부재로 인해 제한을 받고 있습니다. 여기서는 고도로 재현 가능하고 사용자 친화적인 상류 분석과 관련된 차별 유전자 분석 파이프라인을 제공하여 사적 또는 공공 데이터의 표준화된 처리와 심층 파싱을 달성합니다. 파이프라인은 네 단계로 나뉩니다: (1) 데이터의 품질 관리; (2) 유전자 지도 작성; (3) 차별 유전자 분석; 그리고 (4) 함수해석학. 이 과정은 질병 변형의 분자 메커니즘을 밝히고, Bulk RNA-seq 데이터를 분석하여 잠재적 약물 표적과 치료 접근법을 선별하는 데 연구자들을 지원하는 것을 목표로 합니다.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

비알코올성 지방간 질환(NAFLD)은 전 세계적으로 가장 흔한 만성 간 질환으로, 인구의 4분의 1 이상에게 영향을 미칩니다. 최근 수십 년간 발생률이 급격히 증가했습니다¹^, ²^, ³. 특히 더 진행된 형태인 비알코올성 지방간염(NASH)이 증가하는 질병 부담은 전 세계적으로 큰 보건 도전이자 무거운 경제적 부담을 안겨^줍니다. NAFLD의 1단계는 비알코올성 지방간(NAFL)으로, 염증과 섬유화를 동반하여 NASH로 진행될 수 있습니다. 후자는 간경변증과 간세포암(HCC^)을 포함한 말기 간 질환으로의 진행 위험을 크게 높입니다^5,6,7. HCC 발생률과 사망률은^NASH ^8,9 증가와 연관되어 있으며, 2030년까지 NAFLD/NASH가 간 이식의 주요 적응증이 될 것으로 예상됩니다. 그러나 NAFLD의 임상 진행은 매우 이질^적이며, 이는 관련 약물 개발을 심각하게 방해하므로(¹²) 관련 분자 기전을 정밀히 탐구하는 것이 특히 중요합니다.

세포 구성 정보를 대량 RNA-seq-기반으로 획득하면 다양한 질병의 발병 기전을 크게 밝혀낼 수 있습니다. 최근 수십 년간 모델 생물과 인간을 대상으로 NASH¹³^, ¹⁴^, ¹⁵ 진행 내 유전자 발현 차이를 밝히고, 새로운 치료 표적을 규명하기 위한 수많은 집단 RNA-seq 연구가 수행되었습니다. 대량 RNA-seq 분석을 바탕으로 Xiong 등은 간 내 비실질세포(NPC)가 세포외기질 형성과 세포 부착과 같은 과정에 관여하며, 이는 NASH¹⁶의 진행에 기여한다는 사실을 발견했습니다. Li 등은 간세포 내 윌름스 종양 1-결합 단백질(WTAP)이 자궁외 지질 축적과 염증을 조절하여 NASH 형성을 촉진함을 입증했다¹⁷. 대량 RNA-seq 분석은 NASH의 메커니즘을 밝히는 강력한 도구이지만, 그 결과는 상위 데이터 품질에 매우 민감합니다. 상류 실험 작업과 분석 과정의 이질성은 데이터의 신뢰성을 심각하게 저하시켜 실제 생물학적 정보를 가리고 이후 분석의 정확성을 방해할 수 있습니다. 따라서 표준화된 상류 분석 절차를 수립하는 것이 중요합니다.

단세포 RNA 시퀀싱(scRNA-seq)과 비교할 때, 벌크 RNA-seq는 실험 설계와 실용적 응용 모두에서 여러 가지 뚜렷한 장점을 제공합니다. scRNA-seq는 단일 세포 수준에서 세포 이질성을 식별하고 세포 유형별 전사 특징의 정밀한 분석을 가능하게 하지만, 높은 비용, 복잡한 데이터 처리 요구, 그리고 저함도 전사체 검출에 대한 제한된 민감도를 동반합니다¹⁸. 반면, 대량 RNA-seq는 더 깊은 시퀀싱 깊이, 낮은 비용, 더 높은 샘플 처리량을 제공하여 집단 차원의 차별 유전자 발현 분석과 분자 기전 탐구에 특히 적합하다¹⁹. 따라서 표준화된 분석 워크플로우에 따라 대량 RNA-seq는 복잡한 질병의 분자 기초를 연구하는 데 효율적이고 비용 효율적이며 견고한 접근법으로 남아 있습니다.

이 프로토콜은 인간 조직에서 유래한 RNA 순결 데이터셋을 위해 특별히 설계되었습니다. RNA 무결도가 높음(RIN ≥ 7.0)과 충분한 입력 RNA(샘플당 ≥ 500 ng)를 가진 데이터셋입니다. 정렬 및 정량화 단계의 신뢰성 있는 실행을 위해 최소 10코어 CPU, 32GB RAM, 최소 200GB 이상의 여유 디스크 공간을 갖춘 로컬 워크스테이션이 권장됩니다. 이러한 요구사항을 바탕으로, 프로토콜은 대규모 전사체 데이터를 분석하는 연구자들의 요구를 충족시키기 위해 상세한 운영 지침과 표준화된 매개변수 구성을 포함한 효율적이고 사용자 친화적인 분석 워크플로우를 제공합니다.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

시연 목적으로, Lan Bai 등이 생성한 공개 데이터셋 PRJNA1023502 상류 및 하류 분석의 각 단계를 설명하는 데 사용^{되었습니다.} 이 데이터셋은 오픈 액세스 NCBI SRA 데이터베이스에서 유래하므로 추가적인 권한이나 윤리적 승인이 필요하지 않습니다. 필요한 모든 소프트웨어 및 R-패키지 버전을 확인하려면 재료표 를 참조하세요. 공개된 데이터셋은 6개의 비-NASH, 6개의 NAFL, 6개의 NASH 간 RNA-seq 샘플로 구성PRJNA1023502. 이 프로토콜에서는 SRA 데이터베이스에서 데이터 검색, 품질 관리(fastp), 정렬(HISAT2), 정량화(featureCounts), 그리고 하위 차별 발현 및 기능 풍부 분석 등 대량 RNA-seq 워크플로우의 모든 단계를 시연하는 데 사용되었습니다.

1. SRA 툴킷 설치

SRA 툴킷 공식 웹사이트를 방문하여 버전 3.2.1을 다운로드하세요.

2. 공개 데이터 다운로드

SRA 번호를 받아보세요.
1. 기사 보충²⁰, 데이터 가용성 섹션, 또는 NCBI SRA 데이터베이스에서 키워드를 검색하여 접근할 수 있습니다.
2. 터미널에서 prefetch를 입력하면 다운로드됩니다.

3. 유전자 계수 행렬 생성

아래에 설명된 경로와 설정을 정의하세요:
REFERENCE=~/reference/human/GRCh38/GRCh38.primary_assembly.genome.fa GTF=~/reference/human/GRCh38/gencode.v44.annotation.gtf INDEX=~/reference/human/GRCh38/GRCh38_index FASTQ_DIR=~/SRA_tutorial/fastq OUT_FASTP=~/RNAseq/fastp OUT_HISAT2=~/RNAseq/hisat2 OUT_COUNTS=~/RNAseq/counts mkdir -p $FASTQ_DIR $OUT_FASTP $OUT_HISAT2 $OUT_COUNTS
1. 공식 GENCODE 데이터베이스(https://www.gencodegenes.org/human/)에서 인간 참조 게놈(GRCh38 1차 조립체)과 해당 유전자 주석 파일(gencode.v44, 종합 유전자 주석 세트)을 다운로드하세요.
  for f in SRR*; do [[ ! $f =~ \.sra$ ]] && mv "$f" "$f.sra"; done for f in SRR*; do [[ ! $f =~ \.sra$ ]] && mv "$f" "$f.sra"; done
SRA 파일 이름을 변경하세요.
1. 모든 SRA 파일이 .sra 파일 확장자를 사용하여 하위 도구들이 정확한 인식과 처리를 쉽게 하도록 하세요.
2. 다음 명령을 실행하세요:
  for f in SRR*; do [[ ! $f =~ \.sra$ ]] && mv "$f" "$f.sra"; done
SRA 파일을 FASTQ 형식으로 변환하기 위해 다음 명령을 실행하세요:
for f in *.sra; do fasterq-dump "$f" --split-files -O $FASTQ_DIR - e 20; done
참고 유전체에서 HISAT2 지수를 구축하세요.
hisat2-build $REFERENCE $INDEX
FASTQ 파일을 시각적으로 진행 상황 모니터링으로 처리합니다.
for fq in $FASTQ_DIR/*.fastq; do sample=$(basename "$fq" .fastq)
1. 쌍 엔드 시퀀싱 데이터의 경우, 다음 명령을 실행하세요
  for fq1 in $FASTQ_DIR/*_1.fastq; do sample=$(basename "$fq1" _1.fastq) fq2=$FASTQ_DIR/${sample}_2.fastq
2. fastp를 사용해 품질 관리 및 필터링을 수행하고 결과를 $OUT_FASTP 디렉터리에 출력하세요. 단일 종단 시퀀싱 데이터의 경우, 다음 명령을 실행하세요:
  fastp \ -i "${fq}" \ -o $OUT_FASTP/${sample}.clean.fastq \ -h $OUT_FASTP/${sample}.html \ -j $OUT_FASTP/${sample}.json \ -w 20
  페어드 엔드 시퀀싱 데이터의 경우, 다음 명령을 실행하세요:
  fastp \ -i "${fq}" \ -I "$fq2" \ -o $OUT_FASTP/${sample}_1.clean.fastq \ -O $OUT_FASTP/${sample}_2.clean.fastq \ -h $OUT_FASTP/${sample}.html \ -j $OUT_FASTP/${sample}.json \ -w 20
3. 각 샘플에 대해 시각적 품질 관리를 위해 HTML 보고서를 검사하고, 읽기 품질, GC 분포, 읽기 중복, 어댑터 오염 등 구조화된 지표는 JSON 보고서를 참고하세요. 모든 샘플이 다음 품질 기준을 충족하는지 확인하세요: Q30 ≥ 85%, 어댑터 오염률 <5%, 그리고 비정상적인 GC 패턴 없음. 모든 출력 파일을 $OUT_FASTP 디렉터리에 저장하세요.
4. HISAT2를 사용해 시퀀스 정렬을 수행하고, SAM 파일을 생성하여 $OUT_HISAT2 디렉터리로 출력하세요. 단일 종단 시퀀싱 데이터의 경우, 다음 명령을 실행하세요:
  hisat2 -p 20 \ -x $INDEX \-U $OUT_FASTP/${sample}.clean.fastq \ -S $OUT_HISAT2/${sample}.sam
  페어드 엔드 시퀀싱 데이터의 경우, 다음 명령을 실행하세요:
  hisat2 -p 20 \-x $INDEX \-1 $OUT_FASTP/${sample}_1.clean.fastq \ -2 $OUT_FASTP/${sample}_2.clean.fastq \ -S $OUT_HISAT2/${sample}.sam
5. GRCh38 주 조립 FASTA 파일에서 만든 인덱스를 사용하여 품질 필터링 리드를 인간 참조 게놈에 HISAT2 정렬합니다. 단일 종단 및 쌍 끝 시퀀싱 데이터에 대한 예제 명령어를 제공하세요.
6. SAM을 BAM으로 변환하고, 정렬하고, 인덱싱하세요.
  samtools view -@ 20 -bS $OUT_HISAT2/${sample}.sam \ | samtools sort -@ 20 -o $OUT_HISAT2/${sample}.sorted.bam samtools index $OUT_HISAT2/${sample}.sorted.bam done
7. 각 샘플마다 SAM 파일을 생성하고 SAMtools를 사용해 정렬 및 인덱스된 BAM 파일로 변환하세요. 고품질 인간 전사체 샘플(RNA 무결 수, RIN ≥ 8.0)의 경우, 전체 정렬율이 85%를 초과하도록 하세요; 일반적인 대량 RNA-seq 샘플(RIN ≥ 7.0)의 경우, 정렬률≥ 70% 허용 범위를 고려합니다.
8. featureCount를 사용하여 유전자 정량화를 수행합니다.
  featureCounts -T 20 -p -s 0 \ -a $GTF \ -o $OUT_COUNTS /${sample}.counts.txt \ $OUT_HISAT2/${sample}.sorted.bam Done
9. 각 샘플별로 featureCounts가 생성하는 탭 구분된 출력 파일(*.counts.txt)과 요약 보고서(*.counts.txt.summary)를 확인하세요. 읽기 할당률이 인간 벌크 RNA-seq의 일반적인 기준 ≥70%를 충족하는지 확인하세요; 현저히 낮은 비율은 가닥 방향 불일치, 주석 문제 또는 정렬 품질 저하를 나타낼 수 있습니다. 이 비가닥 RNA-seq 데이터셋에는 매개변수 -s 0을 사용하세요. 스트랜드 전용 라이브러리의 경우, 명령어에서 -s 0을 -s 1 또는 -s 2로 대체하세요.
아래에 설명된 유전자 계수 행렬을 생성합니다.
1. 첫 샘플의 유전자 ID와 카운트를 카운트 매트릭스에 초기화하세요.
  cut -f1 $(ls $OUT_COUNTS/*.counts.txt | head -1) > all_counts.txt
2. 각 샘플의 카운트를 반복적으로 단일 행렬에 더합니다.
  for f in $OUT_COUNTS/*.counts.txt; do cut -f7 "$f" | paste all_counts.txt - > tmp && mv tmp all_counts.txt done
3. counts 행렬에 샘플 ID가 포함된 헤더 라인을 추가하세요.
  samples=$(ls *.counts.txt | sed 's/.counts.txt//' | paste -sd "\t") echo -e "Geneid\t$samples" | cat - all_counts.txt > counts_matrix.txt
4. GTF 파일(유전자별 엑손 길이의 합)에서 유전자 길이를 추출하세요.
  awk '$3=="exon"{match($0,/gene_id "([^"]+)"/,a); if(a[1]!=""){len=$5-$4+1; gene_len[a[1]]+=len}} END{print "GENE_ID\tLENGTH"; for(g in gene_len) print g"\t"gene_len[g]}' \$GTF > gene_length.txt

4. 원시 계수 행렬 처리 및 유전자 주석

R 환경 초기화 및 관련 R 패키지의 로드.
1. install.packages() 함수를 사용해 tidyverse, ggplot2, ggrepel, RColorBrewer, ggridges, FactoMineR을 설치하세요. tidyverse 패키지는 데이터 조작과 플롯 작성에 사용됩니다; 시각화에는 ggplot2 패키지가 사용되며; Ggrepel 패키지는 겹치지 않는 텍스트 라벨에 사용됩니다; 색상 팔레트에는 RColorBrewer 패키지가 사용되며; GGRIDGES 패키지는 능선 부지에 사용됩니다; FactoMineR 패키지는 PCA 및 다변량 분석에 사용됩니다.
2. BiocManager::install() 함수를 사용해 biomaRt, DESeq2, clusterProfiler를 설치하세요. biomaRt 패키지는 Ensembl의 유전자 주석 작업에 사용됩니다; DESeq2 패키지는 미분식 분석에 사용됩니다; clusterProfiler 패키지는 기능 풍부 분석에 사용됩니다.
3. 2단계에서 생성된 원본 카운트 매트릭스를 읽고, biomaRt를 사용해 Ensembl ID를 HGNC 유전자 이름에 매핑하여 후속 분석을 수행하고, 중복된 Geneid 컬럼을 제거한 후 정제된 카운트 매트릭스를 생성합니다. 원본 카운트 행렬(counts_matrix.csv)을 입력 값으로 사용하고, Ensembl 유전자 ID를 행으로, 샘플을 열로 사용하세요. 정화된 카운트 매트릭스를 출력(clean_counts_SRA.csv)으로 저장하고, HGNC 유전자 기호는 행으로, 샘플은 열로 저장합니다.
  mart <- useMart("ensembl", dataset = "hsapiens_gene_ensembl") id_map <- getBM(attributes = c("ensembl_gene_id", "hgnc_symbol"), filters = "ensembl_gene_id", values = exprSet$GeneID, mart = mart) exprSet <- exprSet %>% left_join(id_map, by = c("GeneID" = "ensembl_gene_id")) %>% filter(!is.na(hgnc_symbol), hgnc_symbol != "") %>% distinct(hgnc_symbol, .keep_all = TRUE) %>% column_to_rownames("hgnc_symbol")

5. 유전자 발현 정량화

참고: 자세한 대본은 보충 파일 1 을 참조하십시오.

다음 명령을 실행하여 백만 매핑 리드당 전사체 조각 수(FPKM)와 백만당 전사체 수(TPM)를 계산합니다.
counts <- read.csv("output/clean_counts_SRA.csv", header=TRUE, row.names=1) gene_len <- read.delim("data/gene_length.txt", header=FALSE, col.names=c("gene_symbol","length")) gene_len <- gene_len %>% distinct(gene_symbol, .keep_all=TRUE) rownames(gene_len) <- gene_len$gene_symbol gene_len <- gene_len[match(rownames(counts), gene_len$gene_symbol),] length_bp <- gene_len$length fpkm <- (counts / length_bp) * 1e9 / colSums(counts) write.csv(fpkm, "output/clean_fpkm_SRA.csv") tpm <- (counts / length_bp) / colSums(counts / length_bp) * 1e6 write.csv(tpm, "output/clean_tpm_SRA.csv")

6. 표본 군집화 및 차분 시각화

PCA를 통한 표본 군집 분석을 통해 데이터 품질을 평가합니다. 자세한 대본은 보충 파일 1 을 참조하십시오.
PCA 시각화는 아래 코드를 사용하세요.
gene.pca <- PCA(exprSet, ncp = 2, scale.unit = TRUE, graph = FALSE) ggplot(pca_sample, aes(x = Dim.1, y = Dim.2)) + geom_point(aes(color = group)) + labs(x = paste('PC1:', pca_eig1, '%'), y = paste('PC2:', pca_eig2, '%'))

7. 미분식 분석 및 결과 시각화

참고: 자세한 대본은 보충 파일 1 을 참조하십시오.

다음 명령어를 실행하여 DESeq2 데이터셋을 구성하고 임계값을 설정하세요. 모델 작성 전에 모든 샘플에서 총 수가 1> 유전자만 보존되었습니다. 조정된 p<-값 0.05와 |log2FC|의 유의치 값을 사용하여 차별발현 유전자(DEGs)를 식별합니다. > 0.5.
dds <- DESeq(DESeqDataSetFromMatrix(countData = exprSet, colData = colData, design = ~group)); sizeFactors(dds); res <- results(dds); dds <- dds[rowSums(counts(dds)) > 1,] dd1 <- results(dds, contrast = contrast, alpha = 0.05) dd2 <- lfcShrink(dds, contrast = contrast, res = dd1, type = "ashr")
화산 플롯으로 차별발현 유전자를 시각화하세요.
ggplot(data = data, aes(x = log2FoldChange, y = -log10(padj))) + geom_point(aes(color = group), alpha = 1, size = 1.2) + geom_hline(yintercept = -log10(0.05), lty = 4) + geom_vline(xintercept = c(-0.5, 0.5), lty = 4) + geom_text_repel(data = subset(data, abs(log2FoldChange) >= 1.5 & padj < 0.05), aes(label = gene_id))

8. 기능 풍부화 분석 및 시각화 수행

참고: 자세한 대본은 보충 파일 1 을 참조하십시오.

KEGG 농축 결과를 시각화하세요.
EGG <- enrichKEGG(gene = gene$ENTREZID, organism = 'hsa', pvalueCutoff = 0.05, qvalueCutoff = 0.05) ggplot(symboldata, aes(richFactor, Description)) + geom_point(aes(color = p.adjust, size = Count))
GO 농축 결과를 시각화하세요. 실험 사양에 따라 아크 해상도(n=500), 색상 매핑, 면체 배열을 수정하여 시각화를 맞춤화할 수 있습니다.
ego <- enrichGO(gene = gene$ENTREZID, OrgDb = "org.Hs.eg.db", ont = "ALL", pvalueCutoff = 0.05, qvalueCutoff = 0.05, pAdjustMethod = "BH") ggplot(df) + ggforce::geom_link(aes(x = 0, y = Description, xend = -log10(p.adjust), yend = Description, color = ONTOLOGY), n = 500, show.legend = FALSE) + facet_wrap(~ONTOLOGY, scales = "free", ncol = 1)
유전자 집합 풍부 분석(GSEA) 결과를 시각화하세요. 경로 수, 밀도 능선 스케일링, 층 투명도를 조절하여 다양한 효과 크기 분포를 고려하세요.
genelist <- sort(res$log2FoldChange, decreasing = TRUE) names(genelist) <- rownames(res) hallmarks <- read.gmt('resource/h.all.v2023.2.Hs.symbols.gmt') y <- GSEA(genelist, TERM2GENE = hallmarks, pvalueCutoff = 0.05) gsearesult <- yd %>% arrange(desc(NES)) %>% slice_head(n = 10) ggplot(gsearesult, aes(x = logFC, y = Description, fill = -log10(pvalue))) + geom_density_ridges(alpha = 0.8, scale = 0.8) + geom_point(aes(size = abs(NES), x = -0.4, color = NES)) + scale_fill_distiller(palette = 'Spectral') + scale_color_distiller(palette = 'Reds') + scale_size_continuous(range = c(2, 6))

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

벌크 RNA-seq의 상류 분석 워크플로우는 그림 1A에 나와 있습니다. 이 워크플로우는 리눅스 플랫폼에서 다음 주요 단계를 순차적으로 실행합니다: 첫째, fastp를 사용해 저품질 읽기와 어댑터 시퀀스를 제거하기 위해 원시 시퀀싱 데이터의 엄격한 품질 관리를 수행합니다; 이후 HISAT2는 고품질 리드를 참조 게놈에 정렬하며, Samtools가 정렬 파일을 변환하고 정렬합니다; 마지막으로, FeatureCounts는 유전자 수준 정량화를 수행하여 유전자 발현 매트릭스를 생성하여 후속 분석에 고품질 입력을 제공합니다. 이후 처리 및 통계 분석은 R 환경 내에서 수행되며, 관련 워크플로우와 필요한 소프트웨어 패키지는 그림 1B에 나와 있습니다. 분석을 위해 발표된 연구에서 6개의 비-NASH, 6개의 NAFL, 6개의 NASH 샘플로 구성되었습니다²⁰ (

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

대량 RNA-seq 데이터 분석은 유전체학, 생물정보학, 통계학, 컴퓨터 과학을 통합하는 학제간 작업으로 특징지어집니다. 완전한 분석 워크플로우는 원시 데이터 전처리, 품질 관리, 서열 정렬, 유전자 수준 정량화, 데이터 정규화, 차별 발현 분석, 생물학적 해석 등 여러 상류 및 하류 단계를 포함합니다. 이 중 원시 시퀀싱 리드를 고품질 유전자 발현 매트릭스로 정확히 변환하는 것이 특히 중요한데, 이는 상류 처리 과정에서 발생하는 오류가 모든 하위 생물학적 결론으로 전파될 수 있기 때문입니다. 따라서 투명하고 표준화된 상류 분석 워크플로우를 구축하는 것은 전사체 연구의 재현성을 높이기 위해 필수적입니다.

이 프로토콜은 fastp(읽기 트리밍 및 품질 관리용), HISAT2(스플라이스 인식 정렬용), featureCounts(유전자 수준 정량화용) 등 널리 사용되는 도구를 통합한 간소화되고 완전한 스크립트 기반 워크플로우...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

저자들은 이해 상충이 없다고 선언한다.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

저자들은 이 연구에 사용된 공개 데이터베이스의 관리자들에게 감사의 뜻을 전합니다.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
바이오마르트	생체도체	2.64.0	Ensembl의 유전자 주석
clusterProfiler	생체도체	4.16.0	기능 풍부 분석
DESeq2	생체도체	1.48.1	차별표현 분석
팩토마인R	아그로파리테크	2.11.0	PCA 및 다변량 분석
Fastp	오픈진	1.0.1	FASTQ 데이터의 품질 관리 및 필터링
특징 수(FeatureCounts)	월터 앤 엘리자 홀 의학연구소 생물정보학 부서	2.0.0	그리고 nbsp; 유전자 발현 정량화를 위해 각 유전자에 매핑된 리드 수를 세세요
GGPLOT2	가설	3.5.2	데이터 시각화
그레펠	카밀 슬로비코프스키	0.9.6	겹치지 않는 텍스트 라벨
그리지스	클라우스 O. 윌케	0.5.6	능선 구역 만들기
HISAT2	존스 홉킨스 대학교	2.2.1	필터링된 고품질 리드를 기준 게놈과 정렬하세요
R	R 코어 팀	4.5.0	데이터 계산, 분석 및 시각화를 위한 환경
콜러브루어	에리히 노이비르트	1.1.3	플롯을 위한 색상 팔레트
샘툴	대규모 유전체학 작업 흐름	1.22.0	효율적인 검색 및 접근을 위해 SAM 파일을 변환하고 처리합니다
SRA 툴킷	국립 생명공학 정보 센터	3.2.1	NCBI SRA 데이터베이스에서 원시 시퀀싱 데이터를 획득하고 전처리합니다

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Asrani, S. K., Devarbhavi, H., Eaton, J., Kamath, P. S. Burden of liver diseases in the world. J Hepatol. 70 (1), 151-171 (2019).
Friedman, S. L., Neuschwander-Tetri, B. A., Rinella, M., Sanyal, A. J. Mechanisms of NAFLD development and therapeutic strategies. Nat Med. 24 (7), 908-922 (2018).
Estes, C., Razavi, H., Loomba, R., Younossi, Z., Sanyal, A. J. Modeling the epidemic of nonalcoholic fatty liver disease demonstrates an exponential increase in burden of disease. Hepatol Baltim Med. 67 (1), 123-133 (2018).
Younossi, Z. M., et al. The economic and clinical burden of nonalcoholic fatty liver disease in the United States and Europe. Hepatol Baltim Med. 64 (5), 1577-1586 (2016).
Rinella, M. E. Nonalcoholic fatty liver disease: a systematic review. JAMA. 313 (22), 2263-2273 (2015).
Hardy, T., Oakley, F., Anstee, Q. M., Day, C. P. Nonalcoholic Fatty Liver Disease: Pathogenesis and Disease Spectrum. Annu Rev Pathol. 11, 451-496 (2016).
Geier, A., Tiniakos, D., Denk, H., Trauner, M. From the origin of NASH to the future of metabolic fatty liver disease. Gut. 70 (8), 1570-1579 (2021).
Tan, D. J. H., et al. Clinical characteristics, surveillance, treatment allocation, and outcomes of non-alcoholic fatty liver disease-related hepatocellular carcinoma: a systematic review and meta-analysis. Lancet Oncol. 23 (4), 521-530 (2022).
Ng, C. H., et al. Mortality Outcomes by Fibrosis Stage in Nonalcoholic Fatty Liver Disease: A Systematic Review and Meta-analysis. Clin Gastroenterol Hepatol Off Clin Pract J Am Gastroenterol Assoc. 21 (4), 931-939.e5 (2023).
Yong, J. N., et al. Outcomes of Nonalcoholic Steatohepatitis After Liver Transplantation: An Updated Meta-Analysis and Systematic Review. Clin Gastroenterol Hepatol Off Clin Pract J Am Gastroenterol Assoc. 21 (1), 45-54.e6 (2023).
Diehl, A. M., Day, C. Cause, Pathogenesis, and Treatment of Nonalcoholic Steatohepatitis. New Engl J Med. 377 (21), 2063-2072 (2017).
Konerman, M. A., Jones, J. C., Harrison, S. A. Pharmacotherapy for NASH: Current and emerging. J Hepatol. 68 (2), 362-375 (2018).
Gapp, B., et al. Farnesoid X Receptor Agonism, Acetyl-Coenzyme A Carboxylase Inhibition, and Back Translation of Clinically Observed Endpoints of De Novo Lipogenesis in a Murine NASH Model. Hepatol Commun. 4 (1), 109-125 (2020).
Marcher, A. B., et al. Transcriptional regulation of Hepatic Stellate Cell activation in NASH. Sci Rep. 9 (1), 2324(2019).
Govaere, O., et al. Transcriptomic profiling across the nonalcoholic fatty liver disease spectrum reveals gene signatures for steatohepatitis and fibrosis. Sci Transl Med. 12 (572), eaba4448(2020).
Xiong, X., et al. Landscape of Intercellular Crosstalk in Healthy and NASH Liver Revealed by Single-Cell Secretome Gene Analysis. Mol Cell. 75 (3), 644-660.e5 (2019).
Li, X., et al. Deficiency of WTAP in hepatocytes induces lipoatrophy and non-alcoholic steatohepatitis (NASH). Nat Commun. 13 (1), 4549(2022).
Haque, A., Engel, J., Teichmann, S. A., Lönnberg, T. A practical guide to single-cell RNA-sequencing for biomedical research and clinical applications. Genome Med. 9 (1), 75(2017).
Li, X., Wang, C. Y. From bulk, single-cell to spatial RNA sequencing. Int J Oral Sci. 13 (1), 36(2021).
Bai, L., et al. Multispecies transcriptomics identifies SIKE as a MAPK repressor that prevents NASH progression. Sci Transl Med. 16, eade7347(2024).
Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nat Protoc. 11 (9), 1650-1667 (2016).
Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol. 15 (12), 550(2014).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

대량 RNA-seq 데이터를 기반으로 한 전사체 분석

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles