Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Engineering

DiCoExpress를 이용한 다인자 RNA-Seq 실험 분석

Published: July 29, 2022 doi: 10.3791/62566

Summary

DiCoExpress는 품질 관리에서 공동 발현에 이르기까지 RNA-Seq 분석을 수행하기 위해 R로 구현 된 스크립트 기반 도구입니다. DiCoExpress는 최대 2개의 생물학적 요인까지 완전하고 불균형한 설계를 처리합니다. 이 비디오 자습서는 DiCoExpress의 다양한 기능을 통해 사용자를 안내합니다.

Abstract

NGS 데이터 분석에서 통계 모델링을 적절하게 사용하려면 고급 수준의 전문 지식이 필요합니다. 최근 RNA-Seq 데이터의 차등 분석을 위해 일반화된 선형 모델을 사용하는 것에 대한 공감대가 높아지고 있으며, 공동 발현 분석을 수행하기 위한 혼합물 모델의 이점이 있다. 이러한 모델링 접근 방식을 사용할 수 있는 관리형 설정을 제공하기 위해 RNA-Seq 분석을 수행하기 위해 표준화된 R 파이프라인을 제공하는 DiCoExpress를 개발했습니다. 통계 또는 R 프로그래밍에 대한 특별한 지식이 없으면 초보자는 일반화 된 선형 모델 내부의 대비를 기반으로 한 차등 분석을 통해 품질 관리에서 공동 표현에 이르기까지 완전한 RNA-Seq 분석을 수행 할 수 있습니다. 농축 분석은 차등적으로 발현된 유전자의 목록과 공동-발현된 유전자 클러스터 둘 다에서 제안된다. 이 비디오 튜토리얼은 사용자가 DiCoExpress를 최대한 활용하고 RNA-Seq 실험의 생물학적 해석에 힘을 실어주는 잠재력을 최대한 활용할 수 있도록 도와주는 단계별 프로토콜로 고안되었습니다.

Introduction

차세대 RNA 시퀀싱 (RNA-Seq) 기술은 이제 전사체 분석1의 황금 표준입니다. 이 기술의 초창기부터 생물 정보학자와 생물 통계학자의 공동 노력으로 매핑에서 전사체 정량화에 이르기까지 전사체 분석의 모든 필수 단계를 다루는 수많은 방법이 개발되었습니다2. 오늘날 생물학자가 사용할 수 있는 대부분의 도구는 통계 컴퓨팅 및 그래프3을 위한 R 소프트웨어 환경 내에서 개발되었으며, 생물학적 데이터 분석을 위한 많은 패키지는 Bioconductor 저장소(4)에서 사용할 수 있습니다. 이러한 패키지는 분석을 완벽하게 제어하고 사용자 지정할 수 있지만 명령줄 인터페이스를 광범위하게 사용하는 비용이 듭니다. 많은 생물학자들이 "포인트 앤 클릭" 접근법5에 더 익숙하기 때문에, RNA-Seq 분석의 민주화는 보다 사용자 친화적인 인터페이스 또는 프로토콜6의 개발을 필요로 한다. 예를 들어, Shiny7을 사용하여 R 패키지의 웹 인터페이스를 구축 할 수 있으며 R-studio8 인터페이스로 명령 줄 데이터 분석을보다 직관적으로 수행 할 수 있습니다. 전용 단계별 자습서의 개발은 또한 새로운 사용자를 도울 수 있습니다. 특히 비디오 자습서는 고전적인 텍스트 하나를 보완하여 모든 절차 단계를 더 깊이 이해할 수 있습니다.

우리는 최근 중립 비교 연구10,11,12를 기반으로 가장 좋은 것으로 간주되는 방법을 사용하여 R에서 다인자 RNA-Seq 실험을 분석하는 도구 인 DiCoExpress9를 개발했습니다. 카운트 테이블로부터 시작하여, DiCoExpress는 일반화된 선형 모델(GLM)을 이용한 차등 유전자 발현 분석(edgeR 패키지13) 및 가우시안 혼합물 모델(coseq package12)을 이용한 공동발현 클러스터의 생성에 뒤따르는 데이터 품질 관리 단계를 제안한다. DiCoExpress는 최대 2개의 생물학적 요인(즉, 유전자형 및 치료)과 하나의 기술적 요인(즉, 복제)까지 완전하고 불균형한 설계를 처리합니다. DiCoExpress의 독창성은 데이터, 스크립트 및 결과를 저장 및 구성하는 디렉토리 아키텍처와 사용자가 동일한 통계 모델 내에서 수많은 질문을 조사 할 수 있도록 대비 작성을 자동화하는 데 있습니다. 또한 통계 결과를 보여주는 그래픽 출력을 제공하기 위한 노력도 이루어졌습니다.

DiCoExpress 작업 영역은 https://forgemia.inra.fr/GNet/dicoexpress 에서 사용할 수 있습니다. 여기에는 네 개의 디렉토리, 두 개의 pdf 및 두 개의 텍스트 파일이 포함되어 있습니다. Data/ 디렉토리에는 입력 데이터 세트가 포함되어 있습니다. 이 프로토콜의 경우 "자습서" 데이터 세트를 사용합니다. Sources/ 디렉토리에는 분석을 수행하는 데 필요한 일곱 개의 R 함수가 포함되어 있으며 사용자가 수정해서는 안 됩니다. 분석은 Template_scripts/ 디렉토리에 저장된 스크립트를 사용하여 실행됩니다. 이 프로토콜에 사용되는 것을 DiCoExpress_Tutorial_JoVE.R이라고하며 모든 전사체 프로젝트에 쉽게 적용 할 수 있습니다. 모든 결과는 Results/ 디렉토리에 기록되고 프로젝트에 따라 명명된 서브디렉토리에 저장됩니다. README.md 파일에는 유용한 설치 정보가 포함되어 있으며 메서드 및 사용에 대한 특정 세부 정보는 DiCoExpress_Reference_Manual.pdf 파일에서 찾을 수 있습니다.

이 비디오 자습서는 명령 줄 기반 도구를 사용하여 생물 학자들이 느끼는 꺼림을 극복하기위한 목적으로 DiCoExpress의 다양한 기능을 통해 사용자를 안내합니다. 우리는 치료 유무에 관계없이 네 가지 유전자형의 세 가지 생물학적 반복실험에서 유전자 발현을 설명하는 인공 RNA-Seq 데이터 세트의 분석을 여기에 제시합니다. 이제 그림 1에 나와 있는 DiCoExpress 워크플로의 여러 단계를 살펴보겠습니다. 프로토콜 섹션에 설명된 스크립트와 입력 파일은 사이트에서 사용할 수 있습니다. https://forgemia.inra.fr/GNet/dicoexpress

데이터 파일 준비
Data/ 디렉토리에 저장된 네 개의 csv 파일은 프로젝트 이름에 따라 이름이 지정되어야 합니다. 따라서 이 예제에서는 모든 이름이 "자습서"로 시작하고 프로토콜의 4단계에서 Project_Name = "자습서"로 설정합니다. csv 파일에 사용되는 구분 기호는 4단계의 Sep 변수에 표시되어야 합니다. "자습서" 데이터 집합에서 구분 기호는 집계입니다. 고급 사용자의 경우 Filter 변수를 통해 명령 목록과 새 Project_Name을 제공하여 전체 데이터 세트를 하위 집합으로 줄일 수 있습니다. 이 옵션은 입력 파일의 중복 복사본을 피하고 FAIR 원칙(14)을 검증한다.

네 개의 csv 파일 중에서 COUNTS 및 TARGET 파일만 필수입니다. 그들은 모든 유전자 (여기 Tutorial_COUNTS.csv)와 실험 설계 설명 (여기 Tutorial_TARGET.csv)에 대한 원시 카운트를 포함합니다. TARGET.csv 파일은 모든 샘플(행당 하나의 샘플)을 각 생물학적 또는 기술적 요소(열)에 대한 양식으로 설명합니다. 양식에 대해 선택한 이름은 숫자가 아닌 문자로 시작하는 것이 좋습니다. 마지막 열의 이름("복제")은 변경할 수 없습니다. 마지막으로 샘플 이름(첫 번째 열)은 COUNTS.csv 파일 제목의 이름과 일치해야 합니다(이 예에서는 Genotype1_control_rep1). 모든 행에 하나의 .csv과 하나의 주석 용어가 포함된 보강Gene_ID 파일은 사용자가 보강 분석을 실행하려는 경우에만 필요합니다. 한 유전자에 여러 개의 주석이 있으면 다른 줄에 써야합니다. 주석.csv 파일은 선택 사항이며 출력 파일의 모든 유전자에 대한 간단한 설명을 추가하는 데 사용됩니다. 주석 파일을 얻는 가장 좋은 방법은 전용 데이터베이스 (예 : Thalemine : Arabidopsis의 https://bar.utoronto.ca/thalemine/begin.do)에서 정보를 검색하는 것입니다.

디코익스프레스 설치
DiCoExpress에는 특정 R 패키지가 필요합니다. 명령줄 소스(".. R 콘솔의 /Sources/Install_Packages.R")을 사용하여 필요한 패키지 설치 상태를 확인합니다. Linux를 사용하는 사용자의 경우 또 다른 해결책은 DiCoExpress 전용 컨테이너를 설치하고 https://forgemia.inra.fr/GNet/dicoexpress/container_registry 에서 사용할 수 있는 컨테이너를 설치하는 것입니다. 정의에 따라 이 컨테이너에는 라이브러리 및 기타 종속성과 같이 필요한 모든 부분이 포함된 DiCoExpress가 포함되어 있습니다.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. 디코익스프레스

  1. R 스튜디오 세션을 열고 디렉터리를 Template_scripts로 설정합니다.
  2. R 스튜디오에서 DiCoExpress_Tutorial.R 스크립트를 엽니다.
  3. 다음 명령을 사용하여 R 세션에서 DiCoExpress 함수를 로드합니다.
    > 출처 ( ".. /출처/Load_Functions.R")
    > Load_Functions()
    > Data_Directory = ".. /데이터"
    > Results_Directory = ".. /결과/"
  4. 다음 명령을 사용하여 R 세션에서 데이터 파일을 로드합니다.
    > Project_Name = "자습서"
    > 필터 = NULL
    > Sep="\t"
    > Data_Files = Load_Data_Files(Data_Directory, Project_Name, 필터, 9월)
  5. 개체를 여러 개체Data_Files 분할하여 쉽게 조작할 수 있습니다.
    > Project_Name = Data_Files$Project_Name
    > 대상 = Data_Files$대상
    > Raw_Counts = Data_Files$Raw_Counts
    > 주석 = Data_Files$주석
    > Reference_Enrichment = Data_Files$Reference_Enrichment
  6. "NbConditions", "NbReplicates"또는 "filterByExpr"중에서 전략을 선택하고 저발현 유전자를 필터링하는 역치를 선택하십시오. 여기서 우리는 선택합니다.
    > Filter_Strategy = "NbReplicates"
    > CPM_Cutoff = 1
  7. 명령으로 그룹 색상 지정
    > Color_Group = 널
    참고: NULL로 설정되면 R은 자동으로 색상을 생물학적 조건에 특성화합니다. 그렇지 않으면 생물학적 그룹당 색상을 나타내는 벡터를 입력합니다.
  8. edgeR의 calcNormFactors 함수에 의해 허용되는 정규화 방법 중에서 정규화 방법을 선택하십시오. 예를 들어
    > Normalization_Method = "TMM"
  9. 다음 기능을 실행하여 품질 관리를 수행합니다.
    > Quality_Control(Data_Directory, Results_Directory, Project_Name, 대상, Raw_Counts, Filter_Strategy, Color_Group, CPM_Cutoff, Normalization_Method)
  10. 상태 복제 = 데이터가 복제 요인에 따라 쌍을 이루면 TRUE이고, 그렇지 않으면 FALSE입니다.
  11. 할당 상호 작용 = TRUE는 두 생물학적 요인 간의 상호 작용을 고려하며, 그렇지 않으면 FALSE입니다.
  12. 다음 명령을 사용하여 통계 모델을 지정합니다.
    > 모델 = GLM_Contrasts(Results_Directory, Project_Name, 대상, 복제, 상호 작용)
    > GLM_Model = 모델$GLM_Model
    > 대비 = 모델$대비
  13. 거짓 발견 속도의 임계값을 정의하십시오(여기서는 0.05).
    > Alpha_DiffAnalysis =0.05
  14. 다음 명령을 사용하여 차등 분석 수행
    > Index_Contrast=1:nrow(대비)
    > NbGenes_Profiles = 20
    > NbGenes_Clustering = 50
    > DiffAnalysis.edgeR (Data_Directory, Results_Directory, Project_Name, 대상, Raw_Counts, GLM_Model, Index_Contrast, 대비, Filter_Strategy, Alpha_DiffAnalysis, NbGenes_Profiles, NbGenes_Clustering, CPM_Cutoff, Normalization_Method)
  15. 농축 분석을위한 임계 값 수정, 여기서 0.01
    > Alpha_Enrichment = 0.01
  16. 차등적으로 발현된 유전자(DEG) 리스트의 농축 분석 수행
    > 제목 = NULL
    > 농축 (Results_Directory, Project_Name, 제목, Reference_Enrichment, Alpha_Enrichment)
  17. 비교할 DEG 목록을 선택합니다. 예를 들어,
    > 그룹 = 대비$대비[24:28]
  18. 목록 비교를 위한 이름을 제공합니다. 이 이름은 출력 파일이 저장될 디렉토리에 사용됩니다.
    > 제목 = "Interaction_with_Genotypes_1_and_2"
  19. DEG 목록에서 수행할 작업을 매개 변수 작업을 유니온 또는 교차점으로 설정하여 지정합니다. 우리는 선택한다
    > 작업 = "연합"
  20. DEG 목록 비교
    > Venn_IntersectUnion(Data_Directory, Results_Directory, Project_Name, 제목, 그룹, 작업)
  21. 함수로 공동 발현 분석 수행
    > Coexpression_coseq(Data_Directory, Results_Directory, Project_Name, 제목, 대상, Raw_Counts, Color_Group)
  22. 공동 발현 클러스터의 농축 분석 수행
    > 농축 (Results_Directory, Project_Name, 제목, Reference_Enrichment, Alpha_Enrichment)
  23. 분석을 재현하는 데 필요한 모든 정보가 포함된 두 개의 로그 파일을 생성합니다.
    > Save_Parameters( )
    참고: 이 프로토콜에 사용된 명령줄은 그림 2에 나와 있습니다. 다른 데이터 세트를 분석하기 위해 수정해야 하는 줄이 강조 표시됩니다.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

모든 DiCoExpress 출력은 자습서 / 디렉토리에 저장되며 결과 / 디렉토리 내에 배치됩니다. 여기서는 분석의 전반적인 품질을 평가하기 위한 몇 가지 지침을 제공합니다.

품질 관리
Quality_Control/디렉토리에 위치한 품질 관리 출력은 RNA-Seq 분석 결과가 신뢰할 수 있는지 확인하는 데 필수적입니다. Data_Quality_Control.pdf 파일에는 데이터의 잠재적 문제를 식별하는 데 사용할 수 있는 원시 및 정규화된 데이터로 얻은 여러 플롯이 포함되어 있습니다. 샘플당 정규화된 총 카운트는 내부 및 상호 조건을 모두 비교할 때 유사해야 합니다. 더욱이, 정규화된 유전자 발현 카운트는 인트라 및 인터 조건 둘 다에서 유사한 중앙값 및 분산을 나타낼 것으로 예상된다(도 3A). 그렇지 않으면 조건 간의 유사하지 않은 분산의 징후가 될 수 있으며 모델 피팅에 문제가 될 수 있습니다.

마지막으로, DiCoExpress에서 생성된 정규화된 카운트에 대한 PCA 플롯은 잠재적인 기본 데이터 구조를 식별하는 데 유용합니다(그림 3B). 이 예제에서는 반복실험에 따른 클러스터링이 없으며, 이는 이 요소가 차별적이지 않음을 의미합니다. 동시에, 치료 사이에 명확한 구별이 확인 될 수 있습니다. 이러한 결과는 생물학적 효과가 항상 복제물보다 강할 것으로 예상되기 때문에 양질의 데이터 세트를 나타냅니다. 결론적으로, 여기서 관찰된 전체 품질은 전체 데이터 세트에 대한 후속 분석을 방해하지 않습니다.

통계 모델링
DiCoExpress는 복제 상호 작용 두 변수에서 평균 표현식의 로그의 통계 모델링 작성을 용이하게합니다. 복제 효과는 모든 생물학적 조건의 샘플이 동시에 수집되고이 실험이 생물학적 변동성을 측정하기 위해 다른 날에 복제되는 경우 상상할 수 있습니다. 전형적인 식물 과학 실험에서, 예를 들어, 샘플은 연구 중인 생물학적 조건에 관계없이 동일한 성장 챔버에서 성장하고, 생물학적 복제물은 상이한 날에 시작된 실험에 상응한다. 이 경우 동일한 복제본의 샘플이 쌍으로 연결되므로 복제 를 TRUE로 설정해야 합니다. 그렇지 않으면 복제 를 FALSE로 설정해야 합니다. 이 복제 효과를 배치 효과라고도 합니다.

실험 설계가 상호 작용할 것으로 예상되는 두 가지 생물학적 요인에 의해 설명되는 경우, 상호 작용을 고려하기 위해 변수 상호 작용을 TRUE로 설정하십시오. 생물학적 요인이 하나만 포함된 프로젝트의 경우 상호 작용 변수가 자동으로 FALSE로 설정됩니다.

차등 분석
테스트된 모든 대비에 대해 식별된 DEG는 DiffAnalysis/ 디렉토리 내의 각각의 하위 디렉토리에 있는 텍스트 파일에서 사용할 수 있습니다. 기본적으로 모든 대비가 테스트됩니다. 실험 설계에 따라, 일부 대조는 제한된 생물학적 관심(예를 들어, 몇몇 유전자형에 대한 평균)일 수 있다. 위양성 대조군은 콘트라스트당 수행되어 잠재적으로 관련이 없는 콘트라스트가 분석에 영향을 주지 않도록 합니다. 그러나 Index_Contrast 변수에 따라 행동함으로써 관심사의 대비를 포함하는 플롯을 생성 할 수 있습니다. 자세한 내용은 온라인 참조 설명서에서 확인할 수 있습니다.

DiffAnalysis/는 또한 모델링11의 품질을 평가하는 가장 좋은 방법인 것으로 최근에 보여진 원시 p-값 히스토그램을 포함하고 있다는 것을 주목해야 한다. 원시 p-값의 예상 분포는 균일해야 하며, 분포의 왼쪽 끝에 피크가 있을 수 있습니다. 원시 p-값 1에 대한 높은 피크는 모델 피팅 문제를 나타냅니다. 이 경우 문제는 설정 값(예: 1에서 5 CPM_Cutoff 증가)을 증가시킴으로써 종종 해결될 수 있다. 원시 히스토그램의 예는 도 4A 및 https://forgemia.inra.fr/GNet/dicoexpress/-/blob/master/DiCoExpress_Tutorial.pdf 에서 사용할 수 있다. 테스트된 모든 대조에 대해 식별된 상위 DEG의 발현 프로필(기본적으로 상위 20개)은 대조의 디렉토리에 있는 파일 Top20_Profile.pdf에 플롯됩니다. 하나의 대조에서 차등적으로 발현되는 것으로 확인된 하나의 유전자에 대한 예가 도 4B에 도시되어 있다. 위아래로 DEG의 수는 테스트된 모든 대비에 대해 플롯되며 파일 Down_Up_DEG.pdf에서 찾을 수 있습니다( 그림 4C의 예).

공발현 분석
우리의 예에서, 공동-발현 분석은 5개의 DEG 리스트의 연합에 대해 수행되고, 다른 유전자형 1 또는 2 사이의 치료 반응 변이를 찾는 대조에 의해 확인된다. DEG의 벤 다이어그램은 도 5A에 도시되어 있다. 확인된 모든 클러스터에 대한 공동발현된 유전자는 개별 텍스트 파일(클러스터당 하나의 파일)에 인쇄됩니다. 서로 다른 클러스터의 발현 프로필은 함께 Boxplot_profiles_Coseq.pdf 파일에서 사용할 수 있습니다( 그림 5B의 예 참조). 사용자 지정 옵션을 사용할 수 있지만 고급 사용자만 사용해야 합니다. 다른 매개 변수에 대한 자세한 설명은 참조 설명서를 참조하십시오.

농축 분석
대비 및 클러스터 보강 분석에 해당하는 목록은 해당 디렉토리에 있습니다. 이 분석에서 중요한 것으로 발견된 주석 용어는 Gene_ID 목록에서 과도하게 표시되거나 과소 표시될 수 있습니다. 이 정보는 출력 파일에 포함됩니다.

테스트 결정은 원시 p-값에서 수행됩니다. 사용자가 원시 p-값을 사후적으로 조정하려는 경우 접미사 All_Enrichment_Results.txt가 있는 파일에서 사용할 수 있습니다.

디코익스프레스의 유효성
DiCoExpress는 다인자 RNA-Seq 실험 분석을 용이하게하기 위해 개발되었지만 결과의 타당성은 주로 데이터 세트의 특성에 달려 있습니다. 결과에 대한 유효한 해석 전에 여러 출력을주의 깊게 확인해야합니다. 첫째, 품질 관리 단계에서, 정규화된 라이브러리 크기는 유사해야 하고, 정규화된 유전자 발현 카운트는 인트라 및 인터 조건 둘 다에서 유사한 중앙값 및 분산을 나타내야 한다. 그런 다음 원시 p-값 히스토그램의 모양에 특별한주의를 기울여야합니다. 마지막으로, 공동발현 분석을 수행할 때, ICL에 대해 명확하게 정의된 최소값은 양호한 품질을 나타낸다. 이러한 조건이 충족되지 않으면 결과에 대한 해석이 잘못되었을 수 있습니다.

Figure 1
그림 1. DiCoExpress 분석 파이프라인입니다.  DiCoExpress를 이용한 완전한 RNA-Seq 분석의 일곱 단계는 통계적 방법이 수행되는 단계를 나타내는 파란색 박스로 표시된다. 단계 7(농축)은 단계 4(차등 분석 및 그림 2에서 7.1로 명명됨) 및/또는 단계 6(공발현 분석) 이후에 수행될 수 있으며, 2에서 7.2로 명명된다. 빨간색 숫자는 프로토콜의 단계 번호에 해당합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 2
그림 2. DiCoExpress 명령줄의 스크린샷입니다.  자습서 데이터 세트를 분석하는 데 사용되는 명령줄이 표시됩니다. 검은색 원의 숫자는 그림 1과 같습니다. 빨간색 사각형은 사용자가 사용자 지정할 수 있는 선을 강조 표시합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 3
그림 3 : 품질 관리 단계의 대표적인 결과.  "자습서" 데이터 집합 정규화된 개수로 얻은 그림입니다. A) 정규화 된 카운트의 상자 플롯. B) 정규화 된 카운트에 PCA. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 4
그림 4: "자습서" 데이터 세트로 얻은 차등 발현 분석의 대표적인 결과. A) [control_Genotype2 - control_Genotype3] 대비의 원시 p-값 히스토그램. B) 모든 유전자형 및 조건에서 C1G62301.1 유전자 발현 프로필, 차등적으로 발현된 Top20 유전자 중 하나의 [control_Genotype2-control_Genotype3] 대조. C) 시험된 모든 대조에서 상하로 차등적으로 발현된 유전자의 수. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 5
도 5: 공동발현 분석의 대표적인 결과.  "자습서" 데이터 세트로 얻은 그림입니다. A) 5 "유전자형 1 및 2와의 상호 작용"대조로부터의 DEG의 벤 다이어그램. 유전자형 1과 2, 1 및 3, 1 및 4, 2 및 3, 2 및 4 사이의 치료 반응 변이로부터의 DEG는 각각 원 A, B, C, D, E 내에 있다. 오른쪽 하단에 쓰여진 숫자 ( "14877")는 어떤 목록에서도 DE가 아닌 유전자의 수입니다. B) 공동발현 클러스터로부터의 유전자의 발현 프로필 3. 도 Tutorial_Interaction_with_Genotypes_1_and_2_Boxplot_profiles_Coseq.pdf로부터 추출한 것이다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

보충 파일. 이 파일을 다운로드하려면 여기를 클릭하십시오.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

RNA-Seq 는 생물학적 연구에서 유비쿼터스 방법이되기 때문에 다재다능하고 사용자 친화적 인 분석 도구를 개발할 필요성이 끊임없이 있습니다. 대부분의 분석 워크플로우들 내에서 중요한 단계는 종종 생물학적 조건 및/또는 치료법들 사이에서 차별적으로 발현되는 유전자들을 신뢰하며 확인하는 것이다(15). 신뢰할 수 있는 결과를 얻으려면 적절한 통계 모델링이 필요하며, 이는 DiCoExpress 개발의 동기가 되었습니다.

DiCoExpress는 생물학자들이 DEG를 찾을 때 중립적 비교 연구의 가능성을 최대한 활용할 수 있도록 돕는 것을 목표로 R에 구현된 스크립트 기반 도구입니다. DiCoExpress는 데이터 구조와 품질을 평가할 수 있는 기회를 제공하는 표준화된 파이프라인을 제공하여 최상의 모델링 접근 방식을 선택할 수 있도록 합니다. 통계 또는 R 프로그래밍에 대한 특별한 지식이 없으면 초보자는 일반화 된 선형 모델 내부의 대비를 기반으로 한 차등 분석을 통해 품질 관리에서 공동 표현에 이르기까지 완전한 RNA-Seq 분석을 수행 할 수 있습니다. DiCoExpress는 RNA-Seq 분석의 통계적 부분에 초점을 맞추고 입력으로 카운트 테이블을 필요로한다는 점에 유의해야합니다. RNA-Seq 판독 정렬 및 카운트 테이블 생성에 전념하는 여러 생물 정보학 방법은 도구의 범위를 벗어납니다. 그럼에도 불구하고 그들은 최종 분석의 품질에 직접적인 영향을 미치므로 신중하게 선택해야합니다.

DiCoExpress는 "포인트 앤 클릭"도구는 아니지만 디렉토리 아키텍처와 R-Studio 인터페이스에서 제공되고 사용되는 템플릿 스크립트를 통해 R에 대한 최소한의 지식으로 생물 학자들이 액세스 할 수 있습니다. DiCoExpress가 설치되면 사용자는 R에서 함수를 사용하고 필수 인수와 선택적 인수를 식별하는 방법을 알아야 합니다. 첫 번째 중요한 단계는 모든 유전자에 대한 원시 카운트 (COUNTS 파일)와 실험 설계 설명 (TARGET 파일)이 포함 된 두 개의 필수 파일을 올바르게 제공하는 것입니다. 사용 된 구분 기호는 모든 파일에 대해 동일해야하며 샘플에 대한 설명은 생물학적 요인의 양식에 따라 적절하게 수행되어야합니다. 두 파일이 DiCoExpress에로드되면 두 번째 중요한 단계, 즉 공동 발현 분석까지 분석이 거의 자동화됩니다. 이 분석은 실제로 시간이 많이 걸릴 수 있으며 대규모 데이터 세트에서 실행하기 위해 강력한 계산 서버가 필요할 수 있습니다.

콘트라스트 필기의 자동화는 두 가지 이상의 생물학적 요인에 대해 어려워지기 때문에 DiCoExpress를 최대 2 개의 생물학적 요인에 대한 완전하고 불균형 한 설계로 제한했습니다. 프로젝트에 2 개 이상의 생물학적 요인이 포함 된 경우 실질적인 해결책은 초기 요소 중 두 가지를 붕괴시켜 새로운 요소를 만드는 것입니다. 그럼에도 불구하고, 생물학적 인자 수가 증가할 때 의미있는 생물학적 해석을 제공하는 어려움이 증가한다는 것을 명심해야 한다.

DiCoExpress는 진화하는 도구로 생각되며 사용자가 메일 링리스트 (https://groupes.renater.fr/sympa/subscribe/dicoexpress)에 가입하는 것이 좋습니다. 도구에 대한 수정 또는 개선 사항은 목록에 발표되며 질문이나 제안을 환영합니다. 또한 대규모 커뮤니티에서 DiCoExpress를 채택함으로써 특정 분석 컨텍스트에서 발생할 수 있는 버그를 추적하고 수정할 수 있기를 바랍니다. 모든 업데이트 및 수정은 git 디렉토리 https://forgemia.inra.fr/GNet/dicoexpress 로 푸시됩니다.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

저자는 공개 할 것이 없습니다.

Acknowledgments

이 작업은 주로 ANR PSYCHE (ANR-16-CE20-0009)에 의해 지원되었습니다. 저자는 DiCoExpress의 컨테이너 건설에 대해 F. Desprez에게 감사드립니다. KB 작업은 미래를 위한 투자 ANR-10-BTBR-01-01 Amaizing 프로그램에 의해 지원됩니다. GQE 및 IPS2 실험실은 Saclay Plant Sciences-SPS (ANR-17-EUR-0007)의 지원을받습니다.

Materials

Name Company Catalog Number Comments

DOWNLOAD MATERIALS LIST

References

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. https://www.R-project.org/ (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. Shiny: web application framework. , Available from: https://rdrr.io/cran/shiny/ (2021).
  8. RStudio Team. RStudio: Integrated Development for R. RStudio, PBC. , Boston, MA. at (n.d (2020).
  9. Lambert, I., Roux, C. P. -L., Colella, S., Martin-Magniette, M. -L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  10. Dillies, M. -A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  11. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  12. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  13. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  14. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  15. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Tags

공학 문제 185
DiCoExpress를 이용한 다인자 RNA-Seq 실험 분석
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Baudry, K., Paysant-Le Roux, C.,More

Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. L. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter