Immunology and Infection

호스트-병원체 상호 작용을 조사하기 위한 고처리량 전사 분석

Published: March 5, 2022 doi: 10.3791/62324

André Nicolau Aquime Gonçalves^1,2, Vanessa Escolano Maso³, Ícaro Maia Santos de Castro^2,3, Amanda Pereira Vasconcelos³, Rodrigo Luiz Tomio Ogava^2,3, Helder I Nakaya^2,3,4

¹Laboratory of Pathology of Infectious Diseases, Department of Pathology, Medical School, University of São Paulo, ²Scientific Platform Pasteur USP, ³Department of Clinical and Toxicological Analyses, School of Pharmaceutical Sciences, University of São Paulo, ⁴Hospital Israelita Albert Einstein

Summary

여기에 제시된 프로토콜은 고급 통계 분석 접근법에 품질 관리 및 전처리 단계를 포함하여 원시 읽기에서 기능 분석에 RNA-시퀀싱 전사 데이터를 분석하는 완전한 파이프라인을 설명합니다.

Abstract

병원균은 다양한 전염병을 일으킬 수 있습니다. 감염에 응하여 숙주에 의해 유도된 생물학적 과정은 질병의 중증도를 결정한다. 이러한 프로세스를 연구하기 위하여는, 연구원은 감염, 임상 결과, 또는 질병 엄격의 다른 단계에서 호스트 전사의 동적 변경을 측정하는 고처리량 시퀀싱 기술 (RNA-seq)를 사용할 수 있습니다. 이 조사는 질병의 더 나은 이해로 이어질 수 있습니다., 잠재적인 약물 목표 와 치료를 발견 뿐만 아니라. 여기에 제시된 프로토콜은 원시 읽기에서 기능 분석에 RNA 시퀀싱 데이터를 분석하는 완벽한 파이프라인을 설명합니다. 파이프라인은 데이터의 (1) 품질 관리라는 다섯 단계로 나뉩니다. (2) 유전자의 매핑 및 인장; (3) 분화 유전자 및 공동 발현 유전자를 식별하는 통계 분석; (4) 시료의 섭란의 분자 정도의 결정; 및 (5) 기능 분석. 1단계는 다운스트림 분석의 품질에 영향을 줄 수 있는 기술 아티팩트를 제거합니다. 2단계에서 유전자는 표준 라이브러리 프로토콜에 따라 매핑되고 추가됩니다. 3단계의 통계 분석은 감염된 샘플에서 분화되거나 공동 발현되는 유전자를 비감염된 샘플과 비교하여 식별합니다. 시료 가변성 및 잠재적인 생물학적 이상치의 존재는 4단계에서 의 분자 정도의 교란 접근법을 사용하여 검증된다. 마지막으로, 5단계에서의 기능적 분석은 질병 표현형과 관련된 경로를 나타낸다. 제시된 파이프라인은 숙주 병원체 상호 작용 연구에서 RNA-seq 데이터 분석을 통해 연구원을 지원하고 감염의 분자 메커니즘을 이해하는 데 필수적인 시험관 또는 생체 내 실험에서 미래를 추진하는 것을 목표로 합니다.

Introduction

뎅기열, 황열병, 치쿤구냐 및 지카와 같은 Arboviruses는 여러 발병과 널리 연관되어 있으며 지난 수십 년 동안 인간을 감염시키는 주요 병원체 중 하나로 부상했습니다^1,2. 치쿤구냐 바이러스(CHIKV)에 감염된 개인은 종종 발열, 두통, 발진, 폴리아르트랄기아 및 관절염^3,4,5명이 있다. 바이러스는 세포의 유전자 발현을 전복시키고 각종 숙주 신호 경로에 영향을 미칠 수 있습니다. 최근에는 혈액 전사체 연구를 활용하여 급성 CHIKV 감염과 관련된 분화 유전자(DEGs)를 확인하기 위해 RNA-seq를 활용하여 회복^{6 또는 건강한} 대조군⁷과 비교하여. CHIKV 감염된 아이들은 바이러스성 RNA를 위한 세포 센서와 관련되었던 것과 같은 선천적인 면역에 관여하는 up-regulated 유전자를 가지고 있었습니다, JAK/STAT 신호, 및 수신과 같은 수용체 신호 통로⁶. CHIKV에 급성 감염된 성인은 또한 단핵구 및 수지상 세포 활성화와 관련된 유전자와 같은 선천성 면역과 관련된 유전자의 유도를 보여주었으며, 항바이러스 반응⁷. 다운 조절 유전자로 농축된 신호 경로는 T 세포 활성화 및 T 및 B 세포7에 있는 분화 및 농축과 같은 적응성 면역과 관련되었던 그들 포함^{했습니다7}.

몇몇 방법은 숙주 및 병원체 유전자의 전사 데이터를 분석하기 위하여 이용될 수 있습니다. 종종 RNA-seq 라이브러리 준비는 성숙한 폴리-A 성적 증명서의 농축으로 시작됩니다. 이 단계는 리보솜 RNA (rRNA)의 대부분을 제거하고 일부 경우 바이러스 / 세균 RNA를 제거합니다. 그러나, 생물학적 질문이 병원체 전사 검출및 RNA가 이전 선택과 무관하게 서열화될 때, 다른 많은 성적증명서는 시퀀싱에 의해 검출될 수 있었다. 예를 들어, subgenomic mRNAs는 질병의 중증도를 확인하는 중요한 요소로 표시되었다⁸. 또한, CHIKV 및 SARS-CoV-2와 같은 특정 바이러스의 경우 폴리A 농축 라이브러리조차도 다운스트림 분석에서 활용할 수 있는 바이러스 판독을 생성합니다^9,10. 숙주 전사의 분석에 초점을 맞출 때, 연구원은 견본을 통해 생물학 동요를 조사하고, 분화한 유전자 및 농축된 통로를 확인하고, 공동 발현 모듈^7,11,12를 생성할 수 있습니다. 이 프로토콜은 다른 생물 정보 학적 접근 방식을 사용하여 CHIKV 감염 환자 및 건강한 개인의 전사 분석을 강조 (그림 1A). 이전에 발표된 연구에서 얻은 데이터⁷은 20명의 건강하고 39개의 CHIKV로 구성되어 급성 감염된 개인이 대표적인 결과를 생성하는 데 사용되었습니다.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

이 프로토콜에 사용된 견본은 상파울루 대학에 생물 의학 과학의 생물학과 및 세르지페의 연방 대학의 미생물학의 학과에서 윤리 위원회에 의해 승인되었습니다 (의정서: 54937216.5.5.5467 및 54835916.5546, 각각).

1. Docker 데스크톱 설치

참고: Docker 환경을 준비하는 단계는 운영 체제(OS)와 다릅니다. 따라서 Mac 사용자는 1.1로 나열된 단계를 수행해야 하며 Linux 사용자는 1.2로 나열된 단계를 수행해야 하며 Windows 사용자는 1.3으로 나열된 단계를 수행해야 합니다.

MacOS에 설치합니다.
1. Docker 웹 사이트(자료 표)에 액세스하고 Mac용 Docker 데스크톱을 클릭한 다음 Docker Hub 링크에서 다운로드 를 클릭합니다.
2. 도커 받기 버튼을 클릭하여 설치 파일을 다운로드합니다.
3. Docker.dmg 파일을 실행하여 설치 프로그램을 열고 아이콘을 응용 프로그램 폴더로 드래그합니다. 응용 프로그램 폴더에서 Docker.app 현지화하고 실행하여 프로그램을 시작합니다.
  참고: 상단 상태 표시줄의 소프트웨어 특정 메뉴는 소프트웨어가 실행 중이며 터미널에서 액세스할 수 있음을 나타냅니다.
리눅스 OS에 컨테이너 프로그램을 설치합니다.
1. Docker Linux 웹 사이트(재료 표)에 액세스하고 Docker Linux 리눅스 리포지토리 링크에서 사용할 수 있는 리포지토리 섹션을 사용하여 설치하는 지침을 따릅니다.
2. 명령줄을 사용하여 모든 Linux 패키지를 업데이트합니다.
  sudo apt-get 업데이트
3. Docker에 필요한 패키지를 설치합니다.
  sudo apt-get 설치 apt-transport-https ca-certificates curl gnupg lsb-releases
4. 소프트웨어 아카이브 키링 파일 만들기:
  컬 -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o/usr/share/keyrings/docker-archive-keyring.gpg
5. source.list 파일에 Docker deb 정보 추가:
  에코 "[아치 =amd64 서명=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu $(lsb_release-cs) 안정" | sudo 티 /등/apt/source.list.d/docker.list >/dev/null
6. 최근에 추가된 패키지를 포함하여 모든 패키지를 다시 업데이트합니다.
  sudo apt-get 업데이트
7. 데스크톱 버전 설치:
  sudo apt-get 설치 docker-ce docker-ce-cli containerd.io
8. 설치 프로세스를 완료하려면 지리적 영역과 표준 시간대를 선택합니다.
Windows OS에 컨테이너 프로그램을 설치합니다.
1. Docker 받기 웹 사이트(자료 표)에 액세스하고 시작하기를 클릭 합니다. Windows용 Docker 데스크톱에 대한 설치 관리자를 찾습니다. 파일을 다운로드하고 컴퓨터에 로컬로 설치합니다.
2. 다운로드 후 설치 파일(.exe)을 시작하고 기본 매개 변수를 유지합니다. 두 가지 옵션이 WSL 2에 필요한 Windows 구성 요소를 설치하고 바탕 화면에 바로 가기 추가가 표시되어 있는지 확인합니다.
  참고: 경우에 따라 이 소프트웨어가 서비스를 시작하려고 할 때 WSL 설치가 완료되지 않은 오류가 표시됩니다. 이 오류를 알아내려면 웹 사이트 WSL2-커널(자료 표)에 액세스하십시오.
3. 다운로드하고 최신 WSL2 리눅스 커널을 설치합니다.
4. PowerShell 터미널에 관리자로 액세스하고 명령을 실행합니다.
  dism.exe /온라인 /사용 기능 /기능 이름: 마이크로소프트-윈도우-서브 시스템-리눅스/모든/norestart
5. 소프트웨어 Docker 데스크톱이 성공적으로 설치되었는지 확인합니다.
Docker 허브(재료 표)에서 CSBL 리포지토리에서 이미지를 다운로드합니다.
1. Docker 데스크톱을 열고 도구가 왼쪽 하단에 상태가 "실행 중"인지 확인합니다.
2. Windows PowerShell 터미널 명령줄로 이동합니다. Docker 허브의 CSBL 리포지토리에서 이 프로토콜에 대한 Linux 컨테이너 이미지를 다운로드합니다. 이미지를 다운로드하려면 다음 명령을 실행합니다.
  도커 풀 csblusp/전사
  참고: 이미지를 다운로드한 후 Docker 데스크톱에서 파일을 볼 수 있습니다. 컨테이너를 만들려면 Windows 사용자는 1.5 단계를 따라야 하며 Linux 사용자는 1.6단계를 따라야 합니다.
Windows OS에서 서버 컨테이너를 초기화합니다.
1. 도구 모음에서 데스크톱 앱 관리자의 Docker 이미지 파일을 보고 이미지 페이지에 액세스합니다.
  참고: 파이프라인 이미지를 성공적으로 다운로드한 경우 csblusp/transcriptome 이미지를 사용할 수 있습니다.
2. 실행 버튼을 클릭하여 csblusp/transcriptome 이미지에서 컨테이너를 시작합니다. 선택적 설정을 확장하여 컨테이너를 구성합니다.
3. 컨테이너 이름(예: 서버)을 정의합니다.
4. 로컬 컴퓨터의 폴더를 도커 내부의 폴더와 연결합니다. 이렇게 하려면 호스트 경로를 결정합니다. 로컬 컴퓨터에 폴더를 설정하여 마지막에 다운로드할 처리된 데이터를 저장합니다. 컨테이너 경로를 설정합니다. csblusp/transcriptome 컨테이너 폴더를 로컬 컴퓨터 경로에 정의하고 연결합니다(컨테이너 경로에 대해 "/opt/transferdata"라는 이름을 사용함).
5. 그런 다음 실행을 클릭하여 csblusp/transcriptome 컨테이너를 만듭니다.
6. csblusp/전사 컨테이너에서 Linux 터미널에 액세스하려면 CLI 버튼을 클릭합니다.
7. 배쉬 터미널에 입력하여 더 나은 경험을 할 수 있습니다. 이를 위해 명령을 실행합니다.
  배쉬 (주)
8. bash 명령을 실행한 후 터미널에 표시(root@<컨테이너ID>:/#:
  root@ac12c583b731:/ #
Linux OS용 서버 컨테이너를 초기화합니다.
1. 이 명령을 실행하여 이미지를 기반으로 Docker 컨테이너를 만듭니다.
  docker 실행 -d-it --rm --이름 서버 -v <호스트 경로>:/옵트/전송데이터 csblusp/transcriptome
  참고: < 호스트 경로>: 로컬 폴더 컴퓨터의 경로를 정의합니다.
2. 이 명령을 실행하여 Docker 컨테이너의 명령 단에 액세스합니다.
  docker 임원 -it 서버 강타
3. 명령줄을 사용하여 프로그램/스크립트를 실행하려면 Linux 터미널의 가용성을 보장합니다.
4. bash 명령을 실행한 후 터미널에 표시(root@<컨테이너ID>:/#:
  root@ac12c583b731:/ #
  참고: 루트 암호는 기본적으로 "전사"입니다. 원하는 경우 명령을 실행하여 루트 암호를 변경할 수 있습니다.
  패스드
5. 먼저 원본 명령을 실행하여 모든 도구를 사용할 수 있는지 확인하기 위해 addpath.sh. 명령을 실행합니다.
  소스 /옵트/추가 경로.sh
RNA 시퀀싱 폴더의 구조를 확인합니다.
1. 전사 파이프라인 스크립트 폴더에 액세스하고 RNA 시퀀싱의 모든 데이터가 폴더 내에 저장되도록 합니다: /home/transcriptome-pipeline/data.
2. 해석에서 얻은 모든 결과가 경로/홈/전사-파이프라인/결과의 폴더 내에 저장되어 있는지 확인합니다.
3. 게놈 및 별표 참조 파일이 경로/홈/전사-파이프라인/데이터 세트의 폴더 내에 저장되도록 합니다. 이러한 파일은 모든 분석을 지원하는 데 도움이 됩니다.
4. 모든 스크립트가 경로/홈/전사-파이프라인/스크립트의 폴더에 저장되고 아래에 설명된 대로 각 단계로 구분되도록 합니다.
부기와 인간 게놈을 다운로드합니다.
1. 스크립트 폴더에 액세스합니다.
  cd/홈/전사 파이프라인/스크립트
2. 참조 인간 게놈을 다운로드하려면 이 명령을 실행합니다.
  배쉬 downloadGenome.sh
3. 부기기를 다운로드하려면 명령을 실행합니다.
  배쉬 downloadAnnotation.sh
참조 게놈의 부기 또는 버전을 변경합니다.
1. downloadAnnotation.sh 열고 각 파일의 URL을 변경하려면 downloadGenome.sh.
2. downloadAnnotation.sh 및 downloadGenome.sh 파일을 전송 영역에 복사하고 로컬 OS에서 편집합니다.
  cd/홈/전사 파이프라인/스크립트
  cp downloadAnnotation.sh downloadGenome.sh/옵트/전송 데이터
3. 1.5.4 단계에서 호스트와 Docker 컨테이너 간에 연결하도록 선택된 호스트 경로 폴더를 엽니다.
4. 기본 편집기 소프트웨어를 사용하여 파일을 편집하고 저장합니다. 마지막으로 수정된 파일을 스크립트 폴더에 넣습니다. 명령을 실행합니다.
  cd/옵트/전송 데이터
  cp downloadAnnotation.sh downloadGenome.sh/홈/전사 파이프라인/스크립트
  참고: 이러한 파일은 vim 또는 나노 Linux 편집기를 사용하여 직접 편집할 수 있습니다.
다음으로 명령줄로 fastq-dump 도구를 구성합니다.
vdb-config --대화형
참고: 이를 통해 예제 데이터에서 시퀀싱 파일을 다운로드할 수 있습니다.
1. 탭 키를 사용하여 도구 페이지를 탐색하고 현재 폴더 옵션을 선택합니다. 저장 옵션으로 이동하여 확인을 클릭 합니다. 그런 다음 fastq 덤프 도구를 종료 합니다.
이전에 게시된 ^paper7에서 읽기 다운로드를 시작합니다. 각 샘플의 SRA 가입 번호가 필요합니다. SRA NCBI 웹 사이트(재료 표)에서 SRA 번호를 가져옵니다.
참고: 공용 데이터베이스에서 사용할 수 있는 RNA-Seq 데이터를 분석하려면 1.12단계를 따르십시오. 개인 RNA-seq 데이터를 분석하려면 1.13단계를 따르십시오.
특정 공용 데이터를 분석합니다.
1. 국립생명공학정보센터(NCBI) 웹사이트에 접속하여 특정 주제에 대한 키워드를 찾아보세요.
2. 게놈 섹션에서 BioProject의 결과 링크를 클릭합니다.
3. 특정 스터디를 선택하고 클릭합니다. SRA 실험을 클릭합니다. 이 학습에 사용할 수 있는 모든 샘플을 보여주는 새 페이지가 열립니다.
4. 가입 번호 위의 "보내기:"를 클릭합니다. "대상 선택" 옵션에서 파일 및 형식 옵션을 선택하여 RunInfo를 선택합니다. "파일 만들기" 를 클릭하여 모든 라이브러리 정보를 내보냅니다.
5. 1.5.4 단계에서 정의된 호스트 경로에 SraRunInfo.csv 파일을 저장하고 다운로드 스크립트를 실행합니다.
  cp /옵트/전송데이터/스라룬인포.csv/홈/전사-파이프라인/데이터
  cd/홈/전사 파이프라인/스크립트
  강타 downloadAllLibraries.sh
비공개 및 게시되지 않은 시퀀싱 데이터를 분석합니다.
1. 읽기라는 폴더에서 시퀀싱 데이터를 구성 합니다.
  참고: 읽기 폴더 내에서 각 샘플에 대해 하나의 폴더를 만듭니다. 이러한 폴더는 각 샘플에 대해 이름이 같아야 합니다. 디렉터리 내부에 각 샘플의 데이터를 추가합니다. 쌍끝 RNA-Seq인 경우, 각 샘플 디렉토리에는 두 개의 FASTQ 파일이 포함되어야 하며, 이 파일은 {sample}_1.fastq.gz 및 {sample}_2.fastq.gz, 전진 및 역시퀀스에 따라 끝나는 이름을 제시해야 합니다. 예를 들어 "Healthy_control"이라는 샘플에는 이름과 Healthy_control_1 fastq.gz 및 Healthy_control_2.fastq.gz라는 FASTQ 파일이 있는 디렉토리가 있어야 합니다. 그럼에도 불구하고 라이브러리 시퀀싱이 단일 엔드 전략인 경우 다운스트림 분석을 위해 하나의 읽기 파일만 저장해야 합니다. 예를 들어 동일한 샘플인 "Healthy Control"에는 Healthy_control.fastq.gz라는 고유한 FASTQ 파일이 있어야 합니다.
2. 모든 샘플 이름을 포함하는 페노티픽 파일을 만듭니다: 첫 번째 열을 '샘플'로, 두 번째 열을 '클래스'로 지정합니다. 샘플 열을 샘플 디렉터리에 대해 동일한 이름이어야 하는 샘플 이름으로 샘플을 채우고 클래스 열을 각 샘플의 피노티픽 그룹(예: 제어 또는 감염된)으로 채웁니다. 마지막으로 "metadata.tsv"라는 이름으로 파일을 저장하고 /home/transcriptome-pipeline/data/directory로 보냅니다. 기존 metadata.tsv를 확인하여 페노티픽 파일의 형식을 이해하십시오.
  cp /옵트/전송데이터/메타데이터.tsv
  /home/transcriptome-파이프라인/데이터/메타데이터.tsv
3. 1.5.4 단계에서 정의된 호스트 경로 디렉터리에 액세스하고 새 구조식 디렉터리 샘플을 복사합니다. 마지막으로 샘플을 /opt/transferdata에서 파이프라인 데이터 디렉터리로 이동합니다.
  cp -rf /옵트/전송데이터/읽기/*
  /home/transcriptome-파이프라인/데이터/읽기/
모든 읽기가 폴더 /home/transcriptome-파이프라인/데이터/읽기에 저장되어 있는지 관찰합니다.

2. 데이터의 품질 관리

참고: 시퀀싱 읽기에서 오류 의 확률을 그래픽으로 평가합니다. 어댑터와 같은 모든 기술 시퀀스를 제거합니다.

FastQC 도구를 사용하여 라이브러리의 시퀀싱 품질에 액세스합니다.
1. 품질 그래프를 생성하려면 fastqc 프로그램을 실행합니다. 명령을 실행합니다.
  배쉬 FastQC.sh
  참고: 결과는 /home/transcriptome-파이프라인/결과/FastQC 폴더에 저장됩니다. 시퀀스 어댑터는 라이브러리 준비 및 시퀀싱에 사용되므로 어댑터 시퀀스의 조각이 매핑 프로세스를 방해할 수 있습니다.
어댑터 시퀀스와 낮은 품질 읽기를 제거합니다. 스크립트 폴더에 액세스하고 Trimmomatic 도구에 대한 명령을 실행합니다.
cd/홈/전사 파이프라인/스크립트
배쉬 trimmomatic.sh
참고: 시퀀싱 필터에 사용되는 매개 변수는 다음과 같습니다: 낮은 품질 또는 3개의 베이스(품질 3 이하) 제거(선딩:3); 낮은 품질 또는 3 베이스 (품질 3 이하) (후행 : 3) 후행 제거; 기본당 평균 품질이 20 이하로 떨어질 때 절단하는 4베이스 와이드 슬라이딩 윈도우로 판독을 스캔합니다(SLIDINGWINDOW:4:20); 드롭은 36기지 아래(MINLEN:36)를 읽습니다. 이러한 매개 변수는 Trimmomatic 스크립트 파일을 편집하여 변경할 수 있습니다.
1. 결과는 다음 폴더에 저장되었는지 확인합니다: /home/transcriptome-pipeline/결과/trimreads. 명령을 실행합니다.
  ls/홈/전사-파이프라인/결과/트리밍읽기

3. 샘플 매핑 및 음표

참고: 양질의 판독을 얻은 후, 이들은 참조 게놈에 매핑되어야 합니다. 이 단계에서 STAR 매퍼를 사용하여 예제 샘플을 매핑했습니다. STAR 매퍼 도구는 읽기 및 게놈 매핑을 로드하고 실행하려면 32GB의 RAM 메모리가 필요합니다. 32GB의 RAM 메모리가 없는 사용자의 경우 이미 매핑된 읽기를 사용할 수 있습니다. 이러한 경우 3.3 단계로 이동하거나 Bowtie2 매퍼를 사용합니다. 이 섹션에는 STAR에 대한 스크립트(모든 수치에 표시된 결과)와 Bowtie2(메모리가 필요한 낮은 마퍼)가 있습니다.

매핑 프로세스에 대한 참조 게놈을 먼저 색인합니다.
1. 명령줄을 사용하여 스크립트 폴더에 액세스합니다.
  cd/홈/전사 파이프라인/스크립트
2. STAR 매퍼의 경우 다음을 실행합니다.
  배쉬 indexGenome.sh
3. Bowtie 매퍼의 경우 다음을 실행하십시오.
  배쉬 indexGenomeBowtie2.sh
다음 명령을 실행하여 필터링된 읽기(2단계에서 얻은)를 참조 게놈(GRCh38 버전)으로 매핑합니다. STAR와 Bowtie2 매퍼는 기본 매개 변수를 사용하여 수행됩니다.
1. STAR 매퍼의 경우 다음을 실행합니다.
  강타 mapSTAR.sh
2. Bowtie2 매퍼의 경우 다음을 실행하십시오.
  배쉬 mapBowtie2.sh
  참고: 최종 결과는 /home/전사-파이프라인/결과/맵읽기에 저장된 각 샘플에 대한 BAM(바이너리 정렬 맵) 파일입니다.
각 유전자에 대한 원시 카운트를 얻기 위해 FeatureCounts 도구를 사용하여 매핑 된 읽기를 매핑했다. 읽기에 인가되는 스크립트를 실행합니다.
참고: FeatureCounts 도구는 매핑된 시퀀싱 판독을 게놈 피처에 할당할 책임이 있습니다. 생물학적 질문에 따라 변경할 수 있는 게놈 음장의 가장 중요한 측면은 매개 변수에 대응하는 등동체 검출, 여러 매핑된 읽기 및 엑슨-엑슨 접합, 유전자에 대한 GTF.attrType="gene_name", 메타 기능 수준에 대한 매개 변수를 지정하지 않음, MultiOverlap=TRUE 및 juncCounts=TRUE를 각각 포함한다.
1. 명령줄을 사용하여 스크립트 폴더에 액세스합니다.
  cd/홈/전사 파이프라인/스크립트
2. 매핑된 읽기에 추가하여 유전자당 원시 카운트를 얻으려면 명령줄을 실행하십시오.
  Rscript 어노션. R
  참고: 음권 과정에 사용되는 매개 변수는 유전자 짧은 이름(GTF.attrType="gene_name")이었습니다. 여러 겹침 허용(다중오버랩 = TRUE 허용); 라이브러리가 쌍끝임을 나타냅니다(짝수끝=TRUE). 단일 엔드 전략의 경우 매개 변수를 사용합니다쌍끝=FALSE입니다. 결과는 /home/transcriptome-파이프라인/카운트읽기 폴더에 저장됩니다.
유전자 발현을 정규화합니다.
참고: 유전자 발현을 정상화하는 것은 결과(예: 건강하고 감염된 샘플)의 결과를 비교하는 데 필수적입니다. 또한 교란 분석의 공동 발현 및 분자 정도를 수행하기 위해 정규화가 필요합니다.
1. 명령줄을 사용하여 스크립트 폴더에 액세스합니다.
  cd/홈/전사 파이프라인/스크립트
2. 유전자 발현을 정규화한다. 이를 위해 명령줄을 실행합니다.
  Rscript는 샘플을 정규화합니다. R
  참고: 이 실험에서 원시 개수 식은 TMM값의 트림된 평균(TMM) 및 백만 개당 계산(CPM) 방법을 사용하여 정규화되었습니다. 이 단계는 라이브러리 크기 정규화를 수행하여 기술적 영향으로 인한 유전자 발현의 차이를 제거하는 것을 목표로합니다. 결과는 /home/transcriptome-파이프라인/카운트읽기 폴더에 저장됩니다.

4. 차별화된 발현 유전자 및 공동 발현 유전자

오픈 소스 EdgeR 패키지를 사용하여 차별화된 발현 유전자를 식별합니다. 이것은 그 표정이 대조군에 비해 더 높거나 더 낮은 유전자를 찾는 관련시킵니다.
1. 명령줄을 사용하여 스크립트 폴더에 액세스합니다.
  cd/홈/전사 파이프라인/스크립트
2. 차별화된 발현 유전자를 식별하려면 명령줄을 사용하여 DEG_edgeR R 스크립트를 실행하십시오.
  Rscript DEG_edgeR.R
  참고: 차별화된 발현 유전자를 포함하는 결과는 /home/transcriptome-pipeline/results/degs 폴더에 저장됩니다. 데이터는 개인용 컴퓨터로 전송할 수 있습니다.
csblusp/전사 컨테이너에서 데이터를 다운로드합니다.
1. 처리된 데이터를/홈/전사 파이프라인에서 /opt/transferdata 폴더(로컬 컴퓨터)로 전송합니다.
2. 명령줄을 실행하여 모든 파일을 로컬 컴퓨터에 복사합니다.
  cp-rf/홈/전사-파이프라인/결과/옵트/전송데이터/파이프라인
  cp-rf/home/전사-파이프라인/데이터/옵트/전송데이터/파이프라인
  참고: 이제 로컬 컴퓨터로 이동하여 모든 결과, 데이터 집합 및 데이터를 호스트 경로에서 다운로드할 수 있도록 합니다.
공동 식 모듈을 식별합니다.
1. 공동 발현 모듈 식별 도구(CEMiTool) 웹 사이트에 액세스(표의
  재료). 이 도구는 사용자가 제공하는 식 데이터 집합의 공동 식 모듈을 식별합니다. 메인 페이지에서 오른쪽 상단에서 실행을 클릭합니다. 이렇게 하면 식 파일을 업로드할 새 페이지가 열립니다.
2. 발현 파일 섹션 아래 의 파일 선택과 호스트 경로에서 정규화된 유전자 발현 행렬 'tmm_expression.tsv'를 업로드합니다.
  참고: 4.4단계. 필수가 아닙니다.
공동 발현 모듈의 생물학적 의미를 살펴보십시오.
1. 샘플 표현형 섹션에서 파일 선택(파일을 클릭하고 다운로드 데이터 단계 4.2.2)에서 샘플 표현형 metadata_cemitool.tsv로 파일을 업로드합니다. 유전자 세트 농축 분석(GSEA)을 수행한다.
2. 유전자 상호 작용 섹션에서 파일을 선택하여 유전자 상호 작용(cemitool-상호 작용.tsv)이 있는 파일을 업로드합니다. webCEMiTool에 의해 예로 제공되는 유전자 상호 작용 파일을 사용할 수 있다. 상호 작용은 단백질 단백질 상호 작용, 전사 요인 및 전사 유전자, 또는 신진 대사 경로일 수 있습니다. 이 단계는 각 공동 식 모듈에 대한 상호 작용 네트워크를 생성합니다.
3. 유전자 세트 섹션의 파일 선택 섹션을 클릭하여 유전자 매트릭스 트랜스포치(GMT) 형식 파일에 기능적으로 관련된 유전자 목록을 업로드합니다. Gene Set 파일을 사용하면 도구가 각 공동 발현 모듈(즉, ORA)에 대한 보강 분석을 수행할 수 있습니다.
  참고: 유전자의 이 목록은 통로, GO 용어, 또는 miRNA 표적 유전자를 포괄할 수 있습니다. 연구원은 이 분석을 위한 유전자 세트로 혈액 전사 모듈 (BTM)를 사용할 수 있습니다. BTM 파일(BTM_for_GSEA.gmt).
공동 식 분석을 수행하기 위한 매개 변수를 설정하고 결과를 가져옵니다.
1. 다음으로 매개 변수 섹션을 확장하여 플러스 기호를 클릭하여 기본 매개 변수를 표시합니다. 필요한 경우 변경합니다. VST 적용 상자를 확인합니다.
2. 전자 메일 섹션에 전자 메일을 작성하여 결과를 이메일로 수신합니다. 이 단계는 선택 사항입니다.
3. 실행 CEMiTool 버튼을 누릅니다.
4. 오른쪽 상단에 있는 전체 보고서 다운로드 를 클릭하여 전체 분석 보고서를 다운로드합니다. 압축 된 파일 cemitool_results.zip 다운로드합니다.
5. WinRAR로 cemitool_results.zip 내용을 추출합니다.
  참고: 추출된 내용이 있는 폴더에는 분석 결과와 설정된 매개 변수의 모든 결과가 있는 여러 파일이 포함됩니다.

5. 시료의 섭란의 분자 정도의 결정

분자성 량도(민주당) 웹 버전.
1. 민주당 을 출마하려면 민주당 홈페이지(자료표)에 접속할 수 있다. 민주당은 참조에서 각 샘플의 분자 거리를 계산합니다. 실행 버튼을 클릭합니다.
2. 파일 선택 링크에서 식 파일 tmm_expression.tsv를 업로드합니다. 그런 다음 다운로드 데이터 단계 4.2.2에서 phenotypic 데이터 파일 메타데이터를 업로드합니다. 또한 GMT 형식으로 통로 별표 파일을 제출하여 질병과 관련된 경로의 섭동 점수를 계산할 수도 있습니다.
3. 데이터가 업로드되면 민주당이 사용하는 피형 정보가 포함된 클래스 열을 정의합니다. 그런 다음 컨트롤 클래스에 해당하는 레이블을 선택하여 컨트롤 클래스를 정의합니다.
  참고: 샘플 점수계산 방식에 영향을 주는 몇 가지 선택적 매개 변수가 있습니다. 필요한 경우, 사용자는 통계 평균 방법, 표준 편차 및 왜곡된 유전자의 최고 비율을 변경할 수 있습니다.
4. 이후 민주당 경선 버튼을 누르면 민주당 의 결과가 나타난다. 사용자는 각 플롯의 다운로드 플롯 과 다운로드 민주당 점수 파일 버튼의 민주당 점수를 클릭하여 수치를 다운로드할 수 있습니다.
  참고: 파일을 제출하는 방법이나 민주당의 작동 방식에 대한 질문이 있는 경우 자습서 및 정보 웹 페이지를 통해 이동합니다.

6. 기능 적 보강 분석

다운 규제 된 DEG의 하나 목록과 고급 규제 DEG의 다른 목록을 만듭니다. 유전자 이름은 엔트레즈 유전자 기호에 따라 이루어져야 합니다. 목록의 각 유전자는 한 줄에 배치되어야 합니다.
유전자 목록을 txt 또는 tsv 형식으로 저장합니다.
기능 분석을 수행하기 위해 농축자 웹 사이트(재료 표)에 액세스합니다.
파일 선택(Choose File)을 클릭하여 유전자 목록을 선택합니다. DEGs 목록 중 하나를 선택하고 제출 버튼을 누릅니다.
웹 페이지 상단의 Pathways를 클릭하여 ORA 접근 방식을 사용하여 기능 보강 분석을 수행합니다.
경로 데이터베이스를 선택합니다. "Reactome 2016" 경로 데이터베이스는 광범위하게 인간의 데이터의 생물학적 의미를 얻기 위해 사용됩니다.
경로 데이터베이스의 이름을 다시 클릭합니다. 막대 그래프 를 선택하고 p 값 순위로 정렬되었는지 확인합니다. 그렇지 않은 경우 p 값으로 정렬될 때까지 막대 그래프를 클릭합니다. 이 막대 그래프에는 p 값에 따라 상위 10개의 경로가 포함됩니다.
구성 버튼을 누르고 하향 조절 유전자 분석을 위해 강화 된 유전자 분석 또는 파란색에 대한 적색을 선택합니다. svg, png 및 jpg를 클릭하여 막대 그래프를 여러 형식으로 저장합니다.
테이블을 선택하고 막대 그래프 왼쪽 하단의 테이블로 항목을 내보내기를 클릭하여 txt 파일에서 기능 농축 해석 결과를 얻습니다.
참고: 이러한 기능적 농축 결과 파일은 하나의 경로의 이름, 제출된 DEG 목록과 통로 사이의 겹치는 유전자의 수, p-값, 조정된 p-값, 확률 비율, 결합 점수 및 경로에 참여하는 DEG 목록에 존재하는 유전자의 유전자 기호를 포괄합니다.
다른 DEGs 목록과 동일한 단계를 반복합니다.
참고: 하향 조절된 DEGs를 함유한 분석은 하향 조절된 유전자를 위해 농축된 통로를 제공하고, 조절유전자를 가진 분석은 통제된 유전자를 위해 농축된 통로를 제공합니다.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

전사 분석을 위한 컴퓨팅 환경이 Docker 플랫폼에서 만들어지고 구성되었습니다. 이 방법을 사용하면 초보자 Linux 사용자가 사전 관리 지식없이 Linux 터미널 시스템을 사용할 수 있습니다. Docker 플랫폼은 호스트 OS의 리소스를 사용하여 특정 사용자의 도구가 포함된 서비스 컨테이너(그림 1B)를 만듭니다. Linux OS 우분투 20.04 배포판을 기반으로 하는 컨테이너가 만들어졌으며, 명령줄 단자선을 통해 액세스할 수 있는 전사 분석을 위해 완전히 구성되었습니다. 이 컨테이너에는 모든 파이프라인 분석에 필요한 데이터 집합 및 스크립트에 미리 정의된 폴더 구조가 있습니다(그림 1C). 우리의 연구 그룹⁷ 에 의해 간행된 연구 결과는 분석을 위해 이용되고, 건강한 개별에게서 20의 견본 및 CHIKV 심각하게 감염된 개별에게서 39의 견본을 구성했습니다 (그림 1D).

총 RNA 시퀀싱 프로세스는 2개 이상의 성적증명서 또는 시약고를 가진 클러스터에 의해 발생할 수 있는 판독 오류를 생성할 수 있다. 시퀀싱 플랫폼은 각 뉴클레오티드 베이스에 대한 서열(read) 및 관련 품질을 포함하는 "FASTQ" 파일 세트를 반환한다(도 2A). 프레드 품질 척도는 각 베이스의 잘못된 판독 확률을 나타냅니다(그림 2B). 저품질 판독은 편향또는 부적절한 유전자 발현을 생성하여 다운스트림 분석에 연속적인 오류를 유발할 수 있습니다. Trimmomatic과 같은 도구는 샘플에서 낮은 품질의 판독값을 식별하고 제거하고 매핑 판독 확률을 높이기 위해 개발되었습니다(그림 2C,D).

매핑 모듈은 STAR 정렬기 및 GRCh38 인간 숙주로 참조 게놈으로 미리 구성되었다. 이 단계에서, 이전 단계에서 회수된 고품질 판독은 인간 기준 게놈에 맞추기 위한 입력으로 사용된다(도 3A). STAR 정렬기는 BAM 형식 파일의 참조 게놈에 매핑된 읽기의 정렬을 출력합니다. 이 정렬에 따라 FeatureCounts 도구는 GTF 파일 형식(그림 3B)에서 인간 호스트의 참조 어조를 사용하여 정렬된 읽기의 기능(유전자)에 대한 부호를 수행합니다. 마지막으로 각 유전자 이름을 하나의 행으로 사용하는 발현 행렬과 각 샘플이 하나의 컬럼으로 생성됩니다(그림 3C). 추가 다운스트림 분석을 위해 샘플 이름과 각 샘플 그룹을 포함하는 추가 메타데이터 파일도 제공해야 합니다. 유전자 발현 매트릭스는 샘플 중 각 유전자에 매핑된 개수를 나타내며, 이는 DEGs를 식별하기 위해 EdgeR 입력으로 사용될 수 있다. 또한, 이러한 유전자 발현 매트릭스는 TMM 및 CPM을 사용하여 정규화되어 기술적 가변성을 제거하고 샘플 간의 전체 라이브러리 크기에서 발현 유전자의 비율을 고려하여 RNA-seq 측정을 교정하였다. 이 매트릭스는 공동 표현과 민주당 분석을 위한 입력으로 더 사용되었습니다.

CEMiTool은 공동 식 모듈¹²를 식별하고 분석합니다. 동일한 모듈에 있는 유전자는 공동 발현되며, 이는 데이터 집합의 샘플전반에 걸쳐 유사한 표현 패턴을 나타낸다는 것을 의미합니다. 이 도구는 또한 각 식별 된 모듈의 생물학적 중요성의 탐구를 할 수 있습니다. 이를 위해 GSEA의 기능 적 보강 분석, ORA(Over 표현 분석)에 의한 기능 적 농축 분석 및 네트워크 분석의 세 가지 선택적 분석을 제공합니다. GSEA에 의한 기능적 농축 분석은 각 표현형에서 각 모듈의 유전자 발현에 대한 정보를 제공한다(도 4A). 이에 따라, 각 표현형에서 억압되거나 유도되는 모듈을 식별할 수 있다. ORA 분석은 조정된 p-값에 의해 정렬된 각 모듈의 상위 10개 생물학적 기능을 현저하게 농축한 것으로 나타났다. GSEA 및 ORA 결과를 결합하여 손상된 생물학적 과정을 식별하고 관심 표현형에 의해 억압되거나 유도되는 경우 가능합니다. 네트워크 분석은 각 모듈의 상호 작용을 제공합니다(그림 4A). 각 모듈의 유전자가 상호 작용하는 방식을 시각화할 수 있습니다. 이 외에도 네트워크 분석은 네트워크에서 자신의 이름으로 식별되는 가장 연결된 유전자인 허브에 대한 정보를 제공합니다. 노드의 크기는 연결 정도를 나타냅니다.

DEG를 식별하기 위해 사내 스크립트가 개발되어 단방향 및 간결한 명령줄에서 종단 간 차동 분석을 실행합니다. 스크립트는 DEG 분석을 수행하는 데 필요한 모든 단계를 수행하며 메타데이터 파일에서 사용자가 제공한 다른 샘플 그룹을 비교합니다. 또한, DEG 결과는 다운 규제 및 상류 조절 유전자의 별도의 목록에 저장된 다음, 바이오 전도체로부터 의 향상된 화산 R 패키지를 사용하여 출판 준비 된 그림 (그림 4B)으로 컴파일됩니다.

민주당 도구에 의해 수행 되는 동요의 분자 정도의 분석 우리가 건강 하 고 감염 된 개인에서 혼란 샘플을 식별할 수 있습니다¹¹. 동요 점수는 각 CHIKV 감염 시료에 대한 모든 발현 유전자를 고려하고 건강한 샘플을 참조 군으로 고려한 것으로 계산된다(도 5A). 민주당은 또한 그 견본에서 가장 혼란이 많은 유전자의 상위 25%를 사용하여 분석을 수행합니다 (그림 5B). 견본은 유전 배경, 나이, 성별, 또는 그밖 이전 질병을 주어진 큰 가변성을 제시할 수 있습니다. 이러한 요소는 전사 프로파일을 변경할 수 있습니다. 이를 바탕으로 민주당은 어떤 시료가 이를 제거하고 하류 결과를 개선할 수 있는 잠재적생물학적 이상치라고 제안합니다(그림 5A, B).

ORA에 의한 기능적 농축 분석은 DEGs의 생물학적 의미를 확인하기 위해 농축자를 사용하여 수행될 수 있다. 하향 조절 된 유전자의 목록에 따라 제공 된 결과는 연구 된 표현형에서 억압 된 생물학적 과정을 나타내며, 상류 조절 유전자 목록에 따라 제공되는 결과는 관심표현형에서 유도되는 생물학적 과정을 제시합니다. Enrichr에 의해 생성된 바 그래프에 나타난 생물학적 과정은 p-값 순위에 기초하여 상위 10개의 농축 유전자 세트입니다(그림 6).

그림 1: 환경 도커 및 예제 스터디. (A) Docker 플랫폼은 OS 호스트 리소스를 사용하여 전사 분석을 위한 도구가 포함된 Linux 시스템에 대한 "컨테이너"를 만듭니다. (B) Docker 컨테이너는 파이프라인 스크립트를 실행하기 위해 Linux 시스템을 시뮬레이션합니다. (C) 전사 파이프라인 폴더 구조가 만들어지고 구성되어 분석을 위한 데이터 집합 및 스크립트를 저장합니다. (D) 우리 그룹의 연구는 전사 분석의 예로 사용되었습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

그림 2: 시퀀싱의 품질 관리. (A) FASTQ 포맷 파일은 서열 및 뉴클레오티드 염기 품질을 나타내는 데 사용됩니다. (B) 10명마다 로그 확률 오디딤서베이스가 증가하는 Phred 점수 방정식. (C) 및 (D) Boxplot은 트리모틱 실행 전후의 각 뉴클레오티드 베이스의 품질 분포를 각각 나타낸다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

그림 3: 서열에서 유전자 수 발현에 매핑 및 성서 프로세스. (A) 매핑은 게놈으로부터 의 전사및 서열으로부터 서열을 정렬하여 게놈 국소화를 식별하는 것으로 구성된다. (B) 참조 게놈에 매핑된 읽기는 중첩의 게놈 국소화에 기초하여 음표된다. (C) 피쳐와 같은 매핑 파일 도구에 기초하여Counts, 유전자 발현이 요약된다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

도 4: 모듈 유전자로부터 유전자 발현 및 단백질-단백질 상호 작용 네트워크를 기반으로 한 공동 발현의 DEGs. (A) 모듈의 공동 발현 유전자 네트워크 및 통계 분석. (B) CHIKV급성 감염 및 건강한 개인의 통계 적 분석, 빨간색 (p 값 및 log2FC 기준), 보라색 (만 p 값), 녹색 (log2FC), 및 회색 (유의없음)의 차등 유전자 발현. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

그림 5: CHIKV의 분자성(MDP)의 급성 감염 및 건강한 개인. (A) 민주당은 각 샘플마다 전사에서 발현된 모든 유전자를 사용하여 점수를 매겨야 합니다. (B) 가장 혼란스럽게 한 유전자의 상위 25%만을 사용하여 각 샘플에 대한 민주당 점수. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

그림 6: DEGs. (A) 업-규제 유전자및 (B) 다운 조절 유전자에 대한 기능 분석은 생물학적 경로 또는 대표적인 유전자 세트를 평가하기 위해 Enrichr 웹 사이트 도구에 제출되었다. P값은 각 경로에 대해 계산되었으며 그래픽에 중요한 차이점만 표시되었습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

시퀀싱 라이브러리를 준비하는 것은 생물학적 질문에 가능한 최선의 방법으로 답변하는 중요한 단계입니다. 연구의 관심성적증명서 유형은 어떤 유형의 시퀀싱 라이브러리를 선택하고 생물정보 분석을 유도할 것인지를 안내합니다. 예를 들어, 병원체 및 숙주 상호작용의 시퀀싱으로부터, 시퀀싱의 유형에 따라, 호스트 전사체 모두에서 또는 바로 서열을 식별할 수 있다.

차세대 시퀀싱 장비(예: 일루미나 플랫폼)는 염기분석 품질 점수를 측정하여 베이스가 잘못 호출될 확률을 나타냅니다. 다운스트림 분석은 저품질 서열에 매우 민감하며 읽지 않거나 잘못 읽은 유전자 발현으로 이어집니다. 올바른 분석 및 해석을 수행하는 또 다른 장애물은 어댑터 시퀀스입니다. 어댑터 시퀀스는 라이브러리 준비 및 시퀀싱에 도움이 되며 대부분의 경우 어댑터도 시퀀싱됩니다. 최근 연구에 따르면 매핑 도구가 최종 결과에 미치는 영향은 최소화된 것으로 확인되었습니다¹³. 그러나 병원체 숙주 연구에서 매핑 프로세스는 다중 매핑된 궤적 서열 문제를 최소화하기 위해 서로 다른 임계값을 테스트할 때 약간 더 나은 결과를 생성할 수 있습니다.

차동 유전자 발현 결과는 특히 그룹당 샘플 수가 매우 작고 샘플이 다른 해석에서 나온 경우 DEGs 결과배치 효과에 의해 방해되는 특정주의로 해석되어야 한다. 이러한 결과는 여러 가지 요인에 민감하다: (i) 저발현 유전자 및 유지보수시 샘플 의 수를 제거하는 것과 같은 적용된 데이터 필터링; (ii) 연구 설계, CHIKV ^{연구에 도시}된 바와 같이, 샘플 그룹 또는 각 감염된 환자 대 모든 대조군 환자 사이에서만 비교하는 연구 7; 및 (iii) DEGs를 식별하는 데 사용되는 통계 방법. 여기서는 EdgeR이 0.05의 임계값을 가정하는 DEG를 식별하는 기본 예제를 보여 줍니다. 또한 다른 벤치마크 방법에 비해 EdgeR은 ^DEGs14를 식별하는 데 있어 다양한 가변성을 가질 수 있는 문헌에서 도알려져 있습니다. 하나는 이러한 다른 방법 사이의 절충을 고려하고 계정에 사용 가능한 복제의 수와 실험 디자인의 복잡성을 취할 수 ^{있습니다14}.

CEMiTool은 공동 식 모듈 분석을 수행¹². 이 도구는 바이오 전도체 리포지토리의 R 패키지를 통해 사용할 수 있으며 webCEMiTool을 통해 사용자 친화적 인 버전에서도 사용할 수 있습니다. 후자는 이 현재 프로토콜에 사용되는 버전입니다. 이것은 ^WGCNA15 와 관련하여 대체 소프트웨어로 후자¹⁶에 비해 몇 가지 이점을 제시하며, 여기에는 사용자 친화적인 ¹⁷이 더 많다는 사실이 포함됩니다. 더욱이, 이 도구는 유전자를 필터링하는 자동 방법이 있는 반면, WGCNA에서는 사용자가 WGCNA 사용 전에 유전자를 필터링해야 한다. 또한 이 도구에는 기본 매개 변수가 설정되어 있으며 WGCNA에서는 사용자가 매개 변수 분석을 수동으로 선택해야 합니다. 수동 매개 변수 선택은 재현성을 손상시합니다. 따라서 자동 매개 변수 선택은 향상된 재현성을 보장합니다.

경우에 따라 CEMiTool은 β 적절한 소프트 임계값을 찾을 수 없습니다. 이 경우 사용자는 RNA-seq 데이터가 강력한 평균 분산 의존성을 제공하는지 확인해야 합니다. 평균이 분산(모든 유전자 고려)과 강한 선형 관계를 나타내는 경우, 사용자는 전사 데이터의 평균 분산 의존성을 제거하기 위해 "VST 적용" 매개 변수를 확인하는 분석을 다시 실행해야 합니다. 데이터에 강력한 평균 분산 의존도가 있는지 확인하고 데이터가 있을 때 제거하는 것이 항상 중요합니다.

CEMiTool은 대체로 공동 발현 모듈의 생물학적 의미를 식별하고 탐구하는 데 사용되어 왔습니다. CHIKV 급성 감염 연구는 증상의 발병 후 2 ~ 4 일 환자에서 더 높은 활성을 가진 모듈을 보여 주었다⁷. ORA에 의한 이 모듈의 기능적 농축은 단핵구 및 호중구⁷의 증가를 나타냈다. 기준선에서 7일까지 의혈 전사체를 이용한 인플루엔자 예방 접종 연구는 T, B 및 천연 킬러 세포, 단핵구, 호중구, 인터페론 반응 및 혈소판 활성화^와 관련된 생물학적 과정에 기능적으로 농축된 공동 발현 모듈을 제시하였다.

전사 데이터 집합의 가변성을 고려하여 많은 변수가 유전자 발현 프로파일^7,11에 영향을 미칠 수 있기 때문에 데이터 이질성을 식별하고 정량화하는 것은 어려울 수 있습니다. 민주당은 이러한 단계를 수행하여 건강하고 감염된 피험자로부터 의식 샘플을 식별하고 정량화하는 방법을 제공합니다: (i) 중앙집중도 방법(중앙값 또는 평균) 및 제어 시료의 표준 편차를 계산합니다. (ii) 모든 유전자의 z 점수를 계산한 값을 사용; (iii) 대조군 샘플에서 대표편차를 나타내는 2보다 임계값 z-점수 절대 2를 설정; (iv) 각 샘플에 대해 여과된 점수를 사용하여 유전자 값의 평균을 계산합니다. scRNA-seq 분석에 대한 몇 가지 제한에도 불구하고,이 도구는 마이크로 어레이 및 RNA-seq ^data11에서 섭란 점수를 결정하는 기능적이었다. 또한, 이전 연구는 결핵 및 당뇨병 환자의 혈액 전사체에 상승 된 교란의 분자 정도를 입증하기 위해이 도구를 사용했다¹⁹. 이 작품에서, 대조군과 CHIKV의 침전은 참조 군으로서 건강한 개인을 사용하여 급성 으로 감염된 샘플이 나타났다.

Enrichr가 수행하는 기능적 농축 분석은 ^ORA20,21입니다. ORA는 사용자가 도구에 DEG 목록을 제공해야 하는 기능 보강 분석의 한 유형입니다. DEG 목록은 일반적으로 규제가 강화된 DEG 목록과 최대 규제 DEG 목록에서 구분됩니다. ORA를 수행할 수 있는 다른 도구가 있습니다. 기능 농축 분석의 또 다른 유형은 GSEA입니다. GSEA를 수행하려면 사용자는 순위 목록에 있는 모든 유전자를 제공해야 합니다. 이 목록은 일반적으로 접이식 변화에 있는 유전자 발현에 따라 순위가 매겨됩니다.

Enrichr는 항상 바 그래프 결과에 있는 그들의 p 값에 근거를 둔 풍부하게 한 상위 10개의 유전자 세트를 제공합니다. 따라서, 사용자는 결과를 해석할 때 주의해야 하며, 10개 미만의 농축 유전자 세트가 있는 경우, 바 그래프는 또한 비농축 된 생물학적 과정을 보여줄 것이다. 이 오류를 피하기 위해 사용자는 p-값에 대한 컷오프를 설정하고 막대 그래프의 모든 유전자 세트가 풍부하다고 가정하기 전에 경로의 p-값을 관찰해야 합니다. 더욱이, 사용자는 바 그래프에 표시된 10개의 유전자 세트의 순서가 조정된 p-값이 아니라 p-값에 따른다는 것을 유의해야 한다. 사용자가 막대 그래프에 모든 보강된 경로를 표시하거나 조정된 p 값에 따라 재정렬하려는 경우 사용자가 다운로드한 테이블을 사용하여 자신의 막대 그래프를 작성하는 것이 좋습니다. 사용자는 Excel 또는 R 소프트웨어를 사용하여 새 막대 그래프를 만들 수 있습니다.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

저자는 공개 할 것이 없습니다.

Acknowledgments

HN은 FAPESP(교부금 번호: #2017/50137-3, 2012/19278-6, 2018/14933-2, 2018/21934-5, 2013/08216-2) 및 CNPq(313662/2017-7)에 의해 지원됩니다.

ANAG (FAPESP 프로세스 2019/13880-5), VEM (FAPESP 프로세스 2019/16418-0), IMSC (FAPESP 프로세스 2020/05284-0), APV (FAPESP 프로세스 2019/2019/27146) RLTO (CNPq 프로세스 134204/2019-0).

Materials

Name	Company	Catalog Number	Comments
CEMiTool	Computational Systems Biology Laboratory	1.12.2	Discovery and the analysis of co-expression gene modules in a fully automatic manner, while providing a user-friendly HTML report with high-quality graphs.
EdgeR	Bioconductor (Maintainer: Yunshun Chen [yuchen at wehi.edu.au])	3.30.3	Differential expression analysis of RNA-seq expression profiles with biological replication
EnhancedVolcano	Bioconductor (Maintainer: Kevin Blighe [kevin at clinicalbioinformatics.co.uk])	1.6.0	Publication-ready volcano plots with enhanced colouring and labeling
FastQC	Babraham Bioinformatics	0.11.9	Aims to provide a simple way to do some quality control checks on raw sequence data coming from high throughput sequencing
FeatureCounts	Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research	2.0.0	Assign mapped sequencing reads to specified genomic features
MDP	Computational Systems Biology Laboratory	1.8.0	Molecular Degree of Perturbation calculates scores for transcriptome data samples based on their perturbation from controls
R	R Core Group	4.0.3	Programming language and free software environment for statistical computing and graphics
STAR	Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research	2.7.6a	Aligner designed to specifically address many of the challenges of RNA-seq data mapping using a strategy to account for spliced alignments
Bowtie2	Johns Hopkins University	2.4.2	Ultrafast and memory-efficient tool for aligning sequencing reads to long reference sequences
Trimmomatic	THE USADEL LAB	0.39	Trimming adapter sequence tasks for Illumina paired-end and single-ended data
Get Docker	Docker	20.10.2	Create a bioinformatic environment reproducible and predictable (https://docs.docker.com/get-docker/)
WSL2-Kernel	Windows	NA	https://docs.microsoft.com/en-us/windows/wsl/wsl2-kernel
Get Docker Linux	Docker	NA	https://docs.docker.com/engine/install/ubuntu/
Docker Linux Repository	Docker	NA	https://docs.docker.com/engine/install/ubuntu/#install-using-the-repository
MDP Website	Computational Systems Biology Laboratory	NA	https://mdp.sysbio.tools
Enrichr Website	MaayanLab	NA	https://maayanlab.cloud/Enrichr/
webCEMiTool	Computational Systems Biology Laboratory	NA	https://cemitool.sysbio.tools/
gProfiler	Bioinformatics, Algorithmics and Data Mining Group	NA	https://biit.cs.ut.ee/gprofiler/gost
goseq	Bioconductor (Maintainer: Matthew Young [my4 at sanger.ac.uk])	NA	http://bioconductor.org/packages/release/bioc/html/goseq.html
SRA NCBI study	NCBI	NA	https://www.ncbi.nlm.nih.gov/bioproject/PRJNA507472/

DOWNLOAD MATERIALS LIST

References

Weaver, S. C., Charlier, C., Vasilakis, N., Lecuit, M. Zika, Chikungunya, and Other Emerging Vector-Borne Viral Diseases. Annual Review of Medicine. 69, 395-408 (2018).
Burt, F. J., et al. Chikungunya virus: an update on the biology and pathogenesis of this emerging pathogen. The Lancet. Infectious Diseases. 17 (4), 107-117 (2017).
Hua, C., Combe, B. Chikungunya virus-associated disease. Current Rheumatology Reports. 19 (11), 69 (2017).
Suhrbier, A., Jaffar-Bandjee, M. -C., Gasque, P. Arthritogenic alphaviruses-an overview. Nature Reviews Rheumatology. 8 (7), 420-429 (2012).
Nakaya, H. I., et al. Gene profiling of chikungunya virus arthritis in a mouse model reveals significant overlap with rheumatoid arthritis. Arthritis and Rheumatism. 64 (11), 3553-3563 (2012).
Michlmayr, D., et al. Comprehensive innate immune profiling of chikungunya virus infection in pediatric cases. Molecular Systems Biology. 14 (8), 7862 (2018).
Soares-Schanoski, A., et al. Systems analysis of subjects acutely infected with the Chikungunya virus. PLOS Pathogens. 15 (6), 1007880 (2019).
Alexandersen, S., Chamings, A., Bhatta, T. R. SARS-CoV-2 genomic and subgenomic RNAs in diagnostic samples are not an indicator of active replication. Nature Communications. 11 (1), 6059 (2020).
Wang, D., et al. The SARS-CoV-2 subgenome landscape and its novel regulatory features. Molecular Cell. 81 (10), 2135-2147 (2021).
Wilson, J. A. C., et al. RNA-Seq analysis of chikungunya virus infection and identification of granzyme A as a major promoter of arthritic inflammation. PLOS Pathogens. 13 (2), 1006155 (2017).
Gonçalves, A. N. A., et al. Assessing the impact of sample heterogeneity on transcriptome analysis of human diseases using MDP webtool. Frontiers in Genetics. 10, 971 (2019).
Russo, P. S. T., et al. CEMiTool: a Bioconductor package for performing comprehensive modular co-expression analyses. BMC Bioinformatics. 19 (1), 56 (2018).
Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12 (12), 0190152 (2017).
Seyednasrollah, F., Laiho, A., Elo, L. L. Comparison of software packages for detecting differential expression in RNA-seq studies. Briefings in Bioinformatics. 16 (1), 59-70 (2015).
Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article17 (2005).
Cheng, C. W., Beech, D. J., Wheatcroft, S. B. Advantages of CEMiTool for gene co-expression analysis of RNA-seq data. Computers in Biology and Medicine. 125, 103975 (2020).
Cardozo, L. E., et al. webCEMiTool: Co-expression modular analysis made easy. Frontiers in Genetics. 10, 146 (2019).
de Lima, D. S., et al. Long noncoding RNAs are involved in multiple immunological pathways in response to vaccination. Proceedings of the National Academy of Sciences of the United States of America. 116 (34), 17121-17126 (2019).
Prada-Medina, C. A., et al. Systems immunology of diabetes-tuberculosis comorbidity reveals signatures of disease complications. Scientific Reports. 7 (1), 1999 (2017).
Chen, E. Y., et al. Enrichr: interactive and collaborative HTML5 gene list enrichment analysis tool. BMC Bioinformatics. 14, 128 (2013).
Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
Raudvere, U., et al. g:Profiler: a web server for functional enrichment analysis and conversions of gene lists (2019 update). Nucleic Acids Research. 47, 191-198 (2019).
Young, M. D., Wakefield, M. J., Smyth, G. K., Oshlack, A. Gene ontology analysis for RNA-seq: accounting for selection bias. Genome Biology. 11 (2), 14 (2010).

Immunology and Infection

호스트-병원체 상호 작용을 조사하기 위한 고처리량 전사 분석

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.