이 프로토콜의 목적은 RNA 염기서열 분석 데이터를 사용하여 후보 유전자의 진화 와 발현을 조사하는 것이다.
전체 게놈 또는 전사 데이터와 같은 대규모 데이터 집합을 증류하고 보고하는 것은 종종 어려운 작업입니다. 결과를 분해하는 한 가지 방법은 유기체와 연구에 중요한 하나 이상의 유전자 가족에 집중하는 것입니다. 이 프로토콜에서, 우리는 생물학적 단계를 설명하고 필로겐을 생성하고 관심있는 유전자의 표현을 정량화합니다. 필로유전학 나무는 유전자가 종 안팎에서 어떻게 진화하고 있는지, 그리고 종이학을 드러내는지에 대한 통찰력을 제공할 수 있습니다. 이러한 결과는 RNA-seq 데이터를 사용하여 상이한 개인 또는 조직에서 이러한 유전자의 발현을 비교하는 것으로 향상될 수 있다. 분자 진화와 발현의 연구는 종 사이 유전자 기능의 진화 그리고 보존의 모드를 밝힐 수 있습니다. 유전자 가족의 특성화는 미래 연구를 위한 발판으로 봉사할 수 있고 새로운 게놈 또는 전사 종이에 있는 중요한 유전자 가족을 강조할 수 있습니다.
시퀀싱 기술의 발전은 비모델 유기체의 게놈 및 전사의 시퀀싱을 용이하게 했습니다. 많은 유기체에서 DNA와 RNA를 시퀀싱하는 것의 증가된 타당성 이외에, 관심 있는 유전자를 연구하기 위하여 데이터의 풍부가 공개적으로 유효합니다. 이 프로토콜의 목적은 관심있는 유기체에서 중요한 역할을 할 수있는 유전자의 분자 진화 와 발현을 조사하기 위한 생물 정보 학적 단계를 제공하는 것입니다.
유전자 또는 유전자 가족의 진화를 조사하는 것은 생물학 시스템의 진화에 대한 통찰력을 제공할 수 있습니다. 유전자 가족의 구성원은 전형적으로 보존된 모티프 또는 동상적 유전자 서열을 식별하여 결정됩니다. 유전자 가족 진화는 이전에 먼 관련 모형 유기체1에서게놈을 사용하여 조사되었습니다. 이 접근에 제한은 이 유전자 가족이 밀접하게 관련된 종및 다른 환경 선택적인 압력의 역할에서 어떻게 발전하는지 명확하지 않다는 것입니다. 이 프로토콜에서는 밀접하게 관련된 종의 동종에 대한 검색이 포함됩니다. 필럼 수준에서 필로겐을 생성함으로써 보존 된 유전자 또는 혈통 별 복제와 같은 유전자 가족 진화의 동향을 주목할 수 있습니다. 이 수준에서, 우리는 또한 유전자가 정형 소또는 패러로그인지 여부를 조사할 수 있습니다. 많은 동형 모로그가 서로 유사하게 작동할 가능성이 있지만 반드시2는아닙니다. 이 연구 결과에 있는 phylogenetic 나무를 통합하는 것은 이 동종 유전자가 정형술인지 여부를 해결하는 것이 중요합니다. 진핵생물에서, 많은 정형술은 효모 정형술3의기능을 복원하는 포유류 단백질의 능력에 의해 입증된 바와 같이 세포 내에서 유사한 기능을 유지한다. 그러나, 비직교 유전자가 특징적인 기능4를수행하는 경우가 있다.
필로유전학 나무는 유전자와 종 사이의 관계를 묘사하기 시작하지만, 기능은 유전 적 관계에 따라 전적으로 할당 할 수 없습니다. 기능성 주석 및 농축 분석과 결합된 유전자 발현 연구는 유전자 기능에 대한 강력한 지원을 제공합니다. 유전자 발현이 개인 또는 조직 모형을 통해 정량화되고 비교될 수 있는 케이스는 잠재적인 기능의 더 많은 말하기일 수 있습니다. 다음 프로토콜은 히드라 저속가스7에서opsin 유전자를 조사하는 데 사용되는 방법을 따르지만 모든 종 및 유전자 패밀리에 적용 될 수 있습니다. 이러한 연구의 결과는 비 모델 유기체에서 유전자 기능 및 유전자 네트워크에 대한 추가 조사를위한 기초를 제공합니다. 예를 들어, 광유도 캐스케이드를 시작하는 단백질인 opsins의 물리학에 대한 조사는 눈과 광 검출8,9,10,11의진화에 대한맥락을제공한다. 이 경우, 비모델 유기체는 특히 cnidarians 또는 ctenophores와 같은 기저 동물 종은12,13,14에걸쳐 광반유도 캐스케이드 및 시력의 보존 또는 변화를 해명할 수 있다. 유사하 게, 다른 유전자 가족의 phylogeny, 발현 및 네트워크를 결정 하는 것은 분자 메커니즘 기본 적응에 대해 알려 줄 것 이다.
이 프로토콜은 UC 어바인 동물 관리 지침을 따릅니다.
1. RNA-seq 라이브러리 준비
2. 컴퓨터 클러스터에 액세스
참고 : RNA- seq 분석은 대용량 파일의 조작이 필요하며 컴퓨터 클러스터(재료 표)에서수행하는 것이 가장 좋습니다.
3. RNA-seq 읽기 받기
4. 어댑터 및 낮은 품질 읽기 를 트림 (선택 사항)
5. 참조 어셈블리 획득
6. 드 노보 어셈블리 생성(5단계 대안)
7. 지도는 게놈 (7.1) 또는 드 노보 전사 (7.2)를 읽습니다.
8. 관심 유전자 식별
참고: 다음 단계는 뉴클레오티드 또는 단백질 FASTA 파일로 수행할 수 있지만 가장 잘 작동하며 단백질 서열로 더 간단합니다. 단백질을 단백질에 이용한 BLAST 검색은 다른 종 사이에서 검색할 때 결과를 줄 가능성이 높습니다.
9. 물리 유전학 나무
10. TPM을 사용하여 유전자 발현을 시각화
이 프로토콜의 목적은 RNA-seq 데이터를 사용하여 유전자 가족을 특성화하기 위한 단계의 개요를 제공하는 것이다. 이러한 방법은 다양한 종 및 데이터 집합4,34,35에대해 작동하는 것으로 입증되었습니다. 여기에 설립 된 파이프 라인은 단순화되었으며 생물 정보학의 초보자가 뒤따를 만큼 쉬워야합니다. 프로토콜의 중요성은 게시 가능한 분석을 완료하는 데 필요한 모든 단계와 필요한 프로그램을 간략하게 설명한다는 것입니다. 프로토콜의 중요한 단계는 제대로 전체 길이 성적 증명서를 조립하는 것입니다, 이것은 고품질 게놈 또는 전사에서 온다. 적절한 성적 증명서를 얻으려면 고품질 RNA 및 DNA 및 아래에 설명 된 좋은 주석이 필요합니다.
RNA-seq 라이브러리 준비를 위해, 우리는 히드라19의 작은 신체 부위와 나비18 (재료의 표)에대해 일하는 목록 키트를 포함한다. 우리는 낮은 입력 RNA를 위해 우리는 수정 된 프로토콜 접근 방식을 사용36. RNA 추출을 위한 방법은 효모세포(17),신경모세포종(37, 식물38)및 곤충 애벌레(16)를 포함하는 다중 샘플 유형에서 비교되었다. 독자는 관심 있는 종에 대해 작동하는 프로토콜을 획득하거나, 존재하는 경우, 또는 일반적으로 시판되는 키트를 사용하여 문제 해결을 시작하도록 권장합니다. 적절한 유전자 정량화를 위해 RNA 샘플을 DNase로 치료하는 것이 좋습니다. DNA의 존재는 적당한 유전자 정량화에 영향을 미칠 것입니다. 또한 성숙한 mRNA를 선택하기 위해 폴리A 테일 선택을 포함하는 cDNA 라이브러리 준비 키트를 사용하는 것이 좋습니다. rRNA 고갈은 더 읽기 깊이를 초래하지만, 엑슨 커버리지의 비율은 polyA + 선택(39)을사용하여 RNA의 엑슨 커버리지보다 훨씬 낮습니다. 마지막으로, 가능하면 페어링 엔드와 좌초40,41을사용하는 것이 가장 좋습니다. 위의 프로토콜에서 단일 끝 읽기를 사용할 때 읽기 매핑 명령을 수정해야 합니다.
위에서 언급한 바와 같이 관심있는 유전자를 식별하고 또한 최근 유전자 중복, 대체 접합 및 염분 분석에서 haplotype 을 구별할 수 있는 것이 중요합니다. 어떤 경우에, 참조 게놈을 갖는 것은 유전자와 엑소온이 서로 에 비해 어디에 위치결정하여 도움이 될 수 있습니다. 주목해야 할 한 가지는 전사가 공공 데이터베이스에서 얻어지고 고품질이 아닌 경우,트리니티(42)를 사용하여 RNA-seq 라이브러리를 관심 있는 조직에서 결합하는 것이 가장 좋을 수 있다는 점입니다. 마찬가지로, 기준 게놈이 양호한 유전자 모델이 없는 경우, RNA-seq 라이브러리는 StringTie43을 사용하여 새로운 GTF를 생성하는 데 사용될 수 있다(보충 재료 참조). 또한 유전자가 불완전하고 게놈에 접근할 수 있는 경우, 유전자는 모성로그 서열을 사용하여 수동으로 편집한 다음 tblastn을 사용하여 게놈에 정렬될 수 있습니다. BLAST 출력을 사용하여 실제 시퀀스를 결정하는 데 사용할 수 있으며, 이는 동종로그를 사용하여 수행된 보정과 다를 수 있습니다. 일치하지 않는 경우 원래와 같이 시퀀스를 둡니다. 출력을 검사할 때 누락된 엑슨이 실제로 유전자의 일부인지 확인하기 위해 게놈 좌표에 주의를 기울입니다.
사용한 소프트웨어 및 프로그램에 중점을 두고 있지만 이 프로토콜에 대한 수정은 다양한 데이터 집합에 더 잘 작동할 수 있는 많은 프로그램으로 인해 존재합니다. 예를 들어, 우리는 나비 넥타이와 RSEM을 사용하여 전사에 읽기를 매핑하기위한 명령을 표시하지만, 트리니티는 이제 kallisto44 및 연어45와같은 훨씬 빠른 정렬기를위한 옵션이 있습니다. 마찬가지로 Blast2GO(현재 OmicsBox)를 사용하여 주석을 설명하지만 무료 및 온라인에서 찾을 수 있는 다른 매퍼 도구가 있습니다. 우리가 시도한 몇몇은 다음과 같습니다 : GO FEAT46,eggNOG-mapper47,48,그리고 매우 빠른 정렬기 PANNZER249. 이러한 웹 기반 별표 도구를 사용 하려면 단순히 펩 티 드 FASTA를 업로드 하 고 제출. PANNZER 및 eggNOG 매퍼의 독립 형 버전도 컴퓨터 클러스터에 다운로드 할 수 있습니다. 또 다른 수정 사항은 로컬 컴퓨터에서 MEGA와 R을 사용하고 온라인 NCBI BLAST 도구를 사용하여 상호 BLAST를 수행하지만 이러한 모든 프로그램은 필요한 프로그램과 데이터베이스를 다운로드하여 컴퓨터 클러스터에서 사용할 수 있다는 것입니다. 마찬가지로, 정렬기 kallisto와 연어는 사용자가 충분한 RAM과 저장 공간을 가지고 있는 한 로컬 컴퓨터에서 사용할 수 있습니다. 그러나 FASTQ 및 FASTA 파일은 매우 큰 경향이 있으며 컴퓨터 클러스터를 사용하여 쉽고 빠른 속도를 사용하는 것이 좋습니다. 또한, 우리는 그들의 개발자에서 프로그램을 다운로드 하는 지침 및 링크를 제공 하는 동안 그들 중 많은 bioconda에서 설치될 수 있습니다: https://anaconda.org/bioconda.
생물 정보 분석을 수행할 때 직면한 일반적인 문제는 쉘 스크립트가 실패하는 것입니다. 이것은 여러 가지 이유로 인해 될 수 있습니다. 오류 파일을 만든 경우 문제 해결 전에 이러한 오류 파일을 확인해야 합니다. 오류의 몇 가지 일반적인 이유는 오타, 누락된 주요 매개 변수 및 소프트웨어 버전 간의 호환성 문제입니다. 이 프로토콜에서는 데이터에 대한 매개 변수가 포함되어 있지만 소프트웨어 매뉴얼은 개별 매개 변수에 대한 보다 자세한 지침을 제공할 수 있습니다. 일반적으로 최신 버전의 소프트웨어를 사용하고 해당 버전에 해당하는 설명서를 참조하는 것이 가장 좋습니다.
이 프로토콜의 향상에는 전사 차원의 차동 발현 분석 및 기능 적 보강 해석을 수행하는 것이 포함됩니다. 차동 발현 해석에 엣지R50은 바이오 컨덕터에서 사용할 수 있는 패키지를 사용하는 것이 좋습니다. 기능적 농축 분석을 위해 Blast2GO29 및 웹 기반 DAVID51,52를 사용했습니다. 또한 새로운 파일로 추출하고 웹 기반 iTOL53을사용하여 물리 를 편집하는 것이 좋습니다. 더욱이, 이 프로토콜은 유전자의 분자 진화 그리고 발현 패턴을 조사할 것이지만, 추가 실험은 유전자 또는 단백질 위치 및 기능을 검증하기 위하여 이용될 수 있습니다. mRNA 발현은 RT-qPCR 또는 시투 혼성화에서 확인할 수 있다. 단백질은 면역 히스토케를 사용하여 국소화될 수 있다. 종에 따라 녹아웃 실험을 사용하여 유전자 기능을 확인할 수 있습니다. 이 프로토콜은 위에서 도시한 바와 같이, 기저종7에서광수신과 전형적으로 연관된 유전자 패밀리를 탐구하는 등 다양한 목표에 사용될 수 있다. 이러한 방법의 또 다른 응용 프로그램은 다른 선택적 압력하에서 보존 된 경로의 변화를 식별하는 것입니다. 예를 들어, 이들 방법은 주전자 나비와 야행성나방(34)사이의 비전 과도 수용체 잠재적 채널의 발현의 변화를 발견하는 데 사용되었다.
The authors have nothing to disclose.
Bioanalyzer-DNA kit | Agilent | 5067-4626 | wet lab materials |
Bioanalyzer-RNA kit | Agilent | 5067-1513 | wet lab materials |
BLAST+ v. 2.8.1 | On computer cluster*<br/> https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ | ||
Blast2GO (on your PC) | On local computer<br/> https://www.blast2go.com/b2g-register-basic | ||
boost v. 1.57.0 | On computer cluster | ||
Bowtie v. 1.0.0 | On computer cluster<br/> https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/ | ||
Computing cluster (highly recommended) | NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large. | ||
Cufflinks v. 2.2.1 | On computer cluster | ||
edgeR v. 3.26.8 (in R) | In Rstudio<br/> https://bioconductor.org/packages/release/bioc/html/edgeR.html | ||
gcc v. 6.4.0 | On computer cluster | ||
Java v. 11.0.2 | On computer cluster | ||
MEGA7 (on your PC) | On local computer<br/> https://www.megasoftware.net | ||
MEGAX v. 0.1 | On local computer<br/> https://www.megasoftware.net | ||
NucleoSpin RNA II kit | Macherey-Nagel | 740955.5 | wet lab materials |
perl 5.30.3 | On computer cluster | ||
python | On computer cluster | ||
Qubit 2.0 Fluorometer | ThermoFisher | Q32866 | wet lab materials |
R v.4.0.0 | On computer cluster<br/> https://cran.r-project.org/src/base/R-4/ | ||
RNAlater | ThermoFisher | AM7021 | wet lab materials |
RNeasy kit | Qiagen | 74104 | wet lab materials |
RSEM v. 1.3.0 | Computer software<br/> https://deweylab.github.io/RSEM/ | ||
RStudio v. 1.2.1335 | On local computer<br/> https://rstudio.com/products/rstudio/download/#download | ||
Samtools v. 1.3 | Computer software | ||
SRA Toolkit v. 2.8.1 | On computer cluster<br/> https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit | ||
STAR v. 2.6.0c | On computer cluster<br/> https://github.com/alexdobin/STAR | ||
StringTie v. 1.3.4d | On computer cluster<br/> https://ccb.jhu.edu/software/stringtie/ | ||
Transdecoder v. 5.5.0 | On computer cluster<br/> https://github.com/TransDecoder/TransDecoder/releases | ||
Trimmomatic v. 0.35 | On computer cluster<br/> http://www.usadellab.org/cms/?page=trimmomatic | ||
Trinity v.2.8.5 | On computer cluster<br/> https://github.com/trinityrnaseq/trinityrnaseq/releases | ||
TRIzol | ThermoFisher | 15596018 | wet lab materials |
TruSeq RNA Library Prep Kit v2 | Illumina | RS-122-2001 | wet lab materials |
TURBO DNA-free Kit | ThermoFisher | AM1907 | wet lab materials |
*Downloads and installation on the computer cluster may require root access. Contact your network administrator. |