Waiting
Login-Verarbeitung ...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

RNA-seq를 사용하여 분자 진화 및 유전자 발현을 조사하기 위한 생물정보학 파이프라인

Published: May 28, 2021 doi: 10.3791/61633

Summary

이 프로토콜의 목적은 RNA 염기서열 분석 데이터를 사용하여 후보 유전자의 진화 와 발현을 조사하는 것이다.

Abstract

전체 게놈 또는 전사 데이터와 같은 대규모 데이터 집합을 증류하고 보고하는 것은 종종 어려운 작업입니다. 결과를 분해하는 한 가지 방법은 유기체와 연구에 중요한 하나 이상의 유전자 가족에 집중하는 것입니다. 이 프로토콜에서, 우리는 생물학적 단계를 설명하고 필로겐을 생성하고 관심있는 유전자의 표현을 정량화합니다. 필로유전학 나무는 유전자가 종 안팎에서 어떻게 진화하고 있는지, 그리고 종이학을 드러내는지에 대한 통찰력을 제공할 수 있습니다. 이러한 결과는 RNA-seq 데이터를 사용하여 상이한 개인 또는 조직에서 이러한 유전자의 발현을 비교하는 것으로 향상될 수 있다. 분자 진화와 발현의 연구는 종 사이 유전자 기능의 진화 그리고 보존의 모드를 밝힐 수 있습니다. 유전자 가족의 특성화는 미래 연구를 위한 발판으로 봉사할 수 있고 새로운 게놈 또는 전사 종이에 있는 중요한 유전자 가족을 강조할 수 있습니다.

Introduction

시퀀싱 기술의 발전은 비모델 유기체의 게놈 및 전사의 시퀀싱을 용이하게 했습니다. 많은 유기체에서 DNA와 RNA를 시퀀싱하는 것의 증가된 타당성 이외에, 관심 있는 유전자를 연구하기 위하여 데이터의 풍부가 공개적으로 유효합니다. 이 프로토콜의 목적은 관심있는 유기체에서 중요한 역할을 할 수있는 유전자의 분자 진화 와 발현을 조사하기 위한 생물 정보 학적 단계를 제공하는 것입니다.

유전자 또는 유전자 가족의 진화를 조사하는 것은 생물학 시스템의 진화에 대한 통찰력을 제공할 수 있습니다. 유전자 가족의 구성원은 전형적으로 보존된 모티프 또는 동상적 유전자 서열을 식별하여 결정됩니다. 유전자 가족 진화는 이전에 먼 관련 모형 유기체1에서게놈을 사용하여 조사되었습니다. 이 접근에 제한은 이 유전자 가족이 밀접하게 관련된 종및 다른 환경 선택적인 압력의 역할에서 어떻게 발전하는지 명확하지 않다는 것입니다. 이 프로토콜에서는 밀접하게 관련된 종의 동종에 대한 검색이 포함됩니다. 필럼 수준에서 필로겐을 생성함으로써 보존 된 유전자 또는 혈통 별 복제와 같은 유전자 가족 진화의 동향을 주목할 수 있습니다. 이 수준에서, 우리는 또한 유전자가 정형 소또는 패러로그인지 여부를 조사할 수 있습니다. 많은 동형 모로그가 서로 유사하게 작동할 가능성이 있지만 반드시2는아닙니다. 이 연구 결과에 있는 phylogenetic 나무를 통합하는 것은 이 동종 유전자가 정형술인지 여부를 해결하는 것이 중요합니다. 진핵생물에서, 많은 정형술은 효모 정형술3의기능을 복원하는 포유류 단백질의 능력에 의해 입증된 바와 같이 세포 내에서 유사한 기능을 유지한다. 그러나, 비직교 유전자가 특징적인 기능4를수행하는 경우가 있다.

필로유전학 나무는 유전자와 종 사이의 관계를 묘사하기 시작하지만, 기능은 유전 적 관계에 따라 전적으로 할당 할 수 없습니다. 기능성 주석 및 농축 분석과 결합된 유전자 발현 연구는 유전자 기능에 대한 강력한 지원을 제공합니다. 유전자 발현이 개인 또는 조직 모형을 통해 정량화되고 비교될 수 있는 케이스는 잠재적인 기능의 더 많은 말하기일 수 있습니다. 다음 프로토콜은 히드라 저속가스7에서opsin 유전자를 조사하는 데 사용되는 방법을 따르지만 모든 종 및 유전자 패밀리에 적용 될 수 있습니다. 이러한 연구의 결과는 비 모델 유기체에서 유전자 기능 및 유전자 네트워크에 대한 추가 조사를위한 기초를 제공합니다. 예를 들어, 광유도 캐스케이드를 시작하는 단백질인 opsins의 물리학에 대한 조사는 눈과 광 검출8,9,10,11의진화에 대한맥락을제공한다. 이 경우, 비모델 유기체는 특히 cnidarians 또는 ctenophores와 같은 기저 동물 종은12,13,14에걸쳐 광반유도 캐스케이드 및 시력의 보존 또는 변화를 해명할 수 있다. 유사하 게, 다른 유전자 가족의 phylogeny, 발현 및 네트워크를 결정 하는 것은 분자 메커니즘 기본 적응에 대해 알려 줄 것 이다.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

이 프로토콜은 UC 어바인 동물 관리 지침을 따릅니다.

1. RNA-seq 라이브러리 준비

  1. RNA를 다음과 같은 방법을 사용하여 분리한다.
    1. 샘플을 수집합니다. RNA를 나중에 추출하는 경우, RNA 저장용액(15)에 시료 또는 배치를동결한다(재료의 표).
    2. 관심 있는 조직을 분리하기 위해 유기체를 안락사시키고 해부한다.
    3. 추출 키트를 사용하여 총 RNA를 추출하고 RNA 정화 키트(재료 표)를 사용하여RNA를 정화합니다.
      참고 : 다른 종 및 조직 유형16,17에더 잘 작동 할 수있는 프로토콜과 키트가 있습니다. 우리는 나비18과 젤라틴 히드라19의 다른 신체 조직에서 RNA를 추출했습니다 (토론 참조).
    4. 각 시료의 RNA의 농도 및 품질을측정한다(재료표). RNA 무결성 번호(RIN)가 8보다 높은 샘플을 사용하여 이상적으로 는 920에 가깝고 cDNA 라이브러리를 구성합니다.
  2. 다음과 같이 cDNA 라이브러리 및 서열을 구성합니다.
    1. 라이브러리 준비 지침 설명서에 따라 cDNA 라이브러리를 빌드합니다(토론 참조).
    2. cDNA 농도 및품질(재료 표)을결정합니다.
    3. 라이브러리를 멀티플렉스하고 시퀀스합니다.

2. 컴퓨터 클러스터에 액세스

참고 : RNA- seq 분석은 대용량 파일의 조작이 필요하며 컴퓨터 클러스터(재료 표)에서수행하는 것이 가장 좋습니다.

  1. 터미널(Mac) 또는 PuTTY(Windows) 응용 프로그램 창에서 명령 ssh username@clusterlocation 사용하여 컴퓨터 클러스터 계정에 로그인합니다.

3. RNA-seq 읽기 받기

  1. RNA-seq는 시퀀싱 시설에서 또는, 발행물에서 생성된 데이터의 경우, 증착된 데이터 리포지토리로부터(3.2 또는 3.3)을 얻습니다.
  2. ArrayExpress와 같은 리포지토리에서 데이터를 다운로드하려면 다음을 수행합니다.
    1. 가입 번호를 사용하여 사이트를 검색합니다.
    2. 데이터를 다운로드할 링크를 찾은 다음 왼쪽 단추를 클릭하고 링크 복사를선택합니다.
    3. 터미널 창에서 wget을 입력하고 붙여넣기 링크를 선택하여 분석을 위해 데이터를 디렉토리에 복사합니다.
  3. NCBI 짧은 읽기 아카이브 (SRA) 데이터를 다운로드하려면 다음 대체 단계를 따르십시오.
    1. 터미널 다운로드 SRA 툴킷 대 2.8.1 wget을사용하여.
      참고: 컴퓨터 클러스터에 프로그램을 다운로드하고 설치하려면 루트 액세스가 필요할 수 있으며 설치가 실패할 경우 컴퓨터 클러스터 관리자에게 문의해야 합니다.
    2. 타르 -xvf $TARGZFILE입력하여 프로그램 설치를 완료합니다.
    3. 다운로드할 샘플에 대한 SRA 가입 번호에 대한 NCBI를 검색하면 SRRXXX형식이 있어야 합니다.
    4. 말단 창에 [스툴킷 위치]/빈/프리페치 SRRXXXXXX를 입력하여 RNA-seq 데이터를 가져옵니다.
    5. 페어링 형 파일 유형 [스툴킷 위치]/빈/fastq-dump --분할 파일 SRRXXXXXX는 두 개의 fastq 파일(SRRXXXXXX_1.FASTQ 및 SRRXXXXXX_2.FASTQ)을 가져옵니다.
      참고 : 트리니티 드 노보 어셈블리를 수행하려면 명령 [sratoolkit 위치]/빈 /fastq-덤프 --defline-seq '@$sn[_$rn]/$ri'를 사용하입니다 .

4. 어댑터 및 낮은 품질 읽기 를 트림 (선택 사항)

  1. 컴퓨팅 클러스터에 Trimmomatic21 대 0.35를 설치하거나 로드합니다.
  2. RNA-seq 데이터 파일이 있는 디렉토리에서 트리모틱 항아리 파일, 입력 FASTQ 파일, 출력 FASTQ 파일 및 읽기 길이 및 품질과 같은 선택적 매개 변수를 포함하는 명령을 입력합니다.
    참고: 명령은 읽기의 원시 및 원하는 품질과 길이에 따라 달라집니다. 일루미나 43 bp넥테라 프라이머와 함께 읽기의 경우 자바 -jar /데이터 /앱 / 트리모매틱 / 0.35 / 트리모매틱 - 0.35.jar PE $READ 1을 사용했습니다. FASTQ $READ 2. fastQ paired_READ1. FASTQ unpaired_READ1. FASTQ paired_READ2. FASTQ unpaired_READ2. FASTQ 일루미나클립:어댑터.fa:2:30:10 선두:20 [20] 슬라이딩윈도우:4:17 MINLEN:30.

5. 참조 어셈블리 획득

  1. 구글, 엔셈블게놈, NCBI 게놈 및 뉴클레오티드 TSA(스태레코메 산탄총 조립)를 검색하여 관심 종에 대한 참조 게놈 또는 조립된 전사체(그림1)를검색한다.
    참고: 기준 게놈 또는 전사가 제공되지 않거나 품질이 낮은 경우 6단계로 진행하여 드 노보 어셈블리를 생성합니다.
  2. 참조 게놈 또는 조립된 전사가 존재하는 경우 아래 단계에 따라 분석이 수행될 위치에 대한 fasta 파일로 다운로드하십시오.
    1. 게놈을 다운로드할 수 있는 링크를 찾아 왼쪽 클릭 및 복사 링크를 클릭합니다.
    2. 터미널 창 에서 wget 및 붙여 넣기 링크 주소. 사용 가능한 경우 참조 게놈에 대한 GTF 파일 및 단백질 FASTA 파일을 복사합니다.

6. 드 노보 어셈블리 생성(5단계 대안)

  1. 고양이 *READ1을 입력하여 모든 샘플에 대한 RNA-seq READ1 및 READ2 패스트크 파일을 결합합니다. FASTQ > $all_READ1. FASTQ와 고양이 *READ2. FASTQ > all_READ2. 터미널 창에 FASTQ.
  2. 트리니티22 v.2.8.5를 컴퓨팅 클러스터에 설치하거나 로드합니다.
  3. 생성 및 단말입력하여 조립: 트리니티 --seqType fq --max_memory 20G --왼쪽 $all_READ1. FASTQ -- 오른쪽 $all_READ2. FASTQ.

7. 지도는 게놈 (7.1) 또는 드 노보 전사 (7.2)를 읽습니다.

  1. 맵은 STAR23 대 2.6.0c 및 RSEM24 대 1.3.0을 사용하여 기준 게놈을 읽습니다.
    1. 설치 또는 로드 STAR 대 2.6.0c. 및 RSEM 대 1.3.0 컴퓨팅 클러스터에.
    2. rsem 준비 참조를 입력하여 게놈을 $GENOME. GTF --스타 -p 16 $GENOME. FASTA $OUTPUT.
    3. 맵은 rsem 계산식 -p 16 -star-짝-끝 $READ 1을 입력하여 각 샘플에 대한 식을 읽고 계산합니다. FASTQ $READ 2. fastQ $INDEX $OUTPUT.
    4. mv RSEM.genes.결과 $sample.genes.결과를 사용하여 결과 파일의 이름을 설명하는 것으로 변경합니다.
    5. rsem 생성 데이터 매트릭스 *[유전자/isoforms.results] > $OUTPUT입력하여 모든 카운트의 매트릭스를 생성합니다.
  2. RSEM과 나비넥타이를 사용하여 트리니티 드 노보 어셈블리에 RNA-seq를 매핑합니다.
    1. 설치 또는 로드 트리니티22 v.2.8.5, 보우타이25 대 1.0.0, RSEM 대 1.3.0.
    2. 맵은 [trinity_location]/align_and_estimate_abundance.pl -prep-reference --성적증명서를 $TRINITY 입력하여 각 샘플에 대한 표현을 읽고 계산합니다. FASTA --seqType fq --왼쪽 $READ 1. FASTQ --오른쪽 $READ 2. FASTQ --est_method RSEM --aln_method 나비 넥타이 --trinity_mode -output_dir $OUTPUT.
    3. mv RSEM.genes.결과 $sample.genes.결과를 사용하여 결과 파일의 이름을 설명하는 것으로 변경합니다.
    4. [trinity_location]/abundance_estimates_to_matrix.pl 입력하여 모든 카운트의 매트릭스를 생성합니다 --est_method RSEM *[유전자/isoforms].결과

8. 관심 유전자 식별

참고: 다음 단계는 뉴클레오티드 또는 단백질 FASTA 파일로 수행할 수 있지만 가장 잘 작동하며 단백질 서열로 더 간단합니다. 단백질을 단백질에 이용한 BLAST 검색은 다른 종 사이에서 검색할 때 결과를 줄 가능성이 높습니다.

  1. 기준 게놈의 경우, STEP 5.2.2로부터의 단백질 FASTA 파일을 사용하거나 보조 물질을 참조하여 맞춤형 유전자 특징 GTF를 생성한다.
  2. 노보 전사의 경우 TransDecoder를 사용하여 단백질 FASTA를 생성합니다.
    1. 설치 또는 컴퓨터 cluser에 TransDecoder 대 5.5.0로드.
    2. [Transdecoder 위치]/TransDecoder.LongOrfs -t $TRINITY 입력하여 가장 긴 열린 판독 프레임 및 예측 펩티드 시퀀스를 찾습니다. FASTA.
  3. 밀접하게 관련된 종의 동종에 대한 NCBI 젠뱅크를 검색합니다.
    1. 인터넷 브라우저 창을 열고 https://www.ncbi.nlm.nih.gov/genbank/.
    2. 검색 바에 관심있는 유전자의 이름과 서열 또는 속 또는 필럼이 된 밀접하게 관련된 종의 이름. 검색 표시줄 왼쪽에서 단백질을 선택한 다음 검색을 클릭합니다.
    3. 보내기를 클릭하여 시퀀스를 추출한 다음 파일을 선택합니다. 형식 에서 FASTA를 선택한 다음 파일 만들기를 클릭합니다.
    4. 로컬 터미널 창에서 scp $FASTA username@clusterlocation:/$DIR 입력하여 FASTA 파일의 호모로그를 컴퓨터 클러스터로 이동하거나 FileZilla를 사용하여 컴퓨터 및 클러스터로 파일을 전송합니다.
  4. BLAST+26을사용하여 후보 유전자를 검색합니다.
    1. 컴퓨터 클러스터에 BLAST+ 대 2.8.1을 설치하거나 로드합니다.
    2. 컴퓨터 클러스터에서 [BLAST+ 위치]/마크블라스트드드-$PEP 입력하여 게놈 또는 전사 변환 단백질 FASTA에서 BLAST 데이터베이스를 만듭니다. FASTA -dbtype 프로트 아웃 $OUTPUT
    3. [BLAST+ 위치]/블래스트 -db $DATABASE -query $FASTA-evalue 1e-10-outfmt 6-max_target_seqs -out-out $OUTPUT입력하여 NCBI에서 동종 유전자 서열을 폭발시키는 것이 관심 있는 종의 데이터베이스로.
    4. 명령을 사용하여 출력 파일을 더 볼 수 있습니다. 관심 있는 종의 고유한 유전자 아이디를 새 텍스트 파일로 복사합니다.
    5. perl-ne 'if(/^>(\S+)/)$c)를 입력하여 후보 유전자의 시퀀스를 추출하십시오.txt $PEP {$1}$c}$i{$1}$c?인쇄:chomp;$i{$_}=1@ARGV$gene_id.txt $PEP. FASTA > $OUTPUT.
  5. 상호 BLAST를 사용하여 유전자 성서를 확인합니다.
    1. 인터넷 브라우저에서 https://blast.ncbi.nlm.nih.gov/Blast.cgi 이동합니다.
    2. 트블라스트를선택한 다음 후보 서열을 붙여 넣고 중복되지 않는 단백질 서열 데이터베이스를 선택하고 BLAST를 클릭합니다.
  6. 게놈 또는 전사학의 모든 유전자에 대한 추가 유전자를 유전자 온톨로지(GO) 용어로 표시합니다(토론 참조).
    1. 단백질 FASTA를 로컬 컴퓨터로 전송합니다.
    2. 다운로드 및 로컬 컴퓨터에 Blast2GO27,28,29 대 5.2를 설치합니다.
    3. Blast2GO를 열고 파일을클릭하고 로드로이동하여 시퀀스를로드하고 Fasta 파일로드 (fasta)를 클릭합니다. FASTA 파일을 선택하고 로드를클릭합니다.
    4. 폭발을 클릭, NCBI 폭발을선택하고 다음을클릭합니다 . 매개 변수를 편집하거나 다음을클릭하고 매개 변수를 편집하고 실행을 클릭하여 가장 유사한 유전자 설명을 찾습니다.
    5. 매핑을 클릭한 다음 실행을 클릭하여 유사한 단백질에 대한 유전자 온톨로지 주석을 검색합니다.
    6. 다음 인터프로를클릭하고 EMBL-EBI InterPro를선택하고 다음을 클릭합니다. 매개 변수를 편집하거나 다음을클릭하고 Run을 클릭하여 알려진 유전자 패밀리 및 도메인의 서명을 검색합니다.
    7. 파일을클릭하여 주석을 내보내고 내보내기를선택하고 내보내기 테이블을 클릭합니다. 찾아보기를클릭, 파일 이름을 클릭, 저장을클릭, 내보내기를클릭합니다 .
    8. 추가 후보 유전자를 식별하기 위해 관심있는 GO 용어에 대한 부기 표를 검색합니다. FASTA 파일에서 시퀀스를 추출합니다(STEP 8.4.5)

9. 물리 유전학 나무

  1. 다운로드 및 로컬 컴퓨터에 MEGA30 대 7.0.26을 설치합니다.
  2. 메가 열기, 정렬을클릭, 편집 / 정렬을클릭, 새로운 정렬 클릭 확인을 선택, 단백질을선택합니다.
  3. 정렬 창이 열리면 편집을클릭하고 파일에서 서열을 삽입하고 후보 유전자 및 가능한 동형 로그의 단백질 서열로 FASTA를 선택합니다.
  4. 모든 시퀀스를 선택합니다. 팔 기호를 찾아 그 위에 마우스를 가져가십시오. 그것은 근육31 알고리즘을 사용하여 정렬 시퀀스를 말해야한다. 팔 기호를 클릭한 다음 단백질 정렬을 클릭하여 서열을 정렬합니다. 매개 변수를 편집하거나 확인을 클릭하여 기본 매개 변수를 사용합니다.
  5. 수동 변경 내용을 시각적으로 검사하고 변경한 다음 정렬 창을 저장하고 닫습니다.
  6. 메인 메가 윈도우에서 모델을클릭하고 최고의 DNA / 단백질 모델 찾기 (ML)를클릭하고 정렬 파일을 선택하고 다음과 같은 해당 매개 변수를 선택하십시오 : 분석 : 모델 선택 (ML), 사용 트리 : 자동 (이웃 결합 트리), 통계 적 방법 : 최대 가능성, 대체 유형 : 아미노산, 갭 / 누락 된 데이터 처리 : 모든 사이트를 사용, 분기 사이트 필터 : 없음.
  7. 데이터에 가장 적합한 모델이 결정되면 기본 MEGA 창으로 이동합니다. 필로겐을 클릭하고 Contruct/테스트 최대 가능성 트리를 클릭한 다음 필요한 경우 정렬을 선택합니다. 트리에 대한 적절한 매개 변수를 선택 : 통계 방법 : 최대 가능성, 필로겐시험 : 100 복제와 부트 스트랩 방법, 대체 유형 : 아미노산, 모델 : Freqs와 LG. (+F), 사이트 간 요금: 감마 분산(G) 5개의 개별 감마 카테고리, 갭/누락 된 데이터 처리: 모든 사이트 사용, ML 휴리스틱 방법: 가장 가까운-이웃-교환(NNI).

10. TPM을 사용하여 유전자 발현을 시각화

  1. 트리니티의 경우 컴퓨터 클러스터에서 abundance_estimates_to_matrix.pl 실행되고 출력 중 하나가 행렬이어야하는 디렉터리로 이동합니다. TPM.not_cross_norm. 이 파일을 로컬 컴퓨터로 전송합니다.
    참고: 교차 샘플 정규화를 위한 보충 재질을 참조하십시오.
  2. 게놈 분석에서 TPM의 경우 아래 단계를 따릅니다.
    1. 컴퓨터 클러스터에서 RSEM 설치 위치로 이동합니다. scp rsem 생성 데이터 매트릭스 rsem 생성-TPM-matrix를입력하여 rsem 생성 데이터 행렬을 복사합니다. 나노를 사용하여 새 파일을 편집하고 TPM에 대해 "내 $offsite = 4"를 4에서 5로 변경하려면 이제 "내 $offsite = 5"를 읽어야합니다.
  3. RSEM 출력 파일 .genes.결과가 있는 디렉터리로 이동하여 이제 rsem 생성-TPM-매트릭스 *[유전자/isoforms.results] > $OUTPUT 사용하여 TPM 매트릭스를 생성합니다. 결과를 로컬 컴퓨터로 전송합니다.
  4. 결과를 ggplot2로 시각화합니다.
    1. 로컬 컴퓨터에 R v. 4.0.0 및 RStudio 대 1.2.1335를 다운로드합니다.
    2. 화면 오른쪽에 있는 RStudio열기는 패키지 탭으로 이동하여 설치를클릭합니다. ggplot2를 입력하고 설치를클릭합니다.
    3. TPM 테이블에서 데이터를 입력하여 읽는 R 스크립트 창에서<-read.table("$tpm.txt",헤더 = T)
    4. 그림 4와 유사한 막대 그래프의 경우 p<-ggplot() + geom_bar(aes(y=TPM, x=기호, 채우기=조직), 데이터=데이터, stat="ID")
      채우기 <-c("#d7191c",#fdae61", "#ffffbf", "#abd9e9", "#2c7bb6")
      p<-p+scale_fill_manual(값=채우기)
      p + 테마(axis.text.x = element_text(각도 = 90))

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

위의 메서드는 그림 1에 요약되어 있으며 히드라 저속조직의 데이터 집합에 적용되었습니다. H. 저속한 은 또한 산호, 해파리, 바다 말미잘을 포함하는 phylum Cnidaria에 속하는 담수 무척추 동물입니다. H. 저속한 신진에 의해 무성을 재현할 수 있으며 양분 시 머리와 발을 재생할 수 있습니다. 이 연구에서는 히드라7에서opsin 유전자의 진화와 발현을 조사하는 것을 목표로 했습니다. 히드라는 눈이 부족하지만, 그들은 빛 의존 적 행동(32)을나타낸다. Opsin 유전자는 빛의 다른 파장을 검출하고 광반 유도 폭포를 시작하는 비전에서 중요한 단백질을 인코딩합니다. 기저 종에서이 유전자 가족의 분자 진화와 발현을 조사하는 것은 동물의 눈과 빛 감지의 진화에 대한 통찰력을 제공 할 수 있습니다.

우리는 히드라 2.033 기준 게놈및 공개적으로 이용 가능한 RNA-seq 데이터(GEO 가입 GSE127279) 도 1을사용하여 유도어셈블리를 생성하였다. 이 단계는 약 3 일이 걸렸습니다. 이 경우 de novo 전사를 생성하지는 않았지만 트리니티 어셈블리를 생성하는 데 최대 1주가 걸릴 수 있으며 각 라이브러리는 매퍼에 따라 읽기 매핑에 몇 시간이 걸릴 수 있습니다. 합병된 히드라 어셈블리(~50,000개의 성적증명서)는 Blast2GO를 사용하여 1주 정도 걸린 그림 1을사용하여 송부되었습니다. opsin 관련 유전자를 위한 서열은 fasta 파일로 추출되었습니다. 다른 종에서 opsin 유전자에 대한 서열은 또한 NCBI GenBank에서 추출되었다. 우리는 cnidarians Podocoryna 카네아에서opsins를 사용, 클라도네마 라디움, Tripedelia cystophora,그리고 Nematostella vectensis,우리는 또한 아웃 그룹 Mnemiopsis leidyi, 트리코프락스 아드레날린, 드로소필라 멜라노가스터와 호모 사피엔스를포함. Opsin 유전자는 MEGA7 도 2에서정렬되었다. 정렬을 보면서, 우리는 빛에 민감한 분자를 결합하는 데 필요한 보존 된 리신 아미노산을 누락 된 Hydra opsins을 식별 할 수 있었다. 육안으로 검사한 후 모델 선택 분석을 수행하여 최상의 모델을 결정했습니다. 100도 3의 부트스트랩 값을 가진 모델 LG + G + F를 사용하여 최대 가능성 트리를 생성했습니다. 149개의 opsin 유전자를 위해, 나무는 대략 3 일에서 완료되었습니다. 필로겐은 opsin 유전자가 cnidarians에 있는 혈통 특정 중복에 의해 그리고 잠재적으로 H. 저속한7에있는 탠덤 중복에 의해 진화하고 있다는 것을 건의합니다.

우리는 edgeR에서 차동 발현 분석을 수행하고 opsin 유전자의 절대적인 발현을 보았습니다. 우리는 하나 이상의 수술이 머리 (가설)에 강화 될 것이라고 가설하고 신체 기둥, 신진 영역, 발과 촉수 대 가설의 쌍 현명한 비교를 수행했다. 쌍 현명한 비교의 예로, 1,774 개의 성적 증명서는 가설과 신체 기둥 사이에 차별화적으로 표현되었습니다. 우리는 여러 비교에 걸쳐 강화된 유전자를 결정하고 Blast2GO 표 1에서기능적 농축을 했습니다. G 단백질 결합 수용체 활성의 그룹화는 opsin 유전자를 포함. 마지막으로, 우리는 다른 조직에서 opsin 유전자의 절대 발현을 보았다, 신진 하는 동안 및 재생 하는 동안 ggplot 그림을 사용 하 여 그들의 TPM 값을 플롯 하 여 4. 여기에 설명된 방법을 사용하여, 우리는 phylogeny에 있는 그밖 opsins와 단면하지 않은 2개의 opsin 유전자를 확인했습니다, 그 외보다는 거의 200 배 더 표현된 1개의 opsin를 찾아내고, 우리는 빛 검출을 위해 이용될 수 있는 광전도 유전자와 공동 발현된 몇몇 opsin 유전자를 찾아냈습니다.

Figure 1
그림 1: 워크플로 매틱. 컴퓨터 클러스터의 데이터를 분석하는 데 사용되는 프로그램은 파란색으로, 마젠타는 로컬 컴퓨터에서 사용했으며 주황색은 웹 기반 프로그램입니다. (1) 트림 RNA-seq 를 사용하여 트림 RNA-seq 대 0.35. 게놈이 가능하지만 유전자 모델이 없는 경우 STAR 대 2.6.0c 및 StringTie 대 1.3.4d를 사용하여 유도 어셈블리를 생성합니다. (추가 재료 는 선택 사항 참조) (2) 참조 게놈없이, 트리니티 v 2.8.5를 사용하여 드 노보 어셈블리를 만들기 위해 손질 된 읽기를 사용합니다. (3) 기준 게놈을 사용하여 유전자 발현을 정량화하기 위해, 맵은 STAR를 사용하여 판독하고 RSEM 대 1.3.1을 사용하여 정량화한다. RSEM을 사용하여 TPM을 추출하고 RStudio에서 시각화합니다. (4) Bowtie 및 RSEM을 사용하여 삼위일체 전사에 매핑된 읽기를 매핑하고 정량화할 수 있습니다. 트리니티 스크립트를 사용하여 TPM 행렬을 생성하여 RStudio에서 카운트를 시각화할 수 있습니다. (5) 웹 기반 NCBI BLAST 및 명령줄 BLAST+를 사용하여 동종 시퀀스를 검색하고 상호 BLAST를 사용하여 확인합니다. Blast2GO를 사용하여 유전자에 추가로 노를 테고. 메가를 사용하여 유전자를 정렬하고 최상의 핏 모델을 사용하여 물리 유전학 트리를 생성합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 2
그림 2: 정렬된 유전자의 예. 스냅샷은 근육을 사용하여 정렬된 히드라 옵신 유전자의 일부를 보여줍니다. 화살표는 망막 바인딩 보존 된 리신의 위치를 나타냅니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 3
그림 3: Cnidarian opsin 필로유전학 나무. 히드라 저속가스, 포도코리나 카네아, 클라도네마 라디움, 트리페델리아 시스토포라, 네마토스텔라 베텐시스, Mnemiopsis leidyi, 트리코프락스 아데헤렌, 드로소필라 멜라노이스터, 드로소필라 멜라노이스터및 호모스피엔스로부터의한 시퀀스를 사용하여 메가7에서 생성되는 최대 가능성 트리. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 4
그림 4: 히드라 저속가스에서Opsin 유전자의 발현 . (A) 신체 컬럼, 신진 영역, 발, 저혈압 및 촉수의 히드라 저속한 유전자의 백만 (TPM) 당 성적 증명서에서 발현. (B) 히드라 신진의 다른 단계 동안 opsin 유전자의 발현. (C) 재생의 다른 시간 포인트 동안 히드라 가설의 opsin 유전자의 발현. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

GO ID GO 이름 GO 카테고리 루즈벨트
GO:0004930 G 단백질 결합 수용체 활성 분자 기능 0.0000000000704
GO:0007186 G 단백질 결합 수용체 신호 경로 생물학적 과정 0.00000000103
GO:0016055 Wnt 시그널링 경로 생물학적 과정 0.0000358
GO:0051260 단백질 호모올리고머화 생물학적 과정 0.000376
GO:0004222 메탈로엔도펩티다아제 활성 분자 기능 0.000467
GO:0008076 전압 게이트 칼륨 채널 복합체 셀룰러 구성 요소 0.000642
GO:0005249 전압 게이트 칼륨 채널 활동 분자 기능 0.00213495
GO:0007275 다세포 유기체 발달 생물학적 과정 0.00565048
GO:0006813 칼륨 이온 수송 생물학적 과정 0.01228182
GO:0018108 펩디딜 티로신 인산화 생물학적 과정 0.02679662

표 1: 가설에서 조절된 유전자의 기능적 농축

보충 재료. 이 자료를 다운로드하려면 여기를 클릭하십시오.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

이 프로토콜의 목적은 RNA-seq 데이터를 사용하여 유전자 가족을 특성화하기 위한 단계의 개요를 제공하는 것이다. 이러한 방법은 다양한 종 및 데이터 집합4,34,35에대해 작동하는 것으로 입증되었습니다. 여기에 설립 된 파이프 라인은 단순화되었으며 생물 정보학의 초보자가 뒤따를 만큼 쉬워야합니다. 프로토콜의 중요성은 게시 가능한 분석을 완료하는 데 필요한 모든 단계와 필요한 프로그램을 간략하게 설명한다는 것입니다. 프로토콜의 중요한 단계는 제대로 전체 길이 성적 증명서를 조립하는 것입니다, 이것은 고품질 게놈 또는 전사에서 온다. 적절한 성적 증명서를 얻으려면 고품질 RNA 및 DNA 및 아래에 설명 된 좋은 주석이 필요합니다.

RNA-seq 라이브러리 준비를 위해, 우리는 히드라19의 작은 신체 부위와 나비18 (재료의 표)에대해 일하는 목록 키트를 포함한다. 우리는 낮은 입력 RNA를 위해 우리는 수정 된 프로토콜 접근 방식을 사용36. RNA 추출을 위한 방법은 효모세포(17),신경모세포종(37, 식물38)및 곤충 애벌레(16)를 포함하는 다중 샘플 유형에서 비교되었다. 독자는 관심 있는 종에 대해 작동하는 프로토콜을 획득하거나, 존재하는 경우, 또는 일반적으로 시판되는 키트를 사용하여 문제 해결을 시작하도록 권장합니다. 적절한 유전자 정량화를 위해 RNA 샘플을 DNase로 치료하는 것이 좋습니다. DNA의 존재는 적당한 유전자 정량화에 영향을 미칠 것입니다. 또한 성숙한 mRNA를 선택하기 위해 폴리A 테일 선택을 포함하는 cDNA 라이브러리 준비 키트를 사용하는 것이 좋습니다. rRNA 고갈은 더 읽기 깊이를 초래하지만, 엑슨 커버리지의 비율은 polyA + 선택(39)을사용하여 RNA의 엑슨 커버리지보다 훨씬 낮습니다. 마지막으로, 가능하면 페어링 엔드와 좌초40,41을사용하는 것이 가장 좋습니다. 위의 프로토콜에서 단일 끝 읽기를 사용할 때 읽기 매핑 명령을 수정해야 합니다.

위에서 언급한 바와 같이 관심있는 유전자를 식별하고 또한 최근 유전자 중복, 대체 접합 및 염분 분석에서 haplotype 을 구별할 수 있는 것이 중요합니다. 어떤 경우에, 참조 게놈을 갖는 것은 유전자와 엑소온이 서로 에 비해 어디에 위치결정하여 도움이 될 수 있습니다. 주목해야 할 한 가지는 전사가 공공 데이터베이스에서 얻어지고 고품질이 아닌 경우,트리니티(42)를 사용하여 RNA-seq 라이브러리를 관심 있는 조직에서 결합하는 것이 가장 좋을 수 있다는 점입니다. 마찬가지로, 기준 게놈이 양호한 유전자 모델이 없는 경우, RNA-seq 라이브러리는 StringTie43을 사용하여 새로운 GTF를 생성하는 데 사용될 수 있다(보충 재료 참조). 또한 유전자가 불완전하고 게놈에 접근할 수 있는 경우, 유전자는 모성로그 서열을 사용하여 수동으로 편집한 다음 tblastn을 사용하여 게놈에 정렬될 수 있습니다. BLAST 출력을 사용하여 실제 시퀀스를 결정하는 데 사용할 수 있으며, 이는 동종로그를 사용하여 수행된 보정과 다를 수 있습니다. 일치하지 않는 경우 원래와 같이 시퀀스를 둡니다. 출력을 검사할 때 누락된 엑슨이 실제로 유전자의 일부인지 확인하기 위해 게놈 좌표에 주의를 기울입니다.

사용한 소프트웨어 및 프로그램에 중점을 두고 있지만 이 프로토콜에 대한 수정은 다양한 데이터 집합에 더 잘 작동할 수 있는 많은 프로그램으로 인해 존재합니다. 예를 들어, 우리는 나비 넥타이와 RSEM을 사용하여 전사에 읽기를 매핑하기위한 명령을 표시하지만, 트리니티는 이제 kallisto44 및 연어45와같은 훨씬 빠른 정렬기를위한 옵션이 있습니다. 마찬가지로 Blast2GO(현재 OmicsBox)를 사용하여 주석을 설명하지만 무료 및 온라인에서 찾을 수 있는 다른 매퍼 도구가 있습니다. 우리가 시도한 몇몇은 다음과 같습니다 : GO FEAT46,eggNOG-mapper47,48,그리고 매우 빠른 정렬기 PANNZER249. 이러한 웹 기반 별표 도구를 사용 하려면 단순히 펩 티 드 FASTA를 업로드 하 고 제출. PANNZER 및 eggNOG 매퍼의 독립 형 버전도 컴퓨터 클러스터에 다운로드 할 수 있습니다. 또 다른 수정 사항은 로컬 컴퓨터에서 MEGA와 R을 사용하고 온라인 NCBI BLAST 도구를 사용하여 상호 BLAST를 수행하지만 이러한 모든 프로그램은 필요한 프로그램과 데이터베이스를 다운로드하여 컴퓨터 클러스터에서 사용할 수 있다는 것입니다. 마찬가지로, 정렬기 kallisto와 연어는 사용자가 충분한 RAM과 저장 공간을 가지고 있는 한 로컬 컴퓨터에서 사용할 수 있습니다. 그러나 FASTQ 및 FASTA 파일은 매우 큰 경향이 있으며 컴퓨터 클러스터를 사용하여 쉽고 빠른 속도를 사용하는 것이 좋습니다. 또한, 우리는 그들의 개발자에서 프로그램을 다운로드 하는 지침 및 링크를 제공 하는 동안 그들 중 많은 bioconda에서 설치될 수 있습니다: https://anaconda.org/bioconda.

생물 정보 분석을 수행할 때 직면한 일반적인 문제는 쉘 스크립트가 실패하는 것입니다. 이것은 여러 가지 이유로 인해 될 수 있습니다. 오류 파일을 만든 경우 문제 해결 전에 이러한 오류 파일을 확인해야 합니다. 오류의 몇 가지 일반적인 이유는 오타, 누락된 주요 매개 변수 및 소프트웨어 버전 간의 호환성 문제입니다. 이 프로토콜에서는 데이터에 대한 매개 변수가 포함되어 있지만 소프트웨어 매뉴얼은 개별 매개 변수에 대한 보다 자세한 지침을 제공할 수 있습니다. 일반적으로 최신 버전의 소프트웨어를 사용하고 해당 버전에 해당하는 설명서를 참조하는 것이 가장 좋습니다.

이 프로토콜의 향상에는 전사 차원의 차동 발현 분석 및 기능 적 보강 해석을 수행하는 것이 포함됩니다. 차동 발현 해석에 엣지R50은 바이오 컨덕터에서 사용할 수 있는 패키지를 사용하는 것이 좋습니다. 기능적 농축 분석을 위해 Blast2GO29 및 웹 기반 DAVID51,52를 사용했습니다. 또한 새로운 파일로 추출하고 웹 기반 iTOL53을사용하여 물리 를 편집하는 것이 좋습니다. 더욱이, 이 프로토콜은 유전자의 분자 진화 그리고 발현 패턴을 조사할 것이지만, 추가 실험은 유전자 또는 단백질 위치 및 기능을 검증하기 위하여 이용될 수 있습니다. mRNA 발현은 RT-qPCR 또는 시투 혼성화에서 확인할 수 있다. 단백질은 면역 히스토케를 사용하여 국소화될 수 있다. 종에 따라 녹아웃 실험을 사용하여 유전자 기능을 확인할 수 있습니다. 이 프로토콜은 위에서 도시한 바와 같이, 기저종7에서광수신과 전형적으로 연관된 유전자 패밀리를 탐구하는 등 다양한 목표에 사용될 수 있다. 이러한 방법의 또 다른 응용 프로그램은 다른 선택적 압력하에서 보존 된 경로의 변화를 식별하는 것입니다. 예를 들어, 이들 방법은 주전자 나비와 야행성나방(34)사이의 비전 과도 수용체 잠재적 채널의 발현의 변화를 발견하는 데 사용되었다.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

저자는 공개 할 것이 없습니다.

Acknowledgments

우리는 우리의 워크 플로우에 이러한 단계의 일부를 통합에 조언과 지침을 아드리아나 브리스코, 길 스미스, 라비 무라드와 Aline G. Rangel 감사합니다. 우리는 또한 원고에 대한 의견에 캐서린 윌리엄스, 엘리자베스 렙보아, 나타샤 Picciani에 감사드립니다. 이 작품은 A.M.M 의학 연구 펠로우십을 위한 조지 E. 휴이트 재단에 의해 부분적으로 지원되었습니다.

Materials

Name Company Catalog Number Comments
Bioanalyzer-DNA kit Agilent 5067-4626 wet lab materials
Bioanalyzer-RNA kit Agilent 5067-1513 wet lab materials
BLAST+ v. 2.8.1 On computer cluster*
https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Blast2GO (on your PC) On local computer
https://www.blast2go.com/b2g-register-basic
boost v. 1.57.0 On computer cluster
Bowtie v. 1.0.0 On computer cluster
https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/
Computing cluster (highly recommended) NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large.
Cufflinks v. 2.2.1 On computer cluster
edgeR v. 3.26.8 (in R) In Rstudio
https://bioconductor.org/packages/release/bioc/html/edgeR.html
gcc v. 6.4.0 On computer cluster
Java v. 11.0.2 On computer cluster
MEGA7 (on your PC) On local computer
https://www.megasoftware.net
MEGAX v. 0.1 On local computer
https://www.megasoftware.net
NucleoSpin RNA II kit Macherey-Nagel 740955.5 wet lab materials
perl 5.30.3 On computer cluster
python On computer cluster
Qubit 2.0 Fluorometer ThermoFisher Q32866 wet lab materials
R v.4.0.0 On computer cluster
https://cran.r-project.org/src/base/R-4/
RNAlater ThermoFisher AM7021 wet lab materials
RNeasy kit Qiagen 74104 wet lab materials
RSEM v. 1.3.0 Computer software
https://deweylab.github.io/RSEM/
RStudio v. 1.2.1335 On local computer
https://rstudio.com/products/rstudio/download/#download
Samtools v. 1.3 Computer software
SRA Toolkit v. 2.8.1 On computer cluster
https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit
STAR v. 2.6.0c On computer cluster
https://github.com/alexdobin/STAR
StringTie v. 1.3.4d On computer cluster
https://ccb.jhu.edu/software/stringtie/
Transdecoder v. 5.5.0 On computer cluster
https://github.com/TransDecoder/TransDecoder/releases
Trimmomatic v. 0.35 On computer cluster
http://www.usadellab.org/cms/?page=trimmomatic
Trinity v.2.8.5 On computer cluster
https://github.com/trinityrnaseq/trinityrnaseq/releases
TRIzol ThermoFisher 15596018 wet lab materials
TruSeq RNA Library Prep Kit v2 Illumina RS-122-2001 wet lab materials
TURBO DNA-free Kit ThermoFisher AM1907 wet lab materials
*Downloads and installation on the computer cluster may require root access. Contact your network administrator.

DOWNLOAD MATERIALS LIST

References

  1. Lespinet, O., Wolf, Y. I., Koonin, E. V., Aravind, L. The role of lineage-specific gene family expansion in the evolution of eukaryotes. Genome Research. 12 (7), 1048-1059 (2002).
  2. Gabaldón, T., Koonin, E. V. Functional and evolutionary implications of gene orthology. Nature Reviews Genetics. 14 (5), 360-366 (2013).
  3. Dolinski, K., Botstein, D. Orthology and Functional Conservation in Eukaryotes. Annual Review of Genetics. 41 (1), (2007).
  4. Macias-Muñoz, A., McCulloch, K. J., Briscoe, A. D. Copy number variation and expression analysis reveals a non-orthologous pinta gene family member involved in butterfly vision. Genome Biology and Evolution. 9 (12), 3398-3412 (2017).
  5. Cannon, S. B., Mitra, A., Baumgarten, A., Young, N. D., May, G. The roles of segmental and tandem gene duplication in the evolution of large gene families in Arabidopsis thaliana. BMC plant biology. 4, 10 (2004).
  6. Eastman, S. D., Chen, T. H. P., Falk, M. M., Mendelson, T. C., Iovine, M. K. Phylogenetic analysis of three complete gap junction gene families reveals lineage-specific duplications and highly supported gene classes. Genomics. 87 (2), 265-274 (2006).
  7. Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), 1-19 (2019).
  8. Hisatomi, O., Tokunaga, F. Molecular evolution of proteins involved in vertebrate phototransduction. Comparative Biochemistry and Physiology - B Biochemistry and Molecular Biology. 133 (4), 509-522 (2002).
  9. Arendt, D. Evolution of eyes and photoreceptor cell types. International Journal of Developmental Biology. 47, 563-571 (2003).
  10. Shichida, Y., Matsuyama, T. Evolution of opsins and phototransduction. Philosophical Transactions of the Royal Society B: Biological Sciences. 364 (1531), 2881-2895 (2009).
  11. Porter, M. L., et al. Shedding new light on opsin evolution. Proceedings of the Royal Society B: Biological Sciences. 279 (1726), 3-14 (2012).
  12. Plachetzki, D. C., Degnan, B. M., Oakley, T. H. The origins of novel protein interactions during animal opsin evolution. PLoS ONE. 2 (10), 1054 (2007).
  13. Ramirez, M. D., et al. The last common ancestor of most bilaterian animals possessed at least nine opsins. Genome Biology and Evolution. 8 (12), 3640-3652 (2016).
  14. Schnitzler, C. E., et al. Genomic organization, evolution, and expression of photoprotein and opsin genes in Mnemiopsis leidyi: a new view of ctenophore photocytes. BMC Biology. 10, 107 (2012).
  15. Pedersen, K. B., Williams, A., Watt, J., Ronis, M. J. Improved method for isolating high-quality RNA from mouse bone with RNAlater at room temperature. Bone Reports. 11, 100211 (2019).
  16. Ridgeway, J. A., Timm, A. E., Fallon, A. Comparison of RNA isolation methods from insect larvae. Journal of Insect Science. 14 (1), 4-8 (2014).
  17. Scholes, A. N., Lewis, J. A. Comparison of RNA isolation methods on RNA-Seq: Implications for differential expression and meta-Analyses. BMC Genomics. 21 (1), 1-9 (2020).
  18. Briscoe, A. D., et al. Female behaviour drives expression and evolution of gustatory receptors in butterflies. PLoS genetics. 9 (7), 1003620 (2013).
  19. Murad, R., Macias-Muñoz, A., Wong, A., Ma, X., Mortazavi, A. Integrative analysis of Hydra head regeneration reveals activation of distal enhancer-like elements. bioRxiv. , 544049 (2019).
  20. Gallego Romero, I., Pai, A. A., Tung, J., Gilad, Y. Impact of RNA degradation on measurements of gene expression. BMC Biology. 12, 42 (2014).
  21. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  22. Trinity. RNA-Seq De novo Assembly Using Trinity. , 1-7 (2014).
  23. Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29, 15-21 (2013).
  24. Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC bioinformatics. 12, 323 (2011).
  25. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome biology. 10, 25 (2009).
  26. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
  27. Conesa, A., Götz, S. Blast2GO: A comprehensive suite for functional analysis in plant genomics. International Journal of Plant Genomics. 619832, (2008).
  28. Conesa, A., et al. Blast2GO: A universal tool for annotation, visualization and analysis in functional genomics research. Bioinformatics. 21 (18), 3674-3676 (2005).
  29. Götz, S., et al. High-throughput functional annotation and data mining with the Blast2GO suite. Nucleic Acids Research. 36 (10), 3420-3435 (2008).
  30. Kumar, S., Stecher, G., Tamura, K. MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger datasets. Molecular biology and evolution. 33 (7), 1870-1874 (2016).
  31. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research. 32 (5), 1792-1797 (2004).
  32. Taddei-Ferretti, C., Musio, C., Santillo, S., Cotugno, A. The photobiology of Hydra's periodic activity. Hydrobiologia. 530, 129-134 (2004).
  33. Chapman, J. A., et al. The dynamic genome of Hydra. Nature. 464 (7288), 592-596 (2010).
  34. Macias-Muñoz, A., Rangel Olguin, A. G., Briscoe, A. D. Evolution of phototransduction genes in Lepidoptera. Genome Biology and Evolution. 11 (8), 2107-2124 (2019).
  35. Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), (2019).
  36. Picelli, S., et al. Full-length RNA-seq from single cells using Smart-seq2. Nature Protocols. 9 (1), 171-181 (2014).
  37. Tavares, L., Alves, P. M., Ferreira, R. B., Santos, C. N. Comparison of different methods for DNA-free RNA isolation from SK-N-MC neuroblastoma. BMC research notes. 4, 3 (2011).
  38. Johnson, M. T. J., et al. Evaluating Methods for Isolating Total RNA and Predicting the Success of Sequencing Phylogenetically Diverse Plant Transcriptomes. PLoS ONE. 7 (11), (2012).
  39. Zhao, S., Zhang, Y., Gamini, R., Zhang, B., Von Schack, D. Evaluation of two main RNA-seq approaches for gene quantification in clinical RNA sequencing: PolyA+ selection versus rRNA depletion. Scientific Reports. 8 (1), 1-12 (2018).
  40. Zhao, S., et al. Comparison of stranded and non-stranded RNA-seq transcriptome profiling and investigation of gene overlap. BMC Genomics. 16 (1), 1-14 (2015).
  41. Corley, S. M., MacKenzie, K. L., Beverdam, A., Roddam, L. F., Wilkins, M. R. Differentially expressed genes from RNA-Seq and functional enrichment results are affected by the choice of single-end versus paired-end reads and stranded versus non-stranded protocols. BMC Genomics. 18 (1), 1-13 (2017).
  42. Haas, B. J., et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. Nature Protocols. 8 (8), 1494-1512 (2013).
  43. Pertea, M., et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nature biotechnology. 33 (3), 290-295 (2015).
  44. Bray, N. L., Pimentel, H., Melsted, P., Pachter, L. Near-optimal probabilistic RNA-seq quantification. Nature Biotechnology. 34 (5), 525-527 (2016).
  45. Patro, R., Duggal, G., Love, M. I., Irizarry, R. A., Kingsford, C. Salmon provides fast and bias-aware quantification of transcript expression. Nature Methods. 14 (4), 417-419 (2017).
  46. Araujo, F. A., Barh, D., Silva, A., Guimarães, L., Thiago, R. OPEN GO FEAT a rapid web-based functional annotation tool for genomic and transcriptomic data. , 8-11 (2018).
  47. Huerta-Cepas, J., et al. Fast genome-wide functional annotation through orthology assignment by eggNOG-mapper. Molecular Biology and Evolution. 34 (8), 2115-2122 (2017).
  48. Huerta-Cepas, J., et al. EggNOG 5.0: A hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses. Nucleic Acids Research. 47, 309-314 (2019).
  49. Törönen, P., Medlar, A., Holm, L. PANNZER2: A rapid functional annotation web server. Nucleic Acids Research. 46, 84-88 (2018).
  50. Robinson, M., Mccarthy, D., Chen, Y., Smyth, G. K. edgeR differential expression analysis of digital gene expression data User's Guide. , (2013).
  51. Huang, D. W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols. 4 (1), 44-57 (2009).
  52. Huang, D. W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: Paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Research. 37 (1), 1-13 (2009).
  53. Letunic, I., Bork, P. Interactive tree of life (iTOL) v3: an online tool for the display and annotation of phylogenetic and other trees. Nucleic acids research. 44, 242-245 (2016).

Tags

생물학 문제 171 생물 정보학 유전자 확장 폭발 전사 게놈 메가
RNA-seq를 사용하여 분자 진화 및 유전자 발현을 조사하기 위한 생물정보학 파이프라인
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Macias-Muñoz, A., Mortazavi, A. More

Macias-Muñoz, A., Mortazavi, A. A Bioinformatics Pipeline for Investigating Molecular Evolution and Gene Expression using RNA-seq. J. Vis. Exp. (171), e61633, doi:10.3791/61633 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter