Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

식물의 MicroRNA 전사체를 정확하고 효율적으로 분석하는 생물정보학 파이프라인

Published: January 21, 2020 doi: 10.3791/59864
* These authors contributed equally

Summary

업데이트된 식물 miRNA 기준과 철저한 알고리즘을 갖춘 생물정보학 파이프라인, 즉 miRDeep-P2(짧은 경우 miRDP2)는 식물의 microRNA 전사체, 특히 복잡하고 큰 게놈이 있는 종의 경우 정확하고 효율적으로 분석할 수 있습니다.

Abstract

MicroRNAs (miRNAs)는 20- 24-뉴클레오티드 (nt) 내인성 작은 RNA (sRNA)는 전사 후 수준에서 유전자 발현조절에 강력한 역할을 하는 식물 및 동물에서 광범위하게 존재합니다. 차세대 염기서열 분석(NGS) 방법에 의한 sRNA 라이브러리 시퀀싱은 지난 10년간 miRNA 전사체를 식별하고 분석하는 데 널리 사용되어 왔으며, 그 결과 miRNA 발견이 급격히 증가했습니다. 그러나, 식물 miRNA 기고에서 2개의 중요한 도전은 식물 게놈의 크기 그리고 복잡성 뿐만 아니라 서열화된 sRNA 라이브러리의 증가 깊이 때문에 생겨났습니다. 첫째, sRNA의 많은 다른 모형, 특히, sRNA 라이브러리에서 짧은 간섭 RNA (siRNAs)는, 많은 계산 공구에 의해 miRNAs로 잘못 부고됩니다. 둘째, 크고 복잡한 게놈을 가진 식물 종에서 miRNA 전사체를 분석하는 데 매우 시간이 많이 걸리는 과정이 됩니다. 이러한 과제를 극복하기 위해 최근 새로운 필터링 전략을 채택하고 점수 매기기 알고리즘을 정비하고 새로 업데이트된 식물 miRNA를 통합하여 miRDeep-P2(miRNA 전사체 분석을 위한 인기 도구)를 miRDeep-P2(짧은 경우 miRDP2)로 업그레이드했습니다. 조건. 우리는 애기장대, 쌀, 토마토, 옥수수 및 밀을 포함하여 게놈 복잡성이 증가하는 5개의 대표적인 식물에 있는 연속된 sRNA 인구에 대하여 miRDP2를 시험했습니다. 결과는 miRDP2가 매우 높은 효율로 이러한 작업을 처리했음을 나타냅니다. 또한 miRDP2는 감도 및 정확도에 관한 다른 예측 도구를 능가했습니다. 종합하면, 우리의 결과는 식물 miRNA 전사체를 분석하기위한 빠르고 정확한 도구로 miRDP2를 보여 주므로 지역 사회가 식물에서 miRNAs에 더 잘 추가하는 데 도움이되는 유용한 도구입니다.

Introduction

생물학에 있는 마지막 2 십년간에 있는 가장 흥미로운 발견의 한개는 게놈1의다양한 기능을 통제에 있는 sRNA 종의 증식하는 역할입니다. 특히, miRNAs는 진핵생물에서 20-24-nt sRNAs의 중요한 클래스를 구성하고, 주로 생애 주기 발달 단계에 걸쳐 눈에 띄는 유전자 조절자로서 전사 후 수준에서 기능뿐만 아니라 자극 및 스트레스 반응2,3. 식물에서, miRNAs는 pri-miRNAs에게 불린 1 차적인 전사자에서, 일반적으로 개별 전사 단위로 RNA 중합효소 II에 의해 전사되는4,5. 진화적으로 보존된 세포 기계(동물의 Drosha RNase III, 식물의 DICER와 유사)에 의해 처리되는 pri-miRNAs는 즉각적인 miRNA 전구체, 프리 miRNA로 절제되며, 이는 분자 내 줄기 루프 구조를 형성하는 서열을 포함하는6,7. pre-miRNA는 기능적 가닥, 성숙한 miRNA 및 덜 빈번한 기능 파트너인 miRNA*2,8로구성된 이중 가닥 중간체, 즉 miRNA 이중으로 처리됩니다. RNA 유도 침묵 복합체 (RISC)로 로드 한 후, 성숙한 miRNAs는 서열 상보성에 기초하여 그들의 mRNA 표적을 인식할 수 있었다, 부정적인 조절 기능의 결과2,8. miRNA는 대상 성적 표를 불안정하게 하거나 표적 번역을 방지할 수 있지만 이전 방식은 식물8,9에서지배됩니다.

선충 제10, 11에서 첫 번째 miRNA가 발견된 이후,11,많은 연구가 miRNA 식별 및 기능분석에 전념하고 있으며, 특히 NGS 방법의 가용성 이후에. NGS 방법의 광범위한 응용 프로그램은 전구체의 줄기 루프 구조와 성숙한 miRNA 및 miRNA *에 대한 서열 읽기의 우선 적 축적과 같은 miRNA의 고유 한 기능을 캡처하도록 설계된 계산 도구의 활용을 크게 촉진했습니다. 그 결과, 연구자들은 다양한 종에서 miRNAs를 식별하는 데 놀라운 성공을 거두었습니다. 앞서 설명한 확률 모델12를기반으로, 우리는 NGS 데이터에서 식물 miRNA를 발견하기위한 최초의 계산 도구인 miRDeep-P13을개발했습니다. miRDeep-P는 특히 더 많은 가변 전구체 길이및 큰 paralogous 패밀리13,14,15를특징으로 하는 식물 miRNAs를 디코딩하는 도전을 정복하기 위한 것이었습니다. 그것의 방출 후에, 이 프로그램은 수천 번 다운로드되고 40 개 이상의 식물 종16에서miRNA 전사체에 추가하는 데 사용되었습니다. miRDeep-P와 같은 NGS 기반 도구에 의해 추진, 공공 miRNA 저장소 miRBase17에등록 된 miRNA의 수가 극적으로 증가하고있다, 여기서 이상 38,000 miRNA 항목은 현재 호스팅 (릴리스 22.1) 단지에 비해 ~500 miRNA 항목 (릴리스 2.0) 200818.

그러나 식물 miRNA 항에서 두 가지 새로운 문제가 발생했습니다. 첫째, 거짓 양성의 높은 비율은 식물 miRNA 주석의 품질에 크게 영향을 미쳤다16,19 다음과 같은 이유로: 1) NGS sRNA 라이브러리에서 내인성 짧은 간섭 RNA (siRNAs)의 홍수는 엄격한 miRNA 주석 기준의 부족으로 인해 miRNAs로 잘못 주석하였다; 2) 선행 miRNA 정보가 없는 종의 경우, NGS 데이터를 기반으로 예측된 거짓 긍정은 제거하기 어렵다. 예를 들어 miRBase를 사용하여, 테일러 등20 공공 저장소에서 식물 miRNA 항목의 1/3을 발견21 (릴리스 21) 설득력 있는 증거 부족 하 고 식물 miRNA 가족의 심지어 3/4 는 의심 했다. 둘째, 크고 복잡한 게놈16을가진 식물 miRNAs를 예측하기 위한 매우 시간이 많이 소요되는 과정이 된다. 이러한 문제를 극복하기 위해 새로운 필터링 전략을 추가하고, 점수 매기기 알고리즘을 정비하고, 식물 miRNA 어노미에 대한 새로운 기준을 통합하여 miRDeep-P를 업데이트하고, 새 버전 miRDP2를 출시했습니다. 또한, 우리는 NGOs sRNA 데이터 세트를 사용하여 애기장대, 쌀, 토마토, 옥수수 및 밀과 같은 게놈 크기를 점진적으로 증가시키는 miRDP2를 테스트했습니다. 다른 5개의 널리 사용되는 공구 및 그것의 이전 버전에 비해, miRDP2는 향상된 정확도 및 감도로 이 sRNA 데이터를 구문 분석하고 miRNA 전사체를 더 빨리 분석했습니다.

miRDP2 패키지의 내용
miRDP2 패키지는 준비된 bash 스크립트에서 순차적으로 실행해야 하는 6개의 문서화된 Perl 스크립트로 구성됩니다. 6개의 스크립트 중3개(convert_bowtie_to_blast.pl, filter_alignments.pl, excise_candidate.pl)는miRDeep-P에서 상속됩니다. 다른 스크립트는 원래 버전에서 수정됩니다. 여섯 스크립트의 함수는 다음에 설명되어 있습니다.

preprocess_reads.pl 필터 입력 읽기(너무 길거나 너무 짧은 읽기(<19 nt 또는 >25 nt)를 포함하여, Rfam ncRNA 서열과 상관관계가 있는 읽기뿐만 아니라 RPM(백만 개당 읽기) 미만의 읽기를 읽습니다. 그런 다음 스크립트는 알려진 miRNA 성숙 시퀀스와 상관 관계가 있는 읽기를 검색합니다. 입력 파일은 FASTA / FASTQ 형식으로 원래 읽기 및 miRNA 및 ncRNA 서열에 매핑 읽기의 bowtie2 출력입니다.

RPM 계산 공식은 다음과 같이 표시됩니다.

Equation 1

convert_bowtie_to_blast.pl은 나비 넥타이 형식을 BLAST 구문 분석 형식으로 변경합니다. BLAST 구문 분석 형식은 표준 NCBI BLASToutput 형식에서 파생된 사용자 지정 테이블 형식 분리 형식입니다.

filter_alignments.pl은 게놈에 읽는 깊은 시퀀싱의 정렬을 필터링합니다. 부분 정렬뿐만 아니라 다중 정렬 읽기(사용자가 지정한 주파수 차단)를 필터링합니다. 기본 입력은 BLAST 구문 분석 형식의 파일입니다.

excise_candidate.pl은 지침으로 정렬된 읽기를 사용하여 참조 시퀀스에서 잠재적인 전구체 시퀀스를 잘라내있습니다. 기본 입력은 BLAST 구문 분석 형식의 파일과 FASTA 파일입니다. 출력은 FASTA 형식의 모든 잠재적전위서서열이다.

mod-miRDP.pl 두 개의 입력 파일, 서명 파일 및 구조 파일, 공장 특정 매개 변수로 채점 시스템을 변경 하 여 코어 miRDeep-P 알고리즘에서 수정 됩니다. 입력 파일은 도트 브래킷 전구체 구조 파일이며 배포 서명 파일을 읽습니다.

mod-rm_redundant_meet_plant.pl에는 mod-miRDP.pl 의해 생성된 chromosome_length, 전구체 및 original_prediction 세 가지 입력 파일이 필요합니다. 새로 업데이트된 plant miRNA 기준에 의해 필터링된 두 개의 출력 파일, 중복되지 않은 예측 파일 및 예측 된 파일을 생성합니다. 출력 파일의 형식에 대한 자세한 내용은 섹션 1.4에 설명되어 있습니다.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. 설치 및 테스트

  1. 필요한 종속성을 다운로드 : Bowtie222 및 RNAfold23. 컴파일된 패키지를 권장합니다.
    1. 홈 사이트(http://bowtie-bio.sourceforge.net/bowtie2/index.shtml)에서읽기 매핑 도구인 Bowtie2를 다운로드합니다.
    2. RNA 보조 구조를 예측하는 데 사용되는 비엔나 패키지 도구인 RNAfold를 다운로드하여 http://www.tbi.univie.ac.at/~ivo/RNA/.
    3. miRDP2를 설치하기 전에 이러한 두 종속성이 올바르게 설치되었는지 확인하고 bash 환경 파일(예: .bashrc)을 사용자 지정하여 이러한 두 종속성에 대한 올바른 PATH를 설정합니다.
      참고: Bowtie24와 같은 다른 매핑 도구도 miRDP2에 적합합니다. 보이 또는 보우타이2 버전 1.1.3 이후에 사용할 수 있습니다.
  2. miRDP2 패키지를 다운로드하려면 https://sourceforge.net/projects/mirdp2/files/latest_version/ 가서 타르볼 파일을 가져옵니다.
  3. miRDP2를 설치하기 전에 Perl이 PATH에 있는지 확인합니다. miRDP2를 설치하려면 다운로드한 타볼 파일의 모든 내용을 하나의 폴더(1.4.2와 같이 명령줄)로 추출한 다음 폴더 경로를 PATH로 설정합니다.
    참고: miRDP2를 실행하려면 8GB RAM과 100GB 스토리지가 있는 컴퓨터 또는 컴퓨팅 노드를 실행하는 것이 좋습니다.
  4. MiRDP2 파이프라인을 테스트합니다.
    1. miRDP2가 올바르게 설치되었는지 테스트하려면 테스트 데이터와 https://sourceforge.net/projects/mirdp2/files/TestData/있는 예상 출력을 사용합니다. 테스트 데이터에는 포맷된 GSM 시퀀싱 파일 1개와 애기장대 게놈 파일 1개가 포함되어 있습니다.
    2. 다운로드한 모든 파일을 현재 작업 디렉토리로 이동합니다.
      mv miRDP2-v*.tar.gz TestData.tar.gz ncRNA_rfam.tar.gz & lt&user_selected_folder>
      cd&user_selected_folder>
    3. 압축된 타볼 파일 추출:
      타르 -xvzf miRDP2-v*.tar.gz
      타르 -xvzf 테스트데이터.tar.gz
      타르 -xvzf ncRNA_rfam.tar.gz
    4. 애기검집 게놈 참조 지수 구축:
      bowtie2-빌드 -f ./TestData/TAIR10_genome.fa ./testData/TAIR10_genome
    5. ncRNA 참조 인덱스를 작성합니다.
      bowtie2-build -f ./ncRNA_rfam.fa ./1.1.3/스크립트/인덱스/rfam_index
    6. miRDP2 파이프라인 실행:
      bash ./1.1.3/miRDP2-v1.1.3_pipeline.bash -g ./TestData/TAIR10_genome.fa -i ./ TestData/TAIR 10_genome -f./TestData/GSM2094927.fa -o .
      참고: 사용되는 Linux 명령은 굵게 및 기울임꼴 글꼴로 되어 있으며 기울임꼴의 명령줄 옵션이 있습니다. *miRDP2 의 버전을 나타냅니다(현재 버전은 1.1.3). bowtie2 빌드 명령은 약 10분이 소요되며 miRDP2 파이프라인은 몇 분 이내에 완료되어야 합니다.
  5. 테스트 출력을 확인합니다.
    1. 'GSM2094927-15-0-10'이라는 폴더는 모든 중간 파일과 결과를 포함하는 에서자동으로 생성됩니다.
    2. 탭 분리 된 출력 파일 GSM2094927-15-10_filter_P_prediction, 예측 miRNAs의 최종 출력은 염색체 ID, 가닥 방향, 대표 읽기 ID, 전구체 ID, 성숙한 miRNA 위치, 전구체를 나타내는 열이 포함되어 있는지 확인하십시오. 위치, 성숙한 시퀀스 및 전구체 시퀀스를 제공합니다. 추가 분석을 용이하게 하기 위해 이 파일에서 파생된 추가 베드 파일을 기록합니다.
    3. 완료된 단계에 대한 정보를 제공하는 파일 "progress_log"과 프로그램 출력 및 경고가 포함된 "script_log" 및 "script_err"파일을 확인합니다.
      참고 : 현재, 우리는 두 개의 리눅스 플랫폼에서 miRDP2를 테스트했습니다, 센트OS 릴리스를 포함 6.5 클러스터 서버, 그리고 Cygwin 2.6.0 PC 윈도우 시스템에, miRDP2 펄을 지원하는 유사한 시스템에서 작동해야합니다.

2. 소설 miRNAs 식별

  1. 파이프라인을 실행하기 전에 입력 읽기가 적절한 형식으로 사전 처리되었는지 확인합니다.
    참고 : miRDP2의 새 버전 1.1.3은 이전 버전에서와 같이 읽기 를 서식화하는 과정이 수행되지만 원래 FASTQ 형식 파일을 입력으로 받아 들일 수 있습니다.
    1. 먼저 깊은 시퀀싱 읽기의 5' 및 3' 끝에서 어댑터를 제거합니다(있는 경우).
    2. 둘째, FASTA 형식으로 깊은 시퀀싱 읽기를 구문 분석합니다.
    3. 셋째, 동일한 시퀀스로 읽는 중복성을 제거하면 단일 고유FASTA 항목으로 표시됩니다.
    4. 마지막으로 모든 FASTA 식별자가 고유해야 합니다. 각 시퀀스 식별자는 심층 시퀀싱 데이터 집합에서 검색된 정확한 시퀀스의 복사 수를 나타내는 '_x'과 정수로 끝나야 합니다. 고유한 FASTA 식별자를 보장하는 한 가지 방법은 ID에 실행 번호를 포함하는 것입니다. 참조를 위해 테스트데이터(https://sourceforge.net/projects/mirdp2/files/TestData/)에서GSM2094927.fa 파일을 참조하십시오.
    5. 올바르게 서식이 지정된 읽기의 예는 다음과 같습니다.

      >read0_x29909
      TTTGGATTGAAGGGAGCTCtA
      >read1_x36974
      TTCCACAGCTTGAACTG
      >read2_x32635
      TTCCACAGCTTGAACTT
  2. 참조 인덱스를 작성합니다.
    1. 게놈 참조를 위해, 시간을 절약하기 위해, 관심 종의 게놈 서열이 인덱싱된 경우 iGenomes 웹사이트(https://support.illumina.com/sequencing/sequencing_software/igenome.html)에서Bowtie2 인덱스 파일을 다운로드한다. 그렇지 않으면 유전체 서열을 다시 인덱싱해야 할 수 있기 때문에 사용자가 참조 시퀀스를 색인하고 프로젝트가 완료될 때까지 인덱스 파일을 잠시 동안 유지합니다. 게놈 참조를 인덱싱하는 방법에 대한 자세한내용은 bowtie2 설명서(http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml)에 포함되어 있습니다.
    2. 또 다른 비miRNA ncRNA 인덱스는 또한 다른 비코딩 RNA 단편으로부터 시끄러운 서열을 걸것을 걸것을 필요로 한다. 파일은 rRNA, tRNA, snRNA 및 snoRNA를 포함하는 Rfam에서 주요 ncRNA 서열의 집합입니다. 이 인덱스를 작성하려면 인덱스를 올바르게 배치하고 명명해야 하므로 1.4부(예: miRDP2_version>스크립트/인덱스/rfam_index 참조하십시오.
  3. miRDP2를 실행합니다.
    1. miRDP2를 사용하여 심층 시퀀싱 데이터에서 새 miRNA를 검색하려면 패키지에서 bash 스크립트를 실행하여 분석 파이프라인을 시작합니다(예제는 1.4단계에서 찾을 수 있음).
      / miRDP2-v*._pipeline.bash-g&genome_file&genome_file&i&path_to_index/index_prefix> -f&seq_file > -o&output_folder>
      여기서 * 파이프라인 bash 스크립트의 버전을 나타냅니다. 수정할 수 있는 세 가지 매개 변수가 있습니다: 1) 읽기가 매핑될 수 있는 다른 위치의 수, 2) bowtie2 를 실행하는 불일치 번호 및 3) RPM 임계값(백만 개당 읽기). 각각 –L, -M 및 -R 옵션을 사용하여 수정합니다. 자세한 설명은 섹션 3.1에 있습니다.
  4. miRDP2 출력을 확인합니다.
    1. 출력 폴더는 에서 자동으로 생성되며 '15-0-10'이라는 이름이 붙습니다. 마지막 3개의 숫자는 각각 매개변수 1, 2 및 3의 값(이 경우 기본값)을 나타냅니다. 파일 _filter_P_prediction 새로 업데이트된 식물 miRNA 어노미 기준을 충족하는 최종 예측 miRNAs의 정보가 포함되어 있습니다. 출력 파일의 형식에 대한 자세한 내용은 1.4부에 설명되어 있습니다.

3. miRDP2를 사용한 수정 및 주의 사항

  1. 수정할 수 있는 매개 변수
    1. '-L' 옵션을 사용하여 읽기를 매핑할 수 있는 위치 수(매개 변수 1)의 제한을 설정합니다. 너무 많은 사이트에 대한 읽기 매핑은 반복 시퀀스와 연관될 수 있으며 miRNA가 아닐 수 있습니다. 기본 설정은 15입니다. 특정 종의 경우, 많은 멤버를 가진 miRNA 패밀리가 있는 경우, 제1 파라미터는 게놈 경관에 적응하기 위해 수동으로 증가할 수 있다.
    2. '-M' 옵션을 사용하여 bowtie에 대해 허용되는 불일치를 설정합니다(매개 변수 2). 기본 설정은 0입니다.
    3. '-R' 옵션을 사용하여 성숙한 miRNAs(매개 변수 3)에 잠재적으로 해당하는 읽기에 대한 임계값을 설정합니다. 시간 소비와 거짓 긍정을 줄이기 위해 RPM으로 필터를 읽습니다. 특정 RPM 임계값을 초과하는 읽기만 배경 노이즈가 아닌 miRNA의 성숙한 시퀀스를 나타낼 수 있으며 추가 분석을 위해 유지됩니다. 기본 설정은 10RPM입니다.
    4. 이러한 매개 변수를 변경하면 성능 및 시간 소비에 영향을 줄 수 있습니다. 일반적으로 매개 변수 1과 2가 증가하고 매개 변수 3이 감소하면 덜 엄격한 결과가 발생하고 실행 시간이 길어지고 그 반대의 경우도 마찬가지입니다.
  2. 이중화 및 miRNA*
    1. miRDP2의 출력 miRNA는 알려진 miRNA와 다를 수 있습니다. 우리는 이것이 성숙한 miRNAs의 이질성 또는 miRNA와 miRNA*의 상대적 풍부성이라는 두 가지 이유 중 하나에 주로 기인한다는 것을 발견했습니다. 우리는 이것이 전구체의 최적 길이 선택 및 알려진 miRNA 유전자의 프로파일링에 영향을 미치지 않는다는 것을 것을을 발견했습니다.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

본 원에 기재된 miRNA 부호, miRDP2는 애기장대, 오리자 사티(쌀), 솔라눔 리코퍼시쿰(tomato), 제아메이즈(maize)트리티쿰 에스티움(밀)을 포함하여 점차 적으로 증가하는 게놈 길이를 가진 5종의식물종으로부터 10개의 공공 sRNA-seq 라이브러리에 적용된다. 전반적으로, 각 종에 대해, 상이한 조직으로부터의 2개의 대표적인 sRNA 라이브러리(고유 판독으로 붕괴, 프로토콜 섹션의 세부 사항)와 그들의 색인된 게놈 서열은 2개의 입력으로 처리된다(표1). 5개의 miRNA 전산 예측 도구(miRDeep-P13,miRPlant25,miR-PREFeR26,miRA27,miReNA28)를비교하여 선택하였다.

실행 시간 테스트
miRDP2 및 기타 5개 도구의 런타임과 성능을 비교하기 위해 Cent OS 릴리스 6.5 시스템을 갖춘 클러스터 서버에 5가지 도구(miRDP2, miRDeep-P, miR-PREFeR, miRA 및 miReNA)를 설치했습니다. 이러한 프로그램은 동일한 입력 파일, 하드웨어 및 리소스(보충 파일 1의세부 정보)로 실행되었습니다. 특히 miRPlant는 Java로 작성된 GUI에서 제어되며 서버에서 실행할 수 없습니다. 대신, 우리는 윈도우와 PC에서 miRPlant를 테스트 10 우리는 또한이 PC에 miRDP2 및 miRDeep-P를 테스트 하는 동안 (보충 파일 1의세부 사항).

애기장대, 오리자 사티, 솔라눔 리코퍼시움과같은 작은 게놈 종의 경우 모든 프로그램이 제대로 실행되었습니다. 그러나, 제아 메이스와 트리티쿰 aestivum (miRA를 위한 솔라눔 lycopersium 포함)와 같은 큰 게놈 종에 대한, 프로그램의 몇몇은 모든 컴퓨팅 자원을 고갈하고 반쯤 고장났습니다. 예를 들어 miReNA, miRA 및 miR-PREFeR은 대용량 sam 파일 또는 중간 파일을 처리하는 동안 메모리 부족으로 인해 결과를 생성하지 못했습니다. 특히 miRPlant 임시 파일은 너무 많은 공간을 소비했으며, 그 결과 큰 게놈 종을 다룰 때 PC에서 실행되지 못했습니다. miRDP2는 분에서 시간까지 매우 짧은 시간에 이러한 예측프로세스를완료했습니다(그림 1B). 따라서 이전 버전 및 기타 도구와 비교하여 miRDP2의 실행 시간이 현저하게 단축되었습니다.

감도 및 정확도 테스트
애기장대에서 miRNAs는 집중적으로 연구되기 때문에 miRdP2를 평가하기 위해 miRBase21 (릴리스 22.1)에서 애기장대에서 알려진 miRNAs를 사용하여 다른 도구와 비교했습니다. 이전에 보고된19,26과같이 감도 및 정확도를 계산하기 위해 다음 수식이 사용됩니다.

Equation 2

Equation 3

알려진 miRNA는 miRBase에 추가된 miRNA입니다. miRNA는 성숙한 서열이 5 RPM 이상을 가지고 있는 경우 발현된 것으로 지정되고, ≥75%는 성숙하고 스타 miRNA 서열에 매핑된 전구체에서 읽는다. 애기장대로부터의 2개의 서열된 sRNA라이브러리(표 1)를시험하기 위해 사용되었다. miRDP2(그림 1C,D)는다른 도구에 비해 감도와 정확도 모두에서 더 나은 수행.

이러한 결과를 종합하면 miRDP2가 식물에서 miRNA 전사체를 분석하기 위한 빠르고 정확한 도구임을 입증합니다.

Figure 1
그림 1: miRDP2의 성능. (A)애기장대 (Gb) 애기장대 (Gb), 오리자 사티 (오사), 솔라눔 리코퍼시쿰 (Sly), 제아 메이스 (Zma), 트리티쿰 아에스티움 (태). (B-D) miRDP2 및 기타 5가지 도구의 런타임, 감도 및 정확도 비교. 각 도구에 해당하는 두 개의 점은 각 도구에서 두 개의 테스트를 했음을 나타냅니다. 이 수치는 쿠앙 외16에서적응되었습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

종 (abb.) 게놈 버전 sRNA 라이브러리
도서관 ID 파일 크기 총 읽기 고유 읽기 조직
애기장대 (Ath) 버전 10 GSM2094927 24.9 메가 바이트 40.5M 9.7M 성인용 잎
GSM2412287 29.5 메가 바이트 45.1M 11.1M
오리자 사티 (오사) 버전 7 GSM2883136 44.2 메가 바이트 54.9M 16.3M 묘 종
GSM3030848 34.7 메가 바이트 49.1M 13.0M 플래그리프
솔라눔 리코퍼시쿰 (Sly) 버전 3 GSM1213985 205.4 메가 바이트 161.5M 58.0M
GSM1976413 118.5 메가 바이트 139.3M 46.2M 루트
제아 메이스 (즈마) 버전 4 GSM1277437 158.4 메가 바이트 266.1M 60.5M 묘 종
GSM1428531 144.1 메가 172.5M 56.3M 씨앗
트리티쿰 에스티움 (태) iwgsc 1 GSM1294660 76.1 메가 59.2M 29.6M 촬영
GSM1294661 113.6 메가 바이트 84.0M 44.0M

표 1: miRDP2 및 기타 도구를 테스트하는 데 사용되는 게놈 및 sRNA 라이브러리. 이 표는 Kuang 외16에서채택되었습니다.

보충 파일 1: miRDP2 및 기타 5개 도구의 런타임, 감도 및 정확도 비교. 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 파일 2: 루프에서 분기 구조가 있는 정통 miRNAs의 예입니다. 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 파일 3: 식물 miRNA 어너표 및 23-nt 및 24-nt miRNAs에 대한 기준업데이트. 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 파일 4: miRDP2 워크플로의 다이어그램입니다. 이 파일을 다운로드하려면 여기를 클릭하십시오.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

NGS의 출현과 함께, 다양한 종29,30에서sRNA 염기서열 분석 데이터의 양이 계속 증가함에 따라 많은 수의 miRNA 층이 확인되었다. 중앙 집중식 커뮤니티 데이터베이스 miRBase21에서,퇴적된 miRNA 항목은 지난 10년간 거의 100배 증가했습니다. 그러나, 동물의 miRNAs에 비해, 식물 miRNA는 식별 / 어노미를 더 복잡하게 많은 독특한 기능을 가지고13,14.

첫째, 식물 miRNAs의 전구체는 길이와 구조(보충 파일 2)16에서더 가변적이다. 동물 miRNA 전구체의 비교적 균일한 길이가 70-90 nt, 식물 전구체의 길이는 여러 주름에 의해 변화하며 수백 nts13,31에도달할 수 있다. 이러한 차이는 전구체 길이의 차단이 일반적으로 300 nt19를 초과하지 않는 것과 같이 임의로 설정되더라도 miRNA 전구체의 이차 구조를 예측할 때 많은 불확실성을 야기합니다(이 파라미터는 miRDP2에 내장되어 있으며 miRDP2의 숙련된 사용자는 스스로 이를 조정할 수 있음). 또한, 보존된 식물 miRNA 패밀리는 더 많은 회원을 가지는 경향이 있으며, 이들 구성원의 길이 변화는 또한 종종 유의한13이다. 이것이 miRDP2가 멤버 크기에서 잠재적으로 가장 큰 miRNA 패밀리를 나타내는 매개 변수 -L을 가지는 이유입니다. 함께, 식물 miRNA 전구체의 이질성은 정확한 어노미에 대한 많은 어려움을 제기한다.

둘째, siRNAs에 의해 도입된 노이즈 또는 가양성은 제거하기 어렵다. miRNAs와 함께, NGS 방법은 또한 서열화된 sRNA 라이브러리에서 siRNAs의 홍수를 생성합니다. siRNAs는 그들의 생물 발생 및 기능32,33에의해 miRNAs에서 분리될 수 있더라도, 시퀀싱 데이터 및 마이닝 공구에 근거를 두기 위하여 그(것)들을 구별하는 것은 극단적으로 어렵습니다. 많은 연구자들이 주장하는 miRBase와 같은 공공 데이터베이스는 miRNAs20,31로잘못 추가된 많은 수의 거짓 긍정 siRNAs에 의해 급격히 악화되었습니다. 따라서, 새로 업데이트된 기준25(보충 파일 3)와같은 식물 miRNA 어노미에 대한 새롭고 엄격한 기준 세트를 가진 정제된 도구는 miRNA 어노미 파이프라인/공정에서 매우 요구된다.

마지막으로, sRNA 라이브러리를 구문 분석하는 전산 시간은 동일한 방법이 작은 크기의 게놈 종에서 큰 크기로 이식될 때 기하급수적으로 증가했습니다. miRDeep-P13 및 miR-PREFeR26과같은 전산 도구는 miRNA 전구체를 따라 sRNA 읽기의 시그니처 분포를 캡처하고 정량화하여 두 가지 인기있는 방법이 되었으며 miRNA에 널리 사용됩니다. 매핑 전략, 전구체 후보 및 후속 보조 구조 예측을 절제하는 과정은 상당한 컴퓨팅 시간을 요구한다16. 이러한 도구가 애기장대와 같은 작은 크기의 게놈에서 옥수수와 같은 큰 게놈으로 데이터를 구문 분석하는 데 사용되는 경우 데이터 처리 시간이 몇 시간에서 며칠까지 증가합니다(그림 1B)프로세스의 빈번한 붕괴를 초래합니다. 따라서 전한 한계에 대한 혁신이 절실히 필요합니다.

miRDeep-P13에서업데이트 된 새로운 miRDP216 프로그램은 위에서 언급 한 문제를 극복하도록 설계되었습니다(보충 파일 4). 이 프로그램에서는 새로운 필터링 전략을 채택하고 점수 매기기 알고리즘을 최적화하고 새로 업데이트된 식물 miRNA 어노미 기준을 통합했습니다. 이러한 새로운 기능의 결과로, 게놈 크기가 증가하는 5종의 식물 종에서 10개의 sRNA 라이브러리를 사용하여 테스트할 때 실행 시간이 현저히 단축되었습니다. 또한 miRDP2는 다른 도구에 비해 감도와 정확도 모두에서 우수한 성능을보였습니다(그림 1). 이러한 결과를 종합하면 miRDP2가 식물에서 miRNA 전사체를 분석하기 위한 빠르고 정확한 도구임을 입증합니다.

miRNA 특성에 대한 현재의 이해는 모든 계산 도구의 성능을 제한할 수 있음을 유의해야 합니다. 새로 업데이트된 miRNA 어음 기준조차도 잘 연구된 제한된 예들을 기반으로 합니다. 따라서 추론된 정보는 단지 경험적일 뿐이다. 사실, miRNA의 독특한 특징은 다른 식물 종 또는 혈통 에 존재하는 것으로 나타났다3. 또한, miRNA/miRNA* 이중의 상류 및 다운스트림 영역의 구조와 같은 특성은 또한 현재 의 기고 도구에서 고려되지 않는 miRNA 생물 발생34,35에서중요한 역할을 한다. 더 많은 식물 종에서 잘 연구 된 예제가 축적됨에 따라 더 미묘한 차이를 포착하고 현재 방법보다 더 높은 정확도로 miRNA를 분류 할 수있는 고급 타인 도구가 미래에 개발 될 가능성이 높습니다. 유망한 새로운 miRNA 어구 방향은 교육 데이터 집합 및 추가 기준의 품질이 지속적으로 진화함에 따라 기계 학습 접근 법36을 통합하는 것입니다.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

저자는 공개 할 것이 없다.

Acknowledgments

이 작품은 베이징 농업 임업 과학 아카데미 (KJCX201917, KJCX20180425, KJCX20180204)와 중국의 국립 자연 과학 재단 (31621001)에서 LL에 지원되었습니다.

Materials

Name Company Catalog Number Comments
Computer/computing node N/A N/A Perl is required; at least 8 GB RAM and 100 GB storage are recommended

DOWNLOAD MATERIALS LIST

References

  1. Ghildiyal, M., Zamore, P. D. Small silencing RNAs: an expanding universe. Nature Reviews Genetics. 10 (2), 94-108 (2009).
  2. Bartel, D. P. MicroRNAs: target recognition and regulatory functions. Cell. 136 (2), 215-233 (2009).
  3. Moran, Y., Agron, M., Praher, D., Technau, U. The evolutionary origin of plant and animal microRNAs. Nature Ecology Evolution. 1 (3), 27 (2017).
  4. Xie, Z., et al. Expression of Arabidopsis MIRNA genes. Plant Physiology. 138 (4), 2145-2154 (2005).
  5. Zhao, X., Zhang, H., Li, L. Identification and analysis of the proximal promoters of microRNA genes in Arabidopsis. Genomics. 101 (3), 187-194 (2013).
  6. Bologna, N. G., Mateos, J. L., Bresso, E. G., Palatnik, J. F. A loop-to-base processing mechanism underlies the biogenesis of plant microRNAs miR319 and miR159. EMBO JOURNAL. 28 (23), 3646-3656 (2009).
  7. Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
  8. Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
  9. Iwakawa, H. O., Tomari, Y. The Functions of MicroRNAs: mRNA Decay and Translational Repression. Trends in Cell Biology. 25 (11), 651-665 (2015).
  10. Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
  11. Wightman, B., Ha, I., Ruvkun, G. Posttranscriptional regulation of the heterochronic gene lin-14 by lin-4 mediates temporal pattern formation in C. elegans. Cell. 75 (5), 855-862 (1993).
  12. Friedlander, M. R., et al. Discovering microRNAs from deep sequencing data using miRDeep. Nature Biotechnology. 26 (4), 407-415 (2008).
  13. Yang, X., Li, L. miRDeep-P: a computational tool for analyzing the microRNA transcriptome in plants. Bioinformatics. 27 (18), 2614-2615 (2011).
  14. Meyers, B. C., et al. Criteria for annotation of plant MicroRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
  15. Yang, X., Zhang, H., Li, L. Global analysis of gene-level microRNA expression in Arabidopsis using deep sequencing data. Genomics. 98 (1), 40-46 (2011).
  16. Kuang, Z., Wang, Y., Li, L., Yang, X. miRDeep-P2: accurate and fast analysis of the microRNA transcriptome in plants. Bioinformatics. , (2018).
  17. Kozomara, A., Birgaoanu, M., Griffiths-Jones, S. miRBase: from microRNA sequences to function. Nucleic Acids Research. 47 (1), 155-162 (2019).
  18. Griffiths-Jones, S., Saini, H. K., van Dongen, S., Enright, A. J. miRBase: tools for microRNA genomics. Nucleic Acids Research. 36, Database issue 154-158 (2008).
  19. Axtell, M. J., Meyers, B. C. Revisiting Criteria for Plant MicroRNA Annotation in the Era of Big Data. Plant Cell. 30 (2), 272-284 (2018).
  20. Taylor, R. S., Tarver, J. E., Hiscock, S. J., Donoghue, P. C. Evolutionary history of plant microRNAs. Trends in Plant Science. 19 (3), 175-182 (2014).
  21. Kozomara, A., Griffiths-Jones, S. miRBase: annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, Database issue 68-73 (2014).
  22. Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9 (4), 357-359 (2012).
  23. Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6, 26 (2011).
  24. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (3), 25 (2009).
  25. An, J., Lai, J., Sajjanhar, A., Lehman, M. L., Nelson, C. C. miRPlant: an integrated tool for identification of plant miRNA from RNA sequencing data. BMC Bioinformatics. 15, 275 (2014).
  26. Lei, J., Sun, Y. miR-PREFeR: an accurate, fast and easy-to-use plant miRNA prediction tool using small RNA-Seq data. Bioinformatics. 30 (19), 2837-2839 (2014).
  27. Evers, M., Huttner, M., Dueck, A., Meister, G., Engelmann, J. C. miRA: adaptable novel miRNA identification in plants using small RNA sequencing data. BMC Bioinformatics. 16, 370 (2015).
  28. Mathelier, A., Carbone, A. MIReNA: finding microRNAs with high accuracy and no learning at genome scale and from deep sequencing data. Bioinformatics. 26 (18), 2226-2234 (2010).
  29. Zhu, Q. H., et al. A diverse set of microRNAs and microRNA-like small RNAs in developing rice grains. Genome Research. 18 (9), 1456-1465 (2008).
  30. Fahlgren, N., et al. MicroRNA gene evolution in Arabidopsis lyrata and Arabidopsis thaliana. Plant Cell. 22 (4), 1074-1089 (2010).
  31. Fromm, B., et al. A Uniform System for the Annotation of Vertebrate microRNA Genes and the Evolution of the Human microRNAome. Annual Review of Genetics. 49, 213-242 (2015).
  32. Blevins, T., et al. Identification of Pol IV and RDR2-dependent precursors of 24 nt siRNAs guiding de novo DNA methylation in Arabidopsis. Elife. 4, 09591 (2015).
  33. Zhai, J., et al. A One Precursor One siRNA Model for Pol IV-Dependent siRNA Biogenesis. Cell. 163 (2), 445-455 (2015).
  34. Werner, S., Wollmann, H., Schneeberger, K., Weigel, D. Structure determinants for accurate processing of miR172a in Arabidopsis thaliana. Current Biology. 20 (1), 42-48 (2010).
  35. Mateos, J. L., Bologna, N. G., Chorostecki, U., Palatnik, J. F. Identification of microRNA processing determinants by random mutagenesis of Arabidopsis MIR172a precursor. Current Biology. 20 (1), 49-54 (2010).
  36. Vitsios, D. M., et al. Mirnovo: genome-free prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Research. 45 (21), 177 (2017).

Tags

유전학 문제 155 마이크로RNA (miRNA) 식물 sRNA-seq miRDeep-P2 (miRDP2) 차세대 시퀀싱 식물 miRNA 기준 miRDeep-P (miRDP)
식물의 MicroRNA 전사체를 정확하고 효율적으로 분석하는 생물정보학 파이프라인
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wang, Y., Kuang, Z., Li, L., Yang,More

Wang, Y., Kuang, Z., Li, L., Yang, X. A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants. J. Vis. Exp. (155), e59864, doi:10.3791/59864 (2020).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter