Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

植物におけるマイクロRNA転写物を正確かつ効率的に分析するバイオインフォマティクスパイプライン

Published: January 21, 2020 doi: 10.3791/59864
* These authors contributed equally

Summary

バイオインフォマティクスパイプライン、すなわちmiRDeep-P2(略してmiRDP2)は、植物miRNA基準とオーバーホールされたアルゴリズムを備えており、特に複雑で大きなゲノムを持つ種に対して、植物のマイクロRNA転写物を正確かつ効率的に分析することができました。

Abstract

マイクロRNA(miRNA)は、転写後のレベルで遺伝子発現を調節する上で強力な役割を果たす植物や動物に広く存在する20〜24ヌクレオチド(nt)内因性小さなRNA(sRNA)である。次世代シーケンシング(NGS)法によるsRNAライブラリのシーケンシングは、過去10年間にmiRNA転写物を同定および分析するために広く採用されており、miRNA発見の急速な増加をもたらしました。しかし、配列化されたsRNAライブラリーの深さの増加と植物ゲノムのサイズと複雑さにより、植物miRNAアノテーションには2つの大きな課題が生じます。第一に、他の多くのタイプのsRNA、特に、sRNAライブラリからの短い干渉RNA(siRNA)は、多くの計算ツールによってmiRNAとして誤ってアノトされています。第二に、大規模で複雑なゲノムを持つ植物種におけるmiRNA転写物を解析するための非常に時間のかかるプロセスになります。これらの課題を克服するために、最近、新しいフィルタリング戦略を採用し、スコアリングアルゴリズムを見直し、新たに更新された植物miRNAを組み込むことにより、miRDeep-P(miRNAトランスクリプトーム解析のための一般的なツール)をmiRDeep-P2(略してmiRDP2)にアップグレードしました。注釈の条件。アラビドプシス、米、トマト、トウモロコシ、小麦を含むゲノム複雑度の増加を伴う5つの代表的な植物における配列SRNA集団に対してmiRDP2を試験した。この結果は、miRDP2 がこれらのタスクを非常に高い効率で処理したことを示しています。さらに、miRDP2は感度と精度に関する他の予測ツールを上回っています。まとめると、植物miRNAトランスクリプトムを分析するための迅速かつ正確なツールとしてmiRDP2を実証し、植物のmiRNAに対する注釈を改善するコミュニティを支援する上で有用なツールです。

Introduction

生物学における過去20年間で最もエキサイティングな発見の一つは、ゲノム1の多様な機能を調節するsRNA種の増殖的役割である。特に、miRNAは真核生物において20~24-nt sRNAの重要なクラスを構成し、主にライフサイクル開発段階を通じて著名な遺伝子調節因子として転写後のレベルで機能するとともに、刺激およびストレス応答2、3において機能する。植物において、miRNAは、一般に個々の転写単位4、5としてRNAポリメラーゼIIによって転写されるpri-miRNAと呼ばれる一次転写物から生じる。進化的に保存された細胞機械(動物のドロシャ・RNase III、植物におけるDICER様)によって処理され、pri-miRNAは、分子内幹ループ構造形成する配列を含む即時miRNA前駆体、プレmiRNAに切除される。その後、プレミRNAは、機能鎖、成熟miRNA、およびあまり頻繁に機能しないパートナー、miRNA*2、8からなる二本鎖中間体、すなわちmiRNA二重鎖に処理される。RNA誘導サイレンシング複合体(RISC)にロードされた後、成熟したmiRNAは、配列相補性に基づいてmRNA標的を認識することができ、その結果、負の調節機能2、8をもたらす。miRNAは、ターゲットトランスクリプトを不安定にするか、ターゲット翻訳を防ぐことができますが、前者の方法は植物8、9で支配されています。

線虫カエノルハブディティス・エレガンス10、11における最初のmiRNAの発見以来、特にNGS法の入手後に、miRNA同定とその機能解析に多くの研究が行われてきた。NGS法の広範な応用は、前駆体の幹ループ構造や成熟miRNAおよびmiRNA*における配列読み取りの優先的蓄積など、miRNAのユニークな特徴を捕捉するように設計された計算ツールの利用を大幅に促進しました。その結果、研究者は多様な種のmiRNAを同定する上で顕著な成功を収めています。先に説明した確率モデル12に基づいて、NGSデータから植物miRNAを発見するための最初の計算ツールであるmiRDeep-P13を開発しました。miRDeep-Pは、より可変的な前駆体長と大きなパラロゴスファミリー13、14、15を特徴とするプラントmiRNAのデコードの課題を克服することを特目的としました。そのリリース後、このプログラムは何千回もダウンロードされ、40以上の植物種16でmiRNA転写物に注釈を付けるために使用されています。miRDeep-PのようなNGSベースのツールによって推進され、パブリックmiRNAリポジトリmiRBase17に登録されたmiRNAの数が劇的に増加しており、2008年18年には約500 miRNA項目(リリース2.0)に比べて38,000以上のmiRNAアイテムがホストされています(リリース22.1)。

しかし、植物miRNAアノテーションから2つの新しい課題が生じている。第一に、偽陽性の高い比率は、次の理由で植物miRNAアノテーション16、19の品質に大きな影響を与えました:1)NGS sRNAライブラリからの内因性短絡干渉RNA(siRNA)の希薄さは、厳格なmiRNAアノテーション基準がないためにmiRNAとして誤って注釈付けされました。2)事前miRNA情報を持たない種については、NGSデータに基づいて予測される偽陽性を排除することは困難である。例としてmiRBaseを使用して、テイラーら20は、パブリックリポジトリ21(リリース21)の植物miRNAエントリの3分の1が説得力のある証拠を欠いて、植物miRNAファミリーの4分の3さえ疑わしいことを発見しました。第二に、大規模で複雑なゲノム16を有する植物miRNAを予測するための非常に時間のかかるプロセスとなる。これらの課題を克服するために、新しいフィルタリング戦略を追加し、スコアリングアルゴリズムを見直し、プラントmiRNAアノテーションの新しい基準を統合することでmiRDeep-Pを更新し、新しいバージョンのmiRDP2をリリースしました。さらに、徐々にゲノムサイズが増加するNGS sRNAデータセット(アラビドプシス、米、トマト、トウモロコシ、小麦)を用いてmiRDP2をテストしました。他の5つの広く使用されているツールとその古いバージョンと比較して、miRDP2はこれらのsRNAデータを解析し、精度と感度を向上させ、miRNA転写物をより速く分析しました。

miRDP2 パッケージの内容
miRDP2 パッケージは、準備された bash スクリプトによって順番に実行する必要がある 6 つの文書化された Perl スクリプトで構成されます。6 つのスクリプトのうち、3 つのスクリプト (convert_bowtie_to_blast.plfilter_alignments.pl、およびexcise_candidate.pl) は miRDeep-P から継承されます。その他のスクリプトは、元のバージョンから変更されます。6 つのスクリプトの機能については、以下で説明します。

preprocess_reads.plは、入力読み取りを含め、長すぎる読み取りまたは短すぎる読み取り (<19 nt または >25 nt)、Rfam ncRNA シーケンスと相関する読み取り、および RPM (100 万分の読み取り) による読み取りが 5 未満である。次に、スクリプトは既知の miRNA 成熟配列に関連付けられた読み取りを取得します。入力ファイルは、FASTA/FASTQ 形式のオリジナル読み取りであり、miRNA および ncRNA シーケンスへの読み取りマッピングの bowtie2 出力です。

RPM を計算する式は次のとおりです。

Equation 1

convert_bowtie_to_blast.plは、ボウタイ形式を BLAST 解析形式に変更します。BLAST 解析形式は、標準の NCBI BLASToutput 形式から派生したカスタム表形式で区切られた形式です。

filter_alignments.plは、ディープ シーケンシング読み取りのアライメントをゲノムにフィルター処理します。部分的な位置合わせとマルチアライメント読み取り (ユーザー指定の周波数カットオフ) をフィルター処理します。基本入力は、BLAST 解析形式のファイルです。

excise_candidate.plは、配置された読み取りをガイドラインとして使用して、参照シーケンスから潜在的な前駆体シーケンスを切り取ります。基本入力は、BLAST 解析形式のファイルと FASTA ファイルです。出力は、FASTA 形式のすべての潜在的な前駆体シーケンスです。

mod-miRDP.plには、植物固有のパラメータを使用してスコアリングシステムを変更することにより、コアmiRDeep-Pアルゴリズムから変更される2つの入力ファイル、シグネチャファイルと構造ファイルが必要です。入力ファイルはドットブラケット前駆体構造ファイルであり、配布署名ファイルを読み取ります。

mod-rm_redundant_meet_plant.plには、chromosome_length、前駆体、mod-miRDP.plによって生成されたoriginal_predictionの 3 つの入力ファイルが必要です。これは、2つの出力ファイル、非冗長予測ファイル、および新たに更新されたプラントmiRNA基準によってフィルタリングされた予測ファイルを生成します。出力ファイルの形式の詳細については、セクション 1.4 で説明します。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. インストールとテスト

  1. 必要な依存関係をダウンロード: Bowtie222と RNAfold23.コンパイル済みパッケージをお勧めします。
    1. 読み取りマッピングツールである Bowtie2 をホーム サイト (http://bowtie-bio.sourceforge.net/bowtie2/index.shtml) からダウンロードします。
    2. RNA二次構造を予測するために使用されるウィーンパッケージのツールであるRNAfoldをhttp://www.tbi.univie.ac.at/~ivo/RNA/からダウンロードします。
    3. miRDP2 をインストールする前に、これら 2 つの依存関係が正しくインストールされていることを確認し、bash 環境ファイル (.bashrc など) をカスタマイズして、これら 2 つの依存関係に対して正しい PATH を設定します。
      注: Bowtie24などの他のマッピング ツールも miRDP2 に適しています。Bowtie または Bowtie2 は、バージョン 1.1.3 以降で使用できます。
  2. miRDP2 パッケージをダウンロードするには、https://sourceforge.net/projects/mirdp2/files/latest_version/に移動し、tarball ファイルをフェッチします。
  3. miRDP2をインストールする前に、Perlがパス内にあることを確認してください。miRDP2 をインストールするには、ダウンロードした tarball ファイルのすべての内容を 1 つのフォルダ (1.4.2 のコマンド ライン) に抽出し、フォルダ パスを PATH に設定します。
    注: miRDP2 を実行するには、8 GB 以上の RAM と 100 GB のストレージを備えたコンピュータまたはコンピューティング ノードをお勧めします。
  4. MiRDP2 パイプラインをテストします。
    1. miRDP2 が正しくインストールされているかどうかをテストするには、テスト データと https://sourceforge.net/projects/mirdp2/files/TestData/で見つかった期待される出力を使用します。テストデータは、1つのフォーマットされたGSMシーケンシングファイルと1つのアラビドプシスタリアナゲノムファイルが含まれています。
    2. ダウンロードしたすべてのファイルを現在の作業ディレクトリに移動します。
      mv miRDP2-v*.tar.gz テストデータ.tar.gz ncRNA_rfam.tar.gz
      cd
    3. 圧縮された tarball ファイルを抽出します。
      tar –xvzf miRDP2-v*.tar.gz
      tar –xvzf テストデータ.tar.gz
      tar –xvzf ncRNA_rfam.tar.gz
    4. アラビドプシスゲノム参照指数を構築します。
      bowtie2-ビルド-f ./テストデータ/TAIR10_genome.fa./テストデータ/TAIR10_genome
    5. ncRNA参照インデックスを構築します。
      bowtie2-build -f ./ncRNA_rfam.fa ./1.1.3/スクリプト/インデックス/rfam_index
    6. miRDP2 パイプラインを実行します。
      bash ./1.1.3/miRDP2-v1.1.3_pipeline.bash –g ./テストデータ/TAIR10_genome.fa -i ./ テストデータ/TAIR 10_genome –f ./TestData/GSM2094927.fa – o .
      注: 使用される Linux コマンドは太字フォントと斜体フォントで、コマンドラインオプションは斜体です。*は miRDP2 のバージョンを示します (現在のバージョンは 1.1.3 です)。bowtie2-build コマンドには約 10 分かかり、miRDP2 パイプラインは数分以内に終了する必要があります。
  5. テスト出力を確認します。
    1. 'GSM2094927-15-0-10' という名前のフォルダは、すべての中間ファイルと結果を含むに自動的に生成されることに注意してください。
    2. タブ区切り出力ファイル GSM2094927-15-0-10_filter_P_prediction、予測 miRNA の最終出力には、染色体 ID、ストランド方向、代表読み取り ID、前駆体 ID、成熟 miRNA 位置、前駆体を示す列が含まれていることを確認します。位置、成熟したシーケンス、および前駆体シーケンス。詳細な分析を容易にするために、このファイルから派生した追加のベッド ファイルに注意してください。
    3. 完成した手順に関する情報を提供するファイル "progress_log" と、プログラムの出力と警告を含むファイル "script_log" と "script_err" を確認します。
      注: 現在、クラスタ サーバー上の CentOS リリース 6.5、PC Windows システム上の Cygwin 2.6.0 など、2 つの Linux プラットフォームで miRDP2 をテストしており、perl をサポートする同様のシステムでも miRDP2 が動作するはずです。

2. 新しい miRNA の識別

  1. パイプラインを実行する前に、入力読み取りが正しい形式に前処理されていることを確認してください。
    注: miRDP2 の新しいバージョン 1.1.3 では、元の FASTQ フォーマット・ファイルを入力として受け入れることができますが、読み取りのフォーマット処理は以前のバージョンと同様に行われます。
    1. まず、深いシーケンス読み取りの 5' および 3' の端からアダプターを取り外します (存在する場合)。
    2. 次に、ディープ シーケンス読み取りを FASTA 形式に解析します。
    3. 第 3 に、同一のシーケンスで読み取りが単一の一意の FASTA エントリで表されるように冗長性を削除します。
    4. 最後に、すべての FASTA 識別子が一意であることを確認します。各シーケンス識別子は、深いシーケンス データセットで取得された正確なシーケンスのコピー番号を示す '_x' と整数で終わる必要があります。一意の FASTA 識別子を確保する 1 つの方法は、ID に実行中の番号を含めます。参照については、テスト データ(https://sourceforge.net/projects/mirdp2/files/TestData/ のファイル GSM2094927.fa を参照してください。
    5. 正しい形式の読み取りの例については、以下を参照してください。

      >read0_x29909
      TTGGATTGAAGGGAGCTA
      >read1_x36974
      TTCCACAGCTTCTCTCTCTG
      >read2_x32635
      TTCCACAGCTTCTCTCTCTCTCTTACTT
  2. 参照インデックスを作成します。
    1. ゲノム参照のために、時間を節約するために、目的の種のゲノム配列がインデックス化されている場合は、iGenomesウェブサイト(https://support.illumina.com/sequencing/sequencing_software/igenome.html)からBowtie2インデックスファイルをダウンロードします。それ以外の場合、ユーザーは参照シーケンスにインデックスを付け、ゲノムシーケンスの再インデックス化が必要になる可能性があるため、プロジェクトが終了するまでしばらくの間インデックスファイルを保持します。ゲノム参照のインデックス作成方法の詳細については、bowtie2 マニュアル (http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml) に記載されています。
    2. 別の非miRNA ncRNA指標は、他の非コードRNA断片から騒々しい配列を排除するためにも必要である。このファイルは、rRNA、tRNA、snRNA、およびsnoRNAを含むRfamからの主要なncRNA配列のコレクションである。このインデックスを作成するには、インデックスを正しく配置して名前を付ける必要があります(/スクリプト/インデックス/rfam_index)、パート1.4を参照してください。
  3. miRDP2 を実行します。
    1. miRDP2 を使用してディープ シーケンス データから新しい miRNA を検出するには、パッケージで bash スクリプトを実行して分析パイプラインを開始します (手順 1.4 の例を参照してください)。
      /miRDP2-v*.*_pipeline.bash –g -i -f -lt;output_folder>
      * はパイプライン bash スクリプトのバージョンを示します。変更可能なパラメータには、1) 読み取りがマップできる異なる場所の数、2) bowtie2 を実行するための不一致の数、3) RPM のしきい値 (100 万あたり読み取り) の 3 つのパラメーターがあります。それぞれ-L、-M、および –R オプションを使用してこれらを変更します。詳細な説明はセクション3.1にあります。
  4. miRDP2 出力を確認します。
    1. 出力フォルダは の下に自動的に生成され、'-15-0-10' という名前になります。最後の 3 つの数値は、それぞれパラメーター 1、2、および 3 の値 (この場合はデフォルト) を示します。ファイル _filter_P_prediction には、新しく更新されたプラント miRNA アノテーション基準を満たす最終的な予測 miRNA の情報が含まれています。出力ファイルの形式の詳細については、パート 1.4 で説明します。

3. miRDP2 を使用した変更と注意

  1. 変更可能なパラメータ
    1. '-L' オプションを使用して、読み取りをマップできる場所の数の制限を設定します (パラメーター 1)。読み取りマッピングは、繰り返しシーケンスに関連付けられている可能性があり、miRNA に関連付けられている可能性があります。既定の設定は 15 です。特定の種の場合、多数のメンバーを有するmiRNAファミリーがある場合、ゲノムの風景に適応するために最初のパラメータを手動で増加させてもよい。
    2. '-M' オプションを使用して、ボウタイに許可される不一致を設定します (パラメーター 2)。既定の設定は 0 です。
    3. '-R' オプションを使用して、成熟 miRNA に対応する可能性のある読み取りのしきい値を設定します (パラメーター 3)。時間の消費と誤検知を減らすには、RPM で読み取りをフィルター処理します。特定の RPM しきい値を超える読み取りのみが、バックグラウンド ノイズではなく miRNA の成熟したシーケンスを表し、さらに分析するために保持されます。既定の設定は 10 RPM です。
    4. これらのパラメーターを変更すると、パフォーマンスと時間の消費に影響を与える可能性があることに注意してください。一般に、パラメーター 1 と 2 の増加とパラメーター 3 の減少は、より厳しい結果を生成し、実行時間を長くし、その逆も同様です。
  2. 冗長性と miRNA*
    1. miRDP2 からの出力 miRNA は、既知の miRNA とは異なる場合があることに注意してください。これは主に、成熟したmiRNAの不均一性またはmiRNAとmiRNA*の相対的な豊富さの2つの理由の1つによるものであることがわかりました。これは、前駆体の最適な長さの選択および既知のmiRNA遺伝子のプロファイリングに影響を与えないことがわかった。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

本明細書に記載されるmiRNAアノテーションパイプラインmiRDP2は、アラビドプシス・タリアナオリザ・サティバ(米)、ソラナム・ライコペルシカム(トマト)、ゼア・メイス(トウモロコシ)およびトリティカム・アエスティブム(図1A)含む、徐々に増加したゲノム長を有する5つの植物種から10の公共sRNA-seqライブラリーに適用される。全体として、各種について、異なる組織からの2つの代表的なsRNAライブラリ(一意の読み取りに崩壊し、プロトコルセクションの詳細)およびそれらは、2つの入力として処理される(表1)。5つのmiRNA計算予測ツール(miRDeep-P13、miRPlant 25、miR-PREFeR26、miRA27、miReNA28)を選択して比較を行った。

実行時間テスト
miRDP2 と他の 5 つのツールの実行時間とパフォーマンスを比較するために、Cent OS リリース 6.5 システムを搭載したクラスタ サーバーに 5 つのツール (miRDP2、miRDeep-P、miR-PREFeR、miRA、miReNA) をインストールしました。これらのプログラムは、同じ入力ファイル、ハードウェア、およびリソース (補足ファイル 1の詳細) で実行されました。特に、miRPlant は Java で記述された GUI から制御され、サーバー上で実行できませんでした。代わりに、Windows 10 を搭載した PC で miRPlant をテストし、この PC で miRDP2 と miRDeep-P もテストしました (補足ファイル 1の詳細)。

アラビドプシス・タリアナオリザ・サティバソラヌム・ライコペシウムなどの小さなゲノム種では、すべてのプログラムが適切に動作しました。しかし、ゼア・マズトリチカム・アスティブム(miRA用ソラナム・ライコペシウムを含む)などの大型ゲノム種の場合、プログラムの一部はすべてのコンピューティングリソースを使い果たし、途中で分解しました。たとえば、miReNA、miRA、miR-PREFeR は、大きな sam ファイルや中間ファイルを処理している間のメモリ不足が原因で、結果を生成できませんでした。特に、miRPlant一時ファイルはスペースを消費しすぎて、大きなゲノム種を扱う際にPC上で実行できませんでした。miRDP2 は、これらの予測プロセスを数分から数時間の非常に短時間で終了しました (図 1B)。したがって、古いバージョンや他のツールと比較して、miRDP2の実行時間は著しく短縮されました。

感度と精度のテスト
アラビドプシスのmiRNAは集中的に研究されているため、miRBase21(リリース22.1)のアラビドプシスで既知のmiRNAを利用してmiRDP2を評価し、他のツールと比較しました。前述のように感度と精度を計算するために、次の式が使用されます。

Equation 2

Equation 3

既知の miRNA は、miRBase でアトン化された miRNA です。miRNAは、成熟配列が5RPMを超える場合に発現として指定され、≥75%は成熟したmiRNA配列および星miRNA配列にマッピングされた前駆体に対して読み取られます。アラビドプシス(表1)の2つの配列SRNAライブラリーを用いて試験を行った。miRDP2 (図 1C,D)は、他のツールと比較して感度と精度の両方で優れたパフォーマンスを示しました。

これらの結果を組み合わせることで、miRDP2は植物のmiRNAトランスクリプトームを分析するための高速かつ正確なツールであることが示されています。

Figure 1
図1:miRDP2のパフォーマンス(A)アラビドプシス・タリアナのゲノムサイズ(Gb単位)、オリザ・サティバ(オサ)、ソラヌム・リコペルシカム(スライ)、ゼア・メイズ(ズマ)、トリティカム・アエスティウム(テー))(B-D)miRDP2および他の5つのツールのランタイム、感度および正確さの比較。各ツールに対応する 2 つのドットは、各ツールによって 2 つのテストが行われたことを示します。この図はクアンら16から適応されている。この図の大きなバージョンを表示するには、ここをクリックしてください。

種 (abb. ゲノムバージョン sRNA ライブラリ
ライブラリ ID ファイル サイズ 合計読み取り 一意の読み取り 組織
アラビドプシス・タリアナ (アス) バージョン 10 GSM2094927 24.9 メガバイト 40.5M 9.7M 大人の葉
GSM2412287 29.5 メガバイト 45.1M 11.1M
オリザ・サティバ (オサ) バージョン 7 GSM2883136 44.2 メガバイト 54.9M 16.3M
GSM3030848 34.7 メガバイト 49.1M 13.0M フラッグリーフ
ソラナム・ライポペルシカム (スライ) バージョン 3 GSM1213985 205.4 メガバイト 161.5M 58.0M
GSM1976413 118.5 メガバイト 139.3M 46.2M ルート
ゼアメイズ (ズマ) バージョン 4 GSM1277437 158.4 メガバイト 266.1M 60.5M
GSM1428531 144.1 メガバイト 172.5M 56.3M 種子
トリティカム・アスティウム (テ) iwgsc 1 GSM1294660 76.1 メガバイト 59.2M 29.6M 撮影
GSM1294661 113.6 メガバイト 84.0M 44.0M

表1:miRDP2およびその他のツールのテストに使用されるゲノムおよびsRNAライブラリこの表はクアンら16から適応された。

補足ファイル1:miRDP2と他の5つのツールの実行時、感度および正確性の比較。このファイルをダウンロードするには、ここをクリックしてください。

補足ファイル 2: ループ内の二等構造を持つ本物の miRNA の例。このファイルをダウンロードするには、ここをクリックしてください。

補足ファイル 3: プラント miRNA アノテーションの基準と 23-nt および 24-nt miRNA の基準を更新しました。このファイルをダウンロードするには、ここをクリックしてください。

補足ファイル 4: miRDP2 のワークフローの図。このファイルをダウンロードするには、ここをクリックしてください。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

NGSの出現により、多様な種29、30におけるsRNAシーケンシングデータの増加量から多数のmiRNA遺伝子座が同定されている。集中型コミュニティデータベースmiRBase21では、寄託されたmiRNAアイテムが過去10年間でほぼ100倍に増加しています。しかし、動物のmiRNAと比較して、植物miRNAは、識別/注釈をより複雑にする多くのユニークな機能を持っています13,14.

まず、植物miRNAの前駆体は、長さと構造がより可変である(補足ファイル2)16。動物miRNA前駆体の比較的均一な長さが70〜90 ntの周りのように、植物前駆体の長さは、いくつかのフォールドによって異なり、数百nts13、31に達する可能性がある。この違いは、前駆体長のカットオフが通常300 nt19を超えないような任意に設定されている場合でも、miRNA前駆体の二次構造を予測する際に多くの不確実性をもたらします(このパラメータはmiRDP2に埋め込まれ、miRDP2の経験豊富なユーザーは自分でこれを調整することができました)。加えて、保存された植物miRNAファミリーは、より多くのメンバーを有する傾向があり、これらのメンバーの長さばらばらもしばしば有意な13である。これが、miRDP2 がメンバー・サイズの潜在的な最大 miRNA ファミリーを示すパラメーター –L を持つ理由です。一緒に、植物miRNA前駆体の不均一性は、その正確な注釈のための多くの困難を提起する。

第二に、siRNAによって導入されたノイズまたは偽陽性を排除することは困難です。miRNAと並んで、NGS法はまた、配列されたsRNAライブラリーにおいてsiRNAのデラッジを生成する。siRNAは、その生体発生と機能32、33によってmiRNAから分離することができましたが、シーケンスデータとマイニングツールに基づいてそれらを区別することは非常に困難です。多くの研究者が主張するmiRBaseなどのパブリックデータベースは、誤ってmiRNA20、31として誤って警告されている偽陽性siRNAの数が多く、急激に悪化しています。したがって、新たに更新された基準25(補足ファイル3)のような植物miRNAアノテーションの新しい厳格な基準セットを持つ精製されたツールは、miRNAアノテーションパイプライン/プロセスにおいて非常に望まれている。

最後に、sRNAライブラリを解析するための計算時間は、同じ方法を小さなゲノム種から大きなサイズのゲノム種に移植すると指数関数的に増加しました。miRDeep-P13やmiR-PREFeR26などの計算ツールは、miRNA前駆体に沿ってsRNA読み取りのシグネチャ分布を捕捉および定量することにより、2つの一般的な方法となり、miRNAに注釈を付けるために広く使用されています。マッピング戦略としては、前駆体候補とその後の二次構造予測のプロセスには、かなりの計算時間16が必要となる。これらのツールを使用して、アラビドプシスのような小さなゲノムからトウモロコシのような大きなゲノムにデータを解析すると、データ処理時間が数時間から数日から数日に増加し、プロセスが頻繁に崩壊します。したがって、これまでの制限に関する革新が緊急に必要とされています。

miRDeep-P13から更新された新しい miRDP216プログラムは、上記の課題を克服するように設計されています (補足ファイル 4) 。このプログラムでは、新しいフィルタリング戦略を採用し、スコアリングアルゴリズムを最適化し、新たに更新されたプラントmiRNAアノテーション基準を組み込んだ。これらの新機能の結果、ゲノムサイズが増加する5つの植物種から10個のsRNAライブラリーを用いて試験した場合、走行時間が著しく短縮されました。さらに、miRDP2 は他のツールと比較して、感度と精度の両方で優れたパフォーマンスを示しました (図 1)。これらの結果を組み合わせることで、miRDP2は植物のmiRNA転写物を分析するための高速かつ正確なツールであることが示されています。

miRNA特性に関する現在の理解は、任意の計算ツールの性能を制限する可能性があることに注意する必要があります。新しく更新されたmiRNAアノテーション基準でさえ、十分に研究された例の限られたセットに基づいています。したがって、推測された情報は経験的にすぎません。実際には、miRNAのユニークな特徴は、異なる植物種または系統3に存在することが示されている。さらに、miRNA/miRNA*二重鎖の上流および下流領域の構造のような特性はまた、現在の注釈ツールでは考慮されていないmiRNA生物発生34、35において重要な役割を果たす。より多くの植物種でよく研究された例の蓄積により、より微妙な区別をキャプチャし、現在の方法よりも高い精度でmiRNAを分類することができ、より高度なアノテーションツールが将来開発される可能性が高いです。有望な新しいmiRNAアノテーション方向は、トレーニングデータセットとアノテーション基準の品質が継続的に進化するにつれて、機械学習アプローチ36を組み込むことです。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

著者たちは何も開示する必要はない。

Acknowledgments

この研究は、北京農林科学アカデミー(KJCX201917、KJCX20180425、KJCX20180204)から中国国立自然科学財団(31621001)からLLに支援されています。

Materials

Name Company Catalog Number Comments
Computer/computing node N/A N/A Perl is required; at least 8 GB RAM and 100 GB storage are recommended

DOWNLOAD MATERIALS LIST

References

  1. Ghildiyal, M., Zamore, P. D. Small silencing RNAs: an expanding universe. Nature Reviews Genetics. 10 (2), 94-108 (2009).
  2. Bartel, D. P. MicroRNAs: target recognition and regulatory functions. Cell. 136 (2), 215-233 (2009).
  3. Moran, Y., Agron, M., Praher, D., Technau, U. The evolutionary origin of plant and animal microRNAs. Nature Ecology Evolution. 1 (3), 27 (2017).
  4. Xie, Z., et al. Expression of Arabidopsis MIRNA genes. Plant Physiology. 138 (4), 2145-2154 (2005).
  5. Zhao, X., Zhang, H., Li, L. Identification and analysis of the proximal promoters of microRNA genes in Arabidopsis. Genomics. 101 (3), 187-194 (2013).
  6. Bologna, N. G., Mateos, J. L., Bresso, E. G., Palatnik, J. F. A loop-to-base processing mechanism underlies the biogenesis of plant microRNAs miR319 and miR159. EMBO JOURNAL. 28 (23), 3646-3656 (2009).
  7. Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
  8. Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
  9. Iwakawa, H. O., Tomari, Y. The Functions of MicroRNAs: mRNA Decay and Translational Repression. Trends in Cell Biology. 25 (11), 651-665 (2015).
  10. Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
  11. Wightman, B., Ha, I., Ruvkun, G. Posttranscriptional regulation of the heterochronic gene lin-14 by lin-4 mediates temporal pattern formation in C. elegans. Cell. 75 (5), 855-862 (1993).
  12. Friedlander, M. R., et al. Discovering microRNAs from deep sequencing data using miRDeep. Nature Biotechnology. 26 (4), 407-415 (2008).
  13. Yang, X., Li, L. miRDeep-P: a computational tool for analyzing the microRNA transcriptome in plants. Bioinformatics. 27 (18), 2614-2615 (2011).
  14. Meyers, B. C., et al. Criteria for annotation of plant MicroRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
  15. Yang, X., Zhang, H., Li, L. Global analysis of gene-level microRNA expression in Arabidopsis using deep sequencing data. Genomics. 98 (1), 40-46 (2011).
  16. Kuang, Z., Wang, Y., Li, L., Yang, X. miRDeep-P2: accurate and fast analysis of the microRNA transcriptome in plants. Bioinformatics. , (2018).
  17. Kozomara, A., Birgaoanu, M., Griffiths-Jones, S. miRBase: from microRNA sequences to function. Nucleic Acids Research. 47 (1), 155-162 (2019).
  18. Griffiths-Jones, S., Saini, H. K., van Dongen, S., Enright, A. J. miRBase: tools for microRNA genomics. Nucleic Acids Research. 36, Database issue 154-158 (2008).
  19. Axtell, M. J., Meyers, B. C. Revisiting Criteria for Plant MicroRNA Annotation in the Era of Big Data. Plant Cell. 30 (2), 272-284 (2018).
  20. Taylor, R. S., Tarver, J. E., Hiscock, S. J., Donoghue, P. C. Evolutionary history of plant microRNAs. Trends in Plant Science. 19 (3), 175-182 (2014).
  21. Kozomara, A., Griffiths-Jones, S. miRBase: annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, Database issue 68-73 (2014).
  22. Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9 (4), 357-359 (2012).
  23. Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6, 26 (2011).
  24. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (3), 25 (2009).
  25. An, J., Lai, J., Sajjanhar, A., Lehman, M. L., Nelson, C. C. miRPlant: an integrated tool for identification of plant miRNA from RNA sequencing data. BMC Bioinformatics. 15, 275 (2014).
  26. Lei, J., Sun, Y. miR-PREFeR: an accurate, fast and easy-to-use plant miRNA prediction tool using small RNA-Seq data. Bioinformatics. 30 (19), 2837-2839 (2014).
  27. Evers, M., Huttner, M., Dueck, A., Meister, G., Engelmann, J. C. miRA: adaptable novel miRNA identification in plants using small RNA sequencing data. BMC Bioinformatics. 16, 370 (2015).
  28. Mathelier, A., Carbone, A. MIReNA: finding microRNAs with high accuracy and no learning at genome scale and from deep sequencing data. Bioinformatics. 26 (18), 2226-2234 (2010).
  29. Zhu, Q. H., et al. A diverse set of microRNAs and microRNA-like small RNAs in developing rice grains. Genome Research. 18 (9), 1456-1465 (2008).
  30. Fahlgren, N., et al. MicroRNA gene evolution in Arabidopsis lyrata and Arabidopsis thaliana. Plant Cell. 22 (4), 1074-1089 (2010).
  31. Fromm, B., et al. A Uniform System for the Annotation of Vertebrate microRNA Genes and the Evolution of the Human microRNAome. Annual Review of Genetics. 49, 213-242 (2015).
  32. Blevins, T., et al. Identification of Pol IV and RDR2-dependent precursors of 24 nt siRNAs guiding de novo DNA methylation in Arabidopsis. Elife. 4, 09591 (2015).
  33. Zhai, J., et al. A One Precursor One siRNA Model for Pol IV-Dependent siRNA Biogenesis. Cell. 163 (2), 445-455 (2015).
  34. Werner, S., Wollmann, H., Schneeberger, K., Weigel, D. Structure determinants for accurate processing of miR172a in Arabidopsis thaliana. Current Biology. 20 (1), 42-48 (2010).
  35. Mateos, J. L., Bologna, N. G., Chorostecki, U., Palatnik, J. F. Identification of microRNA processing determinants by random mutagenesis of Arabidopsis MIR172a precursor. Current Biology. 20 (1), 49-54 (2010).
  36. Vitsios, D. M., et al. Mirnovo: genome-free prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Research. 45 (21), 177 (2017).

Tags

遺伝学、問題155、マイクロRNA(miRNA)、植物、sRNA-セク、miRDeep-P2(miRDP2)、次世代シーケンシング、植物miRNA基準、miRDeep-P(miRDP)
植物におけるマイクロRNA転写物を正確かつ効率的に分析するバイオインフォマティクスパイプライン
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wang, Y., Kuang, Z., Li, L., Yang,More

Wang, Y., Kuang, Z., Li, L., Yang, X. A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants. J. Vis. Exp. (155), e59864, doi:10.3791/59864 (2020).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter