Biology

mirMachine:植物miRNAアノテーションのワンストップショップ

Published: May 1, 2021 doi: 10.3791/62430

H. Busra Cagirici¹, Taner Z. Sen¹, Hikmet Budak²

¹U.S. Department of Agriculture - Agricultural Research Service, Western Regional Research Center, Crop Improvement and Genetics Research Unit, CA, USA, ²Montana BioAgriculture Inc., Missoula, MT, USA

Summary

ここでは、1)既知および新規のmiRNAをより正確に同定でき、2)完全に自動化され、自由に利用できる新しい完全に自動化されたmiRNAパイプラインmirMachineを紹介します。ユーザーは、短い送信スクリプトを実行して、完全に自動化された mirMachine パイプラインを実行できるようになりました。

Abstract

さまざまな種類のノンコーディングRNAの中で、マイクロRNA(miRNA)は間違いなく過去10年間で脚光を浴びてきました。遺伝子発現の転写後調節因子として、miRNAは、干ばつや病気などの発生と生物的ストレスへの応答の両方を含む、さまざまな細胞経路で重要な役割を果たします。高品質のリファレンスゲノム配列を持つことで、miRNA配列が高度に保存されているいくつかの植物種におけるmiRNAの同定とアノテーションが可能になりました。計算miRNAの同定とアノテーションのプロセスはほとんどエラーを起こしやすいプロセスであるため、相同性に基づく予測は予測精度を高めます。私たちは、過去10年間でmiRNAアノテーションパイプラインSUmirを開発および改良し、それ以来、いくつかの植物ゲノムに使用されてきました。

この研究では、(i)二次構造予測に追加のフィルタリングステップを追加し、(ii)完全に自動化し、(iii)以前のパイプラインを使用して、相同性に基づく既知のmiRNAまたは低分子RNAシーケンシングリードに基づく新規miRNAのいずれかを予測するための新しいオプションを導入することにより、完全に自動化された新しいmiRNAパイプラインmirMachine(miRNA Machine)を提示します。新しいmiRNAパイプラインmirMachineは、シロイヌナズナ情報リソースTAIR10、 シロイヌナ ズナゲノムのリリース、および国際小麦ゲノムシーケンスコンソーシアム(IWGSC)小麦リファレンスゲノムv2を使用してテストされました。

Introduction

次世代シーケンシング技術の進歩により、RNAの構造と調節要素の理解が広がり、機能的に重要なノンコーディングRNA(ncRNA)が明らかになりました。さまざまな種類のncRNAの中で、マイクロRNA(miRNA)は、植物において19〜24ヌクレオチドの長さの低分子RNAの基本的な調節クラスを構成します^1,2。線虫Caenorhabditis elegans3で最初のmiRNAが発見されて以来、miRNAの存在と機能は動植物ゲノムでも広く研究されてきました4,5,6。miRNAは、切断または翻訳抑制のためにmRNAを標的とすることによって機能します⁷。証拠の蓄積は、miRNAが成長と発生⁸、自己生生物発生⁹、およびいくつかの生物的および非生物的ストレス応答¹⁰を含む植物の幅広い生物学的プロセスに関与していることも示しています。

植物では、miRNAは最初にpri-miRNA11と呼ばれる長い一次転写物からプロセシングされます。核内のRNAポリメラーゼIIによって生成されたこれらのpri-miRNAは、不完全なフォールドバック構造を形成する長い転写物である¹²。pri-miRNAは後に切断プロセスを経て、^pre-miRNA11と呼ばれるmiRNAの内因性一本鎖(ss)ヘアピン前駆体を生成します。プレmiRNAはヘアピン様構造を形成し、一本鎖が二本鎖構造に折りたたまれてmiRNA二重鎖(miRNA/miRNA*)を切除します¹³。ダイサー様タンパク質は、miRNA/miRNA*二重鎖の両鎖を切断し、2ヌクレオチド3'-オーバーハング^14,15を残します。miRNA二重鎖は核内でメチル化され、miRNAの3'末端を分解およびウリジル化活性から保護する^16,17。ヘリカーゼは、輸出後にメチル化miRNA二重鎖を巻き戻し、成熟miRNAをサイトゾル¹⁸中のRNA誘導サイレンシング複合体(RISC)に曝露する。二重鎖の一方の鎖はRISCに取り込まれた成熟miRNAですが、もう一方の鎖であるmiRNA*は分解されます。miRNA-RISC複合体は標的配列に結合し、完全な相補性の場合はmRNA分解、部分相補性の場合は翻訳抑制のいずれかを引き起こします¹³。

発現および生合成の特徴に基づいて、miRNAアノテーションのためのガイドラインが記載されている¹⁵^、¹⁹。定義されたガイドラインを使用して、LucasとBudakは^、植物9で相同性に基づくインシリコmiRNA同定を実行するためのSUmirパイプラインを開発しました。SUmir パイプラインは、SUmirFind と SUmirFold の 2 つのスクリプトで構成されていました。SUmirFindは、国立バイオテクノロジー情報センター(NCBI)の基本ローカルアライメント検索ツール(BLAST)スクリーニングを通じて既知のmiRNAデータセットに対して類似性検索を実行し、2つ以下のミスマッチのみのヒットを含め、より短いヒットへのバイアスを回避します(blastn-short-unapped-penalty-1-reward1)。SUmirFoldは、UNAfold²¹を用いて、^BLAST20の結果から推定miRNA配列の二次構造を評価する。スミルフォールドは、ヘアピン構造の特徴を同定することにより、miRNAと小さな干渉RNAを区別します。さらに、パラメータ、最小倍率エネルギー指数>0.67、GC含量24〜71%によって、miRNAをtRNAやrRNAなどの他のssRNAと区別します。このパイプラインは、(i)感度を高める、(ii)アノテーション精度を高める、および(iii)予測されたmiRNA遺伝子のゲノム分布を提供するための2つのステップを追加することによって最近更新されました²²。植物のmiRNA配列²³の保存性が高いことを考えると、このパイプラインはもともと相同性に基づくmiRNA予測のために設計されました。しかし、新規miRNAは、近縁種間のmiRNAの配列保存に大きく依存していたため、このバイオインフォマティクス解析では正確に同定できませんでした。

この論文では、1)既知および新規のmiRNAをより正確に同定できる(たとえば、パイプラインは現在、sRNA-seqベースの新規miRNA予測と相同性ベースのmiRNA同定を使用する)、2)完全に自動化され、自由に利用できる、完全に自動化された新しいmiRNAパイプラインmirMachineを紹介します。出力には、予測されたmiRNAのゲノム分布も含まれています。mirMachineは、コムギおよび シロイヌナ ズナのゲノムにおける相同性ベースの予測とsRNA-seqベースの予測の両方についてテストされました。当初はフリーソフトウェアとしてリリースされましたが、UNAfoldは過去10年間で商用ソフトウェアになりました。今回のバージョンアップに伴い、二次構造予測ツールをUNAfoldからRNAfoldに切り替え、mirMachineを自由に利用できるようになりました。ユーザーは、短い送信スクリプトを実行して、完全に自動化された mirMachine パイプラインを実行できるようになりました (例は https://github.com/hbusra/mirMachine.git で提供されています)。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1.ソフトウェアの依存関係とインストール

ホームサイトから、またはcondaを使用してソフトウェアの依存関係をインストールします。
1. Perl がまだインストールされていない場合は、ホームサイト (https://www.perl.org/get.html) からダウンロードしてインストールします。
  注: 表された結果は、Perl v5.32.0 を使用して予測されました。
2. アライメントプログラムであるBlast+をホームサイト(https://www.ncbi.nlm.nih.gov/books/NBK279671/)から実行可能ファイルおよびソースコードとしてダウンロードします。
  注:表された結果は、BLAST 2.6.0+を使用して予測されました。
3. https://www.tbi.univie.ac.at/RNA/ からRNAfoldのプリコンパイル済みパッケージをインストールします。
4. または、次のコンダを使用してこれらのソフトウェアをインストールします:i)コンダインストール-cバイオコンダブラスト;ii)コンダ インストール-cビオコンダウィーン。

2. mirMachine のセットアップとテスト

最新バージョンの mirMachine スクリプトと mirMachine 送信スクリプトを GitHub、https://github.com/hbusra/mirMachine.git からダウンロードし、スクリプトのパスを PATH に設定します。
GitHub で提供されているテストデータを使用して、mirMachine とそのすべての依存関係が正しくダウンロードされていることを確認します。
以下に示すテストデータでmirMachineを実行します。
bash mirMachine_submit.sh -f iwgsc_v2_chr5A.fasta -i mature_high_conf_v22_1.fa.filtered.fasta -n 10
注:テストデータには小麦ゲノムの染色体が1つしか含まれていないため、 -n オプションを10に設定します。デフォルトでは、 -n オプションは 20 に設定されています。
予測された成熟miRNA、それらの予測された前駆体、および染色体上のそれらの位置の ヘアピン.tbl.out.tbl 出力ファイルを制御します。
ログファイルでプログラムの出力と警告を確認します。

3. 相同性に基づくmiRNA同定

以下に示すbashスクリプトを使用してmirMachineを実行します。
bash mirMachine_submit.sh -f $genome_file -i $input_file -m $mismatches -n $number_of_hits
予測されたmiRNAを確認してください。予測された miRNA の $input_file.results.tbl.hairpins.tbl.out.tbl という名前の出力ファイルを見つけます。pre-miRNA FASTA配列の $input_file.results.tbl.hairpins.fsa という名前の出力ファイルを見つけます。ヘアピンログファイルの $input_file.results.tbl.hairpins.log という名前の出力ファイルを見つけます。

4. 新規miRNAの同定

sRNA-seq FASTQファイルを適切なFASTA形式に前処理します。必要に応じてアダプターをトリミングします。低品質の読み取りをトリミングしないでください。代わりに、それらを削除します。 N を含む読み取りを削除します。FASTQ ファイルを FASTA ファイル ($input_ファイル) に変換します。
以下に示すbashスクリプトを使用してmirMachineを実行します。
bash mirMachine_submit.sh -f $genome_file -i $input_file -n $number_of_hits -sRNAseq -lmax $lmax -lmin $lmin -rpm $rpm
注:sRNA-seqベースの予測では 、$mismatches を0に設定しました。
予測されたmiRNAを確認してください。予測されたmiRNAの $input_file.results.tbl.hairpins.tbl.out.tblという名前の 出力ファイルを見つけます。pre-miRNA FASTA配列の $input_file.results.tbl.hairpins.fsa という名前の出力ファイルを見つけます。ヘアピンログファイルの $input_file.results.tbl.hairpins.log という名前の出力ファイルを見つけます。

5.アドバンスパラメータ

注:デフォルトは、ゲノムファイルと入力miRNAファイルを除くすべてのパラメーターに対して定義されています。

-db オプションを blast データベースに設定して、パイプライン内の参照データベースの構築をスキップします。
-m オプションを、許容される不一致の数に設定します。
注:デフォルトでは、- m オプションは相同性ベースの予測の場合は1に設定され、sRNA-seqベースの予測の場合は0に設定されていました。
-n を、アライメント後に削除するヒット数に設定します (デフォルトは 20)。種に基づいてこれを変更してください。
-long を使用して、容疑者リストの 2 次構造を評価します。
- s を使用して、sRNA-seqデータに基づく新規miRNA予測を活性化します。
-lmax オプションを、スクリーニングに含める sRNA-seq リードの最大長に設定します。
-lmax オプションを、スクリーニングに含める sRNA-seq リードの最小長に設定します。
-rpm オプションを使用して、100 万回あたりの読み取り数 (RPM) しきい値を設定します。
注:pri-miRNA/pre-miRNAの長さなどの高度なパラメータについては、経験豊富なユーザーが関心のある研究に合わせてスクリプトを変更することをお勧めします。さらに、ユーザーが一部の手順をスキップする場合、または変更された出力を使用する場合は、行の先頭に # を追加するだけで送信スクリプトを変更して、それらの行をスキップできます。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

上記のmiRNAパイプラインmirMachineを、パイプラインの性能を迅速に評価するための試験データに適用した。miRBase v22.1に寄託された高信頼植物miRNAのみを、IWGSCコムギRefSeqゲノムv2²⁴の染色体5Aに対してスクリーニングした。mirMachine_find、189個の高信頼miRNAの非冗長リストに対して312ヒットを返し、最大1個のミスマッチが許容されます(表1)。mirMachine_fold、二次構造評価に応じて、そのうち49個を推定miRNAとして分類しました。miRNAの最も高いグループはmiR9666で、合計18のmiRNAが同定されました(図1)。一部のmiRNAは同じ成熟miRNAを共有していましたが、異なるpre-miRNA配列から処理されていました。これらのmiRNAは、miRNAファミリー名の後に一意の番号が続く名前に変更されました(例:miR156-5p-1およびmiR156-5p-2)。推定49個のmiRNAのうち、20個の非冗長成熟miRNA配列が同定された。いくつかのmiRNAは、複数の遺伝子座から転写することができ、その結果、より多くのmiRNAが表される。テストデータでは、miR9666-3p-5はセンス鎖(602887137)とアンチセンス鎖(542053079)の2回表されました。すべての場所は、 GitHub の TestData 出力ファイル mature_high_conf_v22_1.fa.filtered.fasta.results.tbl. hairpins.tbl.out.tbl で提供されています。

植物におけるmiRNAの保存を考えると、1つの植物ゲノムにおける発現証拠は十分である。ただし、信頼性の高いmiRNAデータセットでは、限られた量のデータしか提供されません。したがって、信頼性の高いmiRNAや実験的に検証されたmiRNAを参照データセットとして使用して発現検証ステップをスキップするか、利用可能なすべての植物miRNAを参照データセットとして使用して、後で発現の証拠を探すことがユーザーの好みです。ここでは、植物ゲノムの1つで実験的に検証されていた高信頼miRNAをリファレンスセットとして使用したため、テストデータについては発現検証ステップをスキップしました。

mirMachineは、シロイヌナズナ( シロイヌナ ズナ、TAIR10リリース)および Triticum aestivum (コムギ、IWGSC RefSeq v2)を含む単子葉植物および双子葉植物を使用してベンチマークされました。相同性に基づく予測とsRNA-seqに基づく予測の性能を評価し、その結果をNGSベースのmiRNA予測ツールであるmiRDP2²⁵と比較しました。相同性に基づく予測は、miRbase v22²⁶に寄託された植物成熟miRNA配列の非冗長リストを用いて実行された。sRNA-seqベースの予測は、公開されているデータセットを使用して実行されました。 シロイヌナ ズナの場合はGSM2094927、小麦の場合はGSM1294661。生の結果に加えて、同じsRNA-seqデータセットを使用して、成熟miRNAおよびmiRNAスター配列の発現証拠について相同性に基づく予測をフィルタリングしました。

図 2 は、各ツールのパフォーマンスと 2 つの種の mirMachine 設定を示しています。感度は、同定された既知のmiRNAの総数を同定されたmiRNAの総数で割ったものとして計算した。その結果、mirMachineは、 シロイヌ ナズナのデータにおける感度と真陽性予測の点でmiRDP2を上回っていました。コムギのデータについては、発現証拠に裏付けられたmirMachine相同性に基づく予測は、miRDP2よりも優れた感度を提供しました。両方のゲノムについて、miRDP2は、mirMachine sRNA-seqおよび発現証拠による相同性に基づく予測と比較して、より多くの真陽性を予測しました。miRDP2は、既知のmiRNAの予測のための発現閾値(RPM、100万あたりのリード数)を10から1に下げ、真陽性の予測が高くなることに注意してください。一般に、mirMachineは、新規および既知のmiRNAの両方の同定に使用できます。mirMachineの利点の1つは、特定の組織や条件の制限なしに、推定miRNAのゲノムワイド分布を予測できることです。最後に、mirMachineはユーザーフレンドリーで、特定の研究目的のためにヒット数、ミスマッチ、miRNAの長さ、RPMなどのパラメータを柔軟に調整できます。まとめると、mirMachineは、トランスクリプトームと植物のゲノムにおける推定miRNAの正確な予測を提供します。

図1:IWGSCコムギ参照ゲノムv2の染色体5Aから同定されたmiRNAファミリーの分布。データラベルは、miRNAファミリーおよび各miRNAファミリーに属するmiRNAの数を示す。略語:マイクロRNA =マイクロRNA;IWGSC = 国際小麦ゲノムシーケンシングコンソーシアム。この図の拡大版を表示するには、ここをクリックしてください。

図2:mirMachineの性能評価。相同性ベースおよびsRNA-seqベースの予測とmiRDP2ソフトウェアを備えたmirMachineについて、感度と予測された既知のmiRNAの総数(真陽性)の比較が示されています。略称:miRNA = マイクロRNA。この図の拡大版を表示するには、ここをクリックしてください。

ゲノム	ゲノムサイズ	参照miRNAデータセット	mirMachine_findヒット数	mirMAchine_foldヒット数	# miRNAファミリーの数
テストデータ	~0.7 ギガバイト	189	312	49	9
Chr5A

表 1: mirMachine の統計情報。試験データは、IWGSC小麦参照ゲノムv2の染色体5Aからのものである。略語:マイクロRNA =マイクロRNA;IWGSC = 国際小麦ゲノムシーケンシングコンソーシアム。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

当社のmiRNAパイプラインSUmirは、過去10年間、多くの植物miRNAの同定に使用されてきました。ここでは、完全に自動化された、自由に利用できる新しいmiRNA同定およびアノテーションパイプラインmirMachineを開発しました。さらに、以前のパイプラインを含むがこれに限定されない多くのmiRNA同定パイプラインは、UNAfoldソフトウェア21に依存しており、UNAfoldソフトウェア²¹は、かつては自由に利用可能であったが、時間の経過とともに商用ソフトウェアとなった。この新しい完全に自動化されたmirMachineは、もはやUNAfoldに依存していません。代わりに、ViennaRNAパッケージ²⁷ から自由に入手可能なRNAfoldが、二次構造予測に使用される。さらに、mirMachineのすべてのスクリプトは、調整可能なパラメーターを備えたbashスクリプトに集められ、mirMachineを完全に自動化され、無料で入手できるmiRNA予測およびアノテーションツールにしました。

mirMachineは、植物のmiRNAの特性とその生合成の恩恵を受けました。動物のpre-miRNAとは対照的に、植物のpre-miRNAは長さと構造的特徴がさまざまです¹⁵。その結果、miRNAの特性とその生合成に応じて、植物のmiRNAを同定するための基準が設定されています¹⁵。植物のpre-miRNAの長さは著しく変化する可能性があり、数百ヌクレオチド長になる可能性があるため、pre-miRNAの長さにはカットオフが設定されていません。代わりに、長さが~700 bpに制限されたpri-miRNA構造の折り畳みが最初に評価されました。その後、候補のpri-miRNA配列からpre-miRNA配列を予測し、適切なフォールディング統計について評価した。

多くの植物ゲノム、特に小麦や大麦などの農学的に重要な穀物は、非常に反復的なゲノムを持っています^28,29,30。高反復含量以外に、倍数性はこれらの植物のいくつかで観察され²⁴、miRNA構造のインシリコ同定および特徴付けにさらなる複雑さをもたらす。リピートは、成熟した形態のmiRNAに似た^siRNA31の産生の主要な供給源です。しかし、それらは生合成と機能が異なります^32,33。候補のmiRNAリストからsiRNAを排除することは極めて困難です。実際、最も広く使用されているmiRNAデータベースであるmiRBase²⁶には、miRNAとして誤って注釈が付けられた多数のsiRNAが含まれていることが報告されています^34,35。それらの生合成の違いに基づいて、mirMachineはアンチセンス鎖と完全なペアを形成する小さなRNAをsiRNAとしてフィルタリングし、それらの配列を疑わしいテーブルに配置します。さらに、mirMachine には -n オプションがあり、候補 RNA を siRNA としてフィルタリングするためのヒットの最大数を定義します。

発現の証拠は、 インシリコで予測されたすべてのmiRNAを検証するために必要です。miRNAは植物ゲノムの中で高度に保存されているため、植物ゲノムの1つでの発現証拠は、予測されたmiRNAの有効性を確認するのに十分であるはずです。最初のスクリーニングプロセスで信頼性の高い成熟miRNA配列を使用すると、予測されたすべてのmiRNAの発現証拠が得られるという利点があります。ただし、最初のmiRNAデータセットの短いリストは、ゲノム内のmiRNAの包括的なセットの予測を制限します。あるいは、miRBaseデータベースに寄託された植物miRNAのフルセットを、信頼性の高いmiRNAをフィルタリングする代わりに、初期データセットとして使用することもできます。目的の種の発現データが利用できない場合は、発現配列タグ、miRNAマイクロアレイ、または少なくとも1つの植物ゲノムの低分子RNAシーケンシングデータを使用して発現証拠を探すことをお勧めします。

相同性に基づくmiRNA予測は、既知のmiRNAファミリーのゲノムワイドな分布を解明するのに役立ちます。これらのmiRNAは、特定の組織および条件下で発現する可能性が高い。相同性に基づく予測の欠点は、新規miRNAファミリーを同定する能力がないことです。対照的に、sRNA-seqベースの予測は、多数の偽陽性のコストを伴う新しいmiRNAを特定することができます。したがって、最良のアプローチの選択は、ユーザーと関心のある研究次第です。ここで紹介するmirMachineは、既知のmiRNAとの相同性またはsRNAシーケンシングのいずれかに基づいてmiRNAを同定するのに役立ちます。

Subscription Required. Please recommend JoVE to your librarian.

Materials

Name	Company	Catalog Number	Comments
https://www.ncbi.nlm.nih.gov/books/NBK279671/			Blast+
https://github.com/hbusra/mirMachine.git			mirMachine submission script
https://www.perl.org/get.html			Perl
https://www.tbi.univie.ac.at/RNA/			RNAfold
Arabidopsis TAIR10
Triticum aestivum (wheat, IWGSC RefSeq v2)