Biology

mirMachine：植物miRNA注释的一站式商店

Published: May 1, 2021 doi: 10.3791/62430

H. Busra Cagirici¹, Taner Z. Sen¹, Hikmet Budak²

¹U.S. Department of Agriculture - Agricultural Research Service, Western Regional Research Center, Crop Improvement and Genetics Research Unit, CA, USA, ²Montana BioAgriculture Inc., Missoula, MT, USA

Summary

在这里，我们提出了一种新的全自动miRNA管道mirMachine，它1）可以更准确地识别已知和新型的miRNA，2）是全自动且免费提供的。用户现在可以执行一个简短的提交脚本来运行全自动的 mirMachine 管道。

Abstract

在不同类型的非编码RNA中，microRNA（miRNA）可以说在过去十年中一直备受关注。作为基因表达的转录后调节因子，miRNA在各种细胞途径中起着关键作用，包括发育和对a/生物胁迫（如干旱和疾病）的反应。拥有高质量的参考基因组序列能够在几种植物物种中鉴定和注释miRNA，其中miRNA序列高度保守。由于计算miRNA鉴定和注释过程大多是容易出错的过程，因此基于同源的预测提高了预测的准确性。在过去的十年中，我们开发并改进了miRNA注释管道SUmir，从那时起，该管道已被用于多个植物基因组。

本研究提出了一种完全自动化的新型miRNA管道mirMachine（miRNA Machine），方法是（i）在二级结构预测上增加额外的过滤步骤，（ii）使其完全自动化，以及（iii）引入新的选项来预测基于同源性的已知miRNA或使用以前的管道基于小RNA测序读数的新型miRNA。新的miRNA管道mirMachine使用拟南芥信息资源TAIR10， 拟南芥 基因组的发布和国际小麦基因组测序联盟（IWGSC）小麦参考基因组v2进行了测试。

Introduction

下一代测序技术的进步拓宽了对RNA结构和调控元件的理解，揭示了功能上重要的非编码RNA（ncRNA）。在不同类型的ncRNA中，microRNA（miRNA）构成了植物中长度在19至24个核苷酸之间的小RNA的基本调节类别1^，²。自从在线虫秀丽隐杆线虫3中发现第一个miRNA以来，miRNA的存在和功能已经在动植物基因组以及4，⁵^，⁶中得到了广泛的研究。miRNA通过靶向mRNA进行切割或翻译抑制来发挥作用⁷。越来越多的证据还表明，miRNA参与植物的各种生物过程，包括生长和发育⁸，自我生物发生⁹以及几种生物和非生物胁迫反应¹⁰。

在植物中，miRNA最初是从称为pri-miRNA¹¹的长初级转录本加工而来的。这些由细胞核内的RNA聚合酶II产生的pri-miRNA是长转录物，形成不完美的折返结构¹²。pri-miRNA后来经历切割过程，产生miRNA的内源性单链（ss）发夹前体，称为pre-miRNA¹¹。前miRNA形成发夹状结构，其中单链折叠成双链结构以切除miRNA双链（miRNA/miRNA*）¹³。Dicer样蛋白切割miRNA/miRNA*双链的两条链，留下2-核苷酸3'-突出部¹⁴^，¹⁵。miRNA 双链体在细胞核内甲基化，保护 miRNA 的 3'-末端免受降解和尿苷化活性¹⁶^，¹⁷。解旋酶在输出后解开甲基化的miRNA双链体，并将成熟的miRNA暴露于细胞质中RNA诱导的沉默复合物（RISC）¹⁸。双链的一条链是成熟的miRNA并入RISC，而另一条链miRNA*被降解。miRNA-RISC复合物与靶序列结合，导致mRNA在完全互补的情况下降解，或在部分互补的情况下导致翻译抑制¹³。

基于表达和生物发生特征，已经描述了miRNA注释的指南¹⁵^，¹⁹。根据定义的指南，Lucas和Budak开发了SUmir管道，以在植物⁹中进行基于同源的计算机miRNA鉴定。SUmir 管道由两个脚本组成：SUmirFind 和 SUmirFold。SUmirFind 通过国家生物技术信息中心（NCBI）基本局部比对搜索工具（BLAST）筛选对已知的 miRNA 数据集进行相似性搜索，并使用修改后的参数来包括只有 2 个或更少不匹配的命中，并避免偏向较短的命中（blastn-short -unapped -punishment -1 -reward 1）。SUmirFold使用^{UNAfold 21}评估BLAST²⁰结果中推定miRNA序列的二级结构。SUmirFold通过鉴定发夹结构的特征来区分miRNA与小干扰RNA。此外，它通过参数、最小折叠能量指数> 0.67 和 GC 含量 24-71% 来区分 miRNA 与其他 ssRNA（如 tRNA 和 rRNA）。该管道最近进行了更新，增加了两个额外的步骤，以（i）提高灵敏度，（ii）提高注释准确性，以及（iii）提供预测miRNA基因的基因组分布²²。鉴于植物miRNA序列²³的高度保守性，该管道最初设计用于基于同源的miRNA预测。然而，这种生物信息学分析无法准确鉴定新型miRNA，因为它严重依赖于密切相关物种之间miRNA的序列保守。

本文提出了一种新的全自动miRNA管道mirMachine，它1）可以更准确地识别已知和新型miRNA（例如，该管道现在使用基于sRNA-seq的新型miRNA预测以及基于同源的miRNA鉴定）和2）完全自动化且免费提供。输出还包括预测miRNA的基因组分布。mirMachine在小麦和 拟南芥 基因组中测试了基于同源性和基于sRNA-seq的预测。虽然最初作为自由软件发布，但UNAfold在过去十年中成为商业软件。通过这次升级，二级结构预测工具从UNAfold切换到RNAfold，以便可以免费使用mirMachine。用户现在可以执行一个简短的提交脚本来运行全自动的 mirMachine 管道（ 示例在 https://github.com/hbusra/mirMachine.git 中提供）。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. 软件依赖和安装

从其主站点或使用 conda 安装软件依赖项。
1. 下载并安装 Perl，如果尚未安装，请从其主站点（https://www.perl.org/get.html）。
  注意：表示的结果是使用 Perl v5.32.0 预测的。
2. 从其主站点（https://www.ncbi.nlm.nih.gov/books/NBK279671/）下载Blast+，一个对齐程序，作为可执行文件和源代码。
  注意：表示的结果是使用 BLAST 2.6.0+ 预测的。
3. 从 https://www.tbi.univie.ac.at/RNA/ 安装RNAfold的预编译包。
4. 或者，使用以下 conda 安装这些软件：i） conda install -c bioconda blast;ii） 康达安装-c Bioconda Viennarna。

2. 幻影机的设置和测试

从 GitHub， https://github.com/hbusra/mirMachine.git 下载最新版本的 mirMachine 脚本和 mirMachine 提交脚本，然后将脚本路径设置为 PATH。
使用 GitHub 上提供的测试数据来确保 mirMachine 及其所有依赖项已正确下载。
在下面显示的测试数据上运行 mirMachine。
bash mirMachine_submit.sh -f iwgsc_v2_chr5A.fasta -i mature_high_conf_v22_1.fa.filtered.fasta -n 10
注意：将 -n 选项设置为 10，因为测试数据仅包含小麦基因组的一个染色体。缺省情况下， -n 选项设置为 20。
控制预测的成熟miRNA的 hairpins.tbl.out.tbl 输出文件，其预测的前体及其在染色体上的位置。
检查日志文件中的程序输出和警告。

3. 基于同源性的miRNA鉴定

使用如下所示的 bash 脚本运行 mirMachine：
bash mirMachine_submit.sh -f $genome_file -i $input_file -m $mismatches -n $number_of_hits
检查预测的miRNA。查找名为 $input_file.results.tbl.hairpins.tbl.out.tbl 的输出文件，用于预测的 miRNA。查找名为 $input_file.results.tbl.hairpins.fsa 的输出文件，用于前 miRNA FASTA 序列。查找名为 $input_file.results.tbl.hairpins.log 的输出文件作为发夹日志文件。

4. 新型miRNA鉴定

将sRNA-seq FASTQ文件预处理为正确的FASTA格式。如果需要，修剪适配器。不要修剪低质量的阅读;相反，请删除它们。删除包含 N 的读取。将 FASTQ 文件转换为 FASTA 文件（$input_file）。
使用如下所示的 bash 脚本运行 mirMachine。
bash mirMachine_submit.sh -f $genome_file -i $input_file -n $number_of_hits -sRNAseq -lmax $lmax -lmin $lmin -rpm $rpm
注意：对于基于 sRNA-seq 的预测，$mismatches设置为 0。
检查预测的miRNA。查找名为 $input_file.results.tbl.hairpins.tbl.out.tbl 的输出文件，用于预测的 miRNA。查找名为 $input_file.results.tbl.hairpins.fsa 的输出文件，用于前 miRNA FASTA 序列。查找名为 $input_file.results.tbl.hairpins.log 的输出文件作为发夹日志文件。

5. 高级参数

注意：为除基因组文件和输入 miRNA 文件之外的所有参数定义默认值。

将 -db 选项设置为爆炸数据库以跳过管道中的建筑参考数据库。
将 -m 选项设置为允许的不匹配数。
注意：默认情况下， -m 选项设置为1，对于基于同源的预测，设置为0，用于基于sRNA-seq的预测。
将 -n 设置为对齐后要消除的命中数（默认为 20）。根据物种进行更改。
使用 -long 评估可疑列表的辅助结构。
使用 - s 激活基于 sRNA-seq 数据的新型 miRNA 预测。
将 -lmax 选项设置为要包含在筛选中的 sRNA-seq 读取的最大长度。
将 -lmax 选项设置为要包含在筛选中的 sRNA-seq 读数的最小长度。
使用 -rpm 选项设置每百万读取数（RPM）阈值。
注意：对于高级参数，如pri-miRNA/pre-miRNA的长度，鼓励有经验的用户修改他们感兴趣的研究脚本。此外，如果用户打算跳过某些步骤或更喜欢使用修改后的输出，只需在行首添加 # 即可跳过这些行来修改提交脚本。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

将上述miRNA管道mirMachine应用于测试数据，以快速评估管道的性能。仅对沉积在miRBase v22.1的高置信度植物miRNA进行了针对IWGSC小麦RefSeq基因组v2²⁴的染色体5A进行筛选。mirMachine_find为189个高置信度miRNA的非冗余列表返回了312次命中，最多允许1次错配（表1）。mirMachine_fold根据二级结构评估将其中49种归类为推定的miRNA。代表性最高的miRNA组是miR9666，共鉴定出18个miRNA（图1）。一些miRNA共享相同的成熟miRNA，但从不同的pre-miRNA序列处理而来。这些miRNA由miRNA家族名称重新命名，后跟一个唯一的编号，例如miR156-5p-1和miR156-5p-2。在49个假定的miRNA中，鉴定出20个非冗余的成熟miRNA序列。一些miRNA可以从多个位点转录，导致代表更多的miRNA。在测试数据中，miR9666-3p-5表示两次：一次在义链上（在602887137处），另一个在反义链上（在542053079处）。所有位置都在 GitHub 中名为 mature_high_conf_v22_1.fa.filtered.fasta.results.tbl. hairpins.tbl.out.tbl 的 TestData 输出文件下提供。

考虑到植物中miRNA的保守性，一个植物基因组中的表达证据就足够了;然而，高置信度的miRNA数据集只能提供有限数量的数据。因此，用户倾向于使用高置信度和/或实验验证的miRNA作为参考数据集并跳过表达验证步骤，或者使用所有可用的植物miRNA作为参考数据集，然后寻找表达证据。在这里，由于使用高置信度miRNA作为参考集，该参考集已在其中一个植物基因组中进行实验验证，因此跳过了测试数据的表达验证步骤。

mirMachine使用单子叶植物和双子叶植物进行了基准测试，包括拟南芥（拟南芥，TAIR10释放）和小麦（小麦，IWGSC RefSeq v2）。评估了基于同源性和基于sRNA-seq的预测的性能，并将结果与基于NGS的miRNA预测工具miRDP2²⁵进行了比较。使用沉积在miRbase v22²⁶上的植物成熟miRNA序列的非冗余列表执行基于同源的预测。使用公开可用的数据集执行基于sRNA-seq的预测;GSM2094927用于拟南芥，GSM1294661用于小麦。除了原始结果外，还使用相同的sRNA-seq数据集过滤了基于同源性的预测，以获取成熟miRNA和miRNA星序列的表达证据。

图 2 显示了每种刀具的性能以及两种刀具的 mirMachine 设置。灵敏度的计算方法是将鉴定出的已知miRNA总数除以鉴定的miRNA总数。结果表明，mirMachine在拟南芥数据的灵敏度和真阳性预测方面优于miRDP2。对于小麦数据，基于miMachine同源性的预测，在表达证据的支持下，提供了比miRDP2更好的灵敏度。对于这两个基因组，miRDP2预测的真阳性数量高于mirMachine sRNA-seq和基于同源性的表达证据预测。应该注意的是，miRDP2将预测已知miRNA的表达阈值（RPM，每百万读数）从10降低到1，从而产生更高的真阳性预测。通常，mirMachine可用于鉴定新型和已知的miRNA。mirMachine的一个优点是它能够预测假定miRNA的全基因组分布，而不受特定组织和条件的限制。最后，mirMachine 是用户友好的，可以灵活地调整参数，例如命中次数、不匹配、miRNA 长度和 RPM，用于特定的研究目的。综上所述，mirMachine为转录组和植物基因组中的假定miRNA提供了准确的预测。

图 1：从 IWGSC 小麦参考基因组 v2 的染色体 5A 中鉴定的 miRNA 家族的分布。 数据标签显示 miRNA 家族和属于每个 miRNA 家族的 miRNA 数量。缩写：miRNA = microRNA;IWGSC = 国际小麦基因组测序联盟。请点击此处查看此图的大图。

图 2：mirMachine 的性能评估。 显示了miMachine的灵敏度和已知miRNA预测总数（真阳性）与基于同源性和sRNA-seq的预测以及miRDP2软件的比较。缩写：miRNA = microRNA。请点击此处查看此图的大图。

基因组	基因组大小	参考 miRNA 数据集	mirMachine_find点击	mirMAchine_fold点击	# 个 miRNA 家族
测试数据	~0.7 千兆字节	189	312	49	9
Chr5A

表1：mirMachine的统计数据。测试数据来自IWGSC小麦参考基因组v2的染色体5A。缩写：miRNA = microRNA;IWGSC = 国际小麦基因组测序联盟。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

我们的miRNA管线SUmir在过去十年中一直用于鉴定许多植物miRNA。在这里，我们开发了一种新的、全自动的、免费提供的miRNA鉴定和注释管道mirMachine。此外，许多miRNA鉴定管道，包括但不限于以前的管道，都依赖于UNAfold软件²¹，该软件随着时间的推移成为商业软件，尽管曾经免费提供。这种新的全自动 mirMachine 不再依赖于 UNAfold;相反，来自ViennaRNA包²⁷ 的免费RNAfold用于二级结构预测。此外，mirMachine 的所有脚本都收集在一个参数可调的 bash 脚本中，使 mirMachine 成为全自动且免费提供的 miRNA 预测和注释工具。

mirMachine受益于植物miRNA的特性及其生物发生。与动物前miRNA相反，植物前miRNA的长度和结构特征是可变^的15。因此，根据miRNA的特性及其生物发生，已经为植物miRNA的鉴定设定了标准¹⁵。没有为前miRNA长度设定截止值，因为植物前miRNA的长度可以显着变化，并且可能长达数百个核苷酸。相反，首先评估了长度限制在~700 bp的pri-miRNA结构折叠。之后，从候选的pri-miRNA序列中预测前miRNA序列，并评估适当的折叠统计。

许多植物基因组，特别是具有农艺重要性的谷物，如小麦和大麦，具有高度重复的基因组²⁸，²⁹^，³⁰。除了高重复含量外，在其中一些植物中观察到多倍体²⁴，这给miRNA结构的计算机鉴定和表征带来了额外的复杂性。重复序列是产生siRNA 31的主要来源，siRNA³¹类似于成熟形式的miRNA;然而，它们在生物发生和功能上有所不同³²^，³³。从候选miRNA列表中消除siRNA是极其困难的。事实上，据报道，使用最广泛的miRNA数据库miRBase²⁶包含大量错误注释为miRNA³⁴^，³⁵的siRNA。基于其生物发生的差异，mirMachine过滤与反义链形成完美配对的小RNA作为siRNA，并将这些序列放入可疑表中。此外，mirMachine 具有 -n 选项，该选项定义了将候选 RNA 过滤为 siRNA 的最大命中次数。

需要表达证据来验证 计算机中预测的所有miRNA。由于miRNA在植物基因组中高度保守，因此其中一个植物基因组中的表达证据应足以证实预测miRNA的有效性。在初始筛选过程中使用高置信度、成熟的miRNA序列具有为所有预测的miRNA提供表达证据的优势;然而，初始miRNA数据集的简短列表限制了对基因组中一组全面的miRNA的预测。或者，存放在miRBase数据库中的全套植物miRNA可以用作初始数据集，而不是过滤高置信度的miRNA。如果感兴趣的物种没有任何表达数据，建议用户通过表达的序列标签、miRNA 微阵列或至少一个植物基因组的小 RNA 测序数据寻找表达证据。

基于同源的miRNA预测可以帮助阐明已知miRNA家族的全基因组分布。这些miRNA可能在某些组织和条件下表达。基于同源的预测的一个缺点是缺乏识别新型miRNA家族的能力。相比之下，基于sRNA-seq的预测可以识别具有大量假阳性代价的新型miRNA。因此，最佳方法的选择取决于用户和感兴趣的研究。这里介绍的miMachine可以帮助根据与已知miRNA的同源性或sRNA测序来鉴定miRNA。

Subscription Required. Please recommend JoVE to your librarian.

Materials

Name	Company	Catalog Number	Comments
https://www.ncbi.nlm.nih.gov/books/NBK279671/			Blast+
https://github.com/hbusra/mirMachine.git			mirMachine submission script
https://www.perl.org/get.html			Perl
https://www.tbi.univie.ac.at/RNA/			RNAfold
Arabidopsis TAIR10
Triticum aestivum (wheat, IWGSC RefSeq v2)