Summary
在这里,我们提出了一种新的全自动miRNA管道mirMachine,它1)可以更准确地识别已知和新型的miRNA,2)是全自动且免费提供的。用户现在可以执行一个简短的提交脚本来运行全自动的 mirMachine 管道。
Abstract
在不同类型的非编码RNA中,microRNA(miRNA)可以说在过去十年中一直备受关注。作为基因表达的转录后调节因子,miRNA在各种细胞途径中起着关键作用,包括发育和对a/生物胁迫(如干旱和疾病)的反应。拥有高质量的参考基因组序列能够在几种植物物种中鉴定和注释miRNA,其中miRNA序列高度保守。由于计算miRNA鉴定和注释过程大多是容易出错的过程,因此基于同源的预测提高了预测的准确性。在过去的十年中,我们开发并改进了miRNA注释管道SUmir,从那时起,该管道已被用于多个植物基因组。
本研究提出了一种完全自动化的新型miRNA管道mirMachine(miRNA Machine),方法是(i)在二级结构预测上增加额外的过滤步骤,(ii)使其完全自动化,以及(iii)引入新的选项来预测基于同源性的已知miRNA或使用以前的管道基于小RNA测序读数的新型miRNA。新的miRNA管道mirMachine使用拟南芥信息资源TAIR10, 拟南芥 基因组的发布和国际小麦基因组测序联盟(IWGSC)小麦参考基因组v2进行了测试。
Introduction
下一代测序技术的进步拓宽了对RNA结构和调控元件的理解,揭示了功能上重要的非编码RNA(ncRNA)。在不同类型的ncRNA中,microRNA(miRNA)构成了植物中长度在19至24个核苷酸之间的小RNA的基本调节类别1,2。自从在线虫秀丽隐杆线虫3中发现第一个miRNA以来,miRNA的存在和功能已经在动植物基因组以及4,5,6中得到了广泛的研究。miRNA通过靶向mRNA进行切割或翻译抑制来发挥作用7。越来越多的证据还表明,miRNA参与植物的各种生物过程,包括生长和发育8,自我生物发生9以及几种生物和非生物胁迫反应10。
在植物中,miRNA最初是从称为pri-miRNA11的长初级转录本加工而来的。这些由细胞核内的RNA聚合酶II产生的pri-miRNA是长转录物,形成不完美的折返结构12。pri-miRNA后来经历切割过程,产生miRNA的内源性单链(ss)发夹前体,称为pre-miRNA11。前miRNA形成发夹状结构,其中单链折叠成双链结构以切除miRNA双链(miRNA/miRNA*)13。Dicer样蛋白切割miRNA/miRNA*双链的两条链,留下2-核苷酸3'-突出部14,15。miRNA 双链体在细胞核内甲基化,保护 miRNA 的 3'-末端免受降解和尿苷化活性16,17。解旋酶在输出后解开甲基化的miRNA双链体,并将成熟的miRNA暴露于细胞质中RNA诱导的沉默复合物(RISC)18。双链的一条链是成熟的miRNA并入RISC,而另一条链miRNA*被降解。miRNA-RISC复合物与靶序列结合,导致mRNA在完全互补的情况下降解,或在部分互补的情况下导致翻译抑制13。
基于表达和生物发生特征,已经描述了miRNA注释的指南15,19。根据定义的指南,Lucas和Budak开发了SUmir管道,以在植物9中进行基于同源的计算机miRNA鉴定。SUmir 管道由两个脚本组成:SUmirFind 和 SUmirFold。SUmirFind 通过国家生物技术信息中心 (NCBI) 基本局部比对搜索工具 (BLAST) 筛选对已知的 miRNA 数据集进行相似性搜索,并使用修改后的参数来包括只有 2 个或更少不匹配的命中,并避免偏向较短的命中(blastn-short -unapped -punishment -1 -reward 1)。SUmirFold使用UNAfold 21评估BLAST20结果中推定miRNA序列的二级结构。SUmirFold通过鉴定发夹结构的特征来区分miRNA与小干扰RNA。此外,它通过参数、最小折叠能量指数> 0.67 和 GC 含量 24-71% 来区分 miRNA 与其他 ssRNA(如 tRNA 和 rRNA)。该管道最近进行了更新,增加了两个额外的步骤,以(i)提高灵敏度,(ii)提高注释准确性,以及(iii)提供预测miRNA基因的基因组分布22。鉴于植物miRNA序列23的高度保守性,该管道最初设计用于基于同源的miRNA预测。然而,这种生物信息学分析无法准确鉴定新型miRNA,因为它严重依赖于密切相关物种之间miRNA的序列保守。
本文提出了一种新的全自动miRNA管道mirMachine,它1)可以更准确地识别已知和新型miRNA(例如,该管道现在使用基于sRNA-seq的新型miRNA预测以及基于同源的miRNA鉴定)和2)完全自动化且免费提供。输出还包括预测miRNA的基因组分布。mirMachine在小麦和 拟南芥 基因组中测试了基于同源性和基于sRNA-seq的预测。虽然最初作为自由软件发布,但UNAfold在过去十年中成为商业软件。通过这次升级,二级结构预测工具从UNAfold切换到RNAfold,以便可以免费使用mirMachine。用户现在可以执行一个简短的提交脚本来运行全自动的 mirMachine 管道( 示例在 https://github.com/hbusra/mirMachine.git 中提供)。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
1. 软件依赖和安装
- 从其主站点或使用 conda 安装软件依赖项。
- 下载并安装 Perl,如果尚未安装,请从其主站点 (https://www.perl.org/get.html)。
注意:表示的结果是使用 Perl v5.32.0 预测的。 - 从其主站点(https://www.ncbi.nlm.nih.gov/books/NBK279671/)下载Blast+,一个对齐程序,作为可执行文件和源代码。
注意:表示的结果是使用 BLAST 2.6.0+ 预测的。 - 从 https://www.tbi.univie.ac.at/RNA/ 安装RNAfold的预编译包。
- 或者,使用以下 conda 安装这些软件:i) conda install -c bioconda blast;ii) 康达安装-c Bioconda Viennarna。
- 下载并安装 Perl,如果尚未安装,请从其主站点 (https://www.perl.org/get.html)。
2. 幻影机的设置和测试
- 从 GitHub, https://github.com/hbusra/mirMachine.git 下载最新版本的 mirMachine 脚本和 mirMachine 提交脚本,然后将脚本路径设置为 PATH。
- 使用 GitHub 上提供的测试数据来确保 mirMachine 及其所有依赖项已正确下载。
- 在下面显示的测试数据上运行 mirMachine。
bash mirMachine_submit.sh -f iwgsc_v2_chr5A.fasta -i mature_high_conf_v22_1.fa.filtered.fasta -n 10
注意:将 -n 选项设置为 10,因为测试数据仅包含小麦基因组的一个染色体。缺省情况下, -n 选项设置为 20。 - 控制预测的成熟miRNA的 hairpins.tbl.out.tbl 输出文件,其预测的前体及其在染色体上的位置。
- 检查日志文件中的程序输出和警告。
3. 基于同源性的miRNA鉴定
- 使用如下所示的 bash 脚本运行 mirMachine:
bash mirMachine_submit.sh -f $genome_file -i $input_file -m $mismatches -n $number_of_hits - 检查预测的miRNA。查找名为 $input_file.results.tbl.hairpins.tbl.out.tbl 的输出文件,用于预测的 miRNA。查找名为 $input_file.results.tbl.hairpins.fsa 的输出文件,用于前 miRNA FASTA 序列。查找名为 $input_file.results.tbl.hairpins.log 的输出文件作为发夹日志文件。
4. 新型miRNA鉴定
- 将sRNA-seq FASTQ文件预处理为正确的FASTA格式。如果需要,修剪适配器。不要修剪低质量的阅读;相反,请删除它们。删除包含 N 的读取。将 FASTQ 文件转换为 FASTA 文件 ($input_file)。
- 使用如下所示的 bash 脚本运行 mirMachine。
bash mirMachine_submit.sh -f $genome_file -i $input_file -n $number_of_hits -sRNAseq -lmax $lmax -lmin $lmin -rpm $rpm
注意: 对于 基于 sRNA-seq 的预测,$mismatches设置为 0。 - 检查预测的miRNA。查找名为 $input_file.results.tbl.hairpins.tbl.out.tbl 的输出文件,用于预测的 miRNA。查找名为 $input_file.results.tbl.hairpins.fsa 的输出文件,用于前 miRNA FASTA 序列。查找名为 $input_file.results.tbl.hairpins.log 的输出文件作为发夹日志文件。
5. 高级参数
注意:为除基因组文件和输入 miRNA 文件之外的所有参数定义默认值。
- 将 -db 选项设置为爆炸数据库以跳过管道中的建筑参考数据库。
- 将 -m 选项设置为允许的不匹配数。
注意:默认情况下, -m 选项设置为1,对于基于同源的预测,设置为0,用于基于sRNA-seq的预测。 - 将 -n 设置为对齐后要消除的命中数(默认为 20)。根据物种进行更改。
- 使用 -long 评估可疑列表的辅助结构。
- 使用 - s 激活基于 sRNA-seq 数据的新型 miRNA 预测。
- 将 -lmax 选项设置为要包含在筛选中的 sRNA-seq 读取的最大长度。
- 将 -lmax 选项设置为要包含在筛选中的 sRNA-seq 读数的最小长度。
- 使用 -rpm 选项设置每百万读取数 (RPM) 阈值。
注意:对于高级参数,如pri-miRNA/pre-miRNA的长度,鼓励有经验的用户修改他们感兴趣的研究脚本。此外,如果用户打算跳过某些步骤或更喜欢使用修改后的输出,只需在行首添加 # 即可跳过这些行来修改提交脚本。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
将上述miRNA管道mirMachine应用于测试数据,以快速评估管道的性能。仅对沉积在miRBase v22.1的高置信度植物miRNA进行了针对IWGSC小麦RefSeq基因组v224的染色体5A进行筛选。mirMachine_find为189个高置信度miRNA的非冗余列表返回了312次命中,最多允许1次错配(表1)。mirMachine_fold根据二级结构评估将其中49种归类为推定的miRNA。代表性最高的miRNA组是miR9666,共鉴定出18个miRNA(图1)。一些miRNA共享相同的成熟miRNA,但从不同的pre-miRNA序列处理而来。这些miRNA由miRNA家族名称重新命名,后跟一个唯一的编号,例如miR156-5p-1和miR156-5p-2。在49个假定的miRNA中,鉴定出20个非冗余的成熟miRNA序列。一些miRNA可以从多个位点转录,导致代表更多的miRNA。在测试数据中,miR9666-3p-5表示两次:一次在义链上(在602887137处),另一个在反义链上(在542053079处)。所有位置都在 GitHub 中名为 mature_high_conf_v22_1.fa.filtered.fasta.results.tbl. hairpins.tbl.out.tbl 的 TestData 输出文件下提供。
考虑到植物中miRNA的保守性,一个植物基因组中的表达证据就足够了;然而,高置信度的miRNA数据集只能提供有限数量的数据。因此,用户倾向于使用高置信度和/或实验验证的miRNA作为参考数据集并跳过表达验证步骤,或者使用所有可用的植物miRNA作为参考数据集,然后寻找表达证据。在这里,由于使用高置信度miRNA作为参考集,该参考集已在其中一个植物基因组中进行实验验证,因此跳过了测试数据的表达验证步骤。
mirMachine使用单子叶植物和双子叶植物进行了基准测试,包括拟南芥(拟南芥,TAIR10释放)和小麦(小麦,IWGSC RefSeq v2)。 评估了基于同源性和基于sRNA-seq的预测的性能,并将结果与基于NGS的miRNA预测工具miRDP225进行了比较。使用沉积在miRbase v2226上的植物成熟miRNA序列的非冗余列表执行基于同源的预测。使用公开可用的数据集执行基于sRNA-seq的预测;GSM2094927用于拟南芥,GSM1294661用于小麦。除了原始结果外,还使用相同的sRNA-seq数据集过滤了基于同源性的预测,以获取成熟miRNA和miRNA星序列的表达证据。
图 2 显示了每种刀具的性能以及两种刀具的 mirMachine 设置。灵敏度的计算方法是将鉴定出的已知miRNA总数除以鉴定的miRNA总数。结果表明,mirMachine在拟 南芥 数据的灵敏度和真阳性预测方面优于miRDP2。对于小麦数据,基于miMachine同源性的预测,在表达证据的支持下,提供了比miRDP2更好的灵敏度。对于这两个基因组,miRDP2预测的真阳性数量高于mirMachine sRNA-seq和基于同源性的表达证据预测。应该注意的是,miRDP2将预测已知miRNA的表达阈值(RPM,每百万读数)从10降低到1,从而产生更高的真阳性预测。通常,mirMachine可用于鉴定新型和已知的miRNA。mirMachine的一个优点是它能够预测假定miRNA的全基因组分布,而不受特定组织和条件的限制。最后,mirMachine 是用户友好的,可以灵活地调整参数,例如命中次数、不匹配、miRNA 长度和 RPM,用于特定的研究目的。综上所述,mirMachine为转录组和植物基因组中的假定miRNA提供了准确的预测。
图 1:从 IWGSC 小麦参考基因组 v2 的染色体 5A 中鉴定的 miRNA 家族的分布。 数据标签显示 miRNA 家族和属于每个 miRNA 家族的 miRNA 数量。缩写:miRNA = microRNA;IWGSC = 国际小麦基因组测序联盟。 请点击此处查看此图的大图。
图 2:mirMachine 的性能评估。 显示了miMachine的灵敏度和已知miRNA预测总数(真阳性)与基于同源性和sRNA-seq的预测以及miRDP2软件的比较。缩写:miRNA = microRNA。 请点击此处查看此图的大图。
基因组 | 基因组大小 | 参考 miRNA 数据集 | mirMachine_find点击 | mirMAchine_fold点击 | # 个 miRNA 家族 |
测试数据 | ~0.7 千兆字节 | 189 | 312 | 49 | 9 |
Chr5A |
表1:mirMachine的统计数据。测试数据来自IWGSC小麦参考基因组v2的染色体5A。缩写:miRNA = microRNA;IWGSC = 国际小麦基因组测序联盟。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
我们的miRNA管线SUmir在过去十年中一直用于鉴定许多植物miRNA。在这里,我们开发了一种新的、全自动的、免费提供的miRNA鉴定和注释管道mirMachine。此外,许多miRNA鉴定管道,包括但不限于以前的管道,都依赖于UNAfold软件21,该软件随着时间的推移成为商业软件,尽管曾经免费提供。这种新的全自动 mirMachine 不再依赖于 UNAfold;相反,来自ViennaRNA包27 的免费RNAfold用于二级结构预测。此外,mirMachine 的所有脚本都收集在一个参数可调的 bash 脚本中,使 mirMachine 成为全自动且免费提供的 miRNA 预测和注释工具。
mirMachine受益于植物miRNA的特性及其生物发生。与动物前miRNA相反,植物前miRNA的长度和结构特征是可变的15。因此,根据miRNA的特性及其生物发生,已经为植物miRNA的鉴定设定了标准15。没有为前miRNA长度设定截止值,因为植物前miRNA的长度可以显着变化,并且可能长达数百个核苷酸。相反,首先评估了长度限制在~700 bp的pri-miRNA结构折叠。之后,从候选的pri-miRNA序列中预测前miRNA序列,并评估适当的折叠统计。
许多植物基因组,特别是具有农艺重要性的谷物,如小麦和大麦,具有高度重复的基因组28,29,30。除了高重复含量外,在其中一些植物中观察到多倍体24,这给miRNA结构的计算机鉴定和表征带来了额外的复杂性。重复序列是产生siRNA 31的主要来源,siRNA31类似于成熟形式的miRNA;然而,它们在生物发生和功能上有所不同32,33。从候选miRNA列表中消除siRNA是极其困难的。事实上,据报道,使用最广泛的miRNA数据库miRBase26包含大量错误注释为miRNA34,35的siRNA。基于其生物发生的差异,mirMachine过滤与反义链形成完美配对的小RNA作为siRNA,并将这些序列放入可疑表中。此外,mirMachine 具有 -n 选项,该选项定义了将候选 RNA 过滤为 siRNA 的最大命中次数。
需要表达证据来验证 计算机中预测的所有miRNA。由于miRNA在植物基因组中高度保守,因此其中一个植物基因组中的表达证据应足以证实预测miRNA的有效性。在初始筛选过程中使用高置信度、成熟的miRNA序列具有为所有预测的miRNA提供表达证据的优势;然而,初始miRNA数据集的简短列表限制了对基因组中一组全面的miRNA的预测。或者,存放在miRBase数据库中的全套植物miRNA可以用作初始数据集,而不是过滤高置信度的miRNA。如果感兴趣的物种没有任何表达数据,建议用户通过表达的序列标签、miRNA 微阵列或至少一个植物基因组的小 RNA 测序数据寻找表达证据。
基于同源的miRNA预测可以帮助阐明已知miRNA家族的全基因组分布。这些miRNA可能在某些组织和条件下表达。基于同源的预测的一个缺点是缺乏识别新型miRNA家族的能力。相比之下,基于sRNA-seq的预测可以识别具有大量假阳性代价的新型miRNA。因此,最佳方法的选择取决于用户和感兴趣的研究。这里介绍的miMachine可以帮助根据与已知miRNA的同源性或sRNA测序来鉴定miRNA。
Subscription Required. Please recommend JoVE to your librarian.
Materials
Name | Company | Catalog Number | Comments |
https://www.ncbi.nlm.nih.gov/books/NBK279671/ | Blast+ | ||
https://github.com/hbusra/mirMachine.git | mirMachine submission script | ||
https://www.perl.org/get.html | Perl | ||
https://www.tbi.univie.ac.at/RNA/ | RNAfold | ||
Arabidopsis TAIR10 | |||
Triticum aestivum (wheat, IWGSC RefSeq v2) |
References
- Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
- Budak, H., Akpinar, B. A. Plant miRNAs: biogenesis, organization and origins. Functional & Integrative Genomics. 15 (5), 523-531 (2015).
- Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
- Zhang, L., et al. Exogenous plant MIR168a specifically targets mammalian LDLRAP1: evidence of cross-kingdom regulation by microRNA. Cell Research. 22 (1), 107-126 (2012).
- Pang, K. C., Frith, M. C., Mattick, J. S. Rapid evolution of noncoding RNAs: Lack of conservation does not mean lack of function. Trends in Genetics. 22 (1), 1-5 (2006).
- Guleria, P., Mahajan, M., Bhardwaj, J., Yadav, S. K. Plant small RNAs: biogenesis, mode of action and their roles in abiotic stresses. Genomics, Proteomics and Bioinformatics. 9 (6), 183-199 (2011).
- Jones-Rhoades, M. W., Bartel, D. P., Bartel, B. MicroRNAs and their regulatory roles in plants. Annual Review of Plant Biology. 57, 19-53 (2006).
- Singh, A., et al. Plant small RNAs: advancement in the understanding of biogenesis and role in plant development. Planta. 248 (3), 545-558 (2018).
- Lucas, S. J., Budak, H. Sorting the wheat from the chaff: identifying miRNAs in genomic survey sequences of Triticum aestivum chromosome 1AL. PloS One. 7 (7), 40859 (2012).
- Li, S., Castillo-González, C., Yu, B., Zhang, X. The functions of plant small RNAs in development and in stress responses. Plant Journal. 90 (4), 654-670 (2017).
- Lee, Y., Jeon, K., Lee, J. T., Kim, S., Kim, V. N. MicroRNA maturation: Stepwise processing and subcellular localization. EMBO Journal. 21 (17), 4663-4670 (2002).
- Lee, Y., et al. MicroRNA genes are transcribed by RNA polymerase II. EMBO Journal. 23 (2), 4051-4060 (2004).
- Bartel, D. P. MicroRNAs: Genomics, biogenesis, mechanism, and function. Cell. 116 (2), 281-297 (2004).
- Lee, Y., et al. The nuclear RNase III Drosha initiates microRNA processing. Nature. 425 (6956), 415-419 (2003).
- Meyers, B. C., et al. Criteria for annotation of plant microRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
- Sanei, M., Chen, X.
Mechanisms of microRNA turnover. Current Opinion in Plant Biology. 27, 199-206 (2015). - Li, J., Yang, Z., Yu, B., Liu, J., Chen, X. Methylation protects miRNAs and siRNAs from a 3′-end uridylation activity in Arabidopsis. Current Biology. 15 (16), 1501-1507 (2005).
- Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
- Axtell, M. J., Meyers, B. C. Revisiting criteria for plant microRNA annotation in the Era of big data. Plant Cell. 30 (2), 272-284 (2018).
- Camacho, C., et al.
BLAST+: architecture and applications. BMC Bioinformatics. 10 (1), 421 (2009). - Markham, N. R. N., Zuker, M. UNAFold: Software for nucleic acid folding and hybridization. Methods in Molecular Biology. 453, 3-31 (2008).
- Alptekin, B., Akpinar, B. A., Budak, H. A comprehensive prescription for plant miRNA identification. Frontiers in Plant Science. 7, 2058 (2017).
- Zhang, B., Pan, X., Cannon, C. H., Cobb, G. P., Anderson, T. A. Conservation and divergence of plant microRNA genes. Plant Journal. 46 (2), 243-259 (2006).
- Appels, R., et al. Shifting the limits in wheat research and breeding using a fully annotated reference genome. Science. 361 (6403), 7191 (2018).
- Wang, Y., Kuang, Z., Li, L., Yang, X. A bioinformatics pipeline to accurately and efficiently analyze the microRNA transcriptomes in plants. Journal of Visualized Experiments: JoVE. (155), e59864 (2020).
- Kozomara, A., Griffiths-Jones, S. MiRBase: Annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, 68-73 (2014).
- Lorenz, R., et al.
ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6 (1), 26 (2011). - Wicker, T., et al. Impact of transposable elements on genome structure and evolution in bread wheat. Genome Biology. 19 (1), 103 (2018).
- Flavell, R. B., Bennett, M. D., Smith, J. B., Smith, D. B. Genome size and the proportion of repeated nucleotide sequence DNA in plants. Biochemical Genetics. 12 (4), 257-269 (1974).
- Wicker, T., et al. The repetitive landscape of the 5100 Mbp barley genome. Mobile DNA. 8, 22 (2017).
- Yang, Q., Ye, Q. A., Liu, Y. Mechanism of siRNA production from repetitive DNA. Genes and Development. 29 (5), 526-537 (2015).
- Lam, J. K. W., Chow, M. Y. T., Zhang, Y., Leung, S. W. S. siRNA versus miRNA as therapeutics for gene silencing. Molecular Therapy. Nucleic Acids. 4 (9), 252 (2015).
- Bartel, B.
MicroRNAs directing siRNA biogenesis. Nature Structural and Molecular Biology. 12 (7), 569-571 (2005). - Meng, Y., Shao, C., Wang, H., Chen, M. Are all the miRBase-registered microRNAs true? A structure- and expression-based re-examination in plants. RNA Biology. 9 (3), 249-253 (2012).
- Berezikov, E., et al. Evolutionary flux of canonical microRNAs and mirtrons in Drosophila. Nature Genetics. 42 (1), author reply 9-10 6-9 (2010).