Summary

mirMachine: En one-stop-shop for plante miRNA-annotation

Published: May 01, 2021
doi:

Summary

Heri præsenterer vi en ny og fuldautomatisk miRNA-pipeline, mirMachine, der 1) kan identificere kendte og nye miRNA’er mere præcist og 2) er fuldautomatisk og frit tilgængelig. Brugere kan nu udføre et kort indsendelsesscript for at køre den fuldautomatiske mirMachine-pipeline.

Abstract

Af forskellige typer ikke-kodende RNA’er har mikroRNA’er (miRNA’er) uden tvivl været i søgelyset i løbet af det sidste årti. Som post-transkriptionelle regulatorer af genekspression spiller miRNA’er nøgleroller i forskellige cellulære veje, herunder både udvikling og respons på a / biotisk stress, såsom tørke og sygdomme. At have referencegenomsekvenser af høj kvalitet muliggjorde identifikation og annotation af miRNA’er i flere plantearter, hvor miRNA-sekvenser er meget bevarede. Da beregningsmæssige miRNA-identifikations- og annotationsprocesser for det meste er fejlbehæftede processer, øger homologibaserede forudsigelser forudsigelsesnøjagtigheden. Vi har udviklet og forbedret miRNA-annotationspipelinen, SUmir, i det sidste årti, som er blevet brugt til flere plantegenomer siden da.

Denne undersøgelse præsenterer en fuldt automatiseret, ny miRNA-pipeline, mirMachine (miRNA-maskine), ved (i) at tilføje et yderligere filtreringstrin på forudsigelserne af sekundær struktur, (ii) gøre den fuldt automatiseret og (iii) introducere nye muligheder for at forudsige enten kendt miRNA baseret på homologi eller nye miRNA’er baseret på små RNA-sekventeringslæsninger ved hjælp af den tidligere pipeline. Den nye miRNA-pipeline, mirMachine, blev testet ved hjælp af Arabidopsis Information Resource, TAIR10, frigivelse af Arabidopsis-genomet og International Wheat Genome Sequencing Consortium (IWGSC) hvedereferencegenom v2.

Introduction

Fremskridt inden for næste generations sekventeringsteknologier har udvidet forståelsen af RNA-strukturer og regulatoriske elementer og afsløret funktionelt vigtige ikke-kodende RNA’er (ncRNA’er). Blandt forskellige typer ncRNA’er udgør mikroRNA’er (miRNA’er) en grundlæggende regulatorisk klasse af små RNA’er med en længde mellem 19 og 24 nukleotider i planter 1,2. Siden opdagelsen af det første miRNA i nematoden Caenorhabditis elegans3 er tilstedeværelsen og funktionerne af miRNA’er blevet undersøgt grundigt i dyre- og plantegenomer samt 4,5,6. miRNA’er fungerer ved at målrette mRNA’er til spaltning eller translationel undertrykkelse7. Akkumulerende beviser har også vist, at miRNA’er er involveret i en lang række biologiske processer i planter, herunder vækst og udvikling8, selvbiogenese9 og flere biotiske og abiotiske stressresponser10.

I planter behandles miRNA’er oprindeligt fra lange primære transkripter kaldet pri-miRNA’er11. Disse pri-miRNA’er genereret af RNA-polymerase II inde i kernen er lange transkripter, der danner en ufuldkommen fold-back-struktur12. Pri-miRNA’erne gennemgår senere en spaltningsproces for at producere endogene enkeltstrengede (ss) hårnåleforstadier til miRNA’er kaldet pre-miRNA’er11. Pre-miRNA’et danner en hårnållignende struktur, hvor en enkelt streng foldes ind i en dobbeltstrenget struktur for at udskære en miRNA-duplex (miRNA / miRNA *)13. Dicer-lignende protein skærer begge tråde af miRNA / miRNA * duplex, hvilket efterlader 2-nukleotid 3′-overhæng14,15. MiRNA-duplexet methyleres inde i kernen, hvilket beskytter 3′-enden af miRNA’et mod nedbrydning og uridylationsaktivitet16,17. En helicase afvikler den methylerede miRNA-duplex efter eksport og udsætter det modne miRNA for det RNA-inducerede hæmningskompleks (RISC) i cytosolen18. Den ene streng af duplexet er modent miRNA inkorporeret i RISC , mens den anden streng, miRNA *, nedbrydes. MiRNA-RISC-komplekset binder til målsekvensen, hvilket fører til enten mRNA-nedbrydning i tilfælde af fuld komplementaritet eller translationel undertrykkelse i tilfælde af delvis komplementaritet13.

Baseret på ekspressions- og biogenesefunktionerne er retningslinjer for miRNA-annotation beskrevet15,19. Med de definerede retningslinjer udviklede Lucas og Budak SUmir-rørledningen til at udføre en homologibaseret in silico miRNA-identifikation i planter9. SUmir-pipelinen bestod af to scripts: SUmirFind og SUmirFold. SUmirFind udfører lighedssøgninger mod kendte miRNA-datasæt gennem National Center for Biotechnology Information (NCBI) Basic Local Alignment Search Tool (BLAST) screening med modificerede parametre til at omfatte hits med kun 2 eller færre uoverensstemmelser og for at undgå bias mod kortere hits (blastn-short -ungapped -penalty -1 -reward 1). SUmirFold evaluerer den sekundære struktur af de formodede miRNA-sekvenser fra BLAST20-resultater ved hjælp af UNAfold21. SUmirFold adskiller miRNA’er fra små interfererende RNA’er ved identifikation af egenskaberne ved hårnålstruktur. Desuden adskiller det miRNA’er fra andre ssRNA’er såsom tRNA og rRNA ved parametrene, minimum foldenergiindeks > 0,67 og GC-indhold på 24-71%. Denne pipeline er for nylig blevet opdateret ved at tilføje to yderligere trin for at (i) øge følsomheden, (ii) øge annotationsnøjagtigheden og (iii) give genomisk fordeling af de forudsagte miRNA-gener22. I betragtning af den høje bevarelse af plante-miRNA-sekvenser23 blev denne pipeline oprindeligt designet til homologibaseret miRNA-forudsigelse. Nye miRNA’er kunne imidlertid ikke identificeres nøjagtigt med denne bioinformatikanalyse, da den var stærkt afhængig af sekvensbevarelse af miRNA’er mellem nært beslægtede arter.

Dette papir præsenterer en ny og fuldautomatisk miRNA-pipeline, mirMachine, der 1) kan identificere kendte og nye miRNA’er mere præcist (for eksempel bruger rørledningen nu sRNA-seq-baserede nye miRNA-forudsigelser samt homologibaseret miRNA-identifikation) og 2) er fuldt automatiseret og frit tilgængelig. Outputtene har også inkluderet de genomiske fordelinger af de forudsagte miRNA’er. mirMachine blev testet for både homologibaserede og sRNA-seq-baserede forudsigelser i hvede- og Arabidopsis-genomer . Selvom UNAfold oprindeligt blev udgivet som fri software, blev det en kommerciel software i det sidste årti. Med denne opgradering blev det sekundære strukturforudsigelsesværktøj skiftet fra UNAfold til RNAfold, så mirMachine kan være frit tilgængeligt. Brugere kan nu udføre et kort indsendelsesscript for at køre den fuldautomatiske mirMachine-pipeline (eksempler findes på https://github.com/hbusra/mirMachine.git).

Protocol

1. Softwareafhængigheder og installation Installer softwareafhængigheder fra deres hjemmeside eller ved hjælp af conda.Download og installer Perl, hvis den ikke allerede er installeret, fra sit websted (https://www.perl.org/get.html).BEMÆRK: Repræsenterede resultater blev forudsagt ved hjælp af Perl v5.32.0. Download Blast+, et justeringsprogram, fra dets hjemmeside (https://www.ncbi.nlm.nih.gov/books/NBK279671/) som en eksekverbar og som kildekode.BEMÆRK: Repræsenterede resul…

Representative Results

MiRNA-rørledningen, mirMachine, beskrevet ovenfor, blev anvendt på testdataene til hurtig evaluering af rørledningens ydeevne. Kun de højkonfidensplantemiRNA’er, der blev deponeret ved miRBase v22.1, blev screenet mod kromosom 5A af IWGSC-hvede RefSeq-genomet v224. mirMachine_find returnerede 312 hits til den ikke-redundante liste over 189 miRNA’er med høj tillid med maksimalt 1 tilladt mismatch (tabel 1). mirMachine_fold klassificerede 49 af dem som formodede miRNA’er afhæn…

Discussion

Vores miRNA-pipeline, SUmir, er blevet brugt til identifikation af mange plante-miRNA’er i det sidste årti. Her udviklede vi en ny, fuldautomatisk og frit tilgængelig miRNA-identifikations- og annotationspipeline, mirMachine. Desuden var en række miRNA-identifikationsrørledninger, herunder, men ikke begrænset til, den tidligere pipeline, afhængige af UNAfold-software21, som blev en kommerciel software over tid, selvom den engang var frit tilgængelig. Denne nye og fuldautomatiske mirMachine …

Materials

https://www.ncbi.nlm.nih.gov/books/NBK279671/ Blast+
https://github.com/hbusra/mirMachine.git mirMachine submission script
https://www.perl.org/get.html Perl
https://www.tbi.univie.ac.at/RNA/ RNAfold
Arabidopsis TAIR10
Triticum aestivum (wheat, IWGSC RefSeq v2)

References

  1. Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
  2. Budak, H., Akpinar, B. A. Plant miRNAs: biogenesis, organization and origins. Functional & Integrative Genomics. 15 (5), 523-531 (2015).
  3. Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
  4. Zhang, L., et al. Exogenous plant MIR168a specifically targets mammalian LDLRAP1: evidence of cross-kingdom regulation by microRNA. Cell Research. 22 (1), 107-126 (2012).
  5. Pang, K. C., Frith, M. C., Mattick, J. S. Rapid evolution of noncoding RNAs: Lack of conservation does not mean lack of function. Trends in Genetics. 22 (1), 1-5 (2006).
  6. Guleria, P., Mahajan, M., Bhardwaj, J., Yadav, S. K. Plant small RNAs: biogenesis, mode of action and their roles in abiotic stresses. Genomics, Proteomics and Bioinformatics. 9 (6), 183-199 (2011).
  7. Jones-Rhoades, M. W., Bartel, D. P., Bartel, B. MicroRNAs and their regulatory roles in plants. Annual Review of Plant Biology. 57, 19-53 (2006).
  8. Singh, A., et al. Plant small RNAs: advancement in the understanding of biogenesis and role in plant development. Planta. 248 (3), 545-558 (2018).
  9. Lucas, S. J., Budak, H. Sorting the wheat from the chaff: identifying miRNAs in genomic survey sequences of Triticum aestivum chromosome 1AL. PloS One. 7 (7), 40859 (2012).
  10. Li, S., Castillo-González, C., Yu, B., Zhang, X. The functions of plant small RNAs in development and in stress responses. Plant Journal. 90 (4), 654-670 (2017).
  11. Lee, Y., Jeon, K., Lee, J. T., Kim, S., Kim, V. N. MicroRNA maturation: Stepwise processing and subcellular localization. EMBO Journal. 21 (17), 4663-4670 (2002).
  12. Lee, Y., et al. MicroRNA genes are transcribed by RNA polymerase II. EMBO Journal. 23 (2), 4051-4060 (2004).
  13. Bartel, D. P. MicroRNAs: Genomics, biogenesis, mechanism, and function. Cell. 116 (2), 281-297 (2004).
  14. Lee, Y., et al. The nuclear RNase III Drosha initiates microRNA processing. Nature. 425 (6956), 415-419 (2003).
  15. Meyers, B. C., et al. Criteria for annotation of plant microRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
  16. Sanei, M., Chen, X. Mechanisms of microRNA turnover. Current Opinion in Plant Biology. 27, 199-206 (2015).
  17. Li, J., Yang, Z., Yu, B., Liu, J., Chen, X. Methylation protects miRNAs and siRNAs from a 3′-end uridylation activity in Arabidopsis. Current Biology. 15 (16), 1501-1507 (2005).
  18. Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
  19. Axtell, M. J., Meyers, B. C. Revisiting criteria for plant microRNA annotation in the Era of big data. Plant Cell. 30 (2), 272-284 (2018).
  20. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10 (1), 421 (2009).
  21. Markham, N. R. N., Zuker, M. UNAFold: Software for nucleic acid folding and hybridization. Methods in Molecular Biology. 453, 3-31 (2008).
  22. Alptekin, B., Akpinar, B. A., Budak, H. A comprehensive prescription for plant miRNA identification. Frontiers in Plant Science. 7, 2058 (2017).
  23. Zhang, B., Pan, X., Cannon, C. H., Cobb, G. P., Anderson, T. A. Conservation and divergence of plant microRNA genes. Plant Journal. 46 (2), 243-259 (2006).
  24. Appels, R., et al. Shifting the limits in wheat research and breeding using a fully annotated reference genome. Science. 361 (6403), 7191 (2018).
  25. Wang, Y., Kuang, Z., Li, L., Yang, X. A bioinformatics pipeline to accurately and efficiently analyze the microRNA transcriptomes in plants. Journal of Visualized Experiments: JoVE. (155), e59864 (2020).
  26. Kozomara, A., Griffiths-Jones, S. MiRBase: Annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, 68-73 (2014).
  27. Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6 (1), 26 (2011).
  28. Wicker, T., et al. Impact of transposable elements on genome structure and evolution in bread wheat. Genome Biology. 19 (1), 103 (2018).
  29. Flavell, R. B., Bennett, M. D., Smith, J. B., Smith, D. B. Genome size and the proportion of repeated nucleotide sequence DNA in plants. Biochemical Genetics. 12 (4), 257-269 (1974).
  30. Wicker, T., et al. The repetitive landscape of the 5100 Mbp barley genome. Mobile DNA. 8, 22 (2017).
  31. Yang, Q., Ye, Q. A., Liu, Y. Mechanism of siRNA production from repetitive DNA. Genes and Development. 29 (5), 526-537 (2015).
  32. Lam, J. K. W., Chow, M. Y. T., Zhang, Y., Leung, S. W. S. siRNA versus miRNA as therapeutics for gene silencing. Molecular Therapy. Nucleic Acids. 4 (9), 252 (2015).
  33. Bartel, B. MicroRNAs directing siRNA biogenesis. Nature Structural and Molecular Biology. 12 (7), 569-571 (2005).
  34. Meng, Y., Shao, C., Wang, H., Chen, M. Are all the miRBase-registered microRNAs true? A structure- and expression-based re-examination in plants. RNA Biology. 9 (3), 249-253 (2012).
  35. Berezikov, E., et al. Evolutionary flux of canonical microRNAs and mirtrons in Drosophila. Nature Genetics. 42 (1), 6-9 (2010).

Play Video

Cite This Article
Cagirici, H. B., Sen, T. Z., Budak, H. mirMachine: A One-Stop Shop for Plant miRNA Annotation. J. Vis. Exp. (171), e62430, doi:10.3791/62430 (2021).

View Video