Summary

En Bioinformatik rørledning til præcist og effektivt at analysere MicroRNA Transkriptomes i planter

Published: January 21, 2020
doi:

Summary

En Bioinformatik rørledning, nemlig miRDeep-P2 (miRDP2 for Short), med opdaterede plante-miRNA kriterier og en revideret algoritme, kunne præcist og effektivt analysere microRNA transkriptomes i planter, især for arter med komplekse og store genomer.

Abstract

MicroRNAs (miRNAs) er 20-til 24-nukleotid (NT) endogene små RNAs (sRNAs) omfattende eksisterende i planter og dyr, der spiller potente roller i reguleringen af genekspression på post-transkriptional niveau. Sekventering sRNA biblioteker af Next Generation Sequencing (NGS) metoder er blevet bredt anvendt til at identificere og analysere miRNA transkriptomes i det sidste årti, hvilket resulterer i en hurtig stigning i miRNA opdagelse. Der er imidlertid to store udfordringer i Plant miRNA-anmærkningen på grund af den stigende dybde af sekvenserede sRNA-biblioteker samt størrelsen og kompleksiteten af plante genomer. For det første, mange andre typer sRNAs, især kort forstyrrende RNAs (siRNAs) fra sRNA biblioteker, er fejlagtigt kommenteret som miRNAs af mange beregningsmæssige værktøjer. For det andet bliver det en meget tidskrævende proces for at analysere miRNA transkriptomes i plantearter med store og komplekse genomer. For at overvinde disse udfordringer opgraderede vi for nylig miRDeep-P (et populært værktøj til miRNA transcriptome-analyser) til miRDeep-P2 (miRDP2 for kort) ved at anvende en ny filtrerings strategi, der gennemgår point algoritmen og inkorporerer nyligt opdaterede anlæg miRNA kriterier for anmærkninger. Vi testede miRDP2 mod sekventerede sRNA-populationer i fem repræsentative fabrikker med stigende genomisk kompleksitet, herunder Arabidopsis, ris, tomat, majs og hvede. Resultaterne viser, at miRDP2 behandlede disse opgaver med meget høj effektivitet. Hertil kommer, miRDP2 udkonkurreret andre forudsigelse værktøjer vedrørende følsomhed og nøjagtighed. Tilsammen viser vores resultater miRDP2 som et hurtigt og præcist værktøj til at analysere Plant miRNA transkriptomes, derfor et nyttigt værktøj til at hjælpe Fællesskabet med bedre at annonere miRNAs i planter.

Introduction

En af de mest spændende opdagelser i de sidste to årtier i biologi er den prolifererende rolle sRNA arter i reguleringen af forskellige funktioner i genomet1. Især, Mirnas udgør en vigtig klasse af 20-til 24-NT srnas i eukaryoter, og hovedsagelig fungere på post-transkriptional niveau som fremtrædende gen regulatorer gennem hele livscyklussen udviklingsstadier samt i stimulus og stress respons2,3. I planter opstår Mirnas fra primære udskrifter kaldet pri-Mirnas, som generelt transskriberes af RNA polymerase II som individuelle transskriptions enheder4,5. Behandles af evolutionært bevaret cellulære maskiner (drosha RNase III i dyr, Dicer-lignende i planter), pri-Mirnas er exciseret i de umiddelbare Mirna prækursorer, præ-Mirnas, som indeholder sekvenser danner intra-molekylære Stam-loop strukturer6,7. Pre-mirnas forarbejdes derefter til dobbelt-strandede mellemprodukter, nemlig Mirna duplexer, bestående af den funktionelle streng, moden Mirna, og den mindre hyppigt funktionelle partner,Mirna *2,8. Efter indlæsset i det RNA-inducerede lyddæmpnings kompleks (RISC) kunne de modne Mirnas genkende deres mRNA-mål baseret på sekvens komplementaritet, hvilket resulterede i en negativreguleringsfunktion2,8. Mirnas kunne enten destabilisere deres mål udskrifter eller forhindre Target oversættelse, men den tidligere måde er domineret i planter8,9.

Da den fortuitøse opdagelse af den første Mirna i fyrretræsnematoden caenorhabditis elegans10,11, meget forskning har været forpligtet til at Mirna identifikation og dens funktionelle analyse, især efter tilgængeligheden af NGS metode. Den brede anvendelse af NGS-metoden har i høj grad fremmet udnyttelsen af beregningsmæssige værktøjer, der var designet til at fange den unikke funktion af miRNAs, såsom Stem-loop struktur af prækursorer og deres præference ophobning af sekvens læser på moden miRNA og miRNA *. Som følge heraf har forskerne opnået bemærkelsesværdig succes med at identificere miRNAs i forskellige arter. Baseret på en tidligere beskrevet Sandsynligheds model12, udviklede vi mirdeep-P13, som var det første beregningsmæssige værktøj til at opdage plante-Mirnas fra NGS-data. mirdeep-P var specifikt rettet mod at erobre udfordringerne ved afkodning plante Mirnas med mere variabel forløber længde og store paralogous familier13,14,15. Efter dens udgivelse, dette program er blevet hentet tusindvis af gange og bruges til at ankommentere miRNA transkriptomes i mere end 40 plantearter16. Drevet af NGS-baserede værktøjer som miRDeep-P, der har været en dramatisk stigning i antallet af registrerede miRNAs i det offentlige miRNA repository miRBase17, hvor over 38.000 Mirna elementer er i øjeblikket hostet (release 22,1) i forhold til kun ~ 500 Mirna elementer (Release 2,0) i 200818.

Men, to nye udfordringer er opstået fra Plant miRNA anmærkning. Første, høje nøgletal af falsk-positiver har stærkt påvirket kvaliteten af planten Mirna anmærkninger16,19 af følgende grunde: 1) en syndflod af endogene kort forstyrrende RNAs (sirnas) fra NGS Srna biblioteker blev fejlagtigt kommenteret som Mirnas på grund af manglende en streng Mirna annotation kriterier; 2) for arter uden a priori miRNA oplysninger, falsk-positiver forudsagt baseret på NGS data er svære at eliminere. Med miRBase som eksempel fandt Taylor et al.20 en tredjedel af plante-Mirna-posterne i det offentlige Depot21 (release 21) manglede overbevisende dokumentation, og selv tre fjerdedele af planten Mirna-familier var tvivlsomme. For det andet bliver det en ekstremt tidskrævende proces for forudsigelse af plante-miRNAs med store og komplekse genomer16. For at overvinde disse udfordringer, opdaterede vi miRDeep-P ved at tilføje en ny filtrerings strategi, der overhaling af score algoritmen og integrerer nye kriterier for Plant miRNA-anmærkning og udgav den nye version miRDP2. Derudover testede vi miRDP2 ved hjælp af NGS sRNA datasæt med gradvist stigende genom størrelser: Arabidopsis, ris, tomat, majs og hvede. Sammenlignet med andre fem udbredte værktøjer og dens gamle version, miRDP2 parses disse Srna data og analyseret Mirna transkriptomes hurtigere med forbedret nøjagtighed og følsomhed.

Indholdet af pakken miRDP2
MiRDP2-pakken består af seks dokumenterede Perl-scripts, der skal køres sekventielt af det forberedte bash-script. Af de seks scripts, tre (convert_bowtie_to_blast. pl, filter_alignments. pl, og excise_candidate. pl) er arvet fra mirdeep-P. De andre scripts ændres fra den oprindelige version. Funktioner af de seks scripts er beskrevet i det følgende:

preprocess_reads. pl -filtre input læsninger, herunder læsninger, der er for lange eller for korte ( 25 NT), og læser korreleret med Rfam ncRNA-sekvenser samt læser med rpm (læsninger pr. million) mindre end 5. Scriptet derefter henter læser korreleret til kendte miRNA modne sekvenser. Inputfilerne er originale læser i FASTA/FASTQ format og bowtie2 output af læser tilknytning til miRNA og ncRNA sekvenser.

Formlen til beregning af RPM er som følger:

Equation 1

convert_bowtie_to_blast. pl ændrer Bowtie format i blast-parsed format. BLAST parsed format er et brugerdefineret tabel separeret format afledt af standard NCBI BLASToutput format.

filter_alignments. pl filtrerer justeringer af dybe sekvensering læser til et genom. Det filtrerer delvise justeringer samt multi-justerede læsninger (bruger-specificeret frekvens cutoff). Den grundlæggende input er en fil i BLAST-parsed format.

excise_candidate. pl udskærer potentielle forløbere sekvenser fra en referencesekvens ved hjælp af justerede læsninger som retningslinjer. Den grundlæggende input er en fil i BLAST-parsed format og en FASTA fil. Outputtet er alle potentielle forløbere sekvenser i FASTA format.

mod-miRDP.pl har brug for to input filer, signaturfil og strukturfil, som er ændret fra kernen mirdeep-P algoritme ved at ændre scoring system med plante specifikke parametre. Inputfilerne er dot-bracket forløber struktur fil og læser distribution Signature fil.

mod-rm_redundant_meet_plant. pl har brug for tre input filer: chromosome_length, prækursorer og original_prediction genereret af mod-miRDP.pl. Det genererer to output-filer, ikke-redundant forudsagte fil og forudsagte fil filtreret af nyligt opdaterede plante miRNA kriterier. Detaljer om formatet af output-fil er beskrevet i afsnit 1,4.

Protocol

1. installation og afprøvning Download nødvendige afhængigheder: Bowtie222 og RNAfold23. Kompilerede pakker anbefales. Download Bowtie2, et læse kortværktøj, fra sin hjemmeside (http://Bowtie-bio.sourceforge.net/bowtie2/index.shtml). Download RNAfold, et værktøj i Wien-pakken, der bruges til at forudsige RNA sekundær struktur, fra <a href="http://www.tbi…

Representative Results

MiRNA annotation pipeline, miRDP2, beskrevet heri, anvendes på 10 offentlige sRNA-SEQ biblioteker fra 5 plantearter med gradvist forøget genom længde, herunder Arabidopsis thaliana, Oryza sativa (ris), Solanum lycopersicum (tomat), Zea mays (majs) og Triticum aestivum (hvede) (figur 1A). Generelt behandles 2 repræsentative sRNA-biblioteker fra forskellige væv (kollapsede i unikke læsninger, detaljer i protokol afsnittet) og …

Discussion

Med fremkomsten af NGS, et stort antal af Mirna loci er blevet identificeret fra en stadigt stigende mængde af Srna sekvensering data i forskellige arter29,30. I den centraliserede community database miRBase21, de deponerede Mirna poster er steget næsten 100 gange i det sidste årti. Men i forhold til Mirnas i dyr, plante Mirnas har mange unikke funktioner, der gør identifikation/annotation mere kompliceret13<sup…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dette arbejde er blevet støttet af Beijing Academy of landbrug og skovbrug Sciences (KJCX201917, KJCX20180425, og KJCX20180204) til XY og National Natural Science Foundation i Kina (31621001) til LL.

Materials

Computer/computing node N/A N/A Perl is required; at least 8 GB RAM and 100 GB storage are recommended

References

  1. Ghildiyal, M., Zamore, P. D. Small silencing RNAs: an expanding universe. Nature Reviews Genetics. 10 (2), 94-108 (2009).
  2. Bartel, D. P. MicroRNAs: target recognition and regulatory functions. Cell. 136 (2), 215-233 (2009).
  3. Moran, Y., Agron, M., Praher, D., Technau, U. The evolutionary origin of plant and animal microRNAs. Nature Ecology Evolution. 1 (3), 27 (2017).
  4. Xie, Z., et al. Expression of Arabidopsis MIRNA genes. Plant Physiology. 138 (4), 2145-2154 (2005).
  5. Zhao, X., Zhang, H., Li, L. Identification and analysis of the proximal promoters of microRNA genes in Arabidopsis. Genomics. 101 (3), 187-194 (2013).
  6. Bologna, N. G., Mateos, J. L., Bresso, E. G., Palatnik, J. F. A loop-to-base processing mechanism underlies the biogenesis of plant microRNAs miR319 and miR159. EMBO JOURNAL. 28 (23), 3646-3656 (2009).
  7. Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
  8. Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
  9. Iwakawa, H. O., Tomari, Y. The Functions of MicroRNAs: mRNA Decay and Translational Repression. Trends in Cell Biology. 25 (11), 651-665 (2015).
  10. Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
  11. Wightman, B., Ha, I., Ruvkun, G. Posttranscriptional regulation of the heterochronic gene lin-14 by lin-4 mediates temporal pattern formation in C. elegans. Cell. 75 (5), 855-862 (1993).
  12. Friedlander, M. R., et al. Discovering microRNAs from deep sequencing data using miRDeep. Nature Biotechnology. 26 (4), 407-415 (2008).
  13. Yang, X., Li, L. miRDeep-P: a computational tool for analyzing the microRNA transcriptome in plants. Bioinformatics. 27 (18), 2614-2615 (2011).
  14. Meyers, B. C., et al. Criteria for annotation of plant MicroRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
  15. Yang, X., Zhang, H., Li, L. Global analysis of gene-level microRNA expression in Arabidopsis using deep sequencing data. Genomics. 98 (1), 40-46 (2011).
  16. Kuang, Z., Wang, Y., Li, L., Yang, X. miRDeep-P2: accurate and fast analysis of the microRNA transcriptome in plants. Bioinformatics. , (2018).
  17. Kozomara, A., Birgaoanu, M., Griffiths-Jones, S. miRBase: from microRNA sequences to function. Nucleic Acids Research. 47 (1), 155-162 (2019).
  18. Griffiths-Jones, S., Saini, H. K., van Dongen, S., Enright, A. J. miRBase: tools for microRNA genomics. Nucleic Acids Research. 36, 154-158 (2008).
  19. Axtell, M. J., Meyers, B. C. Revisiting Criteria for Plant MicroRNA Annotation in the Era of Big Data. Plant Cell. 30 (2), 272-284 (2018).
  20. Taylor, R. S., Tarver, J. E., Hiscock, S. J., Donoghue, P. C. Evolutionary history of plant microRNAs. Trends in Plant Science. 19 (3), 175-182 (2014).
  21. Kozomara, A., Griffiths-Jones, S. miRBase: annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, 68-73 (2014).
  22. Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9 (4), 357-359 (2012).
  23. Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6, 26 (2011).
  24. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (3), 25 (2009).
  25. An, J., Lai, J., Sajjanhar, A., Lehman, M. L., Nelson, C. C. miRPlant: an integrated tool for identification of plant miRNA from RNA sequencing data. BMC Bioinformatics. 15, 275 (2014).
  26. Lei, J., Sun, Y. miR-PREFeR: an accurate, fast and easy-to-use plant miRNA prediction tool using small RNA-Seq data. Bioinformatics. 30 (19), 2837-2839 (2014).
  27. Evers, M., Huttner, M., Dueck, A., Meister, G., Engelmann, J. C. miRA: adaptable novel miRNA identification in plants using small RNA sequencing data. BMC Bioinformatics. 16, 370 (2015).
  28. Mathelier, A., Carbone, A. MIReNA: finding microRNAs with high accuracy and no learning at genome scale and from deep sequencing data. Bioinformatics. 26 (18), 2226-2234 (2010).
  29. Zhu, Q. H., et al. A diverse set of microRNAs and microRNA-like small RNAs in developing rice grains. Genome Research. 18 (9), 1456-1465 (2008).
  30. Fahlgren, N., et al. MicroRNA gene evolution in Arabidopsis lyrata and Arabidopsis thaliana. Plant Cell. 22 (4), 1074-1089 (2010).
  31. Fromm, B., et al. A Uniform System for the Annotation of Vertebrate microRNA Genes and the Evolution of the Human microRNAome. Annual Review of Genetics. 49, 213-242 (2015).
  32. Blevins, T., et al. Identification of Pol IV and RDR2-dependent precursors of 24 nt siRNAs guiding de novo DNA methylation in Arabidopsis. Elife. 4, 09591 (2015).
  33. Zhai, J., et al. A One Precursor One siRNA Model for Pol IV-Dependent siRNA Biogenesis. Cell. 163 (2), 445-455 (2015).
  34. Werner, S., Wollmann, H., Schneeberger, K., Weigel, D. Structure determinants for accurate processing of miR172a in Arabidopsis thaliana. Current Biology. 20 (1), 42-48 (2010).
  35. Mateos, J. L., Bologna, N. G., Chorostecki, U., Palatnik, J. F. Identification of microRNA processing determinants by random mutagenesis of Arabidopsis MIR172a precursor. Current Biology. 20 (1), 49-54 (2010).
  36. Vitsios, D. M., et al. Mirnovo: genome-free prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Research. 45 (21), 177 (2017).

Play Video

Cite This Article
Wang, Y., Kuang, Z., Li, L., Yang, X. A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants. J. Vis. Exp. (155), e59864, doi:10.3791/59864 (2020).

View Video