Heri præsenterer vi en ny og fuldautomatisk miRNA-pipeline, mirMachine, der 1) kan identificere kendte og nye miRNA’er mere præcist og 2) er fuldautomatisk og frit tilgængelig. Brugere kan nu udføre et kort indsendelsesscript for at køre den fuldautomatiske mirMachine-pipeline.
Af forskellige typer ikke-kodende RNA’er har mikroRNA’er (miRNA’er) uden tvivl været i søgelyset i løbet af det sidste årti. Som post-transkriptionelle regulatorer af genekspression spiller miRNA’er nøgleroller i forskellige cellulære veje, herunder både udvikling og respons på a / biotisk stress, såsom tørke og sygdomme. At have referencegenomsekvenser af høj kvalitet muliggjorde identifikation og annotation af miRNA’er i flere plantearter, hvor miRNA-sekvenser er meget bevarede. Da beregningsmæssige miRNA-identifikations- og annotationsprocesser for det meste er fejlbehæftede processer, øger homologibaserede forudsigelser forudsigelsesnøjagtigheden. Vi har udviklet og forbedret miRNA-annotationspipelinen, SUmir, i det sidste årti, som er blevet brugt til flere plantegenomer siden da.
Denne undersøgelse præsenterer en fuldt automatiseret, ny miRNA-pipeline, mirMachine (miRNA-maskine), ved (i) at tilføje et yderligere filtreringstrin på forudsigelserne af sekundær struktur, (ii) gøre den fuldt automatiseret og (iii) introducere nye muligheder for at forudsige enten kendt miRNA baseret på homologi eller nye miRNA’er baseret på små RNA-sekventeringslæsninger ved hjælp af den tidligere pipeline. Den nye miRNA-pipeline, mirMachine, blev testet ved hjælp af Arabidopsis Information Resource, TAIR10, frigivelse af Arabidopsis-genomet og International Wheat Genome Sequencing Consortium (IWGSC) hvedereferencegenom v2.
Fremskridt inden for næste generations sekventeringsteknologier har udvidet forståelsen af RNA-strukturer og regulatoriske elementer og afsløret funktionelt vigtige ikke-kodende RNA’er (ncRNA’er). Blandt forskellige typer ncRNA’er udgør mikroRNA’er (miRNA’er) en grundlæggende regulatorisk klasse af små RNA’er med en længde mellem 19 og 24 nukleotider i planter 1,2. Siden opdagelsen af det første miRNA i nematoden Caenorhabditis elegans3 er tilstedeværelsen og funktionerne af miRNA’er blevet undersøgt grundigt i dyre- og plantegenomer samt 4,5,6. miRNA’er fungerer ved at målrette mRNA’er til spaltning eller translationel undertrykkelse7. Akkumulerende beviser har også vist, at miRNA’er er involveret i en lang række biologiske processer i planter, herunder vækst og udvikling8, selvbiogenese9 og flere biotiske og abiotiske stressresponser10.
I planter behandles miRNA’er oprindeligt fra lange primære transkripter kaldet pri-miRNA’er11. Disse pri-miRNA’er genereret af RNA-polymerase II inde i kernen er lange transkripter, der danner en ufuldkommen fold-back-struktur12. Pri-miRNA’erne gennemgår senere en spaltningsproces for at producere endogene enkeltstrengede (ss) hårnåleforstadier til miRNA’er kaldet pre-miRNA’er11. Pre-miRNA’et danner en hårnållignende struktur, hvor en enkelt streng foldes ind i en dobbeltstrenget struktur for at udskære en miRNA-duplex (miRNA / miRNA *)13. Dicer-lignende protein skærer begge tråde af miRNA / miRNA * duplex, hvilket efterlader 2-nukleotid 3′-overhæng14,15. MiRNA-duplexet methyleres inde i kernen, hvilket beskytter 3′-enden af miRNA’et mod nedbrydning og uridylationsaktivitet16,17. En helicase afvikler den methylerede miRNA-duplex efter eksport og udsætter det modne miRNA for det RNA-inducerede hæmningskompleks (RISC) i cytosolen18. Den ene streng af duplexet er modent miRNA inkorporeret i RISC , mens den anden streng, miRNA *, nedbrydes. MiRNA-RISC-komplekset binder til målsekvensen, hvilket fører til enten mRNA-nedbrydning i tilfælde af fuld komplementaritet eller translationel undertrykkelse i tilfælde af delvis komplementaritet13.
Baseret på ekspressions- og biogenesefunktionerne er retningslinjer for miRNA-annotation beskrevet15,19. Med de definerede retningslinjer udviklede Lucas og Budak SUmir-rørledningen til at udføre en homologibaseret in silico miRNA-identifikation i planter9. SUmir-pipelinen bestod af to scripts: SUmirFind og SUmirFold. SUmirFind udfører lighedssøgninger mod kendte miRNA-datasæt gennem National Center for Biotechnology Information (NCBI) Basic Local Alignment Search Tool (BLAST) screening med modificerede parametre til at omfatte hits med kun 2 eller færre uoverensstemmelser og for at undgå bias mod kortere hits (blastn-short -ungapped -penalty -1 -reward 1). SUmirFold evaluerer den sekundære struktur af de formodede miRNA-sekvenser fra BLAST20-resultater ved hjælp af UNAfold21. SUmirFold adskiller miRNA’er fra små interfererende RNA’er ved identifikation af egenskaberne ved hårnålstruktur. Desuden adskiller det miRNA’er fra andre ssRNA’er såsom tRNA og rRNA ved parametrene, minimum foldenergiindeks > 0,67 og GC-indhold på 24-71%. Denne pipeline er for nylig blevet opdateret ved at tilføje to yderligere trin for at (i) øge følsomheden, (ii) øge annotationsnøjagtigheden og (iii) give genomisk fordeling af de forudsagte miRNA-gener22. I betragtning af den høje bevarelse af plante-miRNA-sekvenser23 blev denne pipeline oprindeligt designet til homologibaseret miRNA-forudsigelse. Nye miRNA’er kunne imidlertid ikke identificeres nøjagtigt med denne bioinformatikanalyse, da den var stærkt afhængig af sekvensbevarelse af miRNA’er mellem nært beslægtede arter.
Dette papir præsenterer en ny og fuldautomatisk miRNA-pipeline, mirMachine, der 1) kan identificere kendte og nye miRNA’er mere præcist (for eksempel bruger rørledningen nu sRNA-seq-baserede nye miRNA-forudsigelser samt homologibaseret miRNA-identifikation) og 2) er fuldt automatiseret og frit tilgængelig. Outputtene har også inkluderet de genomiske fordelinger af de forudsagte miRNA’er. mirMachine blev testet for både homologibaserede og sRNA-seq-baserede forudsigelser i hvede- og Arabidopsis-genomer . Selvom UNAfold oprindeligt blev udgivet som fri software, blev det en kommerciel software i det sidste årti. Med denne opgradering blev det sekundære strukturforudsigelsesværktøj skiftet fra UNAfold til RNAfold, så mirMachine kan være frit tilgængeligt. Brugere kan nu udføre et kort indsendelsesscript for at køre den fuldautomatiske mirMachine-pipeline (eksempler findes på https://github.com/hbusra/mirMachine.git).
Vores miRNA-pipeline, SUmir, er blevet brugt til identifikation af mange plante-miRNA’er i det sidste årti. Her udviklede vi en ny, fuldautomatisk og frit tilgængelig miRNA-identifikations- og annotationspipeline, mirMachine. Desuden var en række miRNA-identifikationsrørledninger, herunder, men ikke begrænset til, den tidligere pipeline, afhængige af UNAfold-software21, som blev en kommerciel software over tid, selvom den engang var frit tilgængelig. Denne nye og fuldautomatiske mirMachine …
https://www.ncbi.nlm.nih.gov/books/NBK279671/ | Blast+ | ||
https://github.com/hbusra/mirMachine.git | mirMachine submission script | ||
https://www.perl.org/get.html | Perl | ||
https://www.tbi.univie.ac.at/RNA/ | RNAfold | ||
Arabidopsis TAIR10 | |||
Triticum aestivum (wheat, IWGSC RefSeq v2) |