En Bioinformatik rørledning, nemlig miRDeep-P2 (miRDP2 for Short), med opdaterede plante-miRNA kriterier og en revideret algoritme, kunne præcist og effektivt analysere microRNA transkriptomes i planter, især for arter med komplekse og store genomer.
MicroRNAs (miRNAs) er 20-til 24-nukleotid (NT) endogene små RNAs (sRNAs) omfattende eksisterende i planter og dyr, der spiller potente roller i reguleringen af genekspression på post-transkriptional niveau. Sekventering sRNA biblioteker af Next Generation Sequencing (NGS) metoder er blevet bredt anvendt til at identificere og analysere miRNA transkriptomes i det sidste årti, hvilket resulterer i en hurtig stigning i miRNA opdagelse. Der er imidlertid to store udfordringer i Plant miRNA-anmærkningen på grund af den stigende dybde af sekvenserede sRNA-biblioteker samt størrelsen og kompleksiteten af plante genomer. For det første, mange andre typer sRNAs, især kort forstyrrende RNAs (siRNAs) fra sRNA biblioteker, er fejlagtigt kommenteret som miRNAs af mange beregningsmæssige værktøjer. For det andet bliver det en meget tidskrævende proces for at analysere miRNA transkriptomes i plantearter med store og komplekse genomer. For at overvinde disse udfordringer opgraderede vi for nylig miRDeep-P (et populært værktøj til miRNA transcriptome-analyser) til miRDeep-P2 (miRDP2 for kort) ved at anvende en ny filtrerings strategi, der gennemgår point algoritmen og inkorporerer nyligt opdaterede anlæg miRNA kriterier for anmærkninger. Vi testede miRDP2 mod sekventerede sRNA-populationer i fem repræsentative fabrikker med stigende genomisk kompleksitet, herunder Arabidopsis, ris, tomat, majs og hvede. Resultaterne viser, at miRDP2 behandlede disse opgaver med meget høj effektivitet. Hertil kommer, miRDP2 udkonkurreret andre forudsigelse værktøjer vedrørende følsomhed og nøjagtighed. Tilsammen viser vores resultater miRDP2 som et hurtigt og præcist værktøj til at analysere Plant miRNA transkriptomes, derfor et nyttigt værktøj til at hjælpe Fællesskabet med bedre at annonere miRNAs i planter.
En af de mest spændende opdagelser i de sidste to årtier i biologi er den prolifererende rolle sRNA arter i reguleringen af forskellige funktioner i genomet1. Især, Mirnas udgør en vigtig klasse af 20-til 24-NT srnas i eukaryoter, og hovedsagelig fungere på post-transkriptional niveau som fremtrædende gen regulatorer gennem hele livscyklussen udviklingsstadier samt i stimulus og stress respons2,3. I planter opstår Mirnas fra primære udskrifter kaldet pri-Mirnas, som generelt transskriberes af RNA polymerase II som individuelle transskriptions enheder4,5. Behandles af evolutionært bevaret cellulære maskiner (drosha RNase III i dyr, Dicer-lignende i planter), pri-Mirnas er exciseret i de umiddelbare Mirna prækursorer, præ-Mirnas, som indeholder sekvenser danner intra-molekylære Stam-loop strukturer6,7. Pre-mirnas forarbejdes derefter til dobbelt-strandede mellemprodukter, nemlig Mirna duplexer, bestående af den funktionelle streng, moden Mirna, og den mindre hyppigt funktionelle partner,Mirna *2,8. Efter indlæsset i det RNA-inducerede lyddæmpnings kompleks (RISC) kunne de modne Mirnas genkende deres mRNA-mål baseret på sekvens komplementaritet, hvilket resulterede i en negativreguleringsfunktion2,8. Mirnas kunne enten destabilisere deres mål udskrifter eller forhindre Target oversættelse, men den tidligere måde er domineret i planter8,9.
Da den fortuitøse opdagelse af den første Mirna i fyrretræsnematoden caenorhabditis elegans10,11, meget forskning har været forpligtet til at Mirna identifikation og dens funktionelle analyse, især efter tilgængeligheden af NGS metode. Den brede anvendelse af NGS-metoden har i høj grad fremmet udnyttelsen af beregningsmæssige værktøjer, der var designet til at fange den unikke funktion af miRNAs, såsom Stem-loop struktur af prækursorer og deres præference ophobning af sekvens læser på moden miRNA og miRNA *. Som følge heraf har forskerne opnået bemærkelsesværdig succes med at identificere miRNAs i forskellige arter. Baseret på en tidligere beskrevet Sandsynligheds model12, udviklede vi mirdeep-P13, som var det første beregningsmæssige værktøj til at opdage plante-Mirnas fra NGS-data. mirdeep-P var specifikt rettet mod at erobre udfordringerne ved afkodning plante Mirnas med mere variabel forløber længde og store paralogous familier13,14,15. Efter dens udgivelse, dette program er blevet hentet tusindvis af gange og bruges til at ankommentere miRNA transkriptomes i mere end 40 plantearter16. Drevet af NGS-baserede værktøjer som miRDeep-P, der har været en dramatisk stigning i antallet af registrerede miRNAs i det offentlige miRNA repository miRBase17, hvor over 38.000 Mirna elementer er i øjeblikket hostet (release 22,1) i forhold til kun ~ 500 Mirna elementer (Release 2,0) i 200818.
Men, to nye udfordringer er opstået fra Plant miRNA anmærkning. Første, høje nøgletal af falsk-positiver har stærkt påvirket kvaliteten af planten Mirna anmærkninger16,19 af følgende grunde: 1) en syndflod af endogene kort forstyrrende RNAs (sirnas) fra NGS Srna biblioteker blev fejlagtigt kommenteret som Mirnas på grund af manglende en streng Mirna annotation kriterier; 2) for arter uden a priori miRNA oplysninger, falsk-positiver forudsagt baseret på NGS data er svære at eliminere. Med miRBase som eksempel fandt Taylor et al.20 en tredjedel af plante-Mirna-posterne i det offentlige Depot21 (release 21) manglede overbevisende dokumentation, og selv tre fjerdedele af planten Mirna-familier var tvivlsomme. For det andet bliver det en ekstremt tidskrævende proces for forudsigelse af plante-miRNAs med store og komplekse genomer16. For at overvinde disse udfordringer, opdaterede vi miRDeep-P ved at tilføje en ny filtrerings strategi, der overhaling af score algoritmen og integrerer nye kriterier for Plant miRNA-anmærkning og udgav den nye version miRDP2. Derudover testede vi miRDP2 ved hjælp af NGS sRNA datasæt med gradvist stigende genom størrelser: Arabidopsis, ris, tomat, majs og hvede. Sammenlignet med andre fem udbredte værktøjer og dens gamle version, miRDP2 parses disse Srna data og analyseret Mirna transkriptomes hurtigere med forbedret nøjagtighed og følsomhed.
Indholdet af pakken miRDP2
MiRDP2-pakken består af seks dokumenterede Perl-scripts, der skal køres sekventielt af det forberedte bash-script. Af de seks scripts, tre (convert_bowtie_to_blast. pl, filter_alignments. pl, og excise_candidate. pl) er arvet fra mirdeep-P. De andre scripts ændres fra den oprindelige version. Funktioner af de seks scripts er beskrevet i det følgende:
preprocess_reads. pl -filtre input læsninger, herunder læsninger, der er for lange eller for korte ( 25 NT), og læser korreleret med Rfam ncRNA-sekvenser samt læser med rpm (læsninger pr. million) mindre end 5. Scriptet derefter henter læser korreleret til kendte miRNA modne sekvenser. Inputfilerne er originale læser i FASTA/FASTQ format og bowtie2 output af læser tilknytning til miRNA og ncRNA sekvenser.
Formlen til beregning af RPM er som følger:
convert_bowtie_to_blast. pl ændrer Bowtie format i blast-parsed format. BLAST parsed format er et brugerdefineret tabel separeret format afledt af standard NCBI BLASToutput format.
filter_alignments. pl filtrerer justeringer af dybe sekvensering læser til et genom. Det filtrerer delvise justeringer samt multi-justerede læsninger (bruger-specificeret frekvens cutoff). Den grundlæggende input er en fil i BLAST-parsed format.
excise_candidate. pl udskærer potentielle forløbere sekvenser fra en referencesekvens ved hjælp af justerede læsninger som retningslinjer. Den grundlæggende input er en fil i BLAST-parsed format og en FASTA fil. Outputtet er alle potentielle forløbere sekvenser i FASTA format.
mod-miRDP.pl har brug for to input filer, signaturfil og strukturfil, som er ændret fra kernen mirdeep-P algoritme ved at ændre scoring system med plante specifikke parametre. Inputfilerne er dot-bracket forløber struktur fil og læser distribution Signature fil.
mod-rm_redundant_meet_plant. pl har brug for tre input filer: chromosome_length, prækursorer og original_prediction genereret af mod-miRDP.pl. Det genererer to output-filer, ikke-redundant forudsagte fil og forudsagte fil filtreret af nyligt opdaterede plante miRNA kriterier. Detaljer om formatet af output-fil er beskrevet i afsnit 1,4.
Med fremkomsten af NGS, et stort antal af Mirna loci er blevet identificeret fra en stadigt stigende mængde af Srna sekvensering data i forskellige arter29,30. I den centraliserede community database miRBase21, de deponerede Mirna poster er steget næsten 100 gange i det sidste årti. Men i forhold til Mirnas i dyr, plante Mirnas har mange unikke funktioner, der gør identifikation/annotation mere kompliceret13<sup…
The authors have nothing to disclose.
Dette arbejde er blevet støttet af Beijing Academy of landbrug og skovbrug Sciences (KJCX201917, KJCX20180425, og KJCX20180204) til XY og National Natural Science Foundation i Kina (31621001) til LL.
Computer/computing node | N/A | N/A | Perl is required; at least 8 GB RAM and 100 GB storage are recommended |