Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

En bioinformatikk rørledning til nøyaktig og effektivt analysere MicroRNA Transcriptomes i planter

Published: January 21, 2020 doi: 10.3791/59864
* These authors contributed equally

Summary

En bioinformatikk rørledning, nemlig miRDeep-P2 (miRDP2 for kort), med oppdaterte anlegget miRNA kriterier og en forbedret algoritme, kan nøyaktig og effektivt analysere microRNA transcriptomes i planter, spesielt for arter med komplekse og store genomer.

Abstract

MicroRNAs (miRNAs) er 20-til 24-nukleotid (NT) endogene små RNAs (sRNAs) omfattende eksisterende i planter og dyr som spiller potente roller i regulering genuttrykk på post-transcriptional nivå. Sekvensering sRNA biblioteker av Next Generation sekvensering (NGS) metoder har vært allment ansatt for å identifisere og analysere miRNA transcriptomes i det siste tiåret, noe som resulterer i en rask økning av miRNA funn. Men, to store utfordringer oppstår i anlegget miRNA merknad på grunn av økende dybde av sekvensert sRNA bibliotekene samt størrelsen og kompleksiteten av anlegget genomer. Først, mange andre typer sRNAs, særlig korte forstyrrende RNAs (siRNAs) fra sRNA biblioteker, er feilaktig kommentert som miRNAs av mange beregningsorientert verktøy. For det andre blir det en ekstremt tidkrevende prosess for å analysere miRNA transcriptomes i plantearter med store og komplekse genomer. For å overvinne disse utfordringene, har vi nylig oppgradert miRDeep-P (et populært verktøy for miRNA transcriptome analyser) til miRDeep-P2 (miRDP2 for kort) ved å ansette en ny filtrering strategi, overhaling scoring algoritmen og innlemme nylig oppdaterte anlegget miRNA kriteriene for merknader. Vi testet miRDP2 mot sekvensiell sRNA populasjoner i fem representative planter med økende genomisk kompleksitet, inkludert Arabidopsis, ris, tomat, mais og hvete. Resultatene tyder på at miRDP2 behandlet disse oppgavene med svært høy effektivitet. I tillegg miRDP2 bedre resultater enn andre prediksjon verktøy om følsomhet og nøyaktighet. Til sammen, våre resultater demonstrere miRDP2 som en rask og nøyaktig verktøy for å analysere anlegget miRNA transcriptomes, derfor et nyttig verktøy i å hjelpe samfunnet bedre kommentere miRNAs i planter.

Introduction

En av de mest spennende funnene i de to siste ti årene i biologi er voksende rolle sRNA arter i å regulere ulike funksjoner i Genova1. Spesielt utgjør miRNAs en viktig klasse av 20-til 24-NT sRNAs i Landplantenes, og hovedsakelig fungere på post-transcriptional nivå som fremtredende gen regulatorer gjennom livssyklus utviklingstrinn samt i stimulans og stressresponser2,3. I planter oppstår miRNAs fra primære transkripsjoner som kalles PRI-miRNAs, som vanligvis skrives ut av RNA polymerase II som individuell transkripsjon enheter4,5. Behandlet av evolutionarily bevarte Cellular Machinery (Drosha RNase III i dyr, DICER-lignende i planter), Pri-miRNAs er excised inn i umiddelbare miRNA forløpere, pre-miRNAs, som inneholder sekvenser danner intra-molekylær Stem-loop strukturer6,7. Pre-miRNAs blir deretter behandlet i dobbel-strandet mellom produkter, nemlig miRNA duplexes, bestående av funksjonell strand, modne miRNA, og de mindre ofte funksjonell partner, miRNA *2,8. Etter lastet inn i RNA-indusert demping kompleks (RISC), de eldre miRNAs kunne gjenkjenne sine mRNA mål basert på sekvens komplementaritet, noe som resulterer i en negativ forskriftsmessig funksjon2,8. miRNAs kunne enten destabilisere målet transkripsjoner eller hindre målet oversettelse men den tidligere måten er dominert i planter8,9.

Siden tilfeldig oppdagelsen av den første miRNA i nematode Caenorhabditis elegans10,11, mye forskning har vært forpliktet til å miRNA identifisering og dens funksjonell analyse, spesielt etter tilgjengeligheten av NGS metoden. Den brede anvendelsen av NGS metoden har i stor grad fremmet utnyttelsen av beregningsorientert verktøy som ble utformet for å fange den unike funksjonen av miRNAs, slik som Stem-loop struktur forløpere og deres fortrinnsrett akkumulering av sekvensen leser på modne miRNA og miRNA *. Som et resultat har forskerne oppnådd bemerkelsesverdig suksess i å identifisere miRNAs i ulike arter. Basert på en tidligere beskrevet sannsynlighet modell12, vi utviklet MiRDeep-P13, som var den første beregningsorientert verktøy for å oppdage anlegget miRNAs fra NGS data. miRDeep-P var spesielt rettet mot å erobre utfordringene ved dekoding plante miRNAs med mer variabel forløper lengde og store paralogous familier13,14,15. Etter utgivelsen, har dette programmet blitt lastet ned tusenvis av ganger og brukes til å kommentere miRNA transcriptomes i mer enn 40 plantearter16. Drevet av NGS-baserte verktøy som miRDeep-P, har det vært en dramatisk økning i antall registrerte miRNAs i det offentlige miRNA depotet miRBase17, der over 38 000 miRNA elementer er for tiden vert (Release 22,1) i forhold til bare ~ 500 miRNA elementer (Release 2,0) i 200818.

Men to nye utfordringer har oppstått fra anlegget miRNA merknad. Først høye prosenter av falske positiver har sterkt påvirket kvaliteten på anlegget miRNA merknader16,19 av følgende grunner: 1) en flom av endogene korte forstyrrende RNAs (siRNAs) fra NGS sRNA bibliotekene ble feilaktig kommentert som miRNAs på grunn av manglende en streng miRNA kommentar kriterier; 2) for arter uten en priori miRNA informasjon, falske positiver spådd basert på NGS data er vanskelig å eliminere. Bruke miRBase som et eksempel, Taylor et al.20 fant en tredjedel av anlegget miRNA oppføringer i det offentlige depotet21 (Release 21) manglet overbevisende støtte bevis og selv tre-fjerdedeler av anlegget miRNA familier var tvilsom. For det andre blir det en ekstremt tidkrevende prosess for å forutsi plante miRNAs med store og komplekse genomer16. For å overvinne disse utfordringene, oppdaterte vi miRDeep-P ved å legge til en ny filtrering strategi, overhaling scoring algoritmen og integrere nye kriterier for anlegget miRNA kommentar, og sluppet den nye versjonen miRDP2. I tillegg har vi testet miRDP2 bruker NGS sRNA datasett med gradvis økende Genova størrelser: Arabidopsis, ris, tomat, mais og hvete. Sammenlignet med andre fem mye brukt verktøy og sin gamle versjon, miRDP2 analysert disse sRNA data og analysert miRNA transcriptomes raskere med forbedret nøyaktighet og følsomhet.

Innhold i miRDP2-pakken
Den miRDP2 pakken består av seks dokumenterte Perl-skript som bør kjøres sekvensielt av forberedt bash-skript. Av de seks skriptene, tre (convert_bowtie_to_blast. pl, filter_alignments. plog excise_candidate. pl) er arvet fra miRDeep-P. De andre skriptene er endret fra den opprinnelige versjonen. Funksjoner av de seks skriptene er beskrevet i følgende:

preprocess_reads. pl filtrerer input leser, inkludert leser som er for lang eller for kort (< 19 nt eller > 25 NT), og leser korrelert med Rfam ncRNA sekvenser, samt leser med RPM (leser per million) mindre enn 5. Skriptet deretter henter leser korrelert til kjente miRNA eldre sekvenser. Input-filer er originale leser i FASTA/FASTQ format og bowtie2 utgang av leser kartlegging til miRNA og ncRNA sekvenser.

Formelen for beregning av RPM er som følgende:

Equation 1

convert_bowtie_to_blast. pl endrer Bowtie format til blast-analysert format. BLAST-analysert format er et egendefinert tabellformat separert formatet avledet fra standard NCBI BLASToutput format.

filter_alignments. pl filtrerer justeringene av dyp sekvensering leser til et Genova. Den filtrerer delvise justeringer i tillegg til flere justerte lyder (brukerdefinert frekvensgrense). Den grunnleggende input er en fil i BLAST-analysert format.

excise_candidate. pl kutter ut potensielle forløperen sekvenser fra en referanse sekvens med justert leser som retningslinjer. Den grunnleggende innspill er en fil i BLAST-analysert format og en FASTA fil. Utdataene er alle potensielle forløper sekvenser i FASTA format.

mod-miRDP.pl trenger to input-filer, signaturfil og struktur fil, som er modifisert fra kjernen MiRDeep-P algoritme ved å endre scoring system med plante spesifikke parametre. Input-filer er dot-brakett forløper struktur fil og leser distribusjons signaturfil.

mod-rm_redundant_meet_plant. pl trenger tre input-filer: chromosome_length, forløpere og original_prediction generert av mod-miRDP.pl. Det genererer to utdatafiler, ikke-redundant spådd fil og spådde fil filtrert av nylig oppdatert plante miRNA kriterier. Detaljer om formatet på utdatafilen er beskrevet i avsnitt 1,4.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. installasjon og testing

  1. Last ned nødvendige avhengigheter: Bowtie222 og RNAfold23. Kompilerte pakker anbefales.
    1. Last ned Bowtie2, en lese kartlegging verktøyet, fra sin hjemmeside (http://Bowtie-bio.sourceforge.net/bowtie2/index.shtml).
    2. Last ned RNAfold, et verktøy for Wien-pakken som brukes til å forutsi RNA sekundær struktur, fra http://www.TBI.univie.ac.at/~Ivo/RNA/.
    3. Før du installerer miRDP2, sikre at disse to avhengigheter er riktig installert, og tilpasse bash miljø filen (f. eks. bashrc) for å angi en riktig bane for disse to avhengigheter.
      Merk: andre kartleggingsverktøy som Bowtie24 er også egnet for miRDP2; enten Bowtie eller Bowtie2 kan brukes etter versjon 1.1.3.
  2. Hvis du vil laste ned miRDP2-pakken, går du til https://sourceforge.net/Projects/mirdp2/files/latest_version/ og henter de tarball filene.
  3. Før du installerer miRDP2, må du kontrollere at Perl er i PATH. Å installere miRDP2, ekstra alle innholdet av det dataoverførte tarball arkiv i ettall brosjyre (kommandere linjer idet inne 1.4.2), og så sette folderen sti inn i sti.
    Merk: en datamaskin eller databehandling node med minst 8 GB RAM og 100 GB lagringsplass anbefales å kjøre miRDP2.
  4. Test MiRDP2-pipeline.
    1. Hvis du vil teste om miRDP2 er riktig installert, bruker du testdataene og forventet utdata som finnes i https://sourceforge.net/Projects/mirdp2/files/TestData/. Test data inneholde ettall formatert GSM sekvensering arkiv og ettall Arabidopsis thaliana Genova arkiv.
    2. Flytt alle nedlastede filer til gjeldende arbeidsmappe:
      mv miRDP2-v*. tar. gz TestData. tar. gz ncRNA_rfam. tar. gz < user_selected_folder >
      CD -< user_selected_folder >
    3. Pakk ut komprimerte tarball filer:
      tjære – xvzf miRDP2-v*. tar. gz
      tjære – xvzf TestData. tar. gz
      tjære – xvzf ncRNA_rfam. tar. gz
    4. Bygg Arabidopsis-Genova referanseindeks:
      bowtie2-Build -f./testdata/TAIR10_genome. FA./testdata/TAIR10_genome
    5. Bygg ncRNA referanseindeks:
      bowtie2-Build -f./ncRNA_rfam. FA./1.1.3/script/index/rfam_index
    6. Kjør miRDP2-pipeline:
      bash ./1.1.3/mirdp2-v1.1.3_pipeline. bash-g./testdata/TAIR10_genome. FA-i./TESTDATA/TAIR 10_genome-f./TestData/GSM2094927.FA-o.
      Merk: Linux-kommandoer som brukes er i fet og kursiv skrift, med kommandolinjealternativer i kursiv. * Angir versjonen av miRDP2 (gjeldende versjon er 1.1.3). Den bowtie2-Build kommandoen skal ta omtrent 10 minutter, og miRDP2 rørledningen skal fullføre innen flere minutter
  5. Sjekk testing utganger.
    1. Legg merke til at en mappe med navnet ' GSM2094927-15-0-10 ' genereres automatisk i < user_selected_folder >, som inneholder alle mellomliggende filer og resultater.
    2. Kontroller at tabulator-avgrenset utdatafilen GSM2094927-15-0-10_filter_P_prediction, det endelige resultatet av spådd miRNAs, inneholder kolonner som indikerer kromosom ID, strand retning, representant leser ID, forløper ID, eldre miRNA location, forløper plassering, moden sekvens, og forløper sekvens. Legg merke til ekstra seng filen avledet fra denne filen for å lette videre analyse.
    3. Sjekk filen "progress_log", som gir informasjon om ferdige trinn, og filene "script_log" og "script_err", som inneholder program utgang og advarsler.
      Merk: for øyeblikket har vi testet miRDP2 på to Linux-plattformer, inkludert CentOS Release 6,5 på en klynge server, og cygwin 2.6.0 på PC Windows-systemet, og miRDP2 skal fungere på lignende systemer som støtter Perl.

2. identifisering romanen miRNAs

  1. Før du kjører rørledningen, må du kontrollere at inn dataene leses preprocessed i riktig format.
    Merk: den nye versjonen 1.1.3 av miRDP2 kan godta originale FASTQ format filer som innganger, selv om prosessen med formatering leser er utført som i tidligere versjoner.
    1. For det første, fjerne forlenger fra det 5 ' og 3 ' ender av det dyp sekvensering leser (hvis gave).
    2. For det andre, analysere den dype sekvensering leser i FASTA format.
    3. Tredje, fjerne redundans slik at leser med identiske sekvensen er representert med en enkelt og unik FASTA oppføring.
    4. Til slutt, sørg for at alle FASTA identifikatorer er unike. Hver sekvens-ID må slutte med en "_x" og et heltall, som angir kopierings nummeret til den nøyaktige sekvensen som ble hentet i datasettene med dyp sekvensering. En måte å sikre unike FASTA identifikator er å inkludere et løpende nummer i ID. Se filen GSM2094927. FA i testdataene (https://sourceforge.net/Projects/mirdp2/files/TestData/) for referanse.
    5. Se følgende for eksempler på riktig formaterte lyder:

      > read0_x29909
      TTTGGATTGAAGGGAGCTCTA
      > read1_x36974
      TTCCACAGCTTTCTTGAACTG
      > read2_x32635
      TTCCACAGCTTTCTTGAACTT
  2. Bygg referanse indekser.
    1. For det Genova henvisning, å bevare tid, dataoverføre Bowtie2 indeksfil-størrelse fra det iGenomes website (https://support.Illumina.com/sequencing/sequencing_software/igenome.html) hvis det Genova sekvenser av arten av begrave ha blitt indekseret. Ellers, brukere indeksere referanse sekvenser og holde indeksfilen for en stund til prosjektet er ferdig siden Genova sekvensen må indekseres på nytt. Detaljene opp på hvor å indeks en Genova henvisning er inkludert inne bowtie2 håndbok (http://Bowtie-bio.sourceforge.net/bowtie2/manual.shtml).
    2. En annen ikke-miRNA ncRNA indeksen er også nødvendig å filtrere ut støyende sekvenser fra andre ikke-koding RNA fragmenter. Filen er en samling av viktigste ncRNA sekvenser fra Rfam, inkludert rRNA, tRNA, snRNA og snoRNA. For å bygge denne indeksen, henvises det til del 1,4, da indeksen skal plasseres og navngis riktig, det vil si < miRDP2_version >/script/index/rfam_index.
  3. Kjør miRDP2.
    1. Å bruk miRDP2 å merker ny miRNAs fra dyp sekvensering data, løpe det bash skriften inne pakken for å starte analysen rørledning (et eksempel kan bli funnet i trinn 1,4):
      < path_to_miRDP2_folder >/miRDP2-v *. * _pipeline. bash -g < genome_file >-i < path_to_index/index_prefix >-f < seq_file >-o < output_folder >
      der * angir hvilken versjon av rørledningen bash script. Det er tre parametere som kan endres: 1) antall forskjellige steder en lese kan være tilordnet til, 2) manglende samsvar nummer for å kjøre bowtie2, og 3) terskelen til RPM (leser per million). Endre disse ved hjelp av alternativene – L,-M og – R. En detaljert forklaring finner du i avsnitt 3,1.
  4. Kontroller miRDP2-utgangene.
    1. Legg merke til at output-mappen automatisk genereres under < output_folder >, og heter ' < seq_file_name >-15-0-10 '; de siste 3 tallene indikerer verdiene (standard i dette tilfellet) for parametrene 1, 2 og 3, henholdsvis. Filen < seq_file_name > _filter_P_prediction inneholder informasjon om den endelige spådd miRNAs tilfredsstille den nylig oppdaterte anlegget miRNA kommentar kriterier. Detaljer om formatet på output filen er beskrevet i del 1,4.

3. modifikasjoner og forsiktighet ved hjelp av miRDP2

  1. Parametere som kan endres
    1. Bruk alternativet '-L ' for å angi grensen for hvor mange lokasjoner en leser kan tilordnes (parameter 1). Lese tilordning til for mange områder er muligens knyttet til gjenta sekvenser, og er sannsynligvis ikke miRNAs. Standardinnstillingen er 15. For bestemte arter, hvis det er miRNA familier med mange medlemmer, kan den første parameteren økes manuelt for å tilpasse seg til Genova landskapet.
    2. Bruk '-M '-alternativet for å angi tillatte uoverensstemmelser for Bowtie (parameter 2). Standardinnstillingen er 0.
    3. Bruk "-R"-alternativet for å angi terskelen for lesing som potensielt tilsvarer den modne miRNAs (parameter 3). Å nedskrive tid fortæringen og false-positiv, filterene leser av RPM. Bare leser som overstiger en viss RPM-terskel kan representere modne sekvenser av miRNAs i stedet for bakgrunnsstøy, og vil bli beholdt for videre analyse. Standardinnstillingen er 10 RPM.
    4. Vær oppmerksom på at endring av disse parameterne kan potensielt påvirke ytelsen og tidsforbruket. Generelt vil en økning på parameter 1 og 2 og en reduksjon av parameter 3 generere et mindre strengt resultat og lengre driftstid og omvendt.
  2. Redundans og miRNA *
    1. Legg merke til at utdataene miRNAs fra miRDP2 kan avvike fra den kjente miRNAs. Vi fant at dette er hovedsakelig på grunn av en av to grunner: heterogenitet av de modne miRNAs eller den relative overflod av miRNA og miRNA *. Vi fant ut at dette ikke påvirker den optimale lengden utvalg av forløpere og profilering av kjente miRNA gener.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Den miRNA kommentar rørledningen, miRDP2, beskrevet her er brukt på 10 offentlige sRNA-SEQ biblioteker fra 5 plantearter med gradvis økt Genova lengde, inkludert Arabidopsis thaliana, oryza sativa (ris), Solanum lycopersicum (tomat) , Zea Mays (mais) og Triticum aestivum (hvete) (figur 1A). Samlet, for hver art, 2 representative sRNA bibliotekene fra ulike vev (kollapset i unike leser, detaljer i protokollen delen) og deres indekserte Genova sekvenser behandles som to innganger (tabell 1). Fem miRNA databehandling prediksjon verktøy (miRDeep-P13, miRPlant25, miR-foretrekker26, miRA27, miReNA28) ble valgt for å gjøre sammenligningen.

Kjøretids test
For å sammenligne kjøretid og ytelse av miRDP2 og andre fem verktøy, installerte vi fem verktøy (miRDP2, miRDeep-P, miR-foretrekker, miRA, og miReNA) i en klynge server med Cent OS Release 6,5 system. Disse programmene ble kjørt med samme input-filer, maskinvare og ressurs (detaljer i supplerende fil 1). Spesielt, miRPlant styres fra et GUI skrevet i Java og var ikke i stand til å kjøre på serveren. I stedet har vi testet miRPlant på en PC med Windows 10 mens vi har også testet miRDP2 og miRDeep-P på denne PC (detaljer i supplerende fil 1).

For liten Genova Art idet Arabidopsis thaliana, oryza sativa, og Solanum lycopersium, alle planer løp riktig. Imidlertid, for stor genomer art som Zea Mays og Triticum Aestivum (inkluderer Solanum lycopersium for miRA), noen av planene utarmet alle arbeider med computer ressursene og brøt ned halvveis. For eksempel, miReNA, miRA, og miR-foretrekke klarte ikke å generere resultater, sannsynligvis på grunn av minne mangel mens håndtere store Sam filer eller mellomliggende filer. Spesielt miRPlant midlertidige filer forbrukes for mye plass, og resultatet var ikke i stand til å kjøre på PC når du arbeider med store Genova arter. miRDP2 fullførte disse prediksjon prosessene i en svært kort tid, fra minutter til timer (figur 1B). Således, sammenlignet med dens gamle versjon og annet verktøy, det running tid av miRDP2 var markant forkortet.

Følsomhet og nøyaktighet test
Siden miRNAs i Arabidopsis er intensivt studert, har vi gjort bruk av kjente miRNAs i Arabidopsis i miRBase21 (Release 22,1) for å evaluere miRDP2, og gjorde sammenligningen med andre verktøy. Som tidligere rapportert19,26, er følgende formler ansatt for å beregne følsomhet og nøyaktighet:

Equation 2

Equation 3

Kjente miRNAs er de som er kommentert i miRBase. En miRNA er utpekt som uttrykt hvis modne sekvenser har mer enn 5 RPM, og ≥ 75% leser på forløperen kartlagt til modne og Star miRNA sekvenser. To sekvensert sRNA biblioteker fra Arabidopsis (tabell 1) ble brukt til å lage testen. miRDP2 (figur 1C, D) hargjort det bedre i både følsomhet og nøyaktighet sammenlignet med andre verktøy.

Til sammen viser disse resultatene at miRDP2 er en rask og nøyaktig verktøy for å analysere den miRNA transcriptome i planter.

Figure 1
Figur 1: ytelse for miRDP2. (A) i alle størrelser (i GB) på Arabidopsis thaliana (ATH) , oryza sativa (OSA) , Solanum lycopersicum (Sly), Zea Mays (Zma), Triticum aestivum (Tae). (B-D) Sammenligning av kjøretid, følsomhet og nøyaktighet av miRDP2 og andre fem verktøy. To prikker som tilsvarer hvert verktøy indikerer to tester ble gjort av hvert verktøy. Dette tallet er tilpasset fra Kuang et al.16. Vennligst klikk her for å se en større versjon av dette tallet.

Arter (ABB.) Genova-versjon sRNA biblioteker
Bibliotek-ID Filstørrelse Totalt antall lyder Unike leser Vev
Arabidopsis thaliana (ATH) versjon 10 GSM2094927 24,9 MB 40.5 m 9.7 m Voksen blad
GSM2412287 29,5 MB 45.1 m 11.1 m Blad
Oryza sativa (OSA) versjon 7 GSM2883136 44,2 MB 54.9 m 16.3 m Frøplante
GSM3030848 34,7 MB 49.1 m 13.0 m Flagleaf
Solanum lycopersicum (Sly) versjon 3 GSM1213985 205,4 MB 161.5 m 58.0 m Blad
GSM1976413 118,5 MB 139.3 m 46.2 m Roten
Zea Mays (Zma) versjon 4 GSM1277437 158,4 MB 266.1 m 60.5 m Frøplante
GSM1428531 144,1 MB 172.5 m 56.3 m Frø
Triticum aestivum (Tae) iwgsc 1 GSM1294660 76,1 MB 59.2 m 29.6 m Skyte
GSM1294661 113,6 MB 84.0 m 44.0 m Blad

Tabell 1: genomer og sRNA biblioteker som brukes til testing av miRDP2 og andre verktøy. Denne tabellen er tilpasset fra Kuang et al.16.

Supplerende fil 1: sammenligning av kjøretid, følsomhet og nøyaktighet av miRDP2 og andre fem verktøy. Vennligst klikk her for å laste ned denne filen.

Tilleggsfil 2: eksempler på autentisk miRNAs med bifurcate struktur i løkker. Vennligst klikk her for å laste ned denne filen.

Supplerende fil 3: oppdaterte kriterier for anlegget miRNA Merknad og kriterier for 23-NT og 24-NT miRNAs. Vennligst klikk her for å laste ned denne filen.

Tilleggsfil 4: diagram over arbeidsflyten til miRDP2. Vennligst klikk her for å laste ned denne filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Med bruk av NGS, et stort antall miRNA Loci har blitt identifisert fra en stadig økende mengde sRNA sekvensering data i ulike arter29,30. I den sentraliserte samfunnet databasen miRBase21, avsatt miRNA elementer har økt nesten 100 ganger i det siste tiåret. Men i forhold til miRNAs i dyr, plante miRNAs har mange unike funksjoner som gjør identifisering/kommentar mer komplisert13,14.

Først, forløpere for anlegget miRNAs er mer variabel i lengde og struktur (supplerende fil 2)16. Ikke som den relativt ensartet lengde av animalsk miRNA forløpere rundt 70-90 NT, lengden på anlegget forløpere varierer etter flere folder og kunne nå flere hundre NTS13,31. Denne forskjellen introduserer mye usikkerhet når forutsi den sekundære strukturen i miRNA forløpere selv om en cut-off av forløper lengde er vanligvis satt vilkårlig som ikke overstiger 300 NT19 (denne parameteren ble innebygd i miRDP2, og erfarne brukere av miRDP2 kunne justere dette selv). I tillegg bevart plante miRNA familier har en tendens til å ha flere medlemmer, og lengden variasjon av disse medlemmene er også ofte betydelig13. Dette er grunnen til at miRDP2 har parameteren-L, som indikerer potensialet største miRNA familier i medlemsstatene størrelse. Sammen, heterogenitet av anlegget miRNA prekursorer reiser mange vanskeligheter for deres nøyaktige merknader.

For det andre er støyen eller falske positiver introdusert av siRNAs vanskelig å eliminere. Ved siden av miRNAs, NGS metoder også produsere en flom av siRNAs i sekvensert sRNA bibliotekene. Selv om siRNAs kunne skilles fra miRNAs av deres kognitiv og funksjoner32,33, det er ekstremt vanskelig å skille dem basert på sekvensering data og gruvedrift verktøy. Den offentlige databaser som miRBase, argumenterte av mange forskere, har forverret kraftig av det store antallet falske positiver siRNAs, som er feilaktig kommentert som miRNAs20,31. Dermed raffinerte verktøy med en ny og strenge sett med kriterier for anlegget miRNA merknad som nylig oppdaterte kriteriene25 (supplerende fil 3) er svært ønsket i miRNA kommentar rørledning/prosess.

Sist men ikke minst, beregningsorientert tid for analysering sRNA bibliotekene har økt eksponentielt når den samme metoden er transplantert fra en liten størrelse Genova arter til en stor størrelse en. Beregningsorientert verktøy som miRDeep-P13 og MiR-foretrekker26, ved å fange og kvantifisere signaturen fordelingen av sRNA leser langs miRNA forløpere, har blitt to populære metoder og er mye brukt til å kommentere miRNAs. Tilordningen strategi, prosessen med excising forløper kandidater og påfølgende sekundær struktur prediksjon krever betydelig databehandling tid16. Når disse verktøyene er ansatt for å analysere data fra små størrelse genomer som Arabidopsis til store seg som mais, er databehandlings tiden økt fra timer til dager, selv uker (figur 1B), noe som resulterer i hyppige kollaps av prosessen. En nyskapning på de foregående begrensningene er dermed presserende behov.

Vår nye miRDP216 program, oppdatert fra MiRDeep-P13, er utviklet for å overvinne de utfordringene som er nevnt ovenfor (supplerende fil 4). I dette programmet, vi ansatt en ny filtrering strategi, optimalisert scoring algoritmen, og innlemmet nylig oppdatert plante miRNA kommentar kriterier. Som et resultat av disse nye funksjonene, var kjøretiden markant forkortet når testet ved hjelp av ti sRNA biblioteker fra fem plantearter med økende Genova størrelse. I tillegg, sammenlignet med andre verktøy, miRDP2 vist overlegen ytelse i både følsomhet og nøyaktighet (figur 1). Til sammen viser disse resultatene at miRDP2 er en rask og nøyaktig verktøy for å analysere den miRNA transcriptomes i planter.

Det bør advares om at den nåværende forståelsen på miRNA egenskaper kan begrense ytelsen til noen beregningsorientert verktøy. Selv den nylig oppdaterte miRNA merknad kriteriene er basert på et begrenset sett med godt studert eksempler. Den utledet informasjon er dermed bare empirisk. Faktisk har unike funksjoner i miRNAs blitt vist å eksistere i ulike plantearter eller linjene3. I tillegg egenskaper som strukturer av oppstrøms og nedstrøms regioner i Mirna/Mirna * duplex også spille kritiske roller i Mirna kognitiv34,35, som ikke er tatt hensyn til i dagens merknadsverktøy. Med akkumulering av godt studert eksempler i flere plantearter, er det sannsynlig at enda mer avanserte merknadsverktøy utvikles i fremtiden som kan fange mer subtile utmerkelser og klassifisere miRNAs med en høyere grad av nøyaktighet enn dagens metoder. En lovende nye miRNA kommentar retning er å innlemme maskinlæring tilnærminger36 som kvaliteten på treningen datasett og merknader kriterier kontinuerlig utvikle seg.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har ingenting å avsløre.

Acknowledgments

Dette arbeidet har blitt støttet av Beijing Academy of Agriculture and Forestry Sciences (KJCX201917, KJCX20180425, og KJCX20180204) til XY og National Natural Science Foundation i Kina (31621001) til LL.

Materials

Name Company Catalog Number Comments
Computer/computing node N/A N/A Perl is required; at least 8 GB RAM and 100 GB storage are recommended

DOWNLOAD MATERIALS LIST

References

  1. Ghildiyal, M., Zamore, P. D. Small silencing RNAs: an expanding universe. Nature Reviews Genetics. 10 (2), 94-108 (2009).
  2. Bartel, D. P. MicroRNAs: target recognition and regulatory functions. Cell. 136 (2), 215-233 (2009).
  3. Moran, Y., Agron, M., Praher, D., Technau, U. The evolutionary origin of plant and animal microRNAs. Nature Ecology Evolution. 1 (3), 27 (2017).
  4. Xie, Z., et al. Expression of Arabidopsis MIRNA genes. Plant Physiology. 138 (4), 2145-2154 (2005).
  5. Zhao, X., Zhang, H., Li, L. Identification and analysis of the proximal promoters of microRNA genes in Arabidopsis. Genomics. 101 (3), 187-194 (2013).
  6. Bologna, N. G., Mateos, J. L., Bresso, E. G., Palatnik, J. F. A loop-to-base processing mechanism underlies the biogenesis of plant microRNAs miR319 and miR159. EMBO JOURNAL. 28 (23), 3646-3656 (2009).
  7. Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
  8. Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
  9. Iwakawa, H. O., Tomari, Y. The Functions of MicroRNAs: mRNA Decay and Translational Repression. Trends in Cell Biology. 25 (11), 651-665 (2015).
  10. Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
  11. Wightman, B., Ha, I., Ruvkun, G. Posttranscriptional regulation of the heterochronic gene lin-14 by lin-4 mediates temporal pattern formation in C. elegans. Cell. 75 (5), 855-862 (1993).
  12. Friedlander, M. R., et al. Discovering microRNAs from deep sequencing data using miRDeep. Nature Biotechnology. 26 (4), 407-415 (2008).
  13. Yang, X., Li, L. miRDeep-P: a computational tool for analyzing the microRNA transcriptome in plants. Bioinformatics. 27 (18), 2614-2615 (2011).
  14. Meyers, B. C., et al. Criteria for annotation of plant MicroRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
  15. Yang, X., Zhang, H., Li, L. Global analysis of gene-level microRNA expression in Arabidopsis using deep sequencing data. Genomics. 98 (1), 40-46 (2011).
  16. Kuang, Z., Wang, Y., Li, L., Yang, X. miRDeep-P2: accurate and fast analysis of the microRNA transcriptome in plants. Bioinformatics. , (2018).
  17. Kozomara, A., Birgaoanu, M., Griffiths-Jones, S. miRBase: from microRNA sequences to function. Nucleic Acids Research. 47 (1), 155-162 (2019).
  18. Griffiths-Jones, S., Saini, H. K., van Dongen, S., Enright, A. J. miRBase: tools for microRNA genomics. Nucleic Acids Research. 36, Database issue 154-158 (2008).
  19. Axtell, M. J., Meyers, B. C. Revisiting Criteria for Plant MicroRNA Annotation in the Era of Big Data. Plant Cell. 30 (2), 272-284 (2018).
  20. Taylor, R. S., Tarver, J. E., Hiscock, S. J., Donoghue, P. C. Evolutionary history of plant microRNAs. Trends in Plant Science. 19 (3), 175-182 (2014).
  21. Kozomara, A., Griffiths-Jones, S. miRBase: annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, Database issue 68-73 (2014).
  22. Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9 (4), 357-359 (2012).
  23. Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6, 26 (2011).
  24. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (3), 25 (2009).
  25. An, J., Lai, J., Sajjanhar, A., Lehman, M. L., Nelson, C. C. miRPlant: an integrated tool for identification of plant miRNA from RNA sequencing data. BMC Bioinformatics. 15, 275 (2014).
  26. Lei, J., Sun, Y. miR-PREFeR: an accurate, fast and easy-to-use plant miRNA prediction tool using small RNA-Seq data. Bioinformatics. 30 (19), 2837-2839 (2014).
  27. Evers, M., Huttner, M., Dueck, A., Meister, G., Engelmann, J. C. miRA: adaptable novel miRNA identification in plants using small RNA sequencing data. BMC Bioinformatics. 16, 370 (2015).
  28. Mathelier, A., Carbone, A. MIReNA: finding microRNAs with high accuracy and no learning at genome scale and from deep sequencing data. Bioinformatics. 26 (18), 2226-2234 (2010).
  29. Zhu, Q. H., et al. A diverse set of microRNAs and microRNA-like small RNAs in developing rice grains. Genome Research. 18 (9), 1456-1465 (2008).
  30. Fahlgren, N., et al. MicroRNA gene evolution in Arabidopsis lyrata and Arabidopsis thaliana. Plant Cell. 22 (4), 1074-1089 (2010).
  31. Fromm, B., et al. A Uniform System for the Annotation of Vertebrate microRNA Genes and the Evolution of the Human microRNAome. Annual Review of Genetics. 49, 213-242 (2015).
  32. Blevins, T., et al. Identification of Pol IV and RDR2-dependent precursors of 24 nt siRNAs guiding de novo DNA methylation in Arabidopsis. Elife. 4, 09591 (2015).
  33. Zhai, J., et al. A One Precursor One siRNA Model for Pol IV-Dependent siRNA Biogenesis. Cell. 163 (2), 445-455 (2015).
  34. Werner, S., Wollmann, H., Schneeberger, K., Weigel, D. Structure determinants for accurate processing of miR172a in Arabidopsis thaliana. Current Biology. 20 (1), 42-48 (2010).
  35. Mateos, J. L., Bologna, N. G., Chorostecki, U., Palatnik, J. F. Identification of microRNA processing determinants by random mutagenesis of Arabidopsis MIR172a precursor. Current Biology. 20 (1), 49-54 (2010).
  36. Vitsios, D. M., et al. Mirnovo: genome-free prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Research. 45 (21), 177 (2017).

Tags

Genetikk microRNA (miRNA) anlegg sRNA-SEQ miRDeep-P2 (miRDP2) neste generasjons sekvensering plante miRNA kriterier miRDeep-P (miRDP)
En bioinformatikk rørledning til nøyaktig og effektivt analysere MicroRNA Transcriptomes i planter
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wang, Y., Kuang, Z., Li, L., Yang,More

Wang, Y., Kuang, Z., Li, L., Yang, X. A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants. J. Vis. Exp. (155), e59864, doi:10.3791/59864 (2020).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter