Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

En Bioinformatik rørledning til præcist og effektivt at analysere MicroRNA Transkriptomes i planter

Published: January 21, 2020 doi: 10.3791/59864
* These authors contributed equally

Summary

En Bioinformatik rørledning, nemlig miRDeep-P2 (miRDP2 for Short), med opdaterede plante-miRNA kriterier og en revideret algoritme, kunne præcist og effektivt analysere microRNA transkriptomes i planter, især for arter med komplekse og store genomer.

Abstract

MicroRNAs (miRNAs) er 20-til 24-nukleotid (NT) endogene små RNAs (sRNAs) omfattende eksisterende i planter og dyr, der spiller potente roller i reguleringen af genekspression på post-transkriptional niveau. Sekventering sRNA biblioteker af Next Generation Sequencing (NGS) metoder er blevet bredt anvendt til at identificere og analysere miRNA transkriptomes i det sidste årti, hvilket resulterer i en hurtig stigning i miRNA opdagelse. Der er imidlertid to store udfordringer i Plant miRNA-anmærkningen på grund af den stigende dybde af sekvenserede sRNA-biblioteker samt størrelsen og kompleksiteten af plante genomer. For det første, mange andre typer sRNAs, især kort forstyrrende RNAs (siRNAs) fra sRNA biblioteker, er fejlagtigt kommenteret som miRNAs af mange beregningsmæssige værktøjer. For det andet bliver det en meget tidskrævende proces for at analysere miRNA transkriptomes i plantearter med store og komplekse genomer. For at overvinde disse udfordringer opgraderede vi for nylig miRDeep-P (et populært værktøj til miRNA transcriptome-analyser) til miRDeep-P2 (miRDP2 for kort) ved at anvende en ny filtrerings strategi, der gennemgår point algoritmen og inkorporerer nyligt opdaterede anlæg miRNA kriterier for anmærkninger. Vi testede miRDP2 mod sekventerede sRNA-populationer i fem repræsentative fabrikker med stigende genomisk kompleksitet, herunder Arabidopsis, ris, tomat, majs og hvede. Resultaterne viser, at miRDP2 behandlede disse opgaver med meget høj effektivitet. Hertil kommer, miRDP2 udkonkurreret andre forudsigelse værktøjer vedrørende følsomhed og nøjagtighed. Tilsammen viser vores resultater miRDP2 som et hurtigt og præcist værktøj til at analysere Plant miRNA transkriptomes, derfor et nyttigt værktøj til at hjælpe Fællesskabet med bedre at annonere miRNAs i planter.

Introduction

En af de mest spændende opdagelser i de sidste to årtier i biologi er den prolifererende rolle sRNA arter i reguleringen af forskellige funktioner i genomet1. Især, Mirnas udgør en vigtig klasse af 20-til 24-NT srnas i eukaryoter, og hovedsagelig fungere på post-transkriptional niveau som fremtrædende gen regulatorer gennem hele livscyklussen udviklingsstadier samt i stimulus og stress respons2,3. I planter opstår Mirnas fra primære udskrifter kaldet pri-Mirnas, som generelt transskriberes af RNA polymerase II som individuelle transskriptions enheder4,5. Behandles af evolutionært bevaret cellulære maskiner (drosha RNase III i dyr, Dicer-lignende i planter), pri-Mirnas er exciseret i de umiddelbare Mirna prækursorer, præ-Mirnas, som indeholder sekvenser danner intra-molekylære Stam-loop strukturer6,7. Pre-mirnas forarbejdes derefter til dobbelt-strandede mellemprodukter, nemlig Mirna duplexer, bestående af den funktionelle streng, moden Mirna, og den mindre hyppigt funktionelle partner,Mirna *2,8. Efter indlæsset i det RNA-inducerede lyddæmpnings kompleks (RISC) kunne de modne Mirnas genkende deres mRNA-mål baseret på sekvens komplementaritet, hvilket resulterede i en negativreguleringsfunktion2,8. Mirnas kunne enten destabilisere deres mål udskrifter eller forhindre Target oversættelse, men den tidligere måde er domineret i planter8,9.

Da den fortuitøse opdagelse af den første Mirna i fyrretræsnematoden caenorhabditis elegans10,11, meget forskning har været forpligtet til at Mirna identifikation og dens funktionelle analyse, især efter tilgængeligheden af NGS metode. Den brede anvendelse af NGS-metoden har i høj grad fremmet udnyttelsen af beregningsmæssige værktøjer, der var designet til at fange den unikke funktion af miRNAs, såsom Stem-loop struktur af prækursorer og deres præference ophobning af sekvens læser på moden miRNA og miRNA *. Som følge heraf har forskerne opnået bemærkelsesværdig succes med at identificere miRNAs i forskellige arter. Baseret på en tidligere beskrevet Sandsynligheds model12, udviklede vi mirdeep-P13, som var det første beregningsmæssige værktøj til at opdage plante-Mirnas fra NGS-data. mirdeep-P var specifikt rettet mod at erobre udfordringerne ved afkodning plante Mirnas med mere variabel forløber længde og store paralogous familier13,14,15. Efter dens udgivelse, dette program er blevet hentet tusindvis af gange og bruges til at ankommentere miRNA transkriptomes i mere end 40 plantearter16. Drevet af NGS-baserede værktøjer som miRDeep-P, der har været en dramatisk stigning i antallet af registrerede miRNAs i det offentlige miRNA repository miRBase17, hvor over 38.000 Mirna elementer er i øjeblikket hostet (release 22,1) i forhold til kun ~ 500 Mirna elementer (Release 2,0) i 200818.

Men, to nye udfordringer er opstået fra Plant miRNA anmærkning. Første, høje nøgletal af falsk-positiver har stærkt påvirket kvaliteten af planten Mirna anmærkninger16,19 af følgende grunde: 1) en syndflod af endogene kort forstyrrende RNAs (sirnas) fra NGS Srna biblioteker blev fejlagtigt kommenteret som Mirnas på grund af manglende en streng Mirna annotation kriterier; 2) for arter uden a priori miRNA oplysninger, falsk-positiver forudsagt baseret på NGS data er svære at eliminere. Med miRBase som eksempel fandt Taylor et al.20 en tredjedel af plante-Mirna-posterne i det offentlige Depot21 (release 21) manglede overbevisende dokumentation, og selv tre fjerdedele af planten Mirna-familier var tvivlsomme. For det andet bliver det en ekstremt tidskrævende proces for forudsigelse af plante-miRNAs med store og komplekse genomer16. For at overvinde disse udfordringer, opdaterede vi miRDeep-P ved at tilføje en ny filtrerings strategi, der overhaling af score algoritmen og integrerer nye kriterier for Plant miRNA-anmærkning og udgav den nye version miRDP2. Derudover testede vi miRDP2 ved hjælp af NGS sRNA datasæt med gradvist stigende genom størrelser: Arabidopsis, ris, tomat, majs og hvede. Sammenlignet med andre fem udbredte værktøjer og dens gamle version, miRDP2 parses disse Srna data og analyseret Mirna transkriptomes hurtigere med forbedret nøjagtighed og følsomhed.

Indholdet af pakken miRDP2
MiRDP2-pakken består af seks dokumenterede Perl-scripts, der skal køres sekventielt af det forberedte bash-script. Af de seks scripts, tre (convert_bowtie_to_blast. pl, filter_alignments. pl, og excise_candidate. pl) er arvet fra mirdeep-P. De andre scripts ændres fra den oprindelige version. Funktioner af de seks scripts er beskrevet i det følgende:

preprocess_reads. pl -filtre input læsninger, herunder læsninger, der er for lange eller for korte (< 19 nt eller > 25 NT), og læser korreleret med Rfam ncRNA-sekvenser samt læser med rpm (læsninger pr. million) mindre end 5. Scriptet derefter henter læser korreleret til kendte miRNA modne sekvenser. Inputfilerne er originale læser i FASTA/FASTQ format og bowtie2 output af læser tilknytning til miRNA og ncRNA sekvenser.

Formlen til beregning af RPM er som følger:

Equation 1

convert_bowtie_to_blast. pl ændrer Bowtie format i blast-parsed format. BLAST parsed format er et brugerdefineret tabel separeret format afledt af standard NCBI BLASToutput format.

filter_alignments. pl filtrerer justeringer af dybe sekvensering læser til et genom. Det filtrerer delvise justeringer samt multi-justerede læsninger (bruger-specificeret frekvens cutoff). Den grundlæggende input er en fil i BLAST-parsed format.

excise_candidate. pl udskærer potentielle forløbere sekvenser fra en referencesekvens ved hjælp af justerede læsninger som retningslinjer. Den grundlæggende input er en fil i BLAST-parsed format og en FASTA fil. Outputtet er alle potentielle forløbere sekvenser i FASTA format.

mod-miRDP.pl har brug for to input filer, signaturfil og strukturfil, som er ændret fra kernen mirdeep-P algoritme ved at ændre scoring system med plante specifikke parametre. Inputfilerne er dot-bracket forløber struktur fil og læser distribution Signature fil.

mod-rm_redundant_meet_plant. pl har brug for tre input filer: chromosome_length, prækursorer og original_prediction genereret af mod-miRDP.pl. Det genererer to output-filer, ikke-redundant forudsagte fil og forudsagte fil filtreret af nyligt opdaterede plante miRNA kriterier. Detaljer om formatet af output-fil er beskrevet i afsnit 1,4.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. installation og afprøvning

  1. Download nødvendige afhængigheder: Bowtie222 og RNAfold23. Kompilerede pakker anbefales.
    1. Download Bowtie2, et læse kortværktøj, fra sin hjemmeside (http://Bowtie-bio.sourceforge.net/bowtie2/index.shtml).
    2. Download RNAfold, et værktøj i Wien-pakken, der bruges til at forudsige RNA sekundær struktur, fra http://www.TBI.univie.ac.at/~Ivo/RNA/.
    3. Før du installerer miRDP2, skal du sikre dig, at disse to afhængigheder er installeret korrekt, og tilpasse bash-miljøfilen (f. eks.
      Bemærk: andre kortlægningsværktøjer som Bowtie24 er også velegnede til miRDP2; enten Bowtie eller Bowtie2 kan bruges efter version 1.1.3.
  2. Hvis du vil downloade pakken miRDP2, skal du gå til https://sourceforge.net/projects/mirdp2/files/latest_version/ og hente tarball-filerne.
  3. Før du installerer miRDP2, skal du sørge for, at Perl er i stien. Hvis du vil installere miRDP2, skal du udtrække alt indhold fra den hentede tarball-fil til en mappe (kommandolinjer som i 1.4.2) og derefter indstille mappestien til stien.
    Bemærk: en computer-eller databehandlings node med mindst 8 GB RAM og 100 GB lagerplads anbefales til at køre miRDP2.
  4. Test pipeline for MiRDP2.
    1. Hvis du vil teste, om miRDP2 er korrekt installeret, skal du bruge testdataene og det forventede output, som findes i https://sourceforge.net/projects/mirdp2/files/testdata/. Test data indeholder en formateret GSM sekvensering fil og en Arabidopsis thaliana genom fil.
    2. Flyt alle hentede filer til den aktuelle arbejdsmappe:
      mv miRDP2-v*. tar. gz testdata. tar. gz ncRNA_rfam. tar. gz < user_selected_folder >
      cd < user_selected_folder >
    3. Uddrag de komprimerede tarball filer:
      tjære – xvzf miRDP2-v*. tar. gz
      tar – xvzf testdata. tar. gz
      tjære – xvzf ncRNA_rfam. tar. gz
    4. Byg Arabidopsis genom referenceindekset:
      bowtie2-Build -f./testdata/TAIR10_genome. FA./testdata/TAIR10_genome
    5. Byg ncRNA-referenceindekset:
      bowtie2-Build -f./ncRNA_rfam. FA./1.1.3/script/index/rfam_index
    6. Kør miRDP2-pipelinen:
      bash ./1.1.3/mirdp2-v1.1.3_pipeline. bash – g./testdata/TAIR10_genome. FA-i./testdata/tair 10_genome – f./TestData/GSM2094927.fa – o.
      Bemærk: Linux-kommandoer, der anvendes, er i fed og kursiv skrifttyper, med kommandolinjeindstillinger i kursiv. * Angiver versionen af miRDP2 (den aktuelle version er 1.1.3). Kommandoen bowtie2-build skal tage ca. 10 minutter, og miRDP2-pipelinen skal afsluttes inden for flere minutter
  5. Kontroller test udgange.
    1. Bemærk, at der automatisk genereres en mappe med et "GSM2094927-15-0-10" i < user_selected_folder >, der indeholder alle mellemliggende filer og resultater.
    2. Kontroller, at den tabulatorseparerede outputfil GSM2094927-15-0-10_filter_P_prediction, det endelige output af forudsagte miRNAs, indeholder kolonner, der angiver kromosom-id, streng retning, repræsentativ læser-id, forløber-id, moden miRNA-placering, forløber placering, moden sekvens, og forløber sekvens. Bemærk den ekstra seng fil afledt af denne fil for at lette yderligere analyse.
    3. Kontroller filen "progress_log", som indeholder oplysninger om færdige trin, og filerne "script_log" og "script_err", der indeholder program output og advarsler.
      Bemærk: i øjeblikket har vi testet miRDP2 på to Linux-platforme, herunder CentOS Release 6,5 på en klyngeserver, og Cygwin 2.6.0 på PC Windows-system, og miRDP2 bør arbejde på lignende systemer, der understøtter Perl.

2. identificering af nye miRNAs

  1. Før du kører rørledningen, sikre, at input læser er forbehandlet i korrekt format.
    Bemærk: den nye version 1.1.3 af miRDP2 kan acceptere originale FASTQ format filer som input, selv om processen med formatering læser udføres som i tidligere versioner.
    1. Fjern først adaptere fra 5 ' og 3 ' enderne af den dybe sekvensering læser (hvis den findes).
    2. For det andet, parse den dybe sekvensering læser i FASTA format.
    3. For det tredje, fjerne redundans sådan, at læser med identiske sekvens er repræsenteret med en enkelt og unik FASTA indrejse.
    4. Endelig, sikre, at alle FASTA identifikatorer er unikke. Hvert sekvens-id skal slutte med en ' _x ' og et heltal, som angiver kopi nummeret på den nøjagtige sekvens, der blev hentet i de dybe sekvensering af datasæt. En måde at sikre entydig FASTA-identifikator på er at inkludere et løbenummer i id'et. For reference, se filen GSM2094927. FA i testdata (https://sourceforge.net/projects/mirdp2/files/testdata/).
    5. Se følgende eksempler på korrekt formaterede læsninger:

      > read0_x29909
      TTTGGATTGAAGGGAGCTCTA
      > read1_x36974
      TTCCACAGCTTTCTTGAACTG
      > read2_x32635
      TTCCACAGCTTTCTTGAACTT
  2. Opbygge referenceindekser.
    1. For genom reference, for at spare tid, download Bowtie2 index filer fra igenomes hjemmeside (https://support.Illumina.com/Sequencing/sequencing_software/igenome.html), hvis genomsekvenserne af de arter af interesse er blevet indekseret. Ellers kan brugere indeksere reference sekvenser og beholde indeksfilen i et stykke tid, indtil projektet er færdigt, da genom-sekvensen muligvis skal indekseres igen. Oplysninger om, hvordan du indekserer en genom-reference, findes i bowtie2 manual (http://Bowtie-bio.sourceforge.net/bowtie2/manual.shtml).
    2. En anden ikke-miRNA ncRNA indeks er også nødvendig for at bortfiltrere støjende sekvenser fra andre ikke-kodning RNA fragmenter. Filen er en samling af de vigtigste ncRNA-sekvenser fra Rfam, herunder rRNA, tRNA, snRNA og snoRNA. For at opbygge dette indeks, henvises til del 1,4, da indekset skal placeres og kaldes korrekt, dvs < miRDP2_version >/script/index/rfam_index.
  3. Kør miRDP2.
    1. Hvis du vil bruge miRDP2 til at registrere nye miRNAs fra dybe sekvensering af data, skal du køre bash-scriptet i pakken for at starte analyse pipelinen (et eksempel kan findes i trin 1,4):
      < path_to_miRDP2_folder >/miRDP2-v *. * _pipeline. bash – g < genome_file >-i < path_to_index/index_prefix >-f < seq_file >-o < output_folder >
      hvor * angiver versionen af pipeline bash-scriptet. Der er tre parametre, der kan ændres: 1) antallet af forskellige steder en læse kunne knyttes til, 2) mismatch nummer for løb bowtie2, og 3) tærsklen for RPM (læsninger per million). Rediger disse ved hjælp af henholdsvis – L,-M og – R-indstillingerne. En detaljeret forklaring findes i afsnit 3,1.
  4. Tjek miRDP2 udgange.
    1. Bemærk, at output mappen automatisk genereres under < output_folder > og navnet ' < seq_file_name >-15-0-10 '; de sidste 3 tal angiver værdierne (standard i dette tilfælde) for henholdsvis parametrene 1, 2 og 3. Filen < seq_file_name > _filter_P_prediction indeholder oplysninger om den endelige estimerede miRNAs, som opfylder de nyligt opdaterede kriterier for plante-miRNA-anmærkninger. Detaljer om formatet af output-fil er beskrevet i del 1,4.

3. modifikationer og forsigtighed ved brug af miRDP2

  1. Parametre, der kan redigeres
    1. Brug indstillingen '-L ' til at angive grænsen for, hvor mange placeringer en læsning kan knyttes til (parameter 1). Læse tilknytning til for mange websteder er muligvis forbundet med gentagelses sekvenser og er sandsynligvis ikke miRNAs. Standardindstillingen er 15. For specifikke arter, hvis der er Mirna familier med mange medlemmer, kan den første parameter øges manuelt for at tilpasse sig genom landskab.
    2. Brug indstillingen '-M ' til at indstille de tilladte mismatch for Bowtie (parameter 2). Standardindstillingen er 0.
    3. Brug indstillingen '-R ' til at indstille tærsklen for læsninger, der potentielt svarer til modne miRNAs (parameter 3). For at reducere tidsforbrug og falsk-positiver, filter læser ved RPM. Kun læsninger, der overskrider en bestemt RPM-tærskel, kan repræsentere modne sekvenser af miRNAs i stedet for baggrundsstøj og vil blive opbevaret til yderligere analyse. Standardindstillingen er 10 RPM.
    4. Bemærk, at ændring af disse parametre potentielt kan påvirke ydeevnen og tidsforbruget. Generelt ville en forøgelse af parameter 1 og 2 og et fald i parameter 3 medføre et mindre stringent resultat og en længere driftsperiode og omvendt.
  2. Redundans og miRNA *
    1. Bemærk, at output-miRNAs fra miRDP2 kan afvige fra de kendte miRNAs. Vi fandt, at dette primært skyldes en af to grunde: heterogenitet af de modne miRNAs eller den relative overflod af miRNA og miRNA *. Vi konstaterede, at dette ikke påvirker den optimale længde udvælgelse af prækursorer og profilering af kendte miRNA gener.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

MiRNA annotation pipeline, miRDP2, beskrevet heri, anvendes på 10 offentlige sRNA-SEQ biblioteker fra 5 plantearter med gradvist forøget genom længde, herunder Arabidopsis thaliana, Oryza sativa (ris), Solanum lycopersicum (tomat), Zea mays (majs) og Triticum aestivum (hvede) (figur 1A). Generelt behandles 2 repræsentative sRNA-biblioteker fra forskellige væv (kollapsede i unikke læsninger, detaljer i protokol afsnittet) og deres indekserede genom-sekvenser som to indgange (tabel 1). Fem miRNA beregningsmæssige forudsigelsesværktøjer (miRDeep-P13, mirplant25, miR-Foretræk26, miRA27, Mirena28) blev udvalgt til at foretage sammenligningen.

Test af køretiden
For at sammenligne Runtime og ydeevne af miRDP2 og andre fem værktøjer, vi har installeret fem værktøjer (miRDP2, miRDeep-P, miR-Foretræk, miRA, og miReNA) i en klyngeserver med cent OS Release 6,5 system. Disse programmer blev kørt med de samme input-filer, hardware og ressource (detaljer i supplerende fil 1). Især miRPlant styres fra en GUI skrevet i Java og var ikke i stand til at køre på serveren. I stedet testede vi miRPlant på en PC med Windows 10, mens vi også har testet miRDP2 og miRDeep-P på denne PC (detaljer i supplerende fil 1).

For små genom arter som Arabidopsis thaliana, Oryza sativa, og Solanum lycopersium, alle programmer kørte ordentligt. Men for store genomer arter såsom Zea mays og Triticum aestivum (herunder Solanum lycopersium for miRA), nogle af de programmer udtømt alle edb-ressourcer og brød ned halvvejs. For eksempel, miReNA, miRA, og miR-foretrækker undladt at generere resultater, sandsynligvis på grund af hukommelse mangel, mens beskæftiger sig med store Sam filer eller mellemliggende filer. Især miRPlant midlertidige filer forbruges for meget plads, og resultatet var ikke i stand til at køre på pc'en, når de beskæftiger sig med store genom arter. miRDP2 afsluttede disse forudsigelses processer på meget kort tid, fra minutter til timer (figur 1B). I forhold til den gamle version og andre værktøjer blev driftstiden for miRDP2 således markant forkortet.

Følsomheds-og nøjagtigheds test
Da miRNAs i Arabidopsis er intensivt undersøgt, vi gjort brug af kendte miRNAs i Arabidopsis i miRBase21 (release 22,1) at evaluere miRDP2, og gjorde sammenligningen med andre værktøjer. Som tidligere rapporteret19,26, anvendes følgende formler til at beregne følsomhed og nøjagtighed:

Equation 2

Equation 3

Kendte miRNAs er dem, der er kommenteret i miRBase. En miRNA er udpeget som udtrykt, hvis de modne sekvenser har mere end 5 RPM, og ≥ 75% læser på forløber kortlagt til moden og Star miRNA sekvenser. To sekventerede sRNA-biblioteker fra Arabidopsis (tabel 1) blev brugt til at foretage testen. miRDP2 (figur 1C, D) klarede bedre i både følsomhed og nøjagtighed sammenlignet med andre værktøjer.

Tilsammen viser disse resultater, at miRDP2 er et hurtigt og præcist værktøj til at analysere miRNA transkriptomet i planter.

Figure 1
Figur 1: udførelse af miRDP2. A) genomstørrelse (i GB) af Arabidopsis thaliana (ATH), Oryza sativa (OSA), Solanum lycopersicum (Sly), Zea mays (ZMA), Triticum aestivum (Tae). (B-D) Sammenligning af Runtime, følsomhed og nøjagtighed af miRDP2 og andre fem værktøjer. To prikker svarende til hvert værktøj indikerer to tests blev foretaget af hvert værktøj. Dette tal er blevet tilpasset fra Kuang et al.16. Venligst klik her for at se en større version af dette tal.

Arter (ABB.) Genome version sRNA biblioteker
Biblioteks-ID Filstørrelse Samlet antal læsninger Unikke læsninger Væv
Har du en af de mest version 10 GSM2094927 24,9 MB 40.5 m 9.7 m Voksen blad
GSM2412287 29,5 MB 45.1 m 11.1 m Blad
Oryza sativa (Osa) version 7 GSM2883136 44,2 MB 54.9 m 16.3 m Sætteplante
GSM3030848 34,7 MB 49.1 m 13.0 m Flagleaf
Solanum lycopersicum (Sly) version 3 GSM1213985 205,4 MB 161.5 m 58.0 m Blad
GSM1976413 118,5 MB 139.3 m 46.2 m Rod
Zea mays (ZMA) version 4 GSM1277437 158,4 MB 266.1 m 60.5 m Sætteplante
GSM1428531 144,1 MB 172.5 m 56.3 m Frø
Triticum aestivum (Tae) iwgsc 1 GSM1294660 76,1 MB 59.2 m 29.6 m Skyde
GSM1294661 113,6 MB 84.0 m 44.0 m Blad

Tabel 1: genomer og sRNA-biblioteker, der anvendes til afprøvning af miRDP2 og andre værktøjer. Denne tabel er blevet tilpasset fra Kuang et al.16.

Supplerende fil 1: sammenligning af Runtime, følsomhed og nøjagtighed af miRDP2 og andre fem værktøjer. Venligst klik her for at downloade denne fil.

Supplerende fil 2: eksempler på autentiske miRNAs med bifurcate struktur i sløjfer. Venligst klik her for at downloade denne fil.

Supplerende fil 3: opdaterede kriterier for anmærkning af plante-Mirna og kriterier for 23-NT og 24-NT miRNAs. Venligst klik her for at downloade denne fil.

Supplerende fil 4: diagram over arbejdsprocessen for miRDP2. Venligst klik her for at downloade denne fil.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Med fremkomsten af NGS, et stort antal af Mirna loci er blevet identificeret fra en stadigt stigende mængde af Srna sekvensering data i forskellige arter29,30. I den centraliserede community database miRBase21, de deponerede Mirna poster er steget næsten 100 gange i det sidste årti. Men i forhold til Mirnas i dyr, plante Mirnas har mange unikke funktioner, der gør identifikation/annotation mere kompliceret13,14.

For det første er forløbere for plante miRNAs mere variable i længde og struktur (supplerende fil 2)16. Ikke som den relativt ensartede længde af dyr Mirna prækursorer omkring 70-90 NT, længden af plantens prækursorer varierer ved flere folder og kunne nå flere hundrede NTS13,31. Denne forskel introducerer en masse usikkerhed, når man forudser den sekundære struktur af miRNA-prækursorer, selv om en cutoff af forløberen længde er normalt fastsat vilkårligt, såsom ikke overstiger 300 NT19 (denne parameter var indlejret i miRDP2, og erfarne brugere af miRDP2 kunne justere dette af sig selv). Desuden har bevaret plante miRNA familier tendens til at have flere medlemmer, og længden variation af disse medlemmer er også ofte betydelige13. Dette er grunden til, at miRDP2 har parameteren-L, som angiver de potentielle største miRNA familier i medlems størrelse. Sammen, de heterogenitet af plante miRNA prækursorer rejser mange vanskeligheder for deres nøjagtige annotation.

For det andet, den støj eller falsk-positiver introduceret af siRNAs er svært at eliminere. Sammen med miRNAs producerer NGS-metoderne også en syndflod af siRNAs i de sekventerede sRNA-biblioteker. Selvom sirnas kunne adskilles fra Mirnas ved deres Biogenese og funktioner32,33, er det yderst vanskeligt at skelne dem baseret på sekvensering af data og minedrift værktøjer. De offentlige databaser såsom mirbase, argumenteret af mange forskere, er blevet kraftigt forværret af det store antal falske positiver sirnas, som fejlagtigt er kommenteret som Mirnas20,31. Således raffinerede værktøjer med en ny og strenge sæt kriterier for plante miRNA annotation som de nyligt opdaterede kriterier25 (supplerende fil 3) er meget ønsket i Mirna annotation pipeline/proces.

Sidst men ikke mindst, den beregningsmæssige tid til parsing sRNA biblioteker er steget eksponentielt, når den samme metode er transplanteres fra en lille størrelse genom arter til en stor størrelse en. De beregningsmæssige værktøjer såsom miRDeep-P13 og MiR-foretrækker26, ved at opfange og kvantificere signaturen distribution af Srna læser langs Mirna prækursorer, er blevet to populære metoder og er almindeligt anvendt til at kommentere Mirnas. Kortlægnings strategien, processen med at excisere prækursor kandidater og efterfølgende sekundære struktur forudsigelse kræver betydelig edb-tid16. Når disse værktøjer er ansat til at analysere de data fra små størrelse genomer som Arabidopsis til store som majs, data behandlingstid er steget fra timer til dage endda uger (figur 1b), hvilket resulterer i hyppige sammenbrud af processen. Der er derfor et presserende behov for en nyskabelse i de foregående begrænsninger.

Vores nye miRDP216 program, opdateret fra mirdeep-P13, er designet til at overvinde de udfordringer, der er nævnt ovenfor (supplerende fil 4). I dette program, vi ansat en ny filtrerings strategi, optimeret scoring algoritme, og indarbejdet nyligt opdaterede plante miRNA annotation kriterier. Som følge af disse nye funktioner blev køretiden markant forkortet, da den blev afprøvet ved hjælp af ti sRNA-biblioteker fra fem plantearter med stigende genom-størrelse. Desuden, sammenlignet med andre værktøjer, miRDP2 vist overlegen ydeevne i både følsomhed og nøjagtighed (figur 1). Tilsammen viser disse resultater, at miRDP2 er et hurtigt og præcist værktøj til at analysere miRNA transkriptomerne i planter.

Det bør advares om, at den nuværende forståelse af miRNA-karakteristika kan begrænse ydeevnen af alle beregningsværktøjer. Selv de nyligt ajourførte kriterier for miRNA-anmærkninger er baseret på et begrænset antal velunder søgt eksempler. De udledte oplysninger er således kun empiriske. Faktisk, unikke funktioner i Mirnas har vist sig at eksistere i forskellige plantearter eller nedstamningens3. Derudover spiller egenskaber som strukturerne i upstream-og downstream-regionerne i Mirna/Mirna * duplex også vigtige roller i Mirna Biogenese34,35, som ikke tages i betragtning i de nuværende anmærkningsværktøjer. Med ophobning af velunderbyggede eksempler i flere plantearter, er det sandsynligt, at endnu mere avancerede annotation værktøjer er udviklet i fremtiden, der kan fange mere subtile udmærkelser og klassificere miRNAs med en højere grad af nøjagtighed end de nuværende metoder. En lovende ny miRNA anmærknings retning er at indarbejde maskinel indlæring tilgange36 som kvaliteten af uddannelse datasæt og Annotation kriterier løbende udvikle sig.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har intet at afsløre.

Acknowledgments

Dette arbejde er blevet støttet af Beijing Academy of landbrug og skovbrug Sciences (KJCX201917, KJCX20180425, og KJCX20180204) til XY og National Natural Science Foundation i Kina (31621001) til LL.

Materials

Name Company Catalog Number Comments
Computer/computing node N/A N/A Perl is required; at least 8 GB RAM and 100 GB storage are recommended

DOWNLOAD MATERIALS LIST

References

  1. Ghildiyal, M., Zamore, P. D. Small silencing RNAs: an expanding universe. Nature Reviews Genetics. 10 (2), 94-108 (2009).
  2. Bartel, D. P. MicroRNAs: target recognition and regulatory functions. Cell. 136 (2), 215-233 (2009).
  3. Moran, Y., Agron, M., Praher, D., Technau, U. The evolutionary origin of plant and animal microRNAs. Nature Ecology Evolution. 1 (3), 27 (2017).
  4. Xie, Z., et al. Expression of Arabidopsis MIRNA genes. Plant Physiology. 138 (4), 2145-2154 (2005).
  5. Zhao, X., Zhang, H., Li, L. Identification and analysis of the proximal promoters of microRNA genes in Arabidopsis. Genomics. 101 (3), 187-194 (2013).
  6. Bologna, N. G., Mateos, J. L., Bresso, E. G., Palatnik, J. F. A loop-to-base processing mechanism underlies the biogenesis of plant microRNAs miR319 and miR159. EMBO JOURNAL. 28 (23), 3646-3656 (2009).
  7. Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
  8. Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
  9. Iwakawa, H. O., Tomari, Y. The Functions of MicroRNAs: mRNA Decay and Translational Repression. Trends in Cell Biology. 25 (11), 651-665 (2015).
  10. Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
  11. Wightman, B., Ha, I., Ruvkun, G. Posttranscriptional regulation of the heterochronic gene lin-14 by lin-4 mediates temporal pattern formation in C. elegans. Cell. 75 (5), 855-862 (1993).
  12. Friedlander, M. R., et al. Discovering microRNAs from deep sequencing data using miRDeep. Nature Biotechnology. 26 (4), 407-415 (2008).
  13. Yang, X., Li, L. miRDeep-P: a computational tool for analyzing the microRNA transcriptome in plants. Bioinformatics. 27 (18), 2614-2615 (2011).
  14. Meyers, B. C., et al. Criteria for annotation of plant MicroRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
  15. Yang, X., Zhang, H., Li, L. Global analysis of gene-level microRNA expression in Arabidopsis using deep sequencing data. Genomics. 98 (1), 40-46 (2011).
  16. Kuang, Z., Wang, Y., Li, L., Yang, X. miRDeep-P2: accurate and fast analysis of the microRNA transcriptome in plants. Bioinformatics. , (2018).
  17. Kozomara, A., Birgaoanu, M., Griffiths-Jones, S. miRBase: from microRNA sequences to function. Nucleic Acids Research. 47 (1), 155-162 (2019).
  18. Griffiths-Jones, S., Saini, H. K., van Dongen, S., Enright, A. J. miRBase: tools for microRNA genomics. Nucleic Acids Research. 36, Database issue 154-158 (2008).
  19. Axtell, M. J., Meyers, B. C. Revisiting Criteria for Plant MicroRNA Annotation in the Era of Big Data. Plant Cell. 30 (2), 272-284 (2018).
  20. Taylor, R. S., Tarver, J. E., Hiscock, S. J., Donoghue, P. C. Evolutionary history of plant microRNAs. Trends in Plant Science. 19 (3), 175-182 (2014).
  21. Kozomara, A., Griffiths-Jones, S. miRBase: annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, Database issue 68-73 (2014).
  22. Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9 (4), 357-359 (2012).
  23. Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6, 26 (2011).
  24. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (3), 25 (2009).
  25. An, J., Lai, J., Sajjanhar, A., Lehman, M. L., Nelson, C. C. miRPlant: an integrated tool for identification of plant miRNA from RNA sequencing data. BMC Bioinformatics. 15, 275 (2014).
  26. Lei, J., Sun, Y. miR-PREFeR: an accurate, fast and easy-to-use plant miRNA prediction tool using small RNA-Seq data. Bioinformatics. 30 (19), 2837-2839 (2014).
  27. Evers, M., Huttner, M., Dueck, A., Meister, G., Engelmann, J. C. miRA: adaptable novel miRNA identification in plants using small RNA sequencing data. BMC Bioinformatics. 16, 370 (2015).
  28. Mathelier, A., Carbone, A. MIReNA: finding microRNAs with high accuracy and no learning at genome scale and from deep sequencing data. Bioinformatics. 26 (18), 2226-2234 (2010).
  29. Zhu, Q. H., et al. A diverse set of microRNAs and microRNA-like small RNAs in developing rice grains. Genome Research. 18 (9), 1456-1465 (2008).
  30. Fahlgren, N., et al. MicroRNA gene evolution in Arabidopsis lyrata and Arabidopsis thaliana. Plant Cell. 22 (4), 1074-1089 (2010).
  31. Fromm, B., et al. A Uniform System for the Annotation of Vertebrate microRNA Genes and the Evolution of the Human microRNAome. Annual Review of Genetics. 49, 213-242 (2015).
  32. Blevins, T., et al. Identification of Pol IV and RDR2-dependent precursors of 24 nt siRNAs guiding de novo DNA methylation in Arabidopsis. Elife. 4, 09591 (2015).
  33. Zhai, J., et al. A One Precursor One siRNA Model for Pol IV-Dependent siRNA Biogenesis. Cell. 163 (2), 445-455 (2015).
  34. Werner, S., Wollmann, H., Schneeberger, K., Weigel, D. Structure determinants for accurate processing of miR172a in Arabidopsis thaliana. Current Biology. 20 (1), 42-48 (2010).
  35. Mateos, J. L., Bologna, N. G., Chorostecki, U., Palatnik, J. F. Identification of microRNA processing determinants by random mutagenesis of Arabidopsis MIR172a precursor. Current Biology. 20 (1), 49-54 (2010).
  36. Vitsios, D. M., et al. Mirnovo: genome-free prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Research. 45 (21), 177 (2017).

Tags

Genetik microRNA (miRNA) plante sRNA-SEQ miRDeep-P2 (miRDP2) næste generations sekventering Plant miRNA kriterier miRDeep-P (miRDP)
En Bioinformatik rørledning til præcist og effektivt at analysere MicroRNA Transkriptomes i planter
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wang, Y., Kuang, Z., Li, L., Yang,More

Wang, Y., Kuang, Z., Li, L., Yang, X. A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants. J. Vis. Exp. (155), e59864, doi:10.3791/59864 (2020).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter