Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

En bioinformatik pipeline för att noggrant och effektivt analysera MicroRNA Transcriptomes i växter

Published: January 21, 2020 doi: 10.3791/59864
* These authors contributed equally

Summary

En bioinformatik rörledning, nämligen mirdeep-P2 (miRDP2 för kort), med uppdaterade växt Mirna kriterier och en översyn algoritm, kan exakt och effektivt analysera MicroRNA transkriptom i växter, särskilt för arter med komplexa och stora genom.

Abstract

MicroRNAs (miRNAs) är 20-till 24-nukleotid (NT) endogena små RNAs (sRNAs) i stor utsträckning finns i växter och djur som spelar potenta roller i regleringen av genuttryck på post-transkriptionella nivå. Sekvensering Srna bibliotek av Next generation sekvensering (ngs) metoder har varit mycket anställd för att identifiera och analysera Mirna transkriptom under det senaste decenniet, vilket resulterar i en snabb ökning av Mirna Discovery. Men, två stora utmaningar uppstår i anläggningen miRNA anteckning på grund av ökande djupet av sekvenserade sRNA bibliotek samt storlek och komplexitet växtgenomer. För det första, många andra typer av sRNAs, i synnerhet, korta störande RNAs (siRNAs) från sRNA bibliotek, är felaktigt kommenterade som miRNAs av många beräkningsverktyg. För det andra blir det en extremt tidskrävande process för att analysera miRNA transkriptomer i växtarter med stora och komplexa genomer. För att övervinna dessa utmaningar, uppgraderade vi nyligen miRDeep-P (ett populärt verktyg för miRNA transkriptome analyser) till miRDeep-P2 (miRDP2 för kort) genom att anställa en ny filtrerings strategi, översyn av scoring algoritm och införliva nyligen uppdaterade anläggningen miRNA antecknings kriterier. Vi testade miRDP2 mot sekvenserade Srna populationer i fem representativa växter med ökande genomisk komplexitet, inklusive Arabidopsis, ris, tomat, majs och vete. Resultaten indikerar att miRDP2 bearbetade dessa uppgifter med mycket hög verkningsgrad. Dessutom överpresterade miRDP2 andra förutsägelse verktyg om känslighet och noggrannhet. Sammantaget visar våra resultat miRDP2 som ett snabbt och exakt verktyg för att analysera anläggningen miRNA transcriptomes, därför ett användbart verktyg för att hjälpa samhället bättre kommentera miRNAs i växter.

Introduction

En av de mest spännande upptäckter under de senaste två decennierna i biologi är den prolifererande roll sRNA arter i regleringen av olika funktioner i arvsmassan1. I synnerhet utgör mirnas en viktig klass av 20-till 24-NT srnas i Eukaryoter, och fungerar huvudsakligen på post-transkriptionell nivå som framstående gen regulatorer under hela livscykelns utvecklingsstadier samt i stimulans och stress svar2,3. I växter uppkommer mirnas från primära transkriptioner som kallas PRI-mirnas, som i allmänhet transkriberas av RNA-polymeras II som enskilda transkriptionsenheter4,5. Bearbetas av evolutionärt bevarad cellulära maskiner (drosha RNase III i djur, dicer-liknande i växter), är PRI-mirnas censurerade i omedelbar Mirna prekursorer, pre-mirnas, som innehåller sekvenser som bildar intramolekyl ära stamceller-loop6,7. Pre-mirnas bearbetas sedan till dubbelsträngade intermediärer, nämligen Mirna duplex, som består av funktionell strand, Mogen Mirna och den mindre ofta funktionella partnern Mirna *2,8. Efter att ha laddats in i det RNA-inducerade ljuddämpnings komplexet (RISC) kunde den mogna mirnas identifiera sina mRNA-mål baserat på sekvens-komplementaritet, vilket resulterade i en negativ reglerande funktion2,8. mirnas kan antingen destabilisera sina mål utskrifter eller förhindra mål översättning men det tidigare sättet domineras i växter8,9.

Sedan den slumpartade upptäckten av den första Mirna i Nematoden Caenorhabditis elegans10,11, mycket forskning har åtagit sig att Mirna identifiering och dess funktionella analys, särskilt efter tillgängligheten av ngs-metoden. Den breda tillämpningen av NGS-metoden har i hög grad främjat utnyttjandet av beräkningsverktyg som utformats för att fånga den unika funktionen hos miRNAs, såsom stam-loop struktur prekursorer och deras preferens ackumulering av sekvens läser på mogna miRNA och miRNA *. Som ett resultat har forskarna uppnått anmärkningsvärd framgång i att identifiera miRNAs i olika arter. Baserat på en tidigare beskrivna sannolikhets modell12utvecklade vi mirdeep-P13, som var det första beräkningsverktyget för att upptäcka anläggningen mirnas från ngs data. mirdeep-P var särskilt inriktad på att erövra utmaningarna med avkodning växt mirnas featuring mer variabel prekursor längd och stora paralogous familjer13,14,15. Efter dess release, detta program har laddats ner tusentals gånger och används för att kommentera Mirna transkriptom i mer än 40 växtarter16. Drivs av NGS-baserade verktyg som miRDeep-P, har det skett en dramatisk ökning av antalet registrerade miRNAs i den offentliga miRNA förråd miRBase17, där över 38 000 Mirna poster för närvarande värd (release 22,1) i jämförelse med endast ~ 500 Mirna objekt (Release 2,0) i 200818.

Dock har två nya utmaningar uppstått från anläggningen miRNA anteckning. Första, höga nyckeltal av falskt positiva har kraftigt påverkat kvaliteten på anläggningen Mirna anteckningar16,19 av följande skäl: 1) en stört av endogena korta störande rnas (sirnas) från ngs Srna bibliotek var felaktigt kommenterades som mirnas på grund av bristande en strikt Mirna anteckning kriterier; 2) för arter utan a priori miRNA information, falskt positiva förutspådde baserat på NGS data är svåra att eliminera. Använda miRBase som ett exempel hittade Taylor et al.20 en tredjedel av anläggningen Mirna poster i det offentliga arkivet21 (release 21) saknade övertygande stödjande bevis och även tre fjärdedelar av anläggningen Mirna familjer var tveksamma. För det andra blir det en extremt tidskrävande process för att förutsäga växt miRNAs med stora och komplexa genomer16. För att övervinna dessa utmaningar, uppdaterade vi miRDeep-P genom att lägga till en ny filtrerings strategi, översyn av scoring algoritm och integrera nya kriterier för anläggningen miRNA anteckning, och släppte den nya versionen miRDP2. Dessutom testade vi miRDP2 använda NGS sRNA datauppsättningar med successivt ökande Genome storlekar: Arabidopsis, ris, tomat, majs och vete. Jämfört med andra fem allmänt använda verktyg och dess gamla version, miRDP2 tolkas dessa Srna data och analyserade Mirna transkriptom snabbare med förbättrad noggrannhet och känslighet.

Innehållet i paketet miRDP2
Paketet miRDP2 består av sex dokumenterade perl-skript som ska köras sekventiellt av det förberedda bash-skriptet. Av de sex skripten, tre (convert_bowtie_to_blast. pl, filter_alignments. pl, och excise_candidate. pl) ärvs från mirdeep-P. De andra skripten ändras från den ursprungliga versionen. Funktioner för de sex skripten beskrivs i följande:

preprocess_reads. pl filter indata läsningar, inklusive läsningar som är för lång eller för kort (< 19 nt eller > 25 NT), och läser korrelerade med Rfam ncRNA sekvenser, samt läsningar med RPM (läsningar per miljon) mindre än 5. Skriptet hämtar sedan läsningar korrelerade till kända miRNA mogna sekvenser. Indatafilerna är original läsningar i FASTA/FASTQ format och bowtie2 utdata från läser mappning till miRNA och ncRNA sekvenser.

Formeln för beräkning av RPM är följande:

Equation 1

convert_bowtie_to_blast. pl ändrar bowtie-formatet till blastparsed format. BLAST-parsed format är ett anpassat tabellseparerat format som härleds från standard NCBI BLASToutput format.

filter_alignments. pl filtrerar de anpassningar av djupsekvensering läsningar till ett genom. Det filtrerar partiska anpassningar as well as mång--arrangera i rak linje läsningar (User-specificerad frekvens cutoff). Den grundläggande indata är en fil i BLASTPARSED format.

excise_candidate. pl klipper ut potentiella föregångare sekvenser från en referenssekvens med hjälp av justerade läsningar som riktlinjer. Den grundläggande indata är en fil i BLAST-parsed format och en FASTA-fil. Utdata är alla potentiella föregångare sekvenser i FASTA-format.

mod-miRDP.pl behov två indatafiler, signatur arkivera och strukturen arkivera, vilken är modifierat från kärna mirdeep-P algoritmen vid omväxlar den scoring system med plantera bestämd paramenterna. Indatafilerna är dot-Bracket föregångare strukturfil och läser distribution signaturfil.

mod-rm_redundant_meet_plant. pl behöver tre indatafiler: chromosome_length, prekursorer och original_prediction som genereras av mod-miRDP.pl. Det genererar två utdatafiler, icke-redundant förutspådde fil och förutspådde fil filtreras av nyligen uppdaterade växt miRNA kriterier. Information om utdatafilens format beskrivs i avsnitt 1,4.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. installation och provning

  1. Hämta nödvändiga beroenden: Bowtie222 och RNAfold23. Kompilerade paket rekommenderas.
    1. Hämta Bowtie2, ett Läs mappnings verktyg, från dess hemsida (http://bowtie-bio.sourceforge.net/bowtie2/index.shtml).
    2. Hämta RNAfold, ett verktyg i Wien paket som används för att förutsäga RNA sekundär struktur, från http://www.TBI.univie.AC.at/~Ivo/RNA/.
    3. Innan du installerar miRDP2, se till att dessa två beroenden är korrekt installerade och anpassa bash-miljöfilen (t. ex.,. bashrc) att ange en korrekt sökväg för dessa två beroenden.
      Obs: andra kartläggningsverktyg som bowtie24 är också lämpliga att miRDP2; antingen bowtie eller Bowtie2 kan användas efter version 1.1.3.
  2. Om du vill hämta paketet miRDP2 går du till https://sourceforge.net/projects/mirdp2/Files/latest_version/ och hämtar arkivet-filerna.
  3. Innan du installerar miRDP2, se till att perl är i sökvägen. Till installera miRDP2, extraktet all innehållen om dataöverföring arkivet arkivera in i en broschyren (befalla linjen så i 1.4.2), och då sätta broschyren Stig in i stig.
    Anmärkning: en dator eller datornod med minst 8 GB RAM och 100 GB lagring rekommenderas att köra miRDP2.
  4. Testa MiRDP2 pipeline.
    1. Om du vill testa om miRDP2 har installerats korrekt använder du testdata och förväntade utdata som finns i https://sourceforge.net/projects/mirdp2/Files/testdata/. Test data innehåller en formaterad GSM-sekvenserings fil och en Arabidopsis thaliana arvs fil.
    2. Flytta alla hämtade filer till den aktuella arbetskatalogen:
      MV miRDP2-v*. tar. gz testdata. tar. gz ncRNA_rfam. tar. gz < user_selected_folder >
      cd < user_selected_folder >
    3. Extrahera komprimerade arkivet-filer:
      tjära -xvzf miRDP2-v*. tar. gz
      tjära -xvzf testdata. tar. gz
      tar -xvzf ncRNA_rfam. tar. gz
    4. Bygg referensindex för Arabidopsis Genome:
      bowtie2-build -f./testdata/TAIR10_genome. FA./testdata/TAIR10_genome
    5. Bygga ncRNA referensindex:
      bowtie2-build -f./ncRNA_rfam. FA./1.1.3/script/index/rfam_index
    6. Kör miRDP2 pipeline:
      bash ./1.1.3/mirdp2-v1.1.3_pipeline. bash – g./testdata/TAIR10_genome. FA-i./testdata/tair 10_genome – f./TestData/GSM2094927.fa – o.
      Obs: Linux-kommandon som används är i fetstil och kursiv stil, med kommandoradsflaggor i kursiv stil. * Anger versionen av miRDP2 (den aktuella versionen är 1.1.3). Kommandot bowtie2-build bör ta ungefär 10 minuter och miRDP2 pipeline ska slutföras inom några minuter
  5. Kontrollera test utgångar.
    1. Observera att en mapp med namnet "GSM2094927-15-0-10" genereras automatiskt i < user_selected_folder >, som innehåller alla mellanliggande filer och resultat.
    2. Kontrollera att tabbavgränsade utdatafilen GSM2094927-15-0-10_filter_P_prediction, den slutliga produktionen av förväntade miRNAs, innehåller kolumner som indikerar kromosom-ID, strand riktning, representativa läsningar ID, prekursorer ID, mogna miRNA plats, föregångare plats, Mogen sekvens och prekursorsekvens. Notera den extra säng fil som härleds från denna fil för att underlätta ytterligare analys.
    3. Kontrollera filen "progress_log", som ger information om färdiga steg, och filerna "script_log" och "script_err", som innehåller programutdata och varningar.
      Obs: för närvarande har vi testat miRDP2 på två Linux-plattformar, inklusive CentOS release 6,5 på en klusterserver, och Cygwin 2.6.0 på PC Windows-system, och miRDP2 bör fungera på liknande system som stöder perl.

2. identifiering av nya miRNAs

  1. Innan du kör pipelinen ska du kontrollera att inläsningarna förbearbetas till rätt format.
    Obs: den nya versionen 1.1.3 av miRDP2 kan acceptera ursprungliga FASTQ-formatfiler som indata, även om processen för formatering läsningar utförs som i tidigare versioner.
    1. Ta först bort adaptrar från 5 ' och 3 ' ändarna på de djupa sekvenserings läsningarna (om sådana finns).
    2. För det andra, tolka djupsekvensering läsningar i FASTA format.
    3. För det tredje, ta bort redundans så att läsningar med identiska sekvens representeras med en enda och unik FASTA post.
    4. Slutligen, se till att alla FASTA identifierare är unika. Varje sekvens identifierare måste avslutas med en "_x" och ett heltal som anger kopierings numret för den exakta sekvens som hämtades i djupsekvensering datauppsättningar. Ett sätt att säkerställa unika FASTA identifierare är att inkludera ett löpande nummer i ID. För referens, se filen GSM2094927. FA i testdata (https://sourceforge.net/projects/mirdp2/Files/testdata/).
    5. Se följande exempel på korrekt formaterade läsningar:

      > read0_x29909
      TTTGGATTGAAGGGAGCTCTA
      > read1_x36974
      TTCCACAGCTTTCTTGAACTG
      > read2_x32635
      TTCCACAGCTTTCTTGAACTT
  2. Bygga referensindex.
    1. För arvsmassan, för att spara tid, Ladda ner Bowtie2 indexfiler från iGenomes webbplats (https://support.Illumina.com/Sequencing/sequencing_software/igenome.html) om arvsmassan sekvenser av arter av intresse har indexerats. I annat fall indexerar användare referenssekvens och behåller indexfilen ett tag tills projektet är färdigt eftersom genomsekvensen kan behöva omindexeras. Information om hur man indexerar en genomreferens ingår i bowtie2 manual (http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml).
    2. En annan icke-miRNA ncRNA index behövs också för att filtrera bort bullriga sekvenser från andra icke-kodning RNA fragment. Filen är en samling av Main ncRNA sekvenser från Rfam, inklusive rRNA, tRNA, snRNA och snoRNA. För att bygga detta index, se del 1,4, eftersom indexet ska placeras och namnges korrekt, d.v.s. < miRDP2_version >/script/index/rfam_index.
  3. Kör miRDP2.
    1. Om du vill använda miRDP2 för att identifiera nya miRNAs från djup sekvenserings data kör du bash-skriptet i paketet för att starta analyspipelinen (ett exempel finns i steg 1,4):
      < path_to_miRDP2_folder >/miRDP2-v *. * _pipeline. bash – g < genome_file >-i < path_to_index/index_prefix >-f < seq_file >-o < output_folder
      där * anger version av pipeline bash-skriptet. Det finns tre parametrar som kan ändras: 1) antalet olika platser en läsning kan mappas till, 2) den matchningsfel nummer för att köra bowtie2, och 3) tröskelvärdet för RPM (läsningar per miljon). Ändra dessa med alternativen-L,-M, och-R respektive. En utförlig förklaring finns i avsnitt 3,1.
  4. Kontrollera miRDP2 utgångar.
    1. Observera att utdatamappen automatiskt kommer att genereras under < output_folder > och med namnet "< seq_file_name >-15-0-10". de sista 3 siffrorna anger värdena (standard i det här fallet) för parametrarna 1, 2 respektive 3. Filen < seq_file_name > _filter_P_prediction innehåller information om den slutliga förväntade miRNAs som uppfyller de nyligen uppdaterade kriterierna för att anteckning av växt miRNA. Detaljer om formatet på utdatafilen beskrivs i del 1,4.

3. modifieringar och försiktighet med miRDP2

  1. Parametrar som kan ändras
    1. Använd alternativet "-L" för att ange gränsen för hur många platser en läsning kan mappas till (parameter 1). Läsa mappning till för många platser är möjligen förknippade med upprepade sekvenser, och är inte sannolikt att miRNAs. Standardinställningen är 15. För specifika arter, om det finns miRNA familjer med många medlemmar, kan den första parametern ökas manuellt för att anpassa sig till genomlandskapet.
    2. Använd alternativet "-M" för att ställa in tillåtna felmatchningar för bowtie (parameter 2). Standardinställningen är 0.
    3. Använd alternativet "-R" för att ange tröskelvärdet för läsningar som potentiellt motsvarar mogna miRNAs (parameter 3). För att minska tidsåtgång och falskt positiva, filter läsningar av RPM. Endast läsningar som överskrider ett visst RPM-tröskelvärde kan representera mogna sekvenser av miRNAs snarare än bakgrundsbrus, och skulle behållas för ytterligare analys. Standardinställningen är 10 RPM.
    4. Observera att ändra dessa parametrar kan potentiellt påverka prestanda och tidsåtgång. I allmänhet skulle en ökning av parameter 1 och 2 och en minskning av parameter 3 generera ett mindre strikt resultat och längre körtid och vice versa.
  2. Redundans och miRNA *
    1. Observera att utdata miRNAs från miRDP2 kan skilja sig från kända miRNAs. Vi fann att detta främst beror på en av två skäl: heterogenitet av den mogna miRNAs eller den relativa överflöd av miRNA och miRNA *. Vi fann att detta inte påverkar den optimala längden val av prekursorer och profilering av kända miRNA gener.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

MiRNA Annotation pipeline, miRDP2, som beskrivs häri, tillämpas på 10 offentliga sRNA-SEQ-bibliotek från 5 växtarter med gradvis ökad genomlängd, inklusive Arabidopsis thaliana, Oryza sativa (ris), Solanum lycopersicum (tomat) , Zea mays (majs) och Triticum aestivum (vete) (figur 1A). Sammantaget för varje art, 2 representativa sRNA bibliotek från olika vävnader (kollapsade till unika läsningar, detaljer i protokollet avsnitt) och deras indexerade genomsekvenser bearbetas som två ingångar (tabell 1). Fem miRNA Computational förutsägelse verktyg (miRDeep-P13, mirplant25, Mir-föredra26, miRA27, Mirena28) valdes för att göra jämförelsen.

Kör tids test
Till jämföra den runtime och utförande av miRDP2 och annan fem redskapen, vi installerat fem Redskapen (miRDP2, miRDeep-P, miR-föredra, miRA, och miReNA) i en kluster servaren med cent OS frige 6,5 system. Dessa program kördes med samma indatafiler, maskinvara och resurs (detaljer i kompletterande fil 1). Speciellt, miRPlant styrs från ett GUI skrivet i Java och kunde inte köras på servern. Istället testade vi miRPlant på en PC med Windows 10 medan vi också har testat miRDP2 och miRDeep-P på den här datorn (detaljer i kompletterande fil 1).

För små genomarter som Arabidopsis thaliana, Oryza sativa, och Solanum lycopersium, alla program sprang ordentligt. Men för stora genomar arter som Zea mays och Triticum aestivum (inklusive Solanum Lycopersium för miRA), några av de program som uttömt alla datorresurser och bröt ner halvvägs. For exempel, miReNA, miRA, och miR-föredra strandat till generera resultaten, sannolikt på grund av minne bristfälligheten fördriva tiden affärer med stor SAM arkivera eller mellanliggande arkivera. I synnerhet miRPlant temporära filer konsumeras för mycket utrymme, och resultatet kunde inte köras på datorn när det handlar om stora genomarter. miRDP2 avslutade dessa förutsägelse processer på mycket kort tid, från minuter till timmar (figur 1B). Sålunda, jämförde med dess gammal version och annan redskapen, den löpande tid av miRDP2 var markant förkortat.

Känslighets-och precisionstest
Eftersom miRNAs i Arabidopsis studeras intensivt, har vi gjort användning av kända miRNAs i Arabidopsis i miRBase21 (release 22,1) för att utvärdera miRDP2, och gjort jämförelsen med andra verktyg. Som tidigare rapporterats19,26, används följande formler för att beräkna känslighet och noggrannhet:

Equation 2

Equation 3

Kända miRNAs är de som kommenterade i miRBase. En miRNA betecknas som uttryckt om de mogna sekvenserna har mer än 5 RPM, och ≥ 75% läser på föregångaren mappas till mogna och Star miRNA sekvenser. Två sekvenserade sRNA-bibliotek från Arabidopsis (tabell 1) användes för att göra testet. miRDP2 (figur 1C, D) presterade bättre i både känslighet och noggrannhet jämfört med andra verktyg.

Sammantaget visar dessa resultat att miRDP2 är ett snabbt och exakt verktyg för att analysera miRNA transkriptome i växter.

Figure 1
Figur 1: prestanda för miRDP2. A) genomets storlek (i GB) för Arabidopsis thaliana (ATH), Oryza sativa (OSA), Solanum lycopersicum (Sly), Zea mays (ZMA), Triticum aestivum (Tae). (B-D) Jämförelse av runtime, känslighet och noggrannhet av miRDP2 och andra fem verktyg. Två punkter som motsvarar varje verktyg indikerar att två tester har gjorts av varje verktyg. Denna siffra har anpassats från Kuang et al.16. Vänligen klicka här för att se en större version av denna siffra.

Arter (ABB.) Genome version sRNA-biblioteken
Biblioteks-ID Filstorlek Totalt antal läsningar Unika läsningar Vävnad
Arabidopsis thaliana (ATH) version 10 GSM2094927 24,9 MB 40,5 m 9,7 m Vuxen löv
GSM2412287 29,5 MB 45,1 m 11.1 m Blad
Oryza sativa (OSA) version 7 GSM2883136 44,2 MB 54.9 m 16.3 m Plantor
GSM3030848 34,7 MB 49,1 m 13,0 m Flagleaf
Solanum lycopersicum (Sly) version 3 GSM1213985 205,4 MB 161.5 m 58.0 m Blad
GSM1976413 118,5 MB 139.3 m 46,2 m Root
Zea mays (ZMA) version 4 GSM1277437 158,4 MB 266.1 m 60,5 m Plantor
GSM1428531 144,1 MB 172.5 m 56,3 m Utsäde
Triticum aestivum (Tae) iwgsc 1 GSM1294660 76,1 MB 59,2 m 29,6 m Skjuta
GSM1294661 113,6 MB 84.0 m 44,0 m Blad

Tabell 1: Genomes-och sRNA-bibliotek som används för att testa miRDP2 och andra verktyg. Denna tabell har anpassats från Kuang et al.16.

Kompletterande fil 1: jämförelse av runtime, känslighet och noggrannhet av miRDP2 och andra fem verktyg. Vänligen klicka här för att ladda ner denna fil.

Kompletterande fil 2: exempel på autentiska mirnas med dela struktur i slingor. Vänligen klicka här för att ladda ner denna fil.

Tilläggsfil 3: uppdaterade kriterier för växt miRNA-anteckning och kriterier för 23-NT och 24-NT miRNAs. Vänligen klicka här för att ladda ner denna fil.

Kompletterande fil 4: diagram över arbetsflödet för miRDP2. Vänligen klicka här för att ladda ner denna fil.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Med intåget av ngs, har ett stort antal Mirna loci identifierats från en ständigt ökande mängd Srna sekvensering data i olika arter29,30. I den centraliserade community-databasen miRBase21har de deponerade Mirna-objekten ökat nästan 100 gånger under det senaste decenniet. Men i jämförelse med mirnas hos djur, växt mirnas har många unika egenskaper som gör identifiering/anteckning mer komplicerat13,14.

För det första är prekursorer till växt miRNAs mer varierande i längd och struktur (tilläggsfil 2)16. Inte som den relativt enhetliga längden av djur Mirna prekursorer runt 70-90 NT, längden på växternas prekursorer variera med flera veck och kunde nå flera hundra nts13,31. Denna skillnad introducerar en hel del osäkerhet när förutsäga sekundär struktur miRNA prekursorer även om en cutoff av prekursor längd vanligtvis sätts godtyckligt som inte överstiger 300 NT19 (denna parameter var inbäddad i miRDP2, och erfarna användare av miRDP2 kunde justera detta själva). Dessutom har bevarade växt miRNA familjer tenderar att ha fler medlemmar, och längden variation av dessa medlemmar är också ofta betydande13. Detta är anledningen till att miRDP2 har parametern-L, som indikerar de potentiella största miRNA familjerna i medlems storlek. Tillsammans, heterogenitet av anläggningen miRNA prekursorer väcker många svårigheter för deras korrekt anteckning.

För det andra är bullret eller falskt positiva som införts av siRNAs svårt att eliminera. Vid sidan av miRNAs producerar NGS-metoder också en störta av siRNAs i de sekvenserade sRNA-biblioteken. Även om sirnas kan skiljas från mirnas av deras biogenes och funktioner32,33, är det oerhört svårt att särskilja dem baserat på sekvenserings data och gruv verktyg. De offentliga databaser som mirbase, hävdade av många forskare, har försämrats kraftigt av det stora antalet falskt positiva sirnas, som felaktigt kommenteras som mirnas20,31. Sålunda, raffinerade verktyg med en ny och strikt uppsättning kriterier för anläggningen miRNA anteckning som nyligen uppdaterade kriterier25 (kompletterande fil 3) är mycket önskvärt i Mirna anteckning pipeline/process.

Sist men inte minst har beräkningstiden för parsning av sRNA-biblioteken ökat exponentiellt när samma metod transplanteras från en liten arvsmassa till en stor storlek. De beräkningsverktyg som miRDeep-P13 och Mir-föredrar26, genom att fånga och kvantifiera signatur distribution av Srna läser längs Mirna prekursorer, har blivit två populära metoder och används ofta för att kommentera mirnas. Kartläggnings strategin, processen för att excisera föregångare kandidater och efterföljande sekundära struktur förutsägelse kräver stor beräkningstid16. När dessa verktyg används för att tolka data från små genom som Arabidopsis till stora som majs, databehandlings tiden ökas från timmar till dagar även veckor (figur 1b), vilket resulterar i frekvent kollaps av processen. En innovation på ovan nämnda begränsningar är därför akut i behov.

Vårt nya miRDP216 -program, uppdaterat från mirdeep-P13, är utformat för att övervinna de utmaningar som nämns ovan (kompletterande fil 4). I detta program, vi använde en ny filtrerings strategi, optimerad scoring algoritm, och införlivas nyligen uppdaterade anläggningen miRNA anteckning kriterier. Som ett resultat av dessa nya funktioner förkortades körtiden markant när de testades med tio sRNA-bibliotek från fem växtarter med ökande Genomstorlek. Dessutom, jämfört med andra verktyg, visade miRDP2 överlägsen prestanda i både känslighet och noggrannhet (figur 1). Sammantaget visar dessa resultat att miRDP2 är ett snabbt och exakt verktyg för att analysera Mirna transkriptom i växter.

Det bör varnas att den nuvarande förståelsen om miRNA egenskaper kan begränsa prestandan för alla beräkningsverktyg. Även de nyligen uppdaterade miRNA antecknings kriterier är baserade på en begränsad uppsättning väl studerade exempel. Den härledas informationen är thus endast empiriskt. I själva verket, unika egenskaper hos miRNAs har visat sig existera i olika växtarter eller härstamningar3. Dessutom, egenskaper såsom strukturer uppströms och nedströms regioner i Mirna/Mirna * duplex spelar också kritiska roller i Mirna biogenes34,35, som inte beaktas i nuvarande anteckningsverktyg. Med ackumuleringen av väl studerade exempel i fler växtarter, är det troligt att ännu mer avancerade anteckningsverktyg utvecklas i framtiden som kan fånga mer subtila distinktioner och klassificera miRNAs med en högre grad av noggrannhet än nuvarande metoder. En lovande ny miRNA antecknings riktning är att införliva maskininlärning närmar sig36 som kvaliteten på utbildning datauppsättningar och antecknings kriterier utvecklas kontinuerligt.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Författarna har inget att avslöja.

Acknowledgments

Detta arbete har fått stöd av Peking Academy of jord-och skogsbruks vetenskap (KJCX201917, KJCX20180425 och KJCX20180204) till XY och National Natural Science Foundation i Kina (31621001) till LL.

Materials

Name Company Catalog Number Comments
Computer/computing node N/A N/A Perl is required; at least 8 GB RAM and 100 GB storage are recommended

DOWNLOAD MATERIALS LIST

References

  1. Ghildiyal, M., Zamore, P. D. Small silencing RNAs: an expanding universe. Nature Reviews Genetics. 10 (2), 94-108 (2009).
  2. Bartel, D. P. MicroRNAs: target recognition and regulatory functions. Cell. 136 (2), 215-233 (2009).
  3. Moran, Y., Agron, M., Praher, D., Technau, U. The evolutionary origin of plant and animal microRNAs. Nature Ecology Evolution. 1 (3), 27 (2017).
  4. Xie, Z., et al. Expression of Arabidopsis MIRNA genes. Plant Physiology. 138 (4), 2145-2154 (2005).
  5. Zhao, X., Zhang, H., Li, L. Identification and analysis of the proximal promoters of microRNA genes in Arabidopsis. Genomics. 101 (3), 187-194 (2013).
  6. Bologna, N. G., Mateos, J. L., Bresso, E. G., Palatnik, J. F. A loop-to-base processing mechanism underlies the biogenesis of plant microRNAs miR319 and miR159. EMBO JOURNAL. 28 (23), 3646-3656 (2009).
  7. Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
  8. Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
  9. Iwakawa, H. O., Tomari, Y. The Functions of MicroRNAs: mRNA Decay and Translational Repression. Trends in Cell Biology. 25 (11), 651-665 (2015).
  10. Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
  11. Wightman, B., Ha, I., Ruvkun, G. Posttranscriptional regulation of the heterochronic gene lin-14 by lin-4 mediates temporal pattern formation in C. elegans. Cell. 75 (5), 855-862 (1993).
  12. Friedlander, M. R., et al. Discovering microRNAs from deep sequencing data using miRDeep. Nature Biotechnology. 26 (4), 407-415 (2008).
  13. Yang, X., Li, L. miRDeep-P: a computational tool for analyzing the microRNA transcriptome in plants. Bioinformatics. 27 (18), 2614-2615 (2011).
  14. Meyers, B. C., et al. Criteria for annotation of plant MicroRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
  15. Yang, X., Zhang, H., Li, L. Global analysis of gene-level microRNA expression in Arabidopsis using deep sequencing data. Genomics. 98 (1), 40-46 (2011).
  16. Kuang, Z., Wang, Y., Li, L., Yang, X. miRDeep-P2: accurate and fast analysis of the microRNA transcriptome in plants. Bioinformatics. , (2018).
  17. Kozomara, A., Birgaoanu, M., Griffiths-Jones, S. miRBase: from microRNA sequences to function. Nucleic Acids Research. 47 (1), 155-162 (2019).
  18. Griffiths-Jones, S., Saini, H. K., van Dongen, S., Enright, A. J. miRBase: tools for microRNA genomics. Nucleic Acids Research. 36, Database issue 154-158 (2008).
  19. Axtell, M. J., Meyers, B. C. Revisiting Criteria for Plant MicroRNA Annotation in the Era of Big Data. Plant Cell. 30 (2), 272-284 (2018).
  20. Taylor, R. S., Tarver, J. E., Hiscock, S. J., Donoghue, P. C. Evolutionary history of plant microRNAs. Trends in Plant Science. 19 (3), 175-182 (2014).
  21. Kozomara, A., Griffiths-Jones, S. miRBase: annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, Database issue 68-73 (2014).
  22. Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9 (4), 357-359 (2012).
  23. Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6, 26 (2011).
  24. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (3), 25 (2009).
  25. An, J., Lai, J., Sajjanhar, A., Lehman, M. L., Nelson, C. C. miRPlant: an integrated tool for identification of plant miRNA from RNA sequencing data. BMC Bioinformatics. 15, 275 (2014).
  26. Lei, J., Sun, Y. miR-PREFeR: an accurate, fast and easy-to-use plant miRNA prediction tool using small RNA-Seq data. Bioinformatics. 30 (19), 2837-2839 (2014).
  27. Evers, M., Huttner, M., Dueck, A., Meister, G., Engelmann, J. C. miRA: adaptable novel miRNA identification in plants using small RNA sequencing data. BMC Bioinformatics. 16, 370 (2015).
  28. Mathelier, A., Carbone, A. MIReNA: finding microRNAs with high accuracy and no learning at genome scale and from deep sequencing data. Bioinformatics. 26 (18), 2226-2234 (2010).
  29. Zhu, Q. H., et al. A diverse set of microRNAs and microRNA-like small RNAs in developing rice grains. Genome Research. 18 (9), 1456-1465 (2008).
  30. Fahlgren, N., et al. MicroRNA gene evolution in Arabidopsis lyrata and Arabidopsis thaliana. Plant Cell. 22 (4), 1074-1089 (2010).
  31. Fromm, B., et al. A Uniform System for the Annotation of Vertebrate microRNA Genes and the Evolution of the Human microRNAome. Annual Review of Genetics. 49, 213-242 (2015).
  32. Blevins, T., et al. Identification of Pol IV and RDR2-dependent precursors of 24 nt siRNAs guiding de novo DNA methylation in Arabidopsis. Elife. 4, 09591 (2015).
  33. Zhai, J., et al. A One Precursor One siRNA Model for Pol IV-Dependent siRNA Biogenesis. Cell. 163 (2), 445-455 (2015).
  34. Werner, S., Wollmann, H., Schneeberger, K., Weigel, D. Structure determinants for accurate processing of miR172a in Arabidopsis thaliana. Current Biology. 20 (1), 42-48 (2010).
  35. Mateos, J. L., Bologna, N. G., Chorostecki, U., Palatnik, J. F. Identification of microRNA processing determinants by random mutagenesis of Arabidopsis MIR172a precursor. Current Biology. 20 (1), 49-54 (2010).
  36. Vitsios, D. M., et al. Mirnovo: genome-free prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Research. 45 (21), 177 (2017).

Tags

Genetik utfärda 155 microRNA (miRNA) växt sRNA-SEQ miRDeep-P2 (miRDP2) nästa generations sekvensering växt miRNA kriterier miRDeep-P (miRDP)
En bioinformatik pipeline för att noggrant och effektivt analysera MicroRNA Transcriptomes i växter
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wang, Y., Kuang, Z., Li, L., Yang,More

Wang, Y., Kuang, Z., Li, L., Yang, X. A Bioinformatics Pipeline to Accurately and Efficiently Analyze the MicroRNA Transcriptomes in Plants. J. Vis. Exp. (155), e59864, doi:10.3791/59864 (2020).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter