Genetics

Eine Bioinformatik-Pipeline zur genauen und effizienten Analyse der MicroRNA-Transkriptome in Pflanzen

Published: January 21, 2020 doi: 10.3791/59864

Ying Wang*^1,2, Zheng Kuang*^1,2, Lei Li², Xiaozeng Yang¹

¹Beijing Key Laboratory of Agricultural Genetic Resources and Biotechnology, Beijing Agro-Biotechnology Research Center, Beijing Academy of Agriculture and Forestry Sciences, ²State Key Laboratory of Protein and Plant Gene Research, Peking-Tsinghua Center for Life Sciences, School of Advanced Agricultural Sciences and School of Life Sciences, Peking University

* These authors contributed equally

Summary

Eine Bioinformatik-Pipeline, nämlich miRDeep-P2 (kurz miRDP2), mit aktualisierten pflanzen-miRNA-Kriterien und einem überarbeiteten Algorithmus, könnte microRNA-Transkriptome in Pflanzen genau und effizient analysieren, insbesondere für Arten mit komplexen und großen Genomen.

Abstract

MicroRNAs (miRNAs) sind 20- bis 24-Nukleotid (nt) endogene kleine RNAs (sRNAs), die in Pflanzen und Tieren, die eine starke Rolle bei der Regulierung der Genexpression auf posttranskriptionaler Ebene spielen, weitreichend vorhanden sind. Die Sequenzierung von sRNA-Bibliotheken nach NEXT Generation Sequencing (NGS)-Methoden wurde in den letzten zehn Jahren häufig eingesetzt, um miRNA-Transkriptome zu identifizieren und zu analysieren, was zu einer schnellen Zunahme der miRNA-Entdeckung führte. Zwei große Herausforderungen ergeben sich jedoch in der pflanzlichen miRNA-Anmerkung aufgrund der zunehmenden Tiefe sequenzierter sRNA-Bibliotheken sowie der Größe und Komplexität von Pflanzengenomen. Erstens werden viele andere Arten von sRNAs, insbesondere kurze störende RNAs (siRNAs) aus sRNA-Bibliotheken, von vielen Rechenwerkzeugen fälschlicherweise als miRNAs bezeichnet. Zweitens wird es zu einem extrem zeitaufwändigen Prozess zur Analyse von miRNA-Transkriptomen bei Pflanzenarten mit großen und komplexen Genomen. Um diese Herausforderungen zu meistern, haben wir vor kurzem miRDeep-P (ein beliebtes Tool für miRNA-Transkriptomanalysen) auf miRDeep-P2 (kurz miRDP2) aktualisiert, indem wir eine neue Filterstrategie einsetzen, den Bewertungsalgorithmus überarbeiten und die neu aktualisierte Anlage miRNA Anmerkungskriterien. Wir testeten miRDP2 an sequenzierten sRNA-Populationen in fünf repräsentativen Pflanzen mit zunehmender genomischer Komplexität, einschließlich Arabidopsis, Reis, Tomaten, Mais und Weizen. Die Ergebnisse deuten darauf hin, dass miRDP2 diese Aufgaben mit sehr hoher Effizienz verarbeitet hat. Darüber hinaus übertraf miRDP2 andere Vorhersagetools in Bezug auf Empfindlichkeit und Genauigkeit. Zusammengenommen zeigen unsere Ergebnisse miRDP2 als schnelles und genaues Werkzeug zur Analyse von pflanzlichen miRNA-Transkriptomen, daher ein nützliches Werkzeug, um der Community dabei zu helfen, miRNAs in Pflanzen besser zu kommentieren.

Introduction

Eine der spannendsten Entdeckungen der letzten zwei Jahrzehnte in der Biologie ist die sich ausbreitende Rolle von sRNA-Arten bei der Regulierung verschiedener Funktionen des Genoms¹. Insbesondere stellen miRNAs eine wichtige Klasse von 20- bis 24-nt sRNAs in Eukaryoten dar und fungieren hauptsächlich auf posttranskriptionärer Ebene als prominente Genregulatoren während der gesamten Lebenszyklusentwicklungsphase sowie in Stimulus- und Stressreaktionen²^,³. Bei Pflanzen entstehen miRNAs aus primären Transkripten, sogenannten pri-miRNAs, die in der Regel durch RNA-Polymerase II als individuelle Transkriptionseinheiten⁴^,⁵transkribiert werden. Verarbeitet durch evolutionär konservierte zelluläre Maschinen (Drosha RNase III bei Tieren, DICER-like in Pflanzen) werden pri-miRNAs in die unmittelbaren miRNA-Vorstufen, pre-miRNAs, eingeschnitten, die Sequenzen enthalten, die intramolekulare Stammschleifenstrukturen^{bilden 6}^,⁷. Pre-miRNAs werden dann zu doppelsträngigen Zwischenprodukten verarbeitet, nämlich miRNA-Duplexen, bestehend aus dem funktionellen Strang, der reifen miRNA und dem seltener funktionellen Partner miRNA*²^,⁸. Nach dem Einladen in den RNA-induzierten Silencing-Komplex (RISC) konnten die reifen miRNAs ihre mRNA-Ziele anhand der Sequenzkompleärität erkennen, was zu einer negativen Regulatorischen Funktion²^,⁸führte. miRNAs könnten entweder ihre Zieltranskripte destabilisieren oder Zielübersetzungen verhindern, aber die frühere Art und Weise wird in den Anlagen⁸^,⁹dominiert.

Seit der zufälligen Entdeckung der ersten miRNA in der Nematode Caenorhabditis elegans¹⁰^,¹¹wurde viel Forschung zur miRNA-Identifikation und ihrer funktionellen Analyse, insbesondere nach der Verfügbarkeit der NGS-Methode, durchgeführt. Die breite Anwendung der NGS-Methode hat die Nutzung von Rechenwerkzeugen, die entwickelt wurden, um die einzigartige Eigenschaft von miRNAs zu erfassen, wie die Stammschleifenstruktur von Vorläufern und ihre bevorzugte Akkumulation von Sequenzlesungen auf ausgereifter miRNA und miRNA* stark gefördert. Als Ergebnis haben die Forscher bemerkenswerte Erfolge bei der Identifizierung von miRNAs in verschiedenen Arten erzielt. Basierend auf einem zuvor beschriebenen Wahrscheinlichkeitsmodell¹²entwickelten wir miRDeep-P¹³, das erste Rechenwerkzeug zur Erkennung von pflanzlichen miRNAs aus NGS-Daten. miRDeep-P zielte speziell darauf ab, die Herausforderungen der Dekodierung von pflanzlichen miRNAs mit variablerer Vorläuferlänge und großen paralogusfarbenen Familien¹³^,¹⁴^,¹⁵zu meistern. Nach seiner Veröffentlichung wurde dieses Programm tausende Male heruntergeladen und verwendet, um miRNA-Transkriptome bei mehr als 40 Pflanzenarten¹⁶zu kommentieren. Angetrieben von NGS-basierten Tools wie miRDeep-P, hat die Anzahl der registrierten miRNAs im öffentlichen miRNA-Repository miRBase¹⁷, wo derzeit über 38.000 miRNA-Elemente gehostet werden (Release 22.1), im Vergleich zu nur 500 MIRNA-Elementen (Release 2.0) im Jahr 2008¹⁸erhöht.

Allerdings sind zwei neue Herausforderungen aus der pflanzlichen miRNA-Anmerkung entstanden. Erstens haben hohe Verhältnisse von Falsch-Positiven die Qualität der pflanzlichen miRNA-Anmerkungen¹⁶^,¹⁹ aus folgenden Gründen stark beeinflusst: 1) eine Flut von endogenen kurz störenden RNAs (siRNAs) aus NGS sRNA-Bibliotheken wurde fälschlicherweise als miRNAs bezeichnet, da keine strengen miRNA-Anmerkungskriterien vorliegen; 2) Für Arten ohne a priori miRNA-Informationen sind falsch positive Vorhersagen, die auf NGS-Daten basieren, schwer zu eliminieren. Am Beispiel von miRBase fanden Taylor et al.²⁰ ein Drittel der pflanzlichen miRNA-Einträge im öffentlichen Endlager²¹ (Release 21) ohne überzeugende Belege und sogar drei Viertel der pflanzlichen miRNA-Familien waren fragwürdig. Zweitens wird es zu einem extrem zeitaufwändigen Prozess zur Vorhersage von pflanzlichen miRNAs mit großen und komplexen Genomen¹⁶. Um diese Herausforderungen zu meistern, haben wir miRDeep-P aktualisiert, indem wir eine neue Filterstrategie hinzugefügt, den Bewertungsalgorithmus überarbeitet und neue Kriterien für die pflanzliche miRNA-Anmerkung integriert und die neue Version miRDP2 veröffentlicht haben. Darüber hinaus haben wir miRDP2 mit NGS sRNA-Datensätzen mit allmählich steigenden Genomgrößen getestet: Arabidopsis, Reis, Tomaten, Mais und Weizen. Im Vergleich zu anderen fünf weit verbreiteten Werkzeugen und seiner alten Version analysierte miRDP2 diese sRNA-Daten und analysierte miRNA-Transkriptome schneller mit verbesserter Genauigkeit und Empfindlichkeit.

Inhalt des miRDP2-Pakets
Das miRDP2-Paket besteht aus sechs dokumentierten Perl-Skripten, die sequenziell vom vorbereiteten Bash-Skript ausgeführt werden sollen. Von den sechs Skripten werden drei (convert_bowtie_to_blast.pl, filter_alignments.plund excise_candidate.pl) von miRDeep-P geerbt. Die anderen Skripts werden ab der Originalversion geändert. Die Funktionen der sechs Skripte werden im Folgenden beschrieben:

preprocess_reads.pl filtert Eingabelesevorgänge, einschließlich Lesevorgänge, die zu lang oder zu kurz sind (<19 nt oder >25 nt), und liest korreliert mit Rfam ncRNA-Sequenzen sowie Lesevorgänge mit RPM (Reads Per Million) kleiner als 5. Das Skript ruft dann Lesevorgänge ab, die mit bekannten miRNA-Reifensequenzen korreliert sind. Die Eingabedateien sind Originallesevorgänge im FASTA/FASTQ-Format und bowtie2-Ausgabe von Lesekarten, die zu miRNA- und ncRNA-Sequenzen mapping.

Die Formel für die Berechnung von RPM lautet wie folgt:

Equation 1

convert_bowtie_to_blast.pl ändert das Bowtie-Format in ein BLAST-parsed-Format. BLAST-parsed Format ist ein benutzerdefiniertes tabellarisches separates Format, das vom Standard-NCBI BLASToutput-Format abgeleitet wird.

filter_alignments.pl filtert die Ausrichtungen von Tiefensequenzierungslesungen zu einem Genom. Es filtert Partielle Ausrichtungen sowie mehrstimmige Lesevorgänge (benutzerspezifische Frequenzabschaltung). Die Basiseingabe ist eine Datei im BLAST-parsed Format.

excise_candidate.pl schneidet potenzielle Vorläufersequenzen aus einer Referenzsequenz unter Verwendung ausgerichteter Lesevorgänge als Richtlinien aus. Die Basiseingabe ist eine Datei im BLAST-parsed-Format und eine FASTA-Datei. Die Ausgabe sind alle potenziellen Vorläufersequenzen im FASTA-Format.

mod-miRDP.pl benötigt zwei Eingabedateien, Signaturdatei und Strukturdatei, die aus dem kernigen miRDeep-P-Algorithmus geändert wird, indem das Bewertungssystem mit pflanzenspezifischen Parametern geändert wird. Die Eingabedateien sind dot-bracket Precursor-Strukturdatei und liest VerteilungSignatur-Datei.

mod-rm_redundant_meet_plant.pl benötigt drei Eingabedateien: chromosome_length, Vorläufer und original_prediction, die von mod-miRDP.pl generiert werden. Es generiert zwei Ausgabedateien, nicht redundante vorhergesagte Datei und vorhergesagte Datei gefiltert durch neu aktualisierte plant miRNA Kriterien. Details zum Format der Ausgabedatei werden in Abschnitt 1.4 beschrieben.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Installation und Prüfung

Download erforderliche Abhängigkeiten: Bowtie2²² und RNAfold²³. Kompilierte Pakete werden empfohlen.
1. Laden Sie Bowtie2, ein Lesemapping-Tool, von seiner Homepage herunter (http://bowtie-bio.sourceforge.net/bowtie2/index.shtml).
2. Laden Sie RNAfold, ein Werkzeug des Vienna-Pakets zur Vorhersage der sekundären RNA-Struktur, von http://www.tbi.univie.ac.at/~ivo/RNA/herunter.
3. Stellen Sie vor der Installation von miRDP2 sicher, dass diese beiden Abhängigkeiten ordnungsgemäß installiert sind, und passen Sie die bash-Umgebungsdatei (z. B. .bashrc) an, um einen korrekten PATH für diese beiden Abhängigkeiten festzulegen.
  HINWEIS: Andere Mapping-Tools wie Bowtie²⁴ sind ebenfalls für miRDP2 geeignet; entweder Bowtie oder Bowtie2 können nach Version 1.1.3 verwendet werden.
Um das miRDP2-Paket herunterzuladen, gehen Sie zu https://sourceforge.net/projects/mirdp2/files/latest_version/ und holen Sie die Tarball-Dateien ab.
Stellen Sie vor der Installation von miRDP2 sicher, dass Sich Perl im PATH befindet. Um miRDP2 zu installieren, extrahieren Sie den gesamten Inhalt der heruntergeladenen Tarball-Datei in einem Ordner (Befehlszeilen wie in 1.4.2), und legen Sie dann den Ordnerpfad in den PATH fest.
HINWEIS: Für die Ausführung von miRDP2 wird ein Computer oder Computerknoten mit mindestens 8 GB RAM und 100 GB Speicher empfohlen.
Testen Sie die MiRDP2-Pipeline.
1. Um zu testen, ob miRDP2 ordnungsgemäß installiert wurde, verwenden Sie die Testdaten und die erwartete Ausgabe in https://sourceforge.net/projects/mirdp2/files/TestData/. Testdaten enthalten eine formatierte GSM-Sequenzierungsdatei und eine Arabidopsis thaliana Genomdatei.
2. Verschieben Sie alle heruntergeladenen Dateien in das aktuelle Arbeitsverzeichnis:
  mv miRDP2-v*.tar.gz TestData.tar.gz ncRNA_rfam.tar.gz
  cd
3. Extrahieren Sie die komprimierten Tarball-Dateien:
  tar –xvzf miRDP2-v*.tar.gz
  tar –xvzf TestData.tar.gz
  tar –xvzf ncRNA_rfam.tar.gz
4. Erstellen Sie den Arabidopsis Genom Referenzindex:
  bowtie2-build -f ./TestData/TAIR10_genome.fa ./TestData/TAIR10_genome
5. Erstellen Sie den ncRNA-Referenzindex:
  bowtie2-build -f ./ncRNA_rfam.fa ./1.1.3/script/index/rfam_index
6. Führen Sie die miRDP2-Pipeline aus:
  bash ./1.1.3/miRDP2-v1.1.3_pipeline.bash –g ./TestData/TAIR10_genome.fa -i ./ TestData/TAIR 10_genome –f ./TestData/GSM2094927.fa –o .
  HINWEIS: Die verwendeten Linux-Befehle sind fett und kursiv, mit Befehlszeilenoptionen in Kursivschrift. *gibt die Version von miRDP2 an (die aktuelle Version ist 1.1.3). Der Bowtie2-Build-Befehl sollte etwa 10 Minuten dauern, und die miRDP2-Pipeline sollte innerhalb weniger Minuten fertig sein.
Überprüfen Sie die Testergebnisse.
1. Beachten Sie, dass ein Ordner mit dem Namen 'GSM2094927-15-0-10' automatisch in generiert wird, der alle Zwischendateien und Ergebnisse enthält.
2. Prüfen Sie, ob die tab-getrennte Ausgabedatei GSM2094927-15-0-10_filter_P_prediction, die endgültige Ausgabe der vorhergesagten miRNAs, Spalten enthält, die Chromosomen-ID, Strangrichtung, repräsentative Lese-ID, Vorläufer-ID, reife miRNA-Position, Vorläufer Position, ausgereifte Sequenz und Vorläufersequenz. Beachten Sie die zusätzliche Bettdatei, die aus dieser Datei abgeleitet wurde, um eine weitere Analyse zu erleichtern.
3. Überprüfen Sie die Datei "progress_log", die Informationen über abgeschlossene Schritte enthält, und die Dateien "script_log" und "script_err", die Programmausgabe und Warnungen enthalten.
  HINWEIS: Derzeit haben wir miRDP2 auf zwei Linux-Plattformen getestet, einschließlich CentOS Release 6.5 auf einem Cluster-Server und Cygwin 2.6.0 auf DEM PC-Windows-System, und miRDP2 sollte auf ähnlichen Systemen funktionieren, die Perl unterstützen.

2. Identifizieren neuartiger miRNAs

Stellen Sie vor dem Ausführen der Pipeline sicher, dass die Eingabelesevorgänge im richtigen Format vorverarbeitet werden.
HINWEIS: Die neue Version 1.1.3 von miRDP2 kann originale FASTQ-Formatdateien als Eingaben akzeptieren, obwohl der Prozess der Formatierung von Lesevorgängen wie in früheren Versionen durchgeführt wird.
1. Entfernen Sie zunächst Adapter von den 5' und 3' Enden der tiefen Sequenzierungslesungen (falls vorhanden).
2. Zweitens analysieren Sie die Deep-Sequenzierungs-Lesevorgänge im FASTA-Format.
3. Drittens: Entfernen Sie Redundanz, sodass Lesevorgänge mit identischer Reihenfolge mit einem einzigen und eindeutigen FASTA-Eintrag dargestellt werden.
4. Stellen Sie schließlich sicher, dass alle FASTA-Bezeichner eindeutig sind. Jeder Sequenzbezeichner muss mit einem "_x" und einer ganzzahligen Datei enden, die die Kopiernummer der genauen Sequenz angibt, die in den Deep-Sequenzing-Datasets abgerufen wurde. Eine Möglichkeit, einen eindeutigen FASTA-Bezeichner sicherzustellen, besteht darin, eine laufende Nummer in die ID aufzunehmen. Als Referenz siehe die Datei GSM2094927.fa in den Testdaten (https://sourceforge.net/projects/mirdp2/files/TestData/).
5. Beispiele für korrekt formatierte Lesevorgänge finden Sie im Folgenden:
  
  >read0_x29909
  TTTGGATTGAAGGCTCTA
  >read1_x36974
  TTCCACAGCTTTCTTGAACTG
  >read2_x32635
  TTCCACAGCTTTCTTGAACTT
Erstellen Sie Referenzindizes.
1. Um Zeit zu sparen, laden Sie Bowtie2-Indexdateien von der iGenomes-Website (https://support.illumina.com/sequencing/sequencing_software/igenome.html) herunter, wenn die Genomsequenzen der interessierten Arten indiziert wurden. Andernfalls indizieren Benutzer Referenzsequenzen und behalten die Indexdatei für eine Weile, bis das Projekt abgeschlossen ist, da die Genomsequenz möglicherweise neu indiziert werden muss. Einzelheiten zum Indexieren einer Genomreferenz sind im Bowtie2-Handbuch enthalten (http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml).
2. Ein weiterer Nicht-miRNA-ncRNA-Index wird ebenfalls benötigt, um laute Sequenzen aus anderen nicht-kodierenden RNA-Fragmenten herauszufiltern. Die Datei ist eine Sammlung von ncRNA-Hauptsequenzen von Rfam, einschließlich rRNA, tRNA, snRNA und snoRNA. Um diesen Index zu erstellen, lesen Sie bitte Teil 1.4, da der Index korrekt platziert und benannt werden sollte, d. h. /script/index/rfam_index.
Führen Sie miRDP2 aus.
1. Um miRDP2 zum Erkennen neuer miRNAs aus deep sequencing-Daten zu verwenden, führen Sie das Bash-Skript im Paket aus, um die Analysepipeline zu starten (Ein Beispiel finden Sie in Schritt 1.4):
  /miRDP2-v*.*_pipeline.bash –g -i -f -o
  wobei * die Version des Pipeline-Bash-Skripts angibt. Es gibt drei Parameter, die geändert werden können: 1) die Anzahl der verschiedenen Positionen, denen ein Leseort zugeordnet werden könnte, 2) die Nichtübereinstimmungsnummer für das Ausführen von bowtie2 und 3) den Schwellenwert für RPM (Reads Per Million). Ändern Sie diese mit den Optionen –L, -M und –R. Eine ausführliche Erläuterung finden Sie in Abschnitt 3.1.
Überprüfen Sie die miRDP2-Ausgänge.
1. Beachten Sie, dass der Ausgabeordner automatisch unter generiert wird und den Namen '-15-0-10'; Die letzten 3 Zahlen geben die Werte (in diesem Fall Standard) für die Parameter 1, 2 und 3 an. Die Datei _filter_P_prediction enthält Informationen über die endgültigen vorhergesagten miRNAs, die die neu aktualisierten pflanzlichen miRNA-Anmerkungskriterien erfüllen. Details zum Format der Ausgabedatei werden in Teil 1.4 beschrieben.

3. Änderungen und Vorsicht mit miRDP2

Parameter, die geändert werden können
1. Verwenden Sie die Option '-L', um die Begrenzung festzulegen, wie viele Positionen ein Leseort zugeordnet werden kann (Parameter 1). Die Lesezuordnung zu zu vielen Standorten ist möglicherweise mit Wiederholungssequenzen verknüpft und kann wahrscheinlich nicht mit miRNAs verknüpft werden. Die Standardeinstellung ist 15. Bei bestimmten Arten kann der erste Parameter manuell erhöht werden, um sich an die Genomlandschaft anzupassen, wenn es miRNA-Familien mit vielen Mitgliedern gibt.
2. Verwenden Sie die Option '-M', um die zulässigen Nichtübereinstimmungen für Bowtie festzulegen (Parameter 2). Die Standardeinstellung ist 0.
3. Verwenden Sie die Option '-R', um den Schwellenwert für Lesevorgänge festzulegen, die möglicherweise reifen miRNAs entsprechen (Parameter 3). Um den Zeitverbrauch und False-Positiv wertet, werden Filter nach Drehzahl gelesen. Nur Lesevorgänge, die einen bestimmten Drehzahlschwellenwert überschreiten, können reife Sequenzen von miRNAs und nicht Hintergrundrauschen darstellen und würden zur weiteren Analyse aufbewahrt. Die Standardeinstellung ist 10 RPM.
4. Beachten Sie, dass das Ändern dieser Parameter die Leistung und den Zeitverbrauch beeinträchtigen kann. Im Allgemeinen würde eine Erhöhung der Parameter 1 und 2 und eine Abnahme von Parameter 3 ein weniger strenges Ergebnis und eine längere Laufzeit erzeugen und umgekehrt.
Redundanz und miRNA*
1. Beachten Sie, dass die Ausgabe-miRNAs von miRDP2 von den bekannten miRNAs abweichen können. Wir fanden heraus, dass dies hauptsächlich auf einen von zwei Gründen zurückzuführen ist: Heterogenität der reifen miRNAs oder die relative Fülle von miRNA und miRNA*. Wir fanden heraus, dass dies keine Auswirkungen auf die optimale Längenauswahl von Vorläufern und die Profilierung bekannter miRNA-Gene hat.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Die miRNA-Annotationspipeline miRDP2, die hier beschrieben wird, wird auf 10 öffentliche sRNA-seq-Bibliotheken von 5 Pflanzenarten mit allmählich erhöhter Genomlänge angewendet, einschließlich Arabidopsis thaliana, Oryza sativa (Reis), Solanum lycopersicum (Tomate), Zea mays (Mais) und Triticum aestivum (Weizen) (Abbildung 1A). Insgesamt werden für jede Spezies 2 repräsentative sRNA-Bibliotheken aus verschiedenen Geweben (in einzigartige Lesevorgänge, Details im Protokollabschnitt reduziert) und ihre indizierten Genomsequenzen als zwei Eingänge verarbeitet (Tabelle 1). Fünf miRNA-Rechenvorhersagewerkzeuge (miRDeep-P¹³, miRPlant²⁵, miR-PREFeR²⁶, miRA²⁷, miReNA²⁸) wurden für den Vergleich ausgewählt.

Laufzeittest
Um die Laufzeit und Leistung von miRDP2 und anderen fünf Tools zu vergleichen, haben wir fünf Tools (miRDP2, miRDeep-P, miR-PREFeR, miRA und miReNA) in einem Clusterserver mit Cent OS Release 6.5-System installiert. Diese Programme wurden mit den gleichen Eingabedateien, Hardware und Ressourcen ausgeführt (Details in Der Zusatzdatei 1). Insbesondere wird miRPlant von einer in Java geschriebenen GUI gesteuert und konnte nicht auf dem Server ausgeführt werden. Stattdessen haben wir miRPlant auf einem PC mit Windows 10 getestet, während wir auch miRDP2 und miRDeep-P auf diesem PC getestet haben (Details in Supplementary File 1).

Für kleine Genomarten wie Arabidopsis thaliana, Oryza sativaund Solanum lycopersium liefenalle Programme ordnungsgemäß. Bei großen Genomarten wie Zea mays und Triticum aestivum (einschließlich Solanum lycopersium für miRA) erschöpften einige der Programme jedoch alle Rechenressourcen und brachen auf halbem Wege zusammen. Zum Beispiel, miReNA, miRA, und miR-PREFeR nicht Ergebnisse zu generieren, wahrscheinlich aufgrund von Speichermangel beim Umgang mit großen Sam-Dateien oder Zwischendateien. Insbesondere miRPlant temporäre Dateien verbraucht zu viel Platz, und das Ergebnis war nicht in der Lage, auf dem PC laufen, wenn der Umgang mit großen Genom-Arten. miRDP2 beendete diese Vorhersageprozesse in sehr kurzer Zeit, von Minuten zu Stunden(Abbildung 1B). So wurde die Laufzeit von miRDP2 im Vergleich zu seiner alten Version und anderen Tools deutlich verkürzt.

Empfindlichkeits- und Genauigkeitstest
Da miRNAs in Arabidopsis intensiv untersucht werden, haben wir bekannte miRNAs in Arabidopsis in miRBase²¹ (Release 22.1) verwendet, um miRDP2 zu bewerten, und den Vergleich mit anderen Tools gemacht. Wie bereits berichtet¹⁹^,²⁶, werden die folgenden Formeln verwendet, um Empfindlichkeit und Genauigkeit zu berechnen:

Equation 2

Equation 3

Bekannte miRNAs sind die in miRBase mit Anmerkungen. Eine miRNA wird als ausgedrückt bezeichnet, wenn die reifen Sequenzen mehr als 5 RPM haben, und 75% liest auf dem Vorläufer, der reifen und Stern-miRNA-Sequenzen zugeordnet ist. Für den Test wurden zwei sequenzierte sRNA-Bibliotheken aus Arabidopsis (Tabelle 1) verwendet. miRDP2 (Abbildung 1C,D) schnitt sowohl in der Empfindlichkeit als auch in der Genauigkeit im Vergleich zu anderen Werkzeugen besser ab.

Zusammengenommen zeigen diese Ergebnisse, dass miRDP2 ein schnelles und genaues Werkzeug zur Analyse des miRNA-Transkriptoms in Pflanzen ist.

Abbildung 1: Leistung von miRDP2. (A) Genomgröße (in Gb) von Arabidopsis thaliana (Ath), Oryza sativa (Osa), Solanum lycopersicum (Sly), Zea mays (Zma), Triticum aestivum (Tae). (B-D) Vergleich von Laufzeit, Empfindlichkeit und Genauigkeit von miRDP2 und anderen fünf Werkzeugen. Zwei Punkte, die jedem Werkzeug entsprechen, zeigen an, dass zwei Tests von jedem Werkzeug durchgeführt wurden. Diese Figur wurde von Kuang et al.¹⁶adaptiert. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Art (abb.)	Genom-Version	sRNA-Bibliotheken
Art (abb.)	Genom-Version	Bibliotheks-ID	Dateigröße	Gesamtlesevorgänge	Einzigartige Lesevorgänge	Gewebe
Arabidopsis thaliana (Ath)	Version 10	GSM2094927	24,9 Mb	40,5 Mio.	9,7 Mio.	Erwachsenenblatt
Arabidopsis thaliana (Ath)	Version 10	GSM2412287	29,5 Mb	45,1 Mio.	11,1 Mio.	Blatt
Oryza sativa (Osa)	Version 7	GSM2883136	44,2 Mb	54,9 Mio.	16,3 Mio.	Sämling
Oryza sativa (Osa)	Version 7	GSM3030848	34,7 Mb	49,1 Mio.	13,0 Mio.	Flagleaf
Solanum lycopersicum (Sly)	Version 3	GSM1213985	205,4 Mb	161,5 Mio.	58,0 Mio.	Blatt
Solanum lycopersicum (Sly)	Version 3	GSM1976413	118,5 Mb	139,3 Mio.	46,2 Mio.	wurzel
Zea mays (Zma)	Version 4	GSM1277437	158,4 Mb	266,1 Mio.	60,5 Mio.	Sämling
Zea mays (Zma)	Version 4	GSM1428531	144,1 Mb	172,5 Mio.	56,3 Mio.	Samen
Triticum aestivum (Tae)	iwgsc 1	GSM1294660	76,1 Mb	59,2 Mio.	29,6 Mio.	Schießen
Triticum aestivum (Tae)	iwgsc 1	GSM1294661	113,6 Mb	84,0 Mio.	44,0 Mio.	Blatt

Tabelle 1: Genome und sRNA-Bibliotheken, die zum Testen von miRDP2 und anderen Werkzeugen verwendet werden. Diese Tabelle wurde von Kuang et al.¹⁶adaptiert.

Ergänzende Datei 1: Vergleich von Laufzeit, Empfindlichkeit und Genauigkeit von miRDP2 und anderen fünf Werkzeugen. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Datei 2: Beispiele für authentische miRNAs mit bifurcate Struktur in Schleifen. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Datei 3: Aktualisierte Kriterien für pflanzliche miRNA-Anmerkungen und Kriterien für 23-nt- und 24-nt-miRNAs. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Datei 4: Diagramm des Workflows von miRDP2. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Mit dem Aufkommen von NGS wurde eine große Anzahl von miRNA-Loci aus einer ständig wachsenden Menge an sRNA-Sequenzierungsdaten in verschiedenen Arten^{identifiziert 29}^,³⁰. In der zentralen Community-Datenbank miRBase²¹haben sich die hinterlegten miRNA-Artikel in den letzten zehn Jahren fast 100 Mal erhöht. Im Vergleich zu miRNAs bei Tieren haben pflanzen-miRNAs jedoch viele einzigartige Merkmale, die die Identifizierung/Anmerkung komplizierter machen¹³^,¹⁴.

Erstens sind die Vorläufer von pflanzlichen miRNAs in Länge und Struktur variabler (Zusatzdatei 2)¹⁶. Nicht wie die relativ gleichmäßige Länge der tierischen miRNA-Vorläufer um 70-90 nt variiert die Länge der Pflanzenvorläufer um mehrere Falten und könnte mehrere hundert nt^{s 13}^,³¹erreichen. Dieser Unterschied führt zu einer Menge Unsicherheit bei der Vorhersage der sekundären Struktur von miRNA-Vorläufern, obwohl ein Cutoff der Vorläuferlänge in der Regel willkürlich festgelegt wird, z. B. nicht mehr als 300 nt¹⁹ (dieser Parameter wurde in miRDP2 eingebettet, und erfahrene Benutzer von miRDP2 konnten dies selbst anpassen). Darüber hinaus haben konservierte pflanzliche miRNA-Familien tendenziell mehr Mitglieder, und die Längenvariation dieser Mitglieder ist auch oft signifikant¹³. Dies ist der Grund, warum miRDP2 den Parameter –L hat, der die potenziell größten miRNA-Familien in der Mitgliedsgröße anzeigt. Zusammen wirft die Heterogenität der pflanzlichen miRNA-Vorstufen viele Schwierigkeiten für ihre genaue Anmerkung auf.

Zweitens ist das rauschen de ins Leben zu vermehrende Rauschen oder Falsch-Positivwerte, die von siRNAs eingeführt werden, schwer zu eliminieren. Neben miRNAs erzeugen NGS-Methoden auch eine Flut von siRNAs in den sequenzierten sRNA-Bibliotheken. Obwohl siRNAs durch ihre Biogenese und Funktionen³²^,³³von miRNAs getrennt werden könnten, ist es extrem schwierig, sie anhand von Sequenzierungsdaten und Mining-Tools zu unterscheiden. Die öffentlichen Datenbanken wie miRBase, die von vielen Forschern argumentiert werden, haben sich durch die große Anzahl falsch-positiver siRNAs, die fälschlicherweise als miRNAs²⁰^,³¹bezeichnet werden, stark verschlechtert. So sind verfeinerte Werkzeuge mit einem neuen und strengen Kriteriensatz für pflanzen-miRNA-Anmerkungen wie die neu aktualisierten Kriterien²⁵ (Ergänzende Datei 3) in der miRNA-Annotationspipeline/-prozess sehr begehrt.

Nicht zuletzt hat sich die Rechenzeit für die Analyse von sRNA-Bibliotheken exponentiell erhöht, wenn die gleiche Methode von einer kleinen Genomart auf eine große Größe transplantiert wird. Die Rechenwerkzeuge wie miRDeep-P¹³ und miR-PREFeR²⁶, durch Erfassung und Quantifizierung der Signaturverteilung von sRNA-Lesevorgängen entlang miRNA-Vorstufen, sind zu zwei gängigen Methoden geworden und werden häufig verwendet, um miRNAs zu kommentieren. Die Mapping-Strategie, der Prozess der Ausscheidung von Vorläuferkandidaten und die anschließende Sekundärstrukturvorhersage erfordern eine beträchtliche Rechenzeit¹⁶. Wenn diese Werkzeuge eingesetzt werden, um die Daten von kleinen Genomen wie Arabidopsis zu großen wie Mais zu analysieren, wird die Datenverarbeitungszeit von Stunden auf Tage sogar Wochen erhöht (Abbildung 1B), was zu einem häufigen Zusammenbruch des Prozesses führt. Eine Neuerung über die vorstehenden Grenzen ist daher dringend notwendig.

Unser neues miRDP2¹⁶ Programm, aktualisiert von miRDeep-P¹³, wurde entwickelt, um die oben genannten Herausforderungen zu überwinden (Zusatzdatei 4). In diesem Programm haben wir eine neue Filterstrategie eingesetzt, den Bewertungsalgorithmus optimiert und neu aktualisierte plant miRNA-Anmerkungskriterien integriert. Als Ergebnis dieser neuen Funktionen wurde die Laufzeit deutlich verkürzt, wenn mit zehn sRNA-Bibliotheken von fünf Pflanzenarten mit zunehmender Genomgröße getestet wurde. Darüber hinaus zeigte miRDP2 im Vergleich zu anderen Werkzeugen eine überragende Leistung sowohl in der Empfindlichkeit als auch in der Genauigkeit(Abbildung 1). Zusammengenommen zeigen diese Ergebnisse, dass miRDP2 ein schnelles und genaues Werkzeug zur Analyse der miRNA-Transkriptome in Pflanzen ist.

Es sollte darauf hingewiesen werden, dass das aktuelle Verständnis über miRNA-Eigenschaften die Leistung von Rechenwerkzeugen einschränken könnte. Selbst die neu aktualisierten miRNA-Anmerkungskriterien basieren auf einer begrenzten Reihe gut studierter Beispiele. Die abgeleiteten Informationen sind daher nur empirisch. Tatsächlich haben sich einzigartige Merkmale von miRNAs in verschiedenen Pflanzenarten oder Linien³gezeigt. Darüber hinaus spielen Merkmale wie die Strukturen der vor- und nachgelagerten Regionen des miRNA/miRNA* Duplex auch eine entscheidende Rolle in der miRNA-Biogenese³⁴^,³⁵, die in aktuellen Anmerkungswerkzeugen nicht berücksichtigt werden. Mit der Anhäufung von gut untersuchten Beispielen in mehr Pflanzenarten ist es wahrscheinlich, dass in Zukunft noch fortgeschrittenere Anmerkungswerkzeuge entwickelt werden, die subtilere Unterscheidungen erfassen und miRNAs mit einem höheren Genauigkeitsgrad als aktuelle Methoden klassifizieren können. Eine vielversprechende neue miRNA-Anmerkungsrichtung besteht darin, Machine Learning-Ansätze³⁶ zu integrieren, da sich die Qualität von Trainingsdatensätzen und Anmerkungskriterien ständig weiterentwickelt.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Die Autoren haben nichts zu verraten.

Acknowledgments

Diese Arbeit wurde von der Beijing Academy of Agriculture and Forestry Sciences (KJCX201917, KJCX20180425 und KJCX20180204) an XY und National Natural Science Foundation of China (31621001) bis LL unterstützt.

Materials

Name	Company	Catalog Number	Comments
Computer/computing node	N/A	N/A	Perl is required; at least 8 GB RAM and 100 GB storage are recommended

DOWNLOAD MATERIALS LIST

References

Ghildiyal, M., Zamore, P. D. Small silencing RNAs: an expanding universe. Nature Reviews Genetics. 10 (2), 94-108 (2009).
Bartel, D. P. MicroRNAs: target recognition and regulatory functions. Cell. 136 (2), 215-233 (2009).
Moran, Y., Agron, M., Praher, D., Technau, U. The evolutionary origin of plant and animal microRNAs. Nature Ecology Evolution. 1 (3), 27 (2017).
Xie, Z., et al. Expression of Arabidopsis MIRNA genes. Plant Physiology. 138 (4), 2145-2154 (2005).
Zhao, X., Zhang, H., Li, L. Identification and analysis of the proximal promoters of microRNA genes in Arabidopsis. Genomics. 101 (3), 187-194 (2013).
Bologna, N. G., Mateos, J. L., Bresso, E. G., Palatnik, J. F. A loop-to-base processing mechanism underlies the biogenesis of plant microRNAs miR319 and miR159. EMBO JOURNAL. 28 (23), 3646-3656 (2009).
Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
Iwakawa, H. O., Tomari, Y. The Functions of MicroRNAs: mRNA Decay and Translational Repression. Trends in Cell Biology. 25 (11), 651-665 (2015).
Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
Wightman, B., Ha, I., Ruvkun, G. Posttranscriptional regulation of the heterochronic gene lin-14 by lin-4 mediates temporal pattern formation in C. elegans. Cell. 75 (5), 855-862 (1993).
Friedlander, M. R., et al. Discovering microRNAs from deep sequencing data using miRDeep. Nature Biotechnology. 26 (4), 407-415 (2008).
Yang, X., Li, L. miRDeep-P: a computational tool for analyzing the microRNA transcriptome in plants. Bioinformatics. 27 (18), 2614-2615 (2011).
Meyers, B. C., et al. Criteria for annotation of plant MicroRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
Yang, X., Zhang, H., Li, L. Global analysis of gene-level microRNA expression in Arabidopsis using deep sequencing data. Genomics. 98 (1), 40-46 (2011).
Kuang, Z., Wang, Y., Li, L., Yang, X. miRDeep-P2: accurate and fast analysis of the microRNA transcriptome in plants. Bioinformatics. , (2018).
Kozomara, A., Birgaoanu, M., Griffiths-Jones, S. miRBase: from microRNA sequences to function. Nucleic Acids Research. 47 (1), 155-162 (2019).
Griffiths-Jones, S., Saini, H. K., van Dongen, S., Enright, A. J. miRBase: tools for microRNA genomics. Nucleic Acids Research. 36, Database issue 154-158 (2008).
Axtell, M. J., Meyers, B. C. Revisiting Criteria for Plant MicroRNA Annotation in the Era of Big Data. Plant Cell. 30 (2), 272-284 (2018).
Taylor, R. S., Tarver, J. E., Hiscock, S. J., Donoghue, P. C. Evolutionary history of plant microRNAs. Trends in Plant Science. 19 (3), 175-182 (2014).
Kozomara, A., Griffiths-Jones, S. miRBase: annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, Database issue 68-73 (2014).
Langmead, B., Salzberg, S. L. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9 (4), 357-359 (2012).
Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6, 26 (2011).
Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (3), 25 (2009).
An, J., Lai, J., Sajjanhar, A., Lehman, M. L., Nelson, C. C. miRPlant: an integrated tool for identification of plant miRNA from RNA sequencing data. BMC Bioinformatics. 15, 275 (2014).
Lei, J., Sun, Y. miR-PREFeR: an accurate, fast and easy-to-use plant miRNA prediction tool using small RNA-Seq data. Bioinformatics. 30 (19), 2837-2839 (2014).
Evers, M., Huttner, M., Dueck, A., Meister, G., Engelmann, J. C. miRA: adaptable novel miRNA identification in plants using small RNA sequencing data. BMC Bioinformatics. 16, 370 (2015).
Mathelier, A., Carbone, A. MIReNA: finding microRNAs with high accuracy and no learning at genome scale and from deep sequencing data. Bioinformatics. 26 (18), 2226-2234 (2010).
Zhu, Q. H., et al. A diverse set of microRNAs and microRNA-like small RNAs in developing rice grains. Genome Research. 18 (9), 1456-1465 (2008).
Fahlgren, N., et al. MicroRNA gene evolution in Arabidopsis lyrata and Arabidopsis thaliana. Plant Cell. 22 (4), 1074-1089 (2010).
Fromm, B., et al. A Uniform System for the Annotation of Vertebrate microRNA Genes and the Evolution of the Human microRNAome. Annual Review of Genetics. 49, 213-242 (2015).
Blevins, T., et al. Identification of Pol IV and RDR2-dependent precursors of 24 nt siRNAs guiding de novo DNA methylation in Arabidopsis. Elife. 4, 09591 (2015).
Zhai, J., et al. A One Precursor One siRNA Model for Pol IV-Dependent siRNA Biogenesis. Cell. 163 (2), 445-455 (2015).
Werner, S., Wollmann, H., Schneeberger, K., Weigel, D. Structure determinants for accurate processing of miR172a in Arabidopsis thaliana. Current Biology. 20 (1), 42-48 (2010).
Mateos, J. L., Bologna, N. G., Chorostecki, U., Palatnik, J. F. Identification of microRNA processing determinants by random mutagenesis of Arabidopsis MIR172a precursor. Current Biology. 20 (1), 49-54 (2010).
Vitsios, D. M., et al. Mirnovo: genome-free prediction of microRNAs from small RNA sequencing data and single-cells using decision forests. Nucleic Acids Research. 45 (21), 177 (2017).

Genetics

Eine Bioinformatik-Pipeline zur genauen und effizienten Analyse der MicroRNA-Transkriptome in Pflanzen

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.