Biology

mirMachine: Ein One-Stop-Shop für pflanzliche miRNA-Annotation

Published: May 1, 2021 doi: 10.3791/62430

H. Busra Cagirici¹, Taner Z. Sen¹, Hikmet Budak²

¹U.S. Department of Agriculture - Agricultural Research Service, Western Regional Research Center, Crop Improvement and Genetics Research Unit, CA, USA, ²Montana BioAgriculture Inc., Missoula, MT, USA

Summary

Hier stellen wir eine neue und vollautomatische miRNA-Pipeline vor, mirMachine, die 1) bekannte und neuartige miRNAs genauer identifizieren kann und 2) vollautomatisch und frei verfügbar ist. Benutzer können nun ein kurzes Einreichungsskript ausführen, um die vollautomatische mirMachine-Pipeline auszuführen.

Abstract

Von verschiedenen Arten von nicht-kodierenden RNAs standen microRNAs (miRNAs) in den letzten zehn Jahren wohl im Rampenlicht. Als posttranskriptionelle Regulatoren der Genexpression spielen miRNAs eine Schlüsselrolle in verschiedenen zellulären Signalwegen, einschließlich der Entwicklung und Reaktion auf a/biotischen Stress wie Dürre und Krankheiten. Qualitativ hochwertige Referenzgenomsequenzen ermöglichten die Identifizierung und Annotation von miRNAs in mehreren Pflanzenarten, bei denen miRNA-Sequenzen hochkonserviert sind. Da computergestützte miRNA-Identifikations- und Annotationsprozesse meist fehleranfällige Prozesse sind, erhöhen homologiebasierte Vorhersagen die Vorhersagegenauigkeit. Wir haben in den letzten zehn Jahren die miRNA-Annotationspipeline SUmir entwickelt und verbessert, die seitdem für mehrere Pflanzengenome verwendet wurde.

Diese Studie stellt eine vollautomatische, neue miRNA-Pipeline, mirMachine (miRNA Machine), vor, indem (i) ein zusätzlicher Filterschritt zu den Sekundärstrukturvorhersagen hinzugefügt wird, (ii) sie vollständig automatisiert wird und (iii) neue Optionen eingeführt werden, um entweder bekannte miRNA basierend auf Homologie oder neuartige miRNAs basierend auf kleinen RNA-Sequenzierungslesevorgängen unter Verwendung der vorherigen Pipeline vorherzusagen. Die neue miRNA-Pipeline, mirMachine, wurde mit The Arabidopsis Information Resource, TAIR10, der Veröffentlichung des Arabidopsis-Genoms und dem Weizenreferenzgenom v2 des International Wheat Genome Sequencing Consortium (IWGSC) getestet.

Introduction

Fortschritte bei Sequenzierungstechnologien der nächsten Generation haben das Verständnis von RNA-Strukturen und regulatorischen Elementen erweitert und funktionell wichtige nicht-kodierende RNAs (ncRNAs) aufgedeckt. Unter den verschiedenen Arten von ncRNAs stellen microRNAs (miRNAs) eine grundlegende regulatorische Klasse kleiner RNAs mit einer Länge zwischen 19 und 24 Nukleotiden in Pflanzen^dar ^1,2. Seit der Entdeckung der ersten miRNA im Fadenwurm Caenorhabditis elegans³ wurden das Vorhandensein und die Funktionen von miRNAs auch in tierischen und pflanzlichen Genomen umfassend untersucht ^4,5,6. miRNAs funktionieren, indem sie mRNAs zur Spaltung oder translationalen Repression anvisieren⁷. Zunehmende Beweise haben auch gezeigt, dass miRNAs an einer Vielzahl biologischer Prozesse in Pflanzen beteiligt sind, einschließlich Wachstum und Entwicklung⁸, Selbstbiogenese⁹ und mehrere biotische und abiotische Stressreaktionen¹⁰.

In Pflanzen werden miRNAs zunächst aus langen primären Transkripten, sogenannten pri-miRNAs^11, verarbeitet. Diese pri-miRNAs, die durch RNA-Polymerase II im Zellkern erzeugt werden, sind lange Transkripte, die eine unvollkommene Foldback-Struktur^{bilden 12}. Die pri-miRNAs durchlaufen später einen Spaltungsprozess, um endogene einzelsträngige (ss) Haarnadelvorläufer von miRNAs, sogenannte prä-miRNAs¹¹, herzustellen. Die prä-miRNA bildet eine Haarnadel-ähnliche Struktur, in der sich ein einzelner Strang zu einer doppelsträngigen Struktur faltet, um einen miRNA-Duplex (miRNA/miRNA*)¹³ herauszuschneiden. Dicer-ähnliches Protein schneidet beide Stränge des miRNA/miRNA*-Duplex, so dass 2-Nukleotid-3'-Überhänge^14,15 übrig bleiben. Der miRNA-Duplex ist innerhalb des Zellkerns methyliert, was das 3'-Ende der miRNA vor Abbau und Uridylierungsaktivität^{schützt 16,17}. Eine Helikase wickelt den methylierten miRNA-Duplex nach dem Export ab und setzt die reife miRNA dem RNA-induzierten Silencing-Komplex (RISC) im Zytosol¹⁸ aus. Ein Strang des Duplex ist reife miRNA, die in RISC eingebaut ist, während der andere Strang, miRNA*, abgebaut wird. Der miRNA-RISC-Komplex bindet an die Zielsequenz, was entweder zum mRNA-Abbau bei vollständiger Komplementarität oder zur translationalen Repression bei partieller Komplementarität führt¹³.

Basierend auf den Expressions- und Biogenesemerkmalen wurden Richtlinien für die miRNA-Annotation beschrieben^15,19. Mit den definierten Richtlinien entwickelten Lucas und Budak die SUmir-Pipeline, um eine homologiebasierte in silico miRNA-Identifizierung in Pflanzen^{durchzuführen 9}. Die SUmir-Pipeline bestand aus zwei Skripten: SUmirFind und SUmirFold. SUmirFind führt Ähnlichkeitssuchen mit bekannten miRNA-Datensätzen durch das Basic Local Alignment Search Tool (BLAST) des National Center for Biotechnology Information (NCBI) mit modifizierten Parametern durch, um Treffer mit nur 2 oder weniger Diskrepanzen einzubeziehen und Verzerrungen in Richtung kürzerer Treffer zu vermeiden (blastn-short -ungapped -penalty -1 -reward 1). SUmirFold wertet die Sekundärstruktur der mutmaßlichen miRNA-Sequenzen aus BLAST^{20-Ergebnissen} mit UNAfold²¹ aus. SUmirFold unterscheidet miRNAs von kleinen interferierenden RNAs durch die Identifizierung der Eigenschaften der Haarnadelstruktur. Darüber hinaus unterscheidet es miRNAs von anderen ssRNAs wie tRNA und rRNA durch die Parameter, minimalen Faltenenergieindex > 0,67 und GC-Gehalt von 24-71%. Diese Pipeline wurde kürzlich aktualisiert, indem zwei zusätzliche Schritte hinzugefügt wurden, um (i) die Sensitivität zu erhöhen, (ii) die Annotationsgenauigkeit zu erhöhen und (iii) die genomische Verteilung der vorhergesagten miRNA-Gene^{bereitzustellen 22}. Angesichts der hohen Erhaltung pflanzlicher miRNA-Sequenzen²³ wurde diese Pipeline ursprünglich für die homologiebasierte miRNA-Vorhersage entwickelt. Neuartige miRNAs konnten jedoch mit dieser bioinformatischen Analyse nicht genau identifiziert werden, da sie stark auf der Sequenzkonservierung von miRNAs zwischen eng verwandten Spezies beruhte.

Dieser Artikel stellt eine neue und vollautomatische miRNA-Pipeline vor, mirMachine, die 1) bekannte und neuartige miRNAs genauer identifizieren kann (zum Beispiel verwendet die Pipeline jetzt sRNA-seq-basierte neuartige miRNA-Vorhersagen sowie homologiebasierte miRNA-Identifizierung) und 2) vollständig automatisiert und frei verfügbar ist. Die Ergebnisse umfassten auch die genomischen Verteilungen der vorhergesagten miRNAs. mirMachine wurde sowohl für homologiebasierte als auch für sRNA-seq-basierte Vorhersagen in Weizen- und Arabidopsis-Genomen getestet. Obwohl ursprünglich als freie Software veröffentlicht, wurde UNAfold in den letzten zehn Jahren zu einer kommerziellen Software. Mit diesem Upgrade wurde das Sekundärstrukturvorhersagetool von UNAfold auf RNAfold umgestellt, so dass mirMachine frei verfügbar sein kann. Benutzer können nun ein kurzes Einreichungsskript ausführen, um die vollautomatische mirMachine-Pipeline auszuführen (Beispiele finden Sie unter https://github.com/hbusra/mirMachine.git).

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Softwareabhängigkeiten und Installation

Installieren Sie Softwareabhängigkeiten von ihrer Home-Site oder mit conda.
1. Laden Sie Perl herunter und installieren Sie es, falls es nicht bereits installiert ist, von seiner Homepage (https://www.perl.org/get.html).
  HINWEIS: Die dargestellten Ergebnisse wurden mit Perl v5.32.0 vorhergesagt.
2. Laden Sie Blast+, ein Ausrichtungsprogramm, von seiner Homepage (https://www.ncbi.nlm.nih.gov/books/NBK279671/) als ausführbare Datei und als Quellcode herunter.
  HINWEIS: Die dargestellten Ergebnisse wurden mit BLAST 2.6.0+ vorhergesagt.
3. Installieren Sie das vorkompilierte Paket von RNAfold von https://www.tbi.univie.ac.at/RNA/.
4. Alternativ können Sie diese Software mit der folgenden conda installieren: i) conda install -c bioconda blast; ii) Conda Install -C Bioconda ViennaRNA.

2. Das mirMachine Setup und Testen

Laden Sie die neueste Version der mirMachine-Skripte und des mirMachine-Übermittlungsskripts von GitHub, https://github.com/hbusra/mirMachine.git, herunter und legen Sie dann den Skriptpfad in den PATH fest.
Verwenden Sie die auf dem GitHub bereitgestellten Testdaten, um sicherzustellen, dass die mirMachine mit all ihren Abhängigkeiten korrekt heruntergeladen wurde.
Führen Sie die mirMachine mit den unten gezeigten Testdaten aus.
bash mirMachine_submit.sh -f iwgsc_v2_chr5A.fasta -i mature_high_conf_v22_1.fa.filtered.fasta -n 10
HINWEIS: Setzen Sie die Option -n auf 10, da die Testdaten nur ein Chromosom des Weizengenoms enthalten. Standardmäßig ist die Option -n auf 20 festgelegt.
Steuern Sie die Ausgabedateien hairpins.tbl.out.tbl für die vorhergesagten reifen miRNAs, ihre vorhergesagten Vorläufer und ihre Positionen auf den Chromosomen.
Überprüfen Sie die Protokolldateien auf die Programmausgaben und Warnungen.

3. Homologiebasierte miRNA-Identifizierung

Führen Sie die mirMachine mit dem unten gezeigten Bash-Skript aus:
bash mirMachine_submit.sh -f $genome_file -i $input_file -m $mismatches -n $number_of_hits
Überprüfen Sie die vorhergesagten miRNAs. Suchen Sie die Ausgabedatei $input_file.results.tbl.hairpins.tbl.out.tbl für die vorhergesagten miRNAs. Suchen Sie die Ausgabedatei $input_file.results.tbl.hairpins.fsa für die pre-miRNA FASTA-Sequenzen. Suchen Sie die Ausgabedatei $input_file.results.tbl.hairpins.log für die Haarnadel-Protokolldatei.

4. Neuartige miRNA-Identifizierung

Verarbeiten Sie die sRNA-seq FASTQ-Dateien in das richtige FASTA-Format. Trimmadapter bei Bedarf. Schneiden Sie keine Lesevorgänge von geringer Qualität ab. Entfernen Sie sie stattdessen. Lesevorgänge entfernen, die N enthalten. Konvertieren Sie die Datei FASTQ in die Datei FASTA ($input_file).
Führen Sie die mirMachine mit dem unten gezeigten Bash-Skript aus.
bash mirMachine_submit.sh -f $genome_file -i $input_file -n $number_of_hits -sRNAseq -lmax $lmax -lmin $lmin -rpm $rpm
HINWEIS: $mismatches wurde für sRNA-seq-basierte Vorhersagen auf 0 gesetzt.
Überprüfen Sie die vorhergesagten miRNAs. Suchen Sie die Ausgabedatei $input_file.results.tbl.hairpins.tbl.out.tbl für die vorhergesagten miRNAs. Suchen Sie die Ausgabedatei $input_file.results.tbl.hairpins.fsa für die pre-miRNA FASTA-Sequenzen. Suchen Sie die Ausgabedatei $input_file.results.tbl.hairpins.log für die Haarnadel-Protokolldatei.

5. Erweiterte Parameter

HINWEIS: Die Standardwerte sind für alle Parameter mit Ausnahme der Genomdatei und der Eingabe-miRNA-Datei definiert.

Legen Sie die Option -db auf eine Blastdatenbank fest, um die Gebäudeverweisdatenbank innerhalb der Pipeline zu überspringen.
Legen Sie die Option -m auf die Anzahl der zulässigen Nichtübereinstimmungen fest.
HINWEIS: Standardmäßig wurde die Option - m für homologiebasierte Vorhersagen auf 1 und für die sRNA-seq-basierten Vorhersagen auf 0 gesetzt.
Setzen Sie - n auf die Anzahl der Treffer, die nach der Ausrichtung eliminiert werden sollen (Standardwert 20). Ändern Sie dies basierend auf der Art.
Verwenden Sie - long , um die sekundären Strukturen für die verdächtige Liste zu bewerten.
Verwenden Sie das - s , um die neuartige miRNA-Vorhersage basierend auf sRNA-seq-Daten zu aktivieren.
Setzen Sie die Option - lmax auf die maximale Länge der sRNA-seq-Lesevorgänge, die in das Screening einbezogen werden sollen.
Setzen Sie die Option - lmax auf die Mindestlänge der sRNA-seq-Lesevorgänge, die in das Screening einbezogen werden sollen.
Verwenden Sie die Option -rpm , um den Schwellenwert für Lesevorgänge pro Million (RPM) festzulegen.
HINWEIS: Für fortgeschrittene Parameter wie die Länge von pri-miRNAs/pre-miRNAs werden erfahrene Benutzer ermutigt, die Skripte für ihre Forschung von Interesse zu modifizieren. Wenn die Benutzer beabsichtigen, einige Schritte zu überspringen oder modifizierte Ausgaben zu verwenden, kann das Übermittlungsskript geändert werden, indem einfach # am Anfang der Zeilen hinzugefügt wird, um diese Zeilen zu überspringen.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Die oben beschriebene miRNA-Pipeline mirMachine wurde zur schnellen Bewertung der Leistungsfähigkeit der Pipeline auf die Testdaten angewendet. Nur die an miRBase v22.1 deponierten hochzuverlässigen pflanzlichen miRNAs wurden gegen das Chromosom 5A des IWGSC-Weizen-RefSeq-Genoms v2²⁴ gescreent. mirMachine_find ergab 312 Treffer für die nicht redundante Liste von 189 hochzuverlässigen miRNAs mit maximal 1 zulässigen Mismatch (Tabelle 1). mirMachine_fold klassifizierten 49 von ihnen als mutmaßliche miRNAs in Abhängigkeit von der Sekundärstrukturbewertung. Die am höchsten vertretene Gruppe von miRNAs war miR9666 mit insgesamt 18 identifizierten miRNAs (Abbildung 1). Einige miRNAs teilten die gleiche reife miRNA, wurden jedoch aus einer anderen Prä-miRNA-Sequenz verarbeitet. Diese miRNAs wurden durch den miRNA-Familiennamen gefolgt von einer eindeutigen Nummer umbenannt, z. B. miR156-5p-1 und miR156-5p-2. Unter den 49 mutmaßlichen miRNAs wurden 20 nicht-redundante reife miRNA-Sequenzen identifiziert. Einige miRNAs können von mehr als einem Locus transkribiert werden, was zu einer höheren Anzahl von miRNAs führt. In den Testdaten war miR9666-3p-5 zweimal vertreten: einmal auf dem Sensorstrang (bei 602887137) und der andere auf dem Antisense-Strang (bei 542053079). Alle Speicherorte werden im GitHub unter der TestData-Ausgabedatei mit dem Namen mature_high_conf_v22_1.fa.filtered.fasta.results.tbl. hairpins.tbl.out.tbl. bereitgestellt.

Der Nachweis der Expression in einem Pflanzengenom ist angesichts der Konservierung von miRNAs in Pflanzen ausreichend; Ein hochzuverlässiger miRNA-Datensatz liefert jedoch nur eine begrenzte Datenmenge. Daher ist es die Präferenz des Benutzers, die hochzuverlässigen und/oder experimentell validierten miRNAs als Referenzdatensatz zu verwenden und den Expressionsvalidierungsschritt zu überspringen oder alle verfügbaren pflanzlichen miRNAs als Referenzdatensatz zu verwenden und anschließend nach dem Expressionsnachweis zu suchen. Da hier die hochzuverlässigen miRNAs als Referenzset verwendet wurden, die experimentell in einem der Pflanzengenome validiert worden waren, wurde der Expressionsvalidierungsschritt für die Testdaten übersprungen.

mirMachine wurde mit Monokotyledonen- und Dikotylenpflanzen wie Arabidopsis thaliana (Arabidopsis, TAIR10 release) und Triticum aestivum (Weizen, IWGSC RefSeq v2) verglichen. Die Leistung der homologiebasierten und der sRNA-seq-basierten Vorhersagen wurde bewertet und die Ergebnisse wurden mit dem miRDP2²⁵, einem NGS-basierten miRNA-Vorhersagewerkzeug, verglichen. Homologiebasierte Vorhersagen wurden unter Verwendung der nicht-redundanten Liste pflanzlicher reifer miRNA-Sequenzen durchgeführt, die an der miRbase v22²⁶ hinterlegt wurden. sRNA-seq-basierte Vorhersagen wurden unter Verwendung der öffentlich verfügbaren Datensätze durchgeführt; GSM2094927 für Arabidopsis und GSM1294661 für den Weizen. Zusätzlich zu den Rohergebnissen wurden die homologiebasierten Vorhersagen für den Expressionsnachweis reifer miRNA- und miRNA-Sternsequenzen unter Verwendung derselben sRNA-seq-Datensätze gefiltert.

Abbildung 2 zeigt die Leistung der einzelnen Werkzeuge und die mirMachine-Einstellungen für die beiden Arten. Die Sensitivität wurde berechnet als die Gesamtzahl der identifizierten bekannten miRNAs geteilt durch die Gesamtzahl der identifizierten miRNAs. Die Ergebnisse zeigten, dass mirMachine miRDP2 in Bezug auf Sensitivität und die wahr positiven Vorhersagen in den Arabidopsis-Daten übertraf. Für die Weizendaten lieferte die auf mirMachine-Homologie basierende Vorhersage, unterstützt durch Expressionsnachweise, eine bessere Sensitivität als miRDP2. Für beide Genome prognostizierte miRDP2 eine höhere Anzahl von True Positives im Vergleich zu mirMachine sRNA-seq und homologiebasierten Vorhersagen mit Expressionsbeweisen. Es sollte beachtet werden, dass miRDP2 die Expressionsschwelle (RPM, Lesevorgänge pro Million) von 10 auf 1 für die Vorhersage bekannter miRNAs senkt, was zu höheren wahr positiven Vorhersagen führt. Generell kann die mirMachine zur Identifizierung sowohl neuartiger als auch bekannter miRNAs eingesetzt werden. Ein Vorteil der mirMachine ist ihre Fähigkeit, die genomweite Verteilung der mutmaßlichen miRNAs ohne Einschränkung spezifischer Gewebe und Bedingungen vorherzusagen. Schließlich ist die mirMachine benutzerfreundlich und bietet Flexibilität bei der Anpassung von Parametern wie Anzahl der Treffer, Fehlanpassungen, Länge von miRNAs und RPMs für bestimmte Forschungszwecke. Zusammengenommen liefert die mirMachine genaue Vorhersagen für die mutmaßlichen miRNAs in den Transkriptomen und den Genomen der Pflanzen.

Abbildung 1: Die Verteilung der miRNA-Familien, identifiziert aus dem Chromosom 5A des IWGSC-Weizenreferenzgenoms v2. Die Datenmarkierungen zeigen die miRNA-Familie und die Anzahl der miRNAs, die zu jeder miRNA-Familie gehören. Abkürzungen: miRNA = microRNA; IWGSC = International Wheat Genome Sequencing Consortium. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Abbildung 2: Leistungsbewertung der mirMachine. Vergleiche der Sensitivität und der Gesamtzahl der vorhergesagten bekannten miRNAs (True Positives) werden für die mirMachine mit homologiebasierten und sRNA-seq-basierten Vorhersagen und der miRDP2-Software gezeigt. Abkürzung: miRNA = microRNA. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Genom	Genomgröße	Referenz miRNA-Datensatz	mirMachine_find Treffer	mirMAchine_fold Treffer	# von miRNA-Familien
Testdaten	~0,7 GB	189	312	49	9
Chr5A

Tabelle 1: Statistik der mirMachine. Die Testdaten stammen vom Chromosom 5A des IWGSC-Weizenreferenzgenoms v2. Abkürzungen: miRNA = microRNA; IWGSC = International Wheat Genome Sequencing Consortium.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Unsere miRNA-Pipeline SUmir wurde in den letzten zehn Jahren für die Identifizierung vieler pflanzlicher miRNAs verwendet. Hier haben wir eine neue, vollautomatische und frei verfügbare miRNA-Identifikations- und Annotationspipeline entwickelt, mirMachine. Darüber hinaus war eine Reihe von miRNA-Identifikationspipelines, einschließlich, aber nicht beschränkt auf die vorherige Pipeline, von der UNAfold-Software²¹ abhängig, die im Laufe der Zeit zu einer kommerziellen Software wurde, obwohl sie einst frei verfügbar war. Diese neue und vollautomatische mirMachine ist nicht mehr von der UNAfold abhängig; stattdessen wird die frei verfügbare RNAfold aus dem ViennaRNA-Paket²⁷ zur Sekundärstrukturvorhersage verwendet. Zusätzlich wurden alle Skripte für die mirMachine in einem Bash-Skript mit einstellbaren Parametern gesammelt, um mirMachine zu einem vollautomatischen und frei verfügbaren miRNA-Vorhersage- und Annotationswerkzeug zu machen.

Die mirMachine profitierte von den Eigenschaften pflanzlicher miRNAs und deren Biogenese. Im Gegensatz zu tierischen Prä-miRNAs sind pflanzliche Pre-miRNAs in Länge und strukturellen Merkmalen variabel¹⁵. Folglich wurde ein Kriterium für die Identifizierung von pflanzlichen miRNAs in Abhängigkeit von den Eigenschaften der miRNAs und ihrer Biogenese festgelegt¹⁵. Für die Prä-miRNA-Länge wurde kein Grenzwert festgelegt, da die Länge der pflanzlichen prä-miRNAs bemerkenswert variieren kann und Hunderte von Nukleotiden lang sein kann. Stattdessen wurde zunächst die pri-miRNA-Strukturfaltung ausgewertet, die auf ~700 bp Länge begrenzt war. Später wurde die prä-miRNA-Sequenz aus den pri-miRNA-Kandidatensequenzen vorhergesagt und für eine korrekte Faltungsstatistik ausgewertet.

Viele Pflanzengenome, insbesondere agronomisch wichtige Getreidearten wie Weizen und Gerste, besitzen stark repetitive Genome^28,29,30. Abgesehen von dem hohen Wiederholungsgehalt wird bei einigen dieser Pflanzen Polyploidie beobachtet²⁴, was die In-silico-Identifizierung und Charakterisierung der miRNA-Strukturen zusätzlich komplexisiert. Die Wiederholungen sind eine wichtige Quelle für die Produktion von siRNAs³¹, die miRNAs in ihrer reifen Form ähneln; Sie unterscheiden sich jedoch in Biogenese und Funktion^32,33. Es ist äußerst schwierig, siRNAs aus den miRNA-Kandidatenlisten zu eliminieren. Tatsächlich wurde berichtet, dass die am weitesten verbreitete miRNA-Datenbank, die miRBase²⁶, eine große Anzahl von siRNAs enthält, die fälschlicherweise als miRNAs^34,35 annotiert sind. Basierend auf den Unterschieden in ihrer Biogenese filtert die mirMachine die kleinen RNAs, die ein perfektes Paar mit dem Antisense-Strang bilden, als siRNAs und platziert diese Sequenzen in der verdächtigen Tabelle. Zusätzlich verfügt die mirMachine über die Option -n, die die maximale Anzahl von Treffern definiert, um die Kandidaten-RNAs als siRNAs zu filtern.

Expressionsnachweise sind erforderlich, um alle in silico vorhergesagten miRNAs zu validieren. Da miRNAs in Pflanzengenomen hoch konserviert sind, sollte der Expressionsnachweis in einem der Pflanzengenome ausreichen, um die Gültigkeit der vorhergesagten miRNA zu bestätigen. Die Verwendung von hochsicheren, reifen miRNA-Sequenzen im anfänglichen Screening-Prozess hat den Vorteil, dass sie Expressionsnachweise für alle vorhergesagten miRNAs liefern; Die kurze Liste der anfänglichen miRNA-Datensätze schränkt jedoch die Vorhersage eines umfassenden Satzes von miRNAs in einem Genom ein. Alternativ kann ein vollständiger Satz pflanzlicher miRNAs, die in der miRBase-Datenbank hinterlegt sind, als erster Datensatz verwendet werden, anstatt nach hochzuverlässigen miRNAs zu filtern. Anwendern wird empfohlen, nach Expressionsnachweisen durch exprimierte Sequenzmarkierungen, miRNA-Microarrays oder kleine RNA-Sequenzierungsdaten für mindestens eines der Pflanzengenome zu suchen, wenn für die interessierende Art keine Expressionsdaten verfügbar sind.

Homologiebasierte miRNA-Vorhersagen können helfen, die genomweite Verteilung der bekannten Familie von miRNAs aufzuklären. Diese miRNAs werden wahrscheinlich in bestimmten Geweben und Bedingungen exprimiert. Ein Nachteil homologiebasierter Vorhersagen ist die fehlende Fähigkeit, neue miRNA-Familien zu identifizieren. Im Gegensatz dazu könnten sRNA-seq-basierte Vorhersagen neuartige miRNAs mit Kosten einer hohen Anzahl von Fehlalarmen identifizieren. Daher liegt die Wahl des besten Ansatzes bei den Nutzern und der Forschung von Interesse. Die hier vorgestellte mirMachine kann helfen, die miRNAs entweder anhand der Homologie zu bekannten miRNAs oder der sRNA-Sequenzierung zu identifizieren.

Subscription Required. Please recommend JoVE to your librarian.

Materials

Name	Company	Catalog Number	Comments
https://www.ncbi.nlm.nih.gov/books/NBK279671/			Blast+
https://github.com/hbusra/mirMachine.git			mirMachine submission script
https://www.perl.org/get.html			Perl
https://www.tbi.univie.ac.at/RNA/			RNAfold
Arabidopsis TAIR10
Triticum aestivum (wheat, IWGSC RefSeq v2)