Biology

mirMachine: Una ventanilla única para la anotación de miARN de plantas

Published: May 1, 2021 doi: 10.3791/62430

H. Busra Cagirici¹, Taner Z. Sen¹, Hikmet Budak²

¹U.S. Department of Agriculture - Agricultural Research Service, Western Regional Research Center, Crop Improvement and Genetics Research Unit, CA, USA, ²Montana BioAgriculture Inc., Missoula, MT, USA

Summary

Aquí, presentamos una nueva y totalmente automatizada tubería de miARN, mirMachine que 1) puede identificar miARN conocidos y novedosos con mayor precisión y 2) está totalmente automatizada y disponible gratuitamente. Los usuarios ahora pueden ejecutar un breve script de envío para ejecutar la canalización mirMachine totalmente automatizada.

Abstract

De los diferentes tipos de ARN no codificantes, los microARN (miARN) han estado en el centro de atención durante la última década. Como reguladores post-transcripcionales de la expresión génica, los miRNAs juegan un papel clave en varias vías celulares, incluyendo tanto el desarrollo como la respuesta al estrés biótico, como la sequía y las enfermedades. Tener secuencias genómicas de referencia de alta calidad permitió la identificación y anotación de miARN en varias especies de plantas, donde las secuencias de miARN están altamente conservadas. Como los procesos computacionales de identificación y anotación de miARN son en su mayoría procesos propensos a errores, las predicciones basadas en homología aumentan la precisión de la predicción. Desarrollamos y hemos mejorado la línea de anotación de miARN, SUmir, en la última década, que se ha utilizado para varios genomas de plantas desde entonces.

Este estudio presenta una nueva tubería de miARN totalmente automatizada, mirMachine (miRNA Machine), (i) agregando un paso de filtrado adicional en las predicciones de la estructura secundaria, (ii) haciéndolo completamente automatizado, y (iii) introduciendo nuevas opciones para predecir miARN conocidos basados en homología o nuevos miARN basados en pequeñas lecturas de secuenciación de ARN utilizando la tubería anterior. La nueva tubería de miARN, mirMachine, se probó utilizando The Arabidopsis Information Resource, TAIR10, liberación del genoma de Arabidopsis y el genoma de referencia de trigo v2 del Consorcio Internacional de Secuenciación del Genoma del Genoma del Trigo (IWGSC).

Introduction

Los avances en las tecnologías de secuenciación de próxima generación han ampliado la comprensión de las estructuras de ARN y los elementos reguladores, revelando ARN no codificantes (ncRNA) funcionalmente importantes. Entre los diferentes tipos de ncRNAs, los microRNAs (miRNAs) constituyen una clase reguladora fundamental de pequeños RNAs con una longitud entre 19 y 24 nucleótidos en plantas ^1,2. Desde el descubrimiento del primer miARN en el nematodo Caenorhabditis elegans³, la presencia y las funciones de los miARN se han estudiado ampliamente en genomas animales y vegetales, así como^en ^4,5,6. Los miARN funcionan dirigiéndose a los ARNm para la escisión o la represión traslacional⁷. La evidencia acumulada también ha demostrado que los miARN están involucrados en una amplia gama de procesos biológicos en las plantas, incluyendo el crecimiento y el desarrollo⁸, la autobiogénesis⁹ y varias respuestas de estrés biótico y abiótico¹⁰.

En las plantas, los miARN se procesan inicialmente a partir de transcripciones primarias largas llamadas pri-miARN¹¹. Estos pri-miRNAs generados por la ARN polimerasa II dentro del núcleo son transcripciones largas que forman una estructura imperfecta de pliegue hacia atrás¹². Los pri-miRNAs luego se someten a un proceso de escisión para producir precursores endógenos de horquilla monocatenaria (ss) de miRNAs llamados pre-miRNAs¹¹. El pre-miARN forma una estructura similar a una horquilla en la que una sola hebra se pliega en una estructura de doble cadena para extirpar un miARN dúplex (miARN / miARN *)¹³. La proteína tipo Dicer corta ambas hebras del dúplex miRNA/miRNA*, dejando voladizos de 2-nucleótidos 3'-^14,15. El miARN dúplex está metilado dentro del núcleo, lo que protege el extremo 3' del miARN de la degradación y la actividad de uridilación^16,17. Una helicasa desenrolla el miARN dúplex metilado después de la exportación y expone el miARN maduro al complejo de silenciamiento inducido por ARN (RISC) en el citosol¹⁸. Una hebra del dúplex es miARN maduro incorporado en RISC, mientras que la otra hebra, miARN*, se degrada. El complejo miRNA-RISC se une a la secuencia diana, lo que conduce a la degradación del ARNm en caso de complementariedad completa o a la represión traslacional en caso de complementariedad parcial¹³.

Con base en las características de expresión y biogénesis, se han descrito directrices para la anotación de miARN^15,19. Con las directrices definidas, Lucas y Budak desarrollaron el pipeline SUmir para realizar una identificación in silico de miRNA basada en homología en plantas⁹. La canalización de SUmir estaba compuesta por dos scripts: SUmirFind y SUmirFold. SUmirFind realiza búsquedas de similitud contra conjuntos de datos de miARN conocidos a través de la herramienta de búsqueda básica de alineación local (BLAST) del Centro Nacional de Información Biotecnológica (NCBI) con parámetros modificados para incluir aciertos con solo 2 o menos desajustes y para evitar el sesgo hacia golpes más cortos (blastn-short -ungapped -penalty -1 -reward 1). SUmirFold evalúa la estructura secundaria de las supuestas secuencias de miARN a partir de los resultados de BLAST²⁰ utilizando UNAfold²¹. SUmirFold diferencia los miRNAs de los pequeños RNAs interferentes mediante la identificación de las características de la estructura de horquilla. Además, diferencia los miRNAs de otros ssRNAs como tRNA y rRNA por los parámetros, el índice mínimo de energía de pliegue > 0.67 y el contenido de GC de 24-71%. Esta tubería se ha actualizado recientemente agregando dos pasos adicionales para (i) aumentar la sensibilidad, (ii) aumentar la precisión de la anotación y (iii) proporcionar la distribución genómica de los genes de miARN predichos²². Dada la alta conservación de las secuencias de miARN de plantas²³, esta tubería fue diseñada originalmente para la predicción de miARN basada en homología. Sin embargo, los nuevos miARN no pudieron identificarse con precisión con este análisis bioinformático, ya que dependía en gran medida de la conservación de secuencias de miARN entre especies estrechamente relacionadas.

Este documento presenta una nueva y totalmente automatizada tubería de miARN, mirMachine que 1) puede identificar miARN conocidos y nuevos con mayor precisión (por ejemplo, la tubería ahora utiliza predicciones novedosas de miARN basadas en sRNA-seq, así como la identificación de miARN basada en homología) y 2) está totalmente automatizado y disponible gratuitamente. Los resultados también han incluido las distribuciones genómicas de los miRNAs predichos. mirMachine se probó para predicciones basadas en homología y basadas en sRNA-seq en genomas de trigo y Arabidopsis . Aunque inicialmente se lanzó como software libre, UNAfold se convirtió en un software comercial en la última década. Con esta actualización, la herramienta de predicción de estructura secundaria se cambió de UNAfold a RNAfold para que mirMachine pueda estar disponible gratuitamente. Los usuarios ahora pueden ejecutar un script de envío corto para ejecutar la canalización mirMachine totalmente automatizada (se proporcionan ejemplos en https://github.com/hbusra/mirMachine.git).

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Dependencias e instalación de software

Instale dependencias de software desde su sitio de inicio o usando conda.
1. Descargue e instale Perl, si aún no está instalado, desde su sitio de inicio (https://www.perl.org/get.html).
  NOTA: Los resultados representados se predijeron utilizando Perl v5.32.0.
2. Descargue Blast+, un programa de alineación, desde su sitio principal (https://www.ncbi.nlm.nih.gov/books/NBK279671/) como ejecutable y como código fuente.
  NOTA: Los resultados representados se predijeron utilizando BLAST 2.6.0+.
3. Instale el paquete precompilado de RNAfold desde https://www.tbi.univie.ac.at/RNA/.
4. Alternativamente, instale estos softwares usando la siguiente conda: i) conda install -c bioconda blast; ii) conda install -c bioconda viennarna.

2. La configuración y prueba de mirMachine

Descargue la versión más reciente de los scripts mirMachine y el script de envío mirMachine desde GitHub, https://github.com/hbusra/mirMachine.git y, a continuación, establezca la ruta de los scripts en la ruta de acceso.
Utilice los datos de prueba proporcionados en el GitHub para asegurarse de que mirMachine junto con todas sus dependencias se hayan descargado correctamente.
Ejecute mirMachine en los datos de prueba que se muestran a continuación.
bash mirMachine_submit.sh -f iwgsc_v2_chr5A.fasta -i mature_high_conf_v22_1.fa.filtered.fasta -n 10
NOTA: Establezca la opción -n en 10 ya que los datos de prueba contienen solo un cromosoma del genoma del trigo. De forma predeterminada, la opción -n se establece en 20.
Controle los archivos de salida hairpins.tbl.out.tbl para los miARN maduros predichos, sus precursores previstos y sus ubicaciones en los cromosomas.
Compruebe los archivos de registro para las salidas y advertencias del programa.

3. Identificación de miARN basada en homología

Ejecute mirMachine utilizando el script bash que se muestra a continuación:
bash mirMachine_submit.sh -f $genome_file -i $input_file -m $mismatches -n $number_of_hits
Compruebe los miRNAs predichos. Busque el archivo de salida denominado $input_file.results.tbl.hairpins.tbl.out.tbl para los miRNAs predichos. Busque el archivo de salida denominado $input_file.results.tbl.hairpins.fsa para las secuencias FASTA pre-miRNA. Busque el archivo de salida denominado $input_file.results.tbl.hairpins.log para el archivo de registro de horquilla.

4. Nueva identificación de miARN

Preprocese los archivos sRNA-seq FASTQ en el formato FASTA adecuado. Recorte los adaptadores si es necesario. No recorte lecturas de baja calidad; en su lugar, elimínelos. Elimine las lecturas que contengan N. Convierta el archivo FASTQ en un archivo FASTA ($input_file).
Ejecute mirMachine utilizando el script bash que se muestra a continuación.
bash mirMachine_submit.sh -f $genome_file -i $input_file -n $number_of_hits -sRNAseq -lmax $lmax -lmin $lmin -rpm $rpm
NOTA: $mismatches se estableció en 0 para las predicciones basadas en sRNA-seq.
Compruebe los miRNAs predichos. Busque el archivo de salida denominado $input_file.results.tbl.hairpins.tbl.out.tbl para los miRNAs predichos. Busque el archivo de salida denominado $input_file.results.tbl.hairpins.fsa para las secuencias FASTA pre-miRNA. Busque el archivo de salida denominado $input_file.results.tbl.hairpins.log para el archivo de registro de horquilla.

5. Parámetros avanzados

NOTA: Los valores predeterminados se definen para todos los parámetros excepto para el archivo del genoma y el archivo miRNA de entrada.

Establezca la opción -db en una base de datos de explosión para omitir la base de datos de referencia de construcción dentro de la canalización.
Establezca la opción -m en el número de discrepancias permitidas.
NOTA: En los valores predeterminados, la opción - m se estableció en 1 para las predicciones basadas en homología y 0 para las predicciones basadas en sRNA-seq.
Establezca el -n en el número de aciertos que desea eliminar después de la alineación (el valor predeterminado es 20). Cambie esto según la especie.
Utilice - long para evaluar las estructuras secundarias de la lista de sospechosos.
Utilice la - s para activar la nueva predicción de miARN basada en datos de sRNA-seq.
Establezca la opción - lmax en la longitud máxima de las lecturas de sRNA-seq para incluir en el cribado.
Establezca la opción - lmax en la longitud mínima de las lecturas de sRNA-seq para incluir en el cribado.
Utilice la opción -rpm para establecer el umbral de lecturas por millón (RPM).
NOTA: Para parámetros avanzados como la longitud de pri-miRNAs/pre-miRNAs, se anima a los usuarios experimentados a modificar los scripts para su investigación de interés. Además, si los usuarios tienen la intención de omitir algunos pasos o prefieren usar salidas modificadas, el script de envío se puede modificar simplemente agregando # al principio de las líneas para omitir esas líneas.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

La tubería de miARN, mirMachine, descrita anteriormente se aplicó a los datos de prueba para la evaluación rápida del rendimiento de la tubería. Solo los miARN vegetales de alta confianza depositados en miRBasa v22.1 se examinaron contra el cromosoma 5A del genoma RefSeq v2²⁴ del trigo IWGSC. mirMachine_find devolvió 312 aciertos para la lista no redundante de 189 miARN de alta confianza con un máximo de 1 desajuste permitido (Tabla 1). mirMachine_fold clasificado 49 de ellos como miRNAs putativos dependiendo de la evaluación de la estructura secundaria. El grupo de miRNAs más representado fue miR9666 con un total de 18 miRNAs identificados (Figura 1). Algunos miARN compartían el mismo miARN maduro, pero procesados a partir de una secuencia diferente de pre-miARN. Estos miRNAs fueron renombrados por el nombre de la familia miRNA seguido de un número único, por ejemplo, miR156-5p-1 y miR156-5p-2. Entre los 49 miARN putativos, se identificaron 20 secuencias de miARN maduros no redundantes. Algunos miARN pueden transcribirse desde más de un locus, lo que resulta en un mayor número de miARN representados. En los datos de prueba, miR9666-3p-5 se representó dos veces: una en la hebra de sentido (en 602887137) y la otra en la cadena antisentido (en 542053079). Todas las ubicaciones se proporcionan en GitHub bajo el archivo de salida TestData denominado mature_high_conf_v22_1.fa.filtered.fasta.results.tbl. hairpins.tbl.out.tbl.

La evidencia de expresión en un genoma vegetal es suficiente, dada la conservación de miRNAs en plantas; sin embargo, un conjunto de datos de miARN de alta confianza solo proporciona una cantidad limitada de datos. Por lo tanto, es preferible para el usuario utilizar los miARN de alta confianza y/o validados experimentalmente como conjunto de datos de referencia y omitir el paso de validación de expresión, o utilizar todos los miARN de plantas disponibles como conjunto de datos de referencia y buscar la evidencia de expresión posteriormente. Aquí, como los miARN de alta confianza se utilizaron como conjunto de referencia, que se había validado experimentalmente en uno de los genomas de la planta, se omitió el paso de validación de expresión para los datos de prueba.

mirMachine se comparó utilizando plantas monocotiledóneas y dicotiledóneas, incluyendo Arabidopsis thaliana (Arabidopsis, liberación TAIR10) y Triticum aestivum (trigo, IWGSC RefSeq v2). Se evaluó el rendimiento de las predicciones basadas en homología y sRNA-seq, y los resultados se compararon con miRDP2²⁵, una herramienta de predicción de miRNA basada en NGS. Las predicciones basadas en homología se ejecutaron utilizando la lista no redundante de secuencias de miARN maduras de plantas depositadas en la miRbase v22²⁶. Las predicciones basadas en sRNA-seq se ejecutaron utilizando los conjuntos de datos disponibles públicamente; GSM2094927 para Arabidopsis y GSM1294661 para el trigo. Además de los resultados brutos, las predicciones basadas en homología se filtraron para la evidencia de expresión de secuencias estelares maduras de miARN y miARN utilizando los mismos conjuntos de datos de sRNA-seq.

La figura 2 muestra el rendimiento de cada herramienta y la configuración de mirMachine en las dos especies. La sensibilidad se calculó como el número total de miRNAs conocidos identificados dividido por el número total de miRNAs identificados. Los resultados mostraron que mirMachine superó a miRDP2 en términos de sensibilidad y las verdaderas predicciones positivas en los datos de Arabidopsis . Para los datos de trigo, la predicción basada en homología mirMachine, respaldada por evidencia de expresión, proporcionó una mejor sensibilidad que miRDP2. Para ambos genomas, miRDP2 predijo un mayor número de verdaderos positivos en comparación con mirMachine sRNA-seq y predicciones basadas en homología con evidencia de expresión. Cabe señalar que miRDP2 reduce el umbral de expresión (RPM, lecturas por millón) de 10 a 1 para la predicción de miRNAs conocidos, lo que resulta en predicciones positivas verdaderas más altas. En general, la mirMachine se puede utilizar para la identificación de miRNAs nuevos y conocidos. Una ventaja de mirMachine es su capacidad para predecir la distribución en todo el genoma de los miARN putativos sin una limitación de tejidos y condiciones específicas. Finalmente, mirMachine es fácil de usar y proporciona flexibilidad para ajustar parámetros como el número de visitas, los desajustes, la longitud de los miRNAs y los RPM para fines de investigación específicos. En conjunto, la mirMachine proporciona predicciones precisas para los miARN putativos en los transcriptomas y los genomas de las plantas.

Figura 1: Distribución de las familias de miARN identificadas a partir del cromosoma 5A del genoma de referencia del trigo IWGSC v2. Las etiquetas de datos muestran la familia de miARN y el número de miARN que pertenecen a cada familia de miARN. Abreviaturas: miRNA = microRNA; IWGSC = Consorcio Internacional de Secuenciación del Genoma del Trigo. Haga clic aquí para ver una versión más grande de esta figura.

Figura 2: Evaluación del rendimiento de mirMachine. Las comparaciones de la sensibilidad y el número total de miRNAs conocidos predichos (verdaderos positivos) se muestran para la mirMachine con predicciones basadas en homología y sRNA-seq y el software miRDP2. Abreviatura: miRNA = microRNA. Haga clic aquí para ver una versión más grande de esta figura.

Genoma	Tamaño del genoma	Conjunto de datos de miARN de referencia	mirMachine_find éxitos	mirMAchine_fold éxitos	# de familias de miRNA
Datos de prueba	~0,7 GB	189	312	49	9
Chr5A

Tabla 1: Estadísticas de la mirMachine. Los datos de prueba provienen del cromosoma 5A del genoma de referencia del trigo IWGSC v2. Abreviaturas: miRNA = microRNA; IWGSC = Consorcio Internacional de Secuenciación del Genoma del Trigo.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Nuestra línea de miARN, SUmir, se ha utilizado para la identificación de muchos miARN de plantas durante la última década. Aquí, desarrollamos una nueva tubería de identificación y anotación de miARN totalmente automatizada y disponible gratuitamente, mirMachine. Además, varias tuberías de identificación de miARN, incluida, entre otras, la tubería anterior, dependían del software UNAfold²¹, que se convirtió en un software comercial con el tiempo, aunque una vez estuvo disponible gratuitamente. Esta nueva y totalmente automatizada mirMachine ya no depende del UNAfold; en su lugar, el pliegue de ARN disponible gratuitamente del paquete²⁷ de ViennaRNA se utiliza para la predicción de la estructura secundaria. Además, todos los scripts para mirMachine se reunieron en un script bash con parámetros ajustables para hacer de mirMachine una herramienta de predicción y anotación de miRNA totalmente automatizada y disponible gratuitamente.

La mirMachine se benefició de las características de los miRNAs de las plantas y su biogénesis. A diferencia de los pre-miRNAs animales, los pre-miRNAs de plantas son variables en longitud y características estructurales¹⁵. En consecuencia, se ha establecido un criterio para la identificación de miRNAs vegetales en función de las características de los miRNAs y su biogénesis¹⁵. No se estableció ningún límite para la longitud del pre-miARN, ya que la longitud de los pre-miARN de las plantas puede variar notablemente y podría tener cientos de nucleótidos de largo. En cambio, primero se evaluó el plegamiento de la estructura pri-miRNA, que se limitó a ~ 700 pb de longitud. Más tarde, la secuencia pre-miRNA se predijo a partir de las secuencias candidatas pri-miRNA y se evaluó para obtener estadísticas de plegamiento adecuadas.

Muchos genomas de plantas, especialmente cereales agronómicamente importantes como el trigo y la cebada, poseen genomas altamente repetitivos^28,29,30. Además del alto contenido de repetición, se observa poliploidía en algunas de estas plantas²⁴, introduciendo complejidades adicionales a la identificación y caracterización in silico de las estructuras de miARN. Las repeticiones son una fuente importante para la producción de siRNAs³¹, que se asemejan a los miRNAs en sus formas maduras; sin embargo, difieren en biogénesis y función^32,33. Es extremadamente difícil eliminar los siRNAs de las listas de miRNA candidatos. De hecho, se ha informado que la base de datos de miARN más utilizada, la miRBasa²⁶, contiene un gran número de ARNip anotados falsamente como miARN^34,35. Basándose en las diferencias en su biogénesis, la mirMachine filtra los pequeños ARN que forman un par perfecto con la hebra antisentido como ARNip y coloca esas secuencias en la tabla sospechosa. Además, mirMachine tiene la opción -n, que define el número máximo de aciertos para filtrar los ARN candidatos como ARNsi.

Se requiere evidencia de expresión para validar todos los miRNAs predichos in silico. Como los miARN están altamente conservados entre los genomas de las plantas, la evidencia de expresión en uno de los genomas de las plantas debería ser suficiente para confirmar la validez del miARN predicho. El uso de secuencias de miARN maduras y de alta confianza en el proceso de cribado inicial tiene la ventaja de proporcionar evidencia de expresión para todos los miARN predichos; sin embargo, la breve lista de conjuntos de datos iniciales de miARN limita la predicción de un conjunto completo de miARN en un genoma. Alternativamente, se puede usar un conjunto completo de miARN de plantas depositados en la base de datos miRBasa como un conjunto de datos inicial en lugar de filtrar miARN de alta confianza. Se aconseja a los usuarios que busquen evidencia de expresión a través de etiquetas de secuencia expresada, microarrays de miARN o pequeños datos de secuenciación de ARN para al menos uno de los genomas de plantas si no hay datos de expresión disponibles para la especie de interés.

Las predicciones de miARN basadas en homología pueden ayudar a dilucidar la distribución en todo el genoma de la familia conocida de miARN. Es probable que estos miARN se expresen en ciertos tejidos y condiciones. Un inconveniente de las predicciones basadas en homología es la falta de capacidad para identificar nuevas familias de miARN. Por el contrario, las predicciones basadas en sRNA-seq podrían identificar nuevos miRNAs con un costo de un alto número de falsos positivos. Por lo tanto, la elección del mejor enfoque depende de los usuarios y la investigación de interés. La mirMachine presentada aquí puede ayudar a identificar los miARN basándose en la homología con miARN conocidos o en la secuenciación de ARNs.

Subscription Required. Please recommend JoVE to your librarian.

Materials

Name	Company	Catalog Number	Comments
https://www.ncbi.nlm.nih.gov/books/NBK279671/			Blast+
https://github.com/hbusra/mirMachine.git			mirMachine submission script
https://www.perl.org/get.html			Perl
https://www.tbi.univie.ac.at/RNA/			RNAfold
Arabidopsis TAIR10
Triticum aestivum (wheat, IWGSC RefSeq v2)