Aquí, presentamos una nueva y totalmente automatizada tubería de miARN, mirMachine que 1) puede identificar miARN conocidos y novedosos con mayor precisión y 2) está totalmente automatizada y disponible gratuitamente. Los usuarios ahora pueden ejecutar un breve script de envío para ejecutar la canalización mirMachine totalmente automatizada.
De los diferentes tipos de ARN no codificantes, los microARN (miARN) han estado en el centro de atención durante la última década. Como reguladores post-transcripcionales de la expresión génica, los miRNAs juegan un papel clave en varias vías celulares, incluyendo tanto el desarrollo como la respuesta al estrés biótico, como la sequía y las enfermedades. Tener secuencias genómicas de referencia de alta calidad permitió la identificación y anotación de miARN en varias especies de plantas, donde las secuencias de miARN están altamente conservadas. Como los procesos computacionales de identificación y anotación de miARN son en su mayoría procesos propensos a errores, las predicciones basadas en homología aumentan la precisión de la predicción. Desarrollamos y hemos mejorado la línea de anotación de miARN, SUmir, en la última década, que se ha utilizado para varios genomas de plantas desde entonces.
Este estudio presenta una nueva tubería de miARN totalmente automatizada, mirMachine (miRNA Machine), (i) agregando un paso de filtrado adicional en las predicciones de la estructura secundaria, (ii) haciéndolo completamente automatizado, y (iii) introduciendo nuevas opciones para predecir miARN conocidos basados en homología o nuevos miARN basados en pequeñas lecturas de secuenciación de ARN utilizando la tubería anterior. La nueva tubería de miARN, mirMachine, se probó utilizando The Arabidopsis Information Resource, TAIR10, liberación del genoma de Arabidopsis y el genoma de referencia de trigo v2 del Consorcio Internacional de Secuenciación del Genoma del Genoma del Trigo (IWGSC).
Los avances en las tecnologías de secuenciación de próxima generación han ampliado la comprensión de las estructuras de ARN y los elementos reguladores, revelando ARN no codificantes (ncRNA) funcionalmente importantes. Entre los diferentes tipos de ncRNAs, los microRNAs (miRNAs) constituyen una clase reguladora fundamental de pequeños RNAs con una longitud entre 19 y 24 nucleótidos en plantas 1,2. Desde el descubrimiento del primer miARN en el nematodo Caenorhabditis elegans3, la presencia y las funciones de los miARN se han estudiado ampliamente en genomas animales y vegetales, así comoen 4,5,6. Los miARN funcionan dirigiéndose a los ARNm para la escisión o la represión traslacional7. La evidencia acumulada también ha demostrado que los miARN están involucrados en una amplia gama de procesos biológicos en las plantas, incluyendo el crecimiento y el desarrollo8, la autobiogénesis9 y varias respuestas de estrés biótico y abiótico10.
En las plantas, los miARN se procesan inicialmente a partir de transcripciones primarias largas llamadas pri-miARN11. Estos pri-miRNAs generados por la ARN polimerasa II dentro del núcleo son transcripciones largas que forman una estructura imperfecta de pliegue hacia atrás12. Los pri-miRNAs luego se someten a un proceso de escisión para producir precursores endógenos de horquilla monocatenaria (ss) de miRNAs llamados pre-miRNAs11. El pre-miARN forma una estructura similar a una horquilla en la que una sola hebra se pliega en una estructura de doble cadena para extirpar un miARN dúplex (miARN / miARN *)13. La proteína tipo Dicer corta ambas hebras del dúplex miRNA/miRNA*, dejando voladizos de 2-nucleótidos 3′-14,15. El miARN dúplex está metilado dentro del núcleo, lo que protege el extremo 3′ del miARN de la degradación y la actividad de uridilación16,17. Una helicasa desenrolla el miARN dúplex metilado después de la exportación y expone el miARN maduro al complejo de silenciamiento inducido por ARN (RISC) en el citosol18. Una hebra del dúplex es miARN maduro incorporado en RISC, mientras que la otra hebra, miARN*, se degrada. El complejo miRNA-RISC se une a la secuencia diana, lo que conduce a la degradación del ARNm en caso de complementariedad completa o a la represión traslacional en caso de complementariedad parcial13.
Con base en las características de expresión y biogénesis, se han descrito directrices para la anotación de miARN15,19. Con las directrices definidas, Lucas y Budak desarrollaron el pipeline SUmir para realizar una identificación in silico de miRNA basada en homología en plantas9. La canalización de SUmir estaba compuesta por dos scripts: SUmirFind y SUmirFold. SUmirFind realiza búsquedas de similitud contra conjuntos de datos de miARN conocidos a través de la herramienta de búsqueda básica de alineación local (BLAST) del Centro Nacional de Información Biotecnológica (NCBI) con parámetros modificados para incluir aciertos con solo 2 o menos desajustes y para evitar el sesgo hacia golpes más cortos (blastn-short -ungapped -penalty -1 -reward 1). SUmirFold evalúa la estructura secundaria de las supuestas secuencias de miARN a partir de los resultados de BLAST20 utilizando UNAfold21. SUmirFold diferencia los miRNAs de los pequeños RNAs interferentes mediante la identificación de las características de la estructura de horquilla. Además, diferencia los miRNAs de otros ssRNAs como tRNA y rRNA por los parámetros, el índice mínimo de energía de pliegue > 0.67 y el contenido de GC de 24-71%. Esta tubería se ha actualizado recientemente agregando dos pasos adicionales para (i) aumentar la sensibilidad, (ii) aumentar la precisión de la anotación y (iii) proporcionar la distribución genómica de los genes de miARN predichos22. Dada la alta conservación de las secuencias de miARN de plantas23, esta tubería fue diseñada originalmente para la predicción de miARN basada en homología. Sin embargo, los nuevos miARN no pudieron identificarse con precisión con este análisis bioinformático, ya que dependía en gran medida de la conservación de secuencias de miARN entre especies estrechamente relacionadas.
Este documento presenta una nueva y totalmente automatizada tubería de miARN, mirMachine que 1) puede identificar miARN conocidos y nuevos con mayor precisión (por ejemplo, la tubería ahora utiliza predicciones novedosas de miARN basadas en sRNA-seq, así como la identificación de miARN basada en homología) y 2) está totalmente automatizado y disponible gratuitamente. Los resultados también han incluido las distribuciones genómicas de los miRNAs predichos. mirMachine se probó para predicciones basadas en homología y basadas en sRNA-seq en genomas de trigo y Arabidopsis . Aunque inicialmente se lanzó como software libre, UNAfold se convirtió en un software comercial en la última década. Con esta actualización, la herramienta de predicción de estructura secundaria se cambió de UNAfold a RNAfold para que mirMachine pueda estar disponible gratuitamente. Los usuarios ahora pueden ejecutar un script de envío corto para ejecutar la canalización mirMachine totalmente automatizada (se proporcionan ejemplos en https://github.com/hbusra/mirMachine.git).
Nuestra línea de miARN, SUmir, se ha utilizado para la identificación de muchos miARN de plantas durante la última década. Aquí, desarrollamos una nueva tubería de identificación y anotación de miARN totalmente automatizada y disponible gratuitamente, mirMachine. Además, varias tuberías de identificación de miARN, incluida, entre otras, la tubería anterior, dependían del software UNAfold21, que se convirtió en un software comercial con el tiempo, aunque una vez estuvo disponible grat…
https://www.ncbi.nlm.nih.gov/books/NBK279671/ | Blast+ | ||
https://github.com/hbusra/mirMachine.git | mirMachine submission script | ||
https://www.perl.org/get.html | Perl | ||
https://www.tbi.univie.ac.at/RNA/ | RNAfold | ||
Arabidopsis TAIR10 | |||
Triticum aestivum (wheat, IWGSC RefSeq v2) |