Biology

Tutorial de análisis computacional para ARN quimérico pequeño no codificante: bibliotecas de secuenciación de ARN diana

Published: December 1, 2023 doi: 10.3791/65779

Sreenivas Eadara¹, Xinbei Li¹, Emily A. Eiss¹, Mollie K. Meffert^1,2

¹Department of Biological Chemistry, Johns Hopkins University School of Medicine, ²Solomon H. Snyder Department of Neuroscience, Johns Hopkins University School of Medicine

Summary

Aquí, presentamos un protocolo que demuestra la instalación y el uso de una tubería bioinformática para analizar los datos de secuenciación de ARN quimérico utilizados en el estudio de las interacciones ARN:ARN in vivo .

Abstract

En los últimos años se ha avanzado en la comprensión de las interacciones reguladoras génicas in vivo de los pequeños ARN no codificantes (sncRNA), como los microARN (miARN), con sus ARN diana mediante enfoques bioquímicos que utilizan la reticulación seguida de la ligadura para capturar interacciones entre el ARN y el ARN diana a través de la formación de ARN quiméricos y las bibliotecas de secuenciación posteriores. Si bien los conjuntos de datos de secuenciación de ARN quimérico proporcionan información de todo el genoma y sustancialmente menos ambigua que el software de predicción de miARN, destilar estos datos en información significativa y procesable requiere análisis adicionales y puede disuadir a los investigadores que carecen de una formación computacional. Este informe proporciona un tutorial para ayudar a los biólogos computacionales de nivel básico a instalar y aplicar una herramienta de software de código abierto reciente: Small Chimeric RNA Analysis Pipeline (SCRAP). Se proporcionan los requisitos de la plataforma, las actualizaciones y una explicación de los pasos de la canalización y la manipulación de las variables clave de entrada del usuario. Reducir una barrera para que los biólogos obtengan información de los enfoques de secuenciación de ARN quimérico tiene el potencial de impulsar investigaciones basadas en el descubrimiento de interacciones reguladoras entre el ARNnc y el ARN objetivo en múltiples contextos biológicos.

Introduction

Los pequeños ARN no codificantes están muy estudiados por sus funciones postranscripcionales en la coordinación de la expresión de conjuntos de genes en diversos procesos como la diferenciación y el desarrollo, el procesamiento de señales y la enfermedad ^1,2,3. La capacidad de determinar con precisión las transcripciones diana de los pequeños ARN no codificantes (sncRNA) reguladores de genes, incluidos los microARN (miARN), es importante para los estudios de la biología del ARN tanto a nivel básico como traslacional. Los algoritmos bioinformáticos que explotan la complementariedad anticipada entre la secuencia de semillas de miARN y sus posibles dianas se han utilizado con frecuencia para la predicción de las interacciones entre el ARN y el ARN diana. Si bien estos algoritmos bioinformáticos han tenido éxito, también pueden albergar resultados falsos positivos y falsos negativos, como se ha revisado en otros lugares ^4,5,6. Recientemente, se han diseñado e implementado varios enfoques bioquímicos que permiten la determinación inequívoca y semicuantitativa de las interacciones in vivo entre el ARNnc y el ARN diana mediante reticulación in vivo y la consiguiente incorporación de un paso de ligadura para unir físicamente el ARNnc a su diana para formar un único ARN quimérico 4,5,7,8,9,10 . La preparación posterior de bibliotecas de secuenciación a partir de los ARN quiméricos permite la evaluación de las interacciones entre el ARN snc y el ARN diana mediante el procesamiento computacional de los datos de secuenciación. Este vídeo proporciona un tutorial para instalar y utilizar una canalización computacional denominada canalización de análisis de ARN quimérico pequeño (SCRAP), que está diseñada para permitir un análisis robusto y reproducible de las interacciones entre el ARNnc y el ARN diana a partir de bibliotecas de secuenciación de ARN quimérico⁶.

Uno de los objetivos de este tutorial es ayudar a los investigadores a evitar la dependencia excesiva de algoritmos bioinformáticos puramente predictivos mediante la reducción de las barreras para el análisis de los datos generados a través de enfoques bioquímicos que proporcionan lecturas moleculares quiméricas de las interacciones entre el ARN y el ARN objetivo. Este tutorial proporciona pasos prácticos y consejos para guiar a los científicos computacionales de nivel básico a través del uso de una tubería, SCRAP, desarrollada para analizar datos de secuenciación de ARN quimérico, que pueden ser generados por varios protocolos bioquímicos existentes, incluida la reticulación, ligadura y secuenciación de híbridos (CLASH) y la ligadura covalente de ARN endógenos unidos a argonauta, reticulación e inmunoprecipitación (CLEAR-CLIP)^7,9.

El uso de SCRAP ofrece varias ventajas para el análisis de datos de secuenciación de ARN quimérico, en comparación con otras tuberías computacionales⁶. Una ventaja destacada es su amplia anotación y la incorporación de llamadas a scripts bioinformáticos bien soportados y actualizados rutinariamente dentro de la canalización, en comparación con las canalizaciones alternativas que a menudo se basan en scripts personalizados y/o no admitidos para los pasos de la canalización. Esta característica le da estabilidad a SCRAP, lo que hace que valga más la pena que los investigadores se familiaricen con la canalización e incorporen su uso en su flujo de trabajo. También se ha demostrado que SCRAP supera a las canalizaciones alternativas en la llamada a los picos de las interacciones entre el ARNnc y el ARN diana y que tiene funcionalidad multiplataforma, como se detalla en una publicación anterior⁶.

Al final de este tutorial, los usuarios podrán (i) conocer los requisitos de la plataforma para SCRAP e instalar canalizaciones de SCRAP, (ii) instalar genomas de referencia y configurar parámetros de línea de comandos para SCRAP, y (iii) comprender los criterios de llamada de picos y realizar llamadas de picos y anotaciones de picos.

Este vídeo describirá en detalle práctico cómo los investigadores que estudian la biología del ARN pueden instalar y utilizar de forma óptima la tubería computacional, SCRAP, para analizar las interacciones del sncRNA con los ARN diana, como los ARN mensajeros, en los datos de secuenciación de ARN quimérico obtenidos a través de uno de los enfoques bioquímicos discutidos para la preparación de la biblioteca de secuenciación.

SCRAP es una utilidad de línea de comandos. Por lo general, siguiendo la guía que se indica a continuación, el usuario deberá (i) descargar e instalar SCRAP (https://github.com/Meffert-Lab/SCRAP), (ii) instalar genomas de referencia y ejecutar SCRAP, y (iii) realizar llamadas y anotaciones máximas.

Se pueden encontrar más detalles de los pasos computacionales de este procedimiento en https://github.com/Meffert-Lab/SCRAP. Este artículo proporcionará la configuración y la información básica para permitir a los investigadores con habilidades computacionales de nivel básico instalar, optimizar y usar SCRAP en conjuntos de datos de bibliotecas de secuenciación de ARN quimérico.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

NOTA: El protocolo comenzará con la descarga e instalación del software necesario para analizar las bibliotecas de secuenciación de ARN quimérico utilizando SCRAP.

1. Instalación

Antes de instalar SCRAP, instale las dependencias Git y Miniconda en la máquina que se utilizará para los análisis. Es probable que Git ya esté instalado. En la plataforma Mac OSX, por ejemplo, verifique esto usando qué git para ver que la utilidad " git " está presente e instalada en este directorio. Compruebe si Miniconda está instalado con qué conda. Si no se devuelve nada, instale Miniconda. Miniconda requiere 400 MB de espacio en disco para instalarse.
1. Hay algunos métodos para instalar Miniconda y difieren según la plataforma. Consulte el archivo de rebajas PLATFORM-SETUP en el repositorio de GitHub de Meffert Lab [https://github.com/Meffert-Lab/SCRAP/blob/main/PLATFORM-SETUP.md], donde hay más instrucciones para instalar en Windows, MacOS y Ubuntu. Para los usuarios de Linux, Linux tiene su propio administrador de paquetes predeterminado (apt). En el caso específico de este estudio, utilice el comando brew install Miniconda para instalar Miniconda utilizando un administrador de paquetes existente, brew.
  NOTA: 'Homebrew', denominado 'brew', es un sistema de gestión de paquetes de software de código abierto que simplifica la instalación de software en el sistema operativo de Apple, macOS.
2. Si conda se instala por primera vez, ejecute conda init para el shell concreto que está en uso. En el ejemplo aquí, ese shell en uso es zsh. A continuación, cierre y vuelva a abrir el cascarón. Si Conda se instaló correctamente, se verá el entorno base activado dentro de la sesión de terminal.
Descargue el código fuente de SCRAP e instale sus dependencias.
1. El método preferido para obtener el código fuente de SCRAP es usar Git. Para acceder a esto, ejecute git clone https://github.com/Meffert-Lab/SCRAP para obtener la copia más reciente del código fuente.
2. Instale mamba, un solucionador de paquetes mejorado para conda, e instale todas las dependencias de SCRAP desde SCRAP_environment.yml a su propio entorno de Conda mediante los siguientes comandos:
  conda install -n base conda-forge::mamba
  mamba env create -f SCRAP/SCRAP_environment.yml -n SCRAP
A continuación, ejecute la instalación de referencia para SCRAP. Los argumentos utilizados en la instalación de referencia serán específicos del organismo cuyas interacciones sncRNA-mRNA se están analizando.
bash SCRAP/bin/Reference_Installation.sh -r full/path/to/SCRAP/ -m has -g hg38 -s human
1. Proporcione el directorio de la carpeta de origen de SCRAP para la instalación de referencia. A continuación, los pasos de instalación se realizarán utilizando los archivos de las carpetas fasta y annotation . Enumere la ruta completa sin ninguna taquigrafía. Termina con una barra oblicua.
2. Consulte las tablas de README.md para conocer las abreviaturas correctas de las especies de miRbase. Los genomas de referencia actualizados se pueden encontrar en https://genome.ucsc.edu/ o https://www.ncbi.nlm.nih.gov/data-hub/genome/. En este ejemplo, hg38 se usará para el genoma GRCm38 del ratón.
3. Las especies actualmente incluidas para la anotación son el ser humano, el ratón y el gusano. Vea los archivos species.annotation.bed correspondientes en el directorio de anotaciones de la carpeta de origen de SCRAP. Si se desea el uso de una especie diferente para el análisis, proporcione un archivo annotation.bed que siga el mismo esquema de nomenclatura species.annotation.bed.

2. Ejecución de SCRAP

Ahora que las dependencias y SCRAP están instalados, ejecute el script SCRAP.sh
bash SCRAP/bin/SCRAP.sh -d full/path/to/CLASH_Human/ -a full/path/to/CLASH_Human/CLASH_Human_Adapters.txt -p no -f yes -r full/path/to/SCRAP/ -m has -g hg38
1. Enumere la ruta completa a los directorios de ejemplo sin ninguna abreviatura. Dé formato a los directorios de ejemplo con el nombre de la carpeta que coincida exactamente con el nombre de la muestra, como se muestra en la figura 1.
2. Tenga en cuenta que la ruta de acceso que aparece en la lista es la ruta de acceso al directorio que contiene todas las carpetas de ejemplo, no la ruta de acceso a ninguna carpeta de ejemplo individual o a un archivo de muestra (consulte la línea de comandos en el paso 2.1).
3. A continuación, enumere la ruta de acceso completa al archivo de adaptador. Asegúrese de que los nombres de ejemplo en el archivo adaptador coincidan con los nombres de carpeta y los nombres de archivo mencionados anteriormente (consulte la línea de comandos en el paso 2.1).
4. Indique si las muestras están emparejadas y si se realizará o no el filtrado de pre-miRNAs y/o tRNAs. Agregue un filtro para la limpieza del ARNr si lo desea (consulte la línea de comandos en el paso 2.1).
  NOTA: Los usuarios pueden o no decidir utilizar estos filtros dependiendo de los tipos de muestra y los objetivos experimentales. Dependiendo del diseño experimental, los pre-miARN, los ARNt y los ARNr pueden consumir la profundidad de secuenciación disponible para quimeras reales de sncRNA:ARN diana y los usuarios pueden emplear filtros para excluirlos. Sin embargo, es posible que los usuarios deseen evitar dicho filtrado en ciertas circunstancias (por ejemplo, mapeando objetivos de sncRNA al genoma mitocondrial, que contiene ARNr mitocondriales).
5. A continuación, enumere la ruta completa al directorio de referencia, la abreviatura miRbase y la abreviatura del genoma de referencia (consulte la línea de comandos en el paso 2.1).
  NOTA: El script puede tardar unas horas en completarse, según el tamaño del conjunto de datos y la CPU del equipo que se esté utilizando.

3. Llamada de picos y anotación

Una vez que SCRAP haya terminado de ejecutarse, compruebe que la salida incluya, entre otros archivos, un archivo SAMPLE.aligned.unique.bam. Se trata de un archivo binario que contiene alineaciones de ARN diana en el genoma de referencia proporcionado por el usuario.
Ahora realice llamadas máximas ejecutando Peak_Calling.sh.
bash SCRAP/bin/Peak_Calling.sh -d CLASH_Human/ -a CLASH_Human/CLASH_Human_Adapters.txt -c 3 -l 2 -f no -r SCRAP/ -m has -g hg38
NOTA: La llamada de picos es una característica de SCRAP, que está diseñada para permitir a los investigadores evaluar fácilmente las interacciones de ARN:ARN diana pequeñas más robustas y reproducibles dentro de sus bibliotecas de ARN quimérico. Esta característica, por ejemplo, puede ayudar a los investigadores a identificar las interacciones que pueden querer seleccionar para una mayor investigación. El paso 3.2.2 a continuación describe cómo el usuario establece los criterios que desea que se utilicen para definir la rigurosidad con la que se llama a un pico, esto incluye el número de interacciones únicas, o lecturas de secuenciación, que deben haber ocurrido para que se llame al pico, así como el número de bibliotecas en las que debe haber ocurrido esta interacción en particular.
1. De nuevo, enumere las rutas completas al directorio que contiene las carpetas de ejemplo y el archivo adaptador (consulte la línea de comandos en el paso 3.2).
2. A continuación, establezca el número mínimo de lecturas de secuenciación necesarias para que se llame a un pico (consulte la línea de comandos en el paso 3.2).
3. Establezca el número mínimo de bibliotecas de secuenciación distintas que deben contener un pico para que se llame (consulte la línea de comandos en el paso 3.2).
  NOTA: La elección de los valores para los puntos 3.2.2 y 3.2.3 dependerá de la naturaleza de las muestras secuenciadas y del número de muestras o tipos de muestras. Aquí, se requieren al menos 3 lecturas de secuenciación quimérica en una muestra para llamar a un pico, y el pico debe estar respaldado por al menos 2 muestras. Un investigador que evalúe un conjunto de datos en el que hay muchas réplicas de bibliotecas de secuenciación para una condición determinada, por ejemplo, podría decidir requerir la presencia de las lecturas en un mayor número de bibliotecas de secuenciación de muestras.
4. Indique si los sncRNAs de la misma familia deben contribuir al mismo pico. Por ejemplo, dado que los miARN de la misma familia comparten secuencias de semillas, estos miARN pueden unirse a conjuntos compartidos y superpuestos de dianas génicas; Es posible que un usuario desee identificar el impacto total de una familia en estos objetivos mediante la evaluación de sus picos colectivos (consulte la línea de comandos en el paso 3.2).
5. A continuación, indique la ruta completa al directorio de referencia, la abreviatura miRBase y la abreviatura del genoma de referencia (consulte la línea de comandos en el paso 3.2).
Una vez completada la llamada máxima, ejecute la anotación máxima.
bash SCRAP/bin/Peak_Annotation.sh -p CLASH_Human/peaks.bed -r SCRAP/ -s human
1. Enumere la ruta completa al archivo peaks.bed (o peaks.family.bed) resultante de la llamada a picos, la ruta completa al directorio de referencia y la especie deseada para la anotación.

4. Visualización de los datos

NOTA: Todos los pasos para el análisis con SCRAP ya se han completado. Para visualizar los datos, se recomiendan varios enfoques:

Combine todos los archivos .bam (archivo SAM binario) que se desea visualizar juntos (samtools merge).
Ordene el archivo .bam combinado resultante (samtools sort). El contenido de los archivos se ordena línea por línea para que samtools pueda indexarse.
Indexe el archivo .bam ordenado (índice samtools). Se genera un archivo BAI (índice de formato samtools binario) para permitir la visualización en el visor de genómica integrativa (IGV).
Por último, abra el archivo .bam e indexado .bai ordenado resultante en IGV.
NOTA: Las interacciones de ARN diana de interés pueden priorizarse para el seguimiento de varias maneras específicas de la investigación. Un enfoque inicial genérico consiste en evaluar las interacciones para las que los picos son compatibles con las lecturas de secuenciación más quiméricas. Las interacciones de interés también se pueden visualizar utilizando el servidor web DuplexFold del paquete RNAstructure ingresando la secuencia tanto para el sncRNA como para el ARN diana de la interacción detectada¹¹. Para cada pico, el cromosoma (primera columna) y las coordenadas genómicas (inicio: 1ª columna final: 2ª columna) se pueden encontrar dentro del archivo peaks.bed.species.annotation.txt generado en la anotación del pico. En el caso de los miARN en particular, mientras que las interacciones reproducibles y funcionales pueden carecer de una unión extensa a la compatibilidad con la semilla (por ejemplo, las interacciones pueden utilizar la unión compensatoria 3'), la presencia de sitios compatibles con la semilla en un motivo de unión afín del ARN diana puede, no obstante, evaluarse como una característica de validación de las interacciones detectadas funcionalmente importantes ^4,12. El procesamiento auxiliar de datos podría incluir comparaciones de la cobertura de lectura diferencial entre picos en distintas condiciones biológicas y, potencialmente, la evaluación de la agrupación de genes regulados en vías utilizando una herramienta de análisis de vías.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

En la Figura 2 y en la Tabla 1 se muestran los resultados de sncRNA:ARN diana detectados por una versión modificada de SCRAP (versión 2.0 de SCRAP, que implementa modificaciones para el filtrado de ARNr) en conjuntos de datos de secuenciación publicados previamente preparados con CLEAR-CLIP⁹. Los usuarios pueden apreciar la disminución de las interacciones relativas de miARN de fracción con las regiones de intrones que se produce tras el aislamiento de las interacciones de alta confianza mediante la llamada máxima en SCRAP. También se dispone de datos adicionales de los análisis que utilizan SCRAP en la publicación inicial de este pipeline⁶. Dependiendo del enfoque experimental, podría ser necesario filtrar los datos de secuenciación de las bibliotecas de ARN quimérico preparadas para reducir los artefactos en los resultados. La preparación bioquímica subóptima de la biblioteca de secuenciación y/o el filtrado subóptimo de los datos de secuenciación tienen el potencial de dar lugar a la inclusión incorrecta de lecturas que no surgieron de la ligadura de sncRNAs y RNAs diana unidos por Argonaute. Estas lecturas artifactuales pueden incluir dímeros de cebadores o dímeros adaptadores, ARNr y pre-miARN. En la Tabla 2 se describen los posibles artefactos que pueden detectarse en los resultados y las posibles soluciones.

Figura 1: Formato de directorios de datos. Los archivos que contienen lecturas sin procesar para cada biblioteca de secuenciación deben proporcionarse en el formato .fastq.gz. (A) Si las bibliotecas no están emparejadas, se utilizará un único archivo .fastq.gz en el análisis. Este archivo debe denominarse "SAMPLE.fastq.gz", donde SAMPLE es el nombre exacto de la muestra proporcionado por el usuario en el archivo del adaptador. El archivo debe estar contenido dentro de una carpeta que coincida exactamente con el nombre de la muestra. (B) Para las bibliotecas de secuenciación de extremos emparejados, se utilizarán dos archivos .fastq.gz. Estos archivos deben llamarse 'SAMPLE-R1.fastq.gz' y 'SAMPLE-R2.fastq.gz' y deben estar ubicados dentro de una carpeta que coincida exactamente con el nombre de la muestra. Todos estos directorios denominados SAMPLE deben estar ubicados dentro del mismo directorio principal, que el usuario proporcionará a SCRAP como el "directorio de muestra". Haga clic aquí para ver una versión más grande de esta figura.

Figura 2: Proporción de interacciones miARN:ARN diana por tipo de diana y métodos de llamada de picos. Los datos publicados de secuenciación quimérica de sncRNA:ARN diana de bibliotecas preparadas con CLEAR-CLIP (SRR2413277 - SRR2413295)⁹ se analizaron utilizando una versión modificada de SCRAP (SCRAP release 2.0) con filtrado de ARNr implementado. Se filtraron los pre-miARN, los ARNt y los ARNr, y se utilizaron distintos ajustes de llamada máxima para "alta confianza" (mínimo 3 lecturas y 2 bibliotecas) y "todas las interacciones" (mínimo 1 lectura y 1 biblioteca). Las interacciones se agruparon por familia de miARN o no se agruparon. Se calcularon y graficaron las fracciones relativas de las lecturas de ARN quimérico para las categorías (CDS, 5' UTR, intergénico, intrón, 3'UTR). Haga clic aquí para ver una versión más grande de esta figura.

	Todas las interacciones		Interacciones de alta confianza
	MiRNAs individuales	Familias de miARN	MiRNAs individuales	Familias de miARN
CDS	8675	8679	925	1046
5' UTR	338	338	38	43
Intergénico	2230	2230	320	339
Intrón	9522	9519	382	406
3' UTR	6814	6813	548	644
Total de interacciones:	31033	31034	4219	4597

Tabla 1: Recuentos de lectura quimérica de interacciones miARN:ARN diana por tipo de diana y método de llamada de picos. Los datos de secuenciación quimérica de sncRNA:ARN diana publicados en bibliotecas preparadas con CLEAR-CLIP (SRR2413277 - SRR2413295)⁹ se analizaron utilizando una versión modificada de SCRAP (SCRAP release 2.0) con filtrado de ARNr implementado. Se filtraron los pre-miRNAs, los tRNAs y los rRNAs, y se utilizaron distintas configuraciones de llamada de pico para las interacciones de alta confianza (mínimo 3 lecturas y 2 bibliotecas) y todas (mínimo 1 lectura y 1 biblioteca), agrupadas por familia de miRNA o no agrupadas. Para cada condición, se enumeran los recuentos del total detectado de interacciones miARN:ARN diana en las que la interacción del ARN diana se asignó a la categoría de secuencia codificante (CDS), región no traducida 5' (UTR 5'), región intergénica, intrón o región no traducida 3' (UTR 3').

Contaminante potencial	Detectado como	Causas	Posibles soluciones
Dímeros de cebadores	Interacciones detectadas entre miRNAs cuya secuencia coincide con el extremo 5' de un cebador de amplificación y un ARN diana cuya secuencia coincide con el resto del cebador.	Separación incorrecta del tamaño (es decir, extracción en gel) del producto de PCR después de la amplificación.	La mayoría de los dímeros de cebador serán ignorados por SCRAP después de retirar el adaptador debido a su pequeña longitud. Si persisten, considere la posibilidad de agregar secuencias de cebadores a un filtro.
ARNr	Interacciones entre miRNAs arbitrarios y rRNAs conocidos o lncRNAs Gm26917 y Gm42418	Aislamiento ineficaz (es decir, inmunoprecipitación y separación en gel) de complejos Argonaute.	El filtrado del ARNr suele ser necesario cuando la contaminación por ARNr es abundante.
ARNt y pre-miARN	Interacciones entre fragmentos de ARNt que son productos de degradación del mismo ARNt o miARN 5p y 3p producidos a partir del mismo pre-miARN.	Baja abundancia de sncRNA verdadero: quimeras de ARN diana o baja expresión de Argonaute tisular.	Filtrado de ARNt y filtrado de pre-miARN.

Tabla 2: Lecturas y soluciones de secuenciación de posibles contaminantes.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Este protocolo sobre el uso de la canalización SCRAP para el análisis de las interacciones entre el ARN y el ARN objetivo está diseñado para ayudar a los investigadores que se adentran en el análisis computacional. Se espera que la finalización del tutorial guíe a los investigadores con experiencia computacional de nivel básico o superior a través de los pasos necesarios para la instalación y el uso de esta tubería y su aplicación para analizar los datos obtenidos de las bibliotecas de secuenciación de ARN quimérico. Los pasos críticos para completar este protocolo incluyen la correcta instalación de referencia y la ejecución de SCRAP, que puede llevar mucho tiempo y puede ser la fuente de errores, especialmente si no se tuvo cuidado durante la instalación de dependencias utilizando Anaconda o la escritura de argumentos de línea de comandos.

Aquí, la atención se ha centrado especialmente en consejos y pasos para el uso práctico de la tubería SCRAP para el análisis de bibliotecas de secuenciación quimérica de sncRNA:ARN diana. Se ha descubierto que SCRAP supera a otras plataformas de análisis de ARN quimérico en la detección de interacciones entre el ARN y el ARN diana ^6,13. Esto puede deberse a la característica de llamada máxima de SCRAP, que se desarrolló específicamente para detectar las características (por ejemplo, hombros 3') que se observan como resultado de los pasos bioquímicos involucrados en la formación de los ARN quiméricos. Se han desarrollado otros métodos de llamada de picos para distintos enfoques bioquímicos, como las aplicaciones posteriores de secuenciación de inmunoprecipitación de cromatina (CHIP-seq), para detectar picos en los datos que se distribuyen simétricamente alrededor de una media y, por lo general, no funcionan tan bien en la detección de las características máximas de las bibliotecas quiméricas de sncRNA:ARN diana. Sin embargo, es posible que los usuarios deseen probar el uso de otras canalizaciones computacionales que podrían funcionar mejor para sus necesidades, especialmente si sus datos no se ajustan a esta descripción.

Aunque SCRAP tiene requisitos mínimos de hardware, el tiempo de ejecución de SCRAP se escala mal con el tamaño del conjunto de datos. Los investigadores que están más allá del nivel novato, o que tienen un gran número de conjuntos de datos o conjuntos de datos con una alta cobertura de secuenciación, pueden desear utilizar SCRAP de una manera que pueda acelerar los pasos del análisis. Dado que los grandes conjuntos de datos (por lo general, > mil millones de lecturas) requieren capacidades mejoradas de almacenamiento de archivos y velocidades de lectura/escritura para los datos, es posible que se desee ejecutar SCRAP en un clúster de computación de alto rendimiento (HPC) para el análisis de conjuntos de datos más grandes. Una optimización de SCRAP, que debería proporcionar paralelización y un rendimiento mejorado, estará disponible en GitHub (https://github.com/Meffert-Lab/). Esta versión actualizada de SCRAP (versión 2.0) también tiene filtros mejorados para ARNr y otros contaminantes.

Al igual que con cualquier interfaz, los usuarios pueden encontrar inevitablemente dificultades al usar la interfaz de línea de comandos. Los más comunes son las faltas de ortografía, las rutas incorrectas y la instalación/control de versiones de paquetes. Se aconseja a los investigadores que tengan cuidado y eviten errores tipográficos al escribir argumentos de línea de comandos y que reproduzcan exactamente las rutas de acceso a los archivos o carpetas (el uso de un autocompletado de 'pestaña' puede ayudar con esto). Las dependencias de SCRAP se administran a través de Anaconda para que sea menos probable que los investigadores encuentren problemas con la instalación de paquetes o las actualizaciones de versiones.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Los autores no tienen nada que revelar.

Acknowledgments

Agradecemos a los miembros del laboratorio Meffert por sus útiles discusiones, incluidos BH Powell y WT Mills IV, por sus comentarios críticos sobre la descripción de la instalación e implementación del gasoducto. Este trabajo fue apoyado por un premio de la Fundación Braude, el Programa de Lanzamiento del Fondo de Investigación de Células Madre de Maryland, el premio Blaustein Endowment for Pain Research and Education, y el RO1NS103974 del NINDS y el RO1MH129292 del NIMH a M.K.M.

Materials

Name	Company	Catalog Number	Comments
Genomes	UCSC Genome browser	N/A	https://genome.ucsc.edu/ or https://www.ncbi.nlm.nih.gov/data-hub/genome/
Linux	Linux	Ubuntu 20.04 or 22.04 LTS recommended
Mac	Apple	Mac OSX (>11)
Platform setup	GitHub	N/A	https://github.com/Meffert-Lab/SCRAP/blob/main/PLATFORM-SETUP.md]
SCRAP pipeline	GitHub	N/A	https://github.com/Meffert-Lab/SCRAP
Unix shell	Unix operating system	bash >=5.0
Unix shell	Unix operating system	zsh (5.9 recommended)
Windows	Windows	WSL Ubuntu 20.04 or 22.04 LTS

DOWNLOAD MATERIALS LIST

References

Morris, K. V., Mattick, J. S. The rise of regulatory RNA. Nature Reviews Genetics. 15 (6), 423-437 (2014).
Li, X., Jin, D. S., Eadara, S., Caterina, M. J., Meffert, M. K. Regulation by noncoding RNAs of local translation, injury responses, and pain in the peripheral nervous system. Neurobiology of Pain (Cambridge, Mass.). 13, 100119 (2023).
Shi, J., Zhou, T., Chen, Q. Exploring the expanding universe of small RNAs. Nature Cell Biology. 24 (4), 415-423 (2022).
Broughton, J. P., Lovci, M. T., Huang, J. L., Yeo, G. W., Pasquinelli, A. E. Pairing beyond the seed supports microRNA targeting specificity. Molecular Cell. 64 (2), 320-333 (2016).
Grosswendt, S., et al. Unambiguous identification of miRNA:target site interactions by different types of ligation reactions. Molecular Cell. 54 (6), 1042-1054 (2014).
Mills, W. T., Eadara, S., Jaffe, A. E., Meffert, M. K. SCRAP: a bioinformatic pipeline for the analysis of small chimeric RNA-seq data. RNA. 29 (1), 1-17 (2023).
Helwak, A., Kudla, G., Dudnakova, T., Tollervey, D. Mapping the human miRNA interactome by CLASH reveals frequent noncanonical binding. Cell. 153 (3), 654-665 (2013).
Hoefert, J. E., Bjerke, G. A., Wang, D., Yi, R. The microRNA-200 family coordinately regulates cell adhesion and proliferation in hair morphogenesis. Journal of Cell Biology. 217 (6), 2185-2204 (2018).
Moore, M. J., Zhang, C., Gantman, E. C., Mele, A., Darnell, J. C., Darnell, R. B. Mapping Argonaute and conventional RNA-binding protein interactions with RNA at single-nucleotide resolution using HITS-CLIP and CIMS analysis. Nature Protocols. 9 (2), 263-293 (2014).
Bjerke, G. A., Yi, R. Integrated analysis of directly captured microRNA targets reveals the impact of microRNAs on mammalian transcriptome. RNA. 26 (3), 306-323 (2020).
Reuter, J. S., Mathews, D. H. RNAstructure: software for RNA secondary structure prediction and analysis. BMC Bioinformatics. 11 (1), 129 (2010).
Moore, M. J., et al. miRNA-target chimeras reveal miRNA 3′-end pairing as a major determinant of Argonaute target specificity. Nature Communications. 6 (1), 8864 (2015).
Travis, A. J., Moody, J., Helwak, A., Tollervey, D., Kudla, G. Hyb: a bioinformatics pipeline for the analysis of CLASH (crosslinking, ligation and sequencing of hybrids) data. Methods (San Diego, Calif.). 65 (3), 263-273 (2014).

Biology

Tutorial de análisis computacional para ARN quimérico pequeño no codificante: bibliotecas de secuenciación de ARN diana

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.