April 8th, 2017
Galaxy y David se han convertido en herramientas populares que permiten a los investigadores sin formación bioinformática para analizar e interpretar los datos de RNA-Seq. Se describe un protocolo para C. elegans los investigadores realizar RNA-Seq experimentos, acceder y procesar el conjunto de datos usando Galaxy y obtener información biológica significativa de las listas de genes usando DAVID.
El objetivo general de este protocolo es ayudar a los investigadores de C. elegans sin experiencia en bioinformática a realizar un experimento de secuenciación de ARN y analizar los datos utilizando la plataforma de acceso abierto Galaxy. Este método puede ayudar a analizar datos complejos de secuenciación de alto rendimiento para proporcionar información sobre las firmas transcriptómicas detrás de los fenotipos en C. elegans. La principal ventaja de esta técnica es que permite a los científicos sin formación previa en bioinformática analizar los datos brutos de secuenciación y producir una lista de genes expresados diferencialmente, junto con sus términos de ontología génica asociados.
Aunque este método está específicamente orientado a los matices de los datos de secuenciación de C. elegans, también se puede aplicar a otros organismos y contextos biológicos donde es necesario examinar los cambios clave en la transcripción de los genomas. Este video trata sobre el uso basado en la web de la tubería Galaxy. Si es posible, ejecute el flujo de trabajo localmente.
Descargue e instale Galaxy de acuerdo con las instrucciones en la página wiki. Después de utilizar el tutorial de inicio aquí proporcionado en la página de inicio de Galaxy, siga este video. Es fundamental que el usuario se familiarice y se oriente con la interfaz de usuario de Galaxy y las herramientas utilizadas en el flujo de trabajo.
Para comenzar, haga clic en analizar datos en el panel de encabezado para acceder a la vista de inicio del análisis. La barra de progreso en la parte superior derecha monitorea cuánto espacio en disco se ha utilizado. A continuación, acceda al menú de herramientas en el panel izquierdo y haga clic en Análisis de ARN NGS.
Esto proporciona opciones para utilizar todas las herramientas necesarias para el análisis de datos de secuencias de ARN. Ahora, comience un nuevo historial de análisis. Ve al panel de historial a la derecha.
Haga clic en el icono de ajustes y elija la opción crear nuevo en el menú emergente. A continuación, proporcione un nombre en el historial para identificar el análisis. Para continuar, vaya al menú de herramientas y, en Obtener datos, haga clic en la función de carga de archivos para cargar archivos de cola rápida sin procesar.
Después de que se abra la tarea en la interfaz de análisis, haga clic en elegir archivo local o elija archivo FTP para navegar y seleccionar los datos de secuencia apropiados. De forma predeterminada, Galaxy detectará automáticamente el tipo de archivo. A continuación, seleccione el organismo del menú desplegable, que en este caso es C.elegans.
A continuación, haga clic en iniciar para iniciar la carga de datos. Una vez cargado el archivo, la acción se guarda en el panel de historial desde el que se pueden seleccionar y acceder a los datos. Ahora, convierta los archivos del formato de cola rápida de uno en uno al formato de sanger de cola rápida accediendo al menú de control de calidad y manipulación de NGS, seleccionando el limpiador de cola rápido, eligiendo el archivo en archivo para limpiar.
Seleccione el tipo de puntuaciones de igualdad rápida de entrada adecuado y ejecute la herramienta con los parámetros predeterminados. Ahora se puede analizar el archivo de datos. Preste especial atención a los formatos de archivo y los parámetros de prueba utilizados en todo el protocolo.
Este conocimiento es valioso para solucionar problemas de pruebas fallidas y otros problemas. Se pueden utilizar pruebas de control de calidad antes de continuar. Los detalles sobre cómo ejecutarlos se proporcionan en el protocolo de texto.
Una vez que un archivo esté listo para analizar, mapee los datos de secuenciación abriendo primero la sección de análisis de ARN NGS y luego haciendo clic en la herramienta de sombrero de copa. En el menú desplegable, rellene la respuesta a la pregunta ¿se trata de datos finales únicos o emparejados? A continuación, elija el archivo de cola rápida adecuado.
Seleccione usar un genoma incorporado en el siguiente menú desplegable y elija los datos del genoma de C. elegans de referencia. Seleccione el valor predeterminado para todas las demás opciones de parámetros y, a continuación, haga clic en ejecutar. Para estimar la abundancia relativa de transcripciones en el conjunto de datos, seleccione la herramienta de enlaces de manguito en la sección Análisis de ARN NGS y, en el primer menú desplegable, elija el archivo de formato bam de hits aceptados asignados obtenido del análisis de sombrero de copa.
En el segundo menú desplegable, establezca la anotación de referencia en el archivo GTF que contiene los datos del genoma actual. Cuando se le presente la opción realizar corrección de sesgo, seleccione Sí y ejecute la tarea con la configuración predeterminada. A continuación, desde el menú de análisis de ARN NGS, abra la herramienta de combinación de manguito para fusionar las transcripciones ensambladas producidas para todas las muestras de secuencia de ARN.
El primer cuadro de la herramienta carga todos los archivos GTF producidos con gemelos en el paso anterior. Ahora, seleccione el archivo de transcripciones ensamblado para cada una de las cepas o condiciones probadas, incluidas las réplicas biológicas de la misma condición de cepa. Seleccione Sí para la anotación de referencia del usuario y elija el archivo de datos del genoma de referencia.
A continuación, seleccione sí para la opción usar datos de secuencia. Esto detectará y elegirá automáticamente el genoma de referencia apropiado. Deje todos los demás parámetros en su configuración predeterminada y haga clic en ejecutar.
Se producirá un único archivo GTF. Para comparar varias cepas o condiciones, vuelva a la sección de análisis de ARN NGS y seleccione la herramienta div del manguito. A continuación, en el menú de transcripciones de la herramienta div de brazalete, seleccione el archivo de salida combinado de la combinación de brazalete.
A continuación, introduzca las etiquetas para las dos condiciones. Para cada condición, vaya a réplicas y seleccione los archivos de salida de hits aceptados individuales de sombrero de copa que correspondan a las diferentes réplicas biológicas de esa condición. Para seleccionar varios archivos simultáneamente, mantenga pulsada la tecla de comando o control.
Después de seleccionar los archivos, utilice la configuración de parámetros predeterminada y haga clic en ejecutar para ejecutar la tarea. Descargue los datos expresados diferencialmente haciendo clic en el icono Guardar en el cuadro de prueba de diferenciales genéticos generado en el panel de historial. Para empezar, accede a David desde la página web.
En el encabezado de la página web, elija iniciar análisis. Copie la lista de genes obtenidos de Galaxy en el cuadro A y, en este ejemplo, seleccione el identificador de gen como ID de gen base de gusano. Luego, en el tipo de lista en la pregunta tres, elija lista de genes y haga clic en el icono de enviar lista. Ahora se abrirá la página de inicio del asistente de análisis desde la que se pueden seleccionar las tareas de David.
En este segmento de vídeo se describen algunas de estas opciones. En primer lugar, elija la agrupación en clústeres de anotaciones funcionales para ir a la página de resumen. Deje las categorías de anotaciones en su configuración predeterminada y haga clic en agrupación de anotaciones funcionales.
Esta opción genera clústeres de términos de anotación similares clasificados por su puntuación de enriquecimiento. Ahora, regrese al asistente de análisis y seleccione la opción de gráfico de anotación funcional para identificar los términos biológicos significativamente sobrerrepresentados asociados con la lista de genes. Una característica valiosa de David es la opción de hacer una tabla de anotaciones funcional.
Enumera todas las anotaciones asociadas a los genes sin mostrar ningún cálculo estadístico. Esto puede ser útil para el análisis gen por gen y para encontrar genes específicos de interés. Otra herramienta útil de David para revisar es la clasificación funcional de los genes.
Esta opción segrega los genes en una lista de grupos funcionalmente relacionados clasificados por su puntuación de enriquecimiento. El protocolo descrito se utilizó para identificar genes cuya expresión es modulada por tcer-1 después de la pérdida de la línea germinal. El transcriptoma de los mutantes glp-1 de la lista de líneas germinales de larga vida se comparó con los mutantes dobles de glp-1 tcer-1 que nuestra línea germinal enumera pero no exhibe extensión de la vida útil.
Un control de calidad de las secuencias no encontró lecturas de mala calidad, 48 a 49% de contenido de GC y una longitud de lectura de secuencia constante de 51 pares de bases. Se estimó que la cobertura del genoma de las muestras fue de entre siete y 11 veces. Galaxy permitió la combinación de los datos de NGS de las dos réplicas de cada cepa y realizar análisis diferenciales para generar listas de genes que resaltan el perfil de expresión de todo el genoma.
En total, se expresaron diferencialmente 835 genes entre las dos cepas utilizando un valor de P de 0,05. El análisis de anotación funcional de los genes regulados al alza reveló cuatro grupos de anotaciones con altas puntuaciones de enriquecimiento. Los más altos incluyen el citocromo P450 y los genes de respuesta xenobiótica, seguidos de los genes implicados en las modificaciones lipídicas.
La agrupación en clústeres de anotaciones funcionales de los objetivos regulados a la baja también identificó una variedad de grupos de anotaciones. Estos incluyeron grupos enriquecidos para la función del citoesqueleto, la regulación positiva del crecimiento, la reproducción y el envejecimiento. El oleoducto Galaxy ha allanado el camino para que los investigadores de una amplia gama de disciplinas biológicas analicen los cambios en la expresión génica a gran escala de forma rápida y eficiente.
Después de ver este vídeo, debería ser capaz de realizar un experimento de búsqueda de ARN y analizar el subidón bruto a través de los datos de secuenciación utilizando la tubería Galaxy. También debería ser capaz de extraer información biológicamente relevante de los datos de Galaxy utilizando la plataforma David.
View the full transcript and gain access to thousands of scientific videos
Este protocolo ayuda a los investigadores de C.elegans a realizar experimentos de secuenciación de ARN y analizar los datos utilizando la plataforma Galaxy. Permite a aquellos sin formación en bioinformática interpretar eficazmente datos complejos de secuenciación.