Engineering

Análisis de experimentos multifactoriales de RNA-Seq con DiCoExpress

Published: July 29, 2022 doi: 10.3791/62566

Kevin Baudry^1,2,3, Christine Paysant-Le Roux^1,2, Stefano Colella⁴, Benoît Castandet^1,2, Marie-Laure Martin^1,2,5

¹Université Paris-Saclay, CNRS, INRAE, Univ Evry, Institute of Plant Sciences Paris-Saclay (IPS2), Orsay, France, ²Université de Paris, CNRS, INRAE, Institute of Plant Sciences Paris Saclay (IPS2), Orsay, France, ³Université Paris-Saclay, INRAE, CNRS, AgroParisTech, GQE - Le Moulon, Gif-sur-Yvette, France, ⁴LSTM, Univ Montpellier, INRAE, IRD, CIRAD, Institut Agro, Montpellier, France, ⁵Universitté Paris-Saclay, AgroParisTech, INRAE, UMR MIA-Paris, Paris, France

Summary

DiCoExpress es una herramienta basada en scripts implementada en R para realizar un análisis RNA-Seq desde el control de calidad hasta la coexpresión. DiCoExpress maneja un diseño completo y desequilibrado de hasta 2 factores biológicos. Este video tutorial guía al usuario a través de las diferentes características de DiCoExpress.

Abstract

El uso adecuado del modelado estadístico en el análisis de datos NGS requiere un nivel avanzado de experiencia. Recientemente ha habido un consenso creciente sobre el uso de modelos lineales generalizados para el análisis diferencial de datos RNA-Seq y la ventaja de los modelos de mezcla para realizar análisis de coexpresión. Para ofrecer un entorno administrado para usar estos enfoques de modelado, desarrollamos DiCoExpress que proporciona una canalización R estandarizada para realizar un análisis RNA-Seq. Sin ningún conocimiento particular en estadística o programación R, los principiantes pueden realizar un análisis completo de RNA-Seq desde controles de calidad hasta coexpresión a través de análisis diferencial basado en contrastes dentro de un modelo lineal generalizado. Se propone un análisis de enriquecimiento tanto en las listas de genes expresados diferencialmente como en los grupos de genes coexpresados. Este video tutorial está concebido como un protocolo paso a paso para ayudar a los usuarios a aprovechar al máximo DiCoExpress y su potencial para potenciar la interpretación biológica de un experimento RNA-Seq.

Introduction

La tecnología de secuenciación de ARN de próxima generación (RNA-Seq) es ahora el estándar de oro del análisis del transcriptoma¹. Desde los primeros días de la tecnología, los esfuerzos combinados de bioinformáticos y bioestadísticos han dado como resultado el desarrollo de numerosos métodos que abordan todos los pasos esenciales de los análisis transcriptómicos, desde el mapeo hasta la cuantificación de la transcripción². La mayoría de las herramientas disponibles hoy para el biólogo se desarrollan dentro del entorno de software R para computación estadística y gráficos³, y muchos paquetes para el análisis de datos biológicos están disponibles en el repositorio Bioconductor⁴. Estos paquetes ofrecen un control total y personalización del análisis, pero tienen el costo del uso extensivo de una interfaz de línea de comandos. Debido a que muchos biólogos se sienten más cómodos con un enfoque de "apuntar y hacer clic"⁵, la democratización de los análisis RNA-Seq requiere el desarrollo de interfaces o protocolos más fáciles de usar⁶. Por ejemplo, es posible construir interfaces web de paquetes de R usando Shiny⁷, y el análisis de datos de línea de comandos se hace más intuitivo con la interfaz de R-studio⁸ . El desarrollo de tutoriales dedicados paso a paso también puede ayudar al usuario novel. En particular, un video tutorial complementa uno de texto clásico, lo que lleva a una comprensión más profunda de todos los pasos del procedimiento.

Recientemente desarrollamos DiCoExpress⁹, una herramienta para analizar experimentos multifactoriales de RNA-Seq en R utilizando métodos considerados como los mejores basados en estudios de comparación neutral^10,11,12. A partir de una tabla de recuento, DiCoExpress propone un paso de control de calidad de datos seguido de un análisis diferencial de expresión génica (paquete edgeR¹³) utilizando un modelo lineal generalizado (GLM) y la generación de grupos de coexpresión utilizando modelos de mezcla gaussiana (paquete coseq¹²). DiCoExpress maneja un diseño completo y desequilibrado de hasta 2 factores biológicos (es decir, genotipo y tratamiento) y un factor técnico (es decir, replicar). La originalidad de DiCoExpress radica en su arquitectura de directorios almacenando y organizando datos, scripts y resultados y en la automatización de la escritura de los contrastes permitiendo al usuario investigar numerosas preguntas dentro del mismo modelo estadístico. También se procuró proporcionar productos gráficos que ilustraran los resultados estadísticos.

El espacio de trabajo de DiCoExpress está disponible en https://forgemia.inra.fr/GNet/dicoexpress. Contiene cuatro directorios, dos pdf y dos archivos de texto. El directorio Data/ contiene los conjuntos de datos de entrada; Para este protocolo, usaremos el conjunto de datos "tutorial". El directorio Sources/ contiene siete funciones R necesarias para realizar el análisis, y no debe ser modificado por el usuario. El análisis se ejecuta utilizando scripts almacenados en el directorio Template_scripts/. El que se utiliza en este protocolo se llama DiCoExpress_Tutorial_JoVE.R y se puede adaptar fácilmente a cualquier proyecto transcriptómico. Todos los resultados se escriben en el directorio Results/ y se almacenan en un subdirectorio nombrado según el proyecto. El archivo README.md contiene información útil sobre la instalación, y cualquier detalle específico relacionado con el método y su uso se puede encontrar en el archivo DiCoExpress_Reference_Manual.pdf.

Este video tutorial guía al usuario a través de las diferentes características de DiCoExpress con el objetivo de superar la reticencia que sienten los biólogos utilizando herramientas basadas en línea de comandos. Presentamos aquí el análisis de un conjunto de datos artificial RNA-Seq que describe la expresión génica en tres réplicas biológicas de cuatro genotipos, con o sin tratamiento. Ahora repasaremos los diferentes pasos del flujo de trabajo de DiCoExpress ilustrados en la Figura 1. El script descrito en la sección Protocolo y los archivos de entrada están disponibles en el sitio: https://forgemia.inra.fr/GNet/dicoexpress

Preparar archivos de datos
Los cuatro archivos csv almacenados en el directorio Data/ deben nombrarse de acuerdo con el nombre del proyecto. En nuestro ejemplo, todos los nombres, por lo tanto, comienzan con "Tutorial", y estableceremos Project_Name = "Tutorial" en el Paso 4 del protocolo. El separador utilizado en los archivos csv debe indicarse en la variable Sep en el paso 4. En nuestro conjunto de datos "tutorial", el separador es una tabulación. Para usuarios avanzados, el conjunto de datos completo se puede reducir a un subconjunto proporcionando una lista de instrucciones y un nuevo Project_Name a través de la variable Filter. Esta opción evita copias redundantes de los archivos de entrada y verifica los principios FAIR¹⁴.

Entre los cuatro archivos csv, solo los archivos COUNTS y TARGET son obligatorios. Contienen los recuentos brutos para cada gen (aquí Tutorial_COUNTS.csv) y la descripción del diseño experimental (aquí Tutorial_TARGET.csv). El archivo TARGET.csv describe cada muestra (una muestra por fila) con una modalidad para cada factor biológico o técnico (en las columnas). Recomendamos encarecidamente que los nombres elegidos para las modalidades comiencen con una letra, no con un número. El nombre de la última columna ("Replicar") no se puede cambiar. Finalmente, los nombres de ejemplo (primera columna) deben coincidir con los nombres en los encabezados del archivo COUNTS.csv (Genotype1_control_rep1 en nuestro ejemplo). El archivo Enriquecimiento.csv en el que cada línea contiene un término de Gene_ID y uno de anotación sólo es necesario si el usuario planea ejecutar el análisis de enriquecimiento. Si un gen tiene varias anotaciones, tendrán que escribirse en diferentes líneas. El archivo Annotation.csv es opcional y se utiliza para agregar una breve descripción de cada gen en los archivos de salida. La mejor manera de obtener un archivo de anotación es recuperar la información de bases de datos dedicadas (por ejemplo, Thalemine: https://bar.utoronto.ca/thalemine/begin.do para Arabidopsis).

Instalación de DiCoExpress
DiCoExpress requiere paquetes R específicos. Utilice el código fuente de línea de comandos(".. /Sources/Install_Packages.R") en la consola de R para comprobar el estado de instalación del paquete requerido. Para los usuarios en Linux, otra solución es instalar el contenedor dedicado a DiCoExpress y disponible en https://forgemia.inra.fr/GNet/dicoexpress/container_registry. Por definición, este contenedor contiene DiCoExpress con todas las partes necesarias, como bibliotecas y otras dependencias.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. DiCoExpress

Abra una sesión de R Studio y establezca el directorio en Template_scripts.
Abra el script DiCoExpress_Tutorial.R en R Studio.
Cargue funciones DiCoExpress en la sesión de R con los siguientes comandos:
> fuente(".. /Fuentes/Load_Functions.R")
> Load_Functions()
> Data_Directory = ".. /datos"
> Results_Directory = ".. /Resultados/"
Cargue archivos de datos en la sesión de R con los siguientes comandos:
> Project_Name = "Tutorial"
> Filter = NULL
> Sep="\t"
> Data_Files = Load_Data_Files(Data_Directory, Project_Name, Filtro, Sep)
Divida el objeto Data_Files en varios objetos para manipularlos fácilmente:
> Project_Name = Data_Files$Project_Name
> Target = Data_Files$Target
> Raw_Counts = Data_Files$Raw_Counts
> Anotación = Data_Files$Anotación
> Reference_Enrichment = Data_Files$Reference_Enrichment
Elija una estrategia entre "NbConditions", "NbReplicates" o "filterByExpr" y un umbral para filtrar genes de baja expresión. Aquí elegimos
> Filter_Strategy = "NbReplicates"
> CPM_Cutoff = 1
Especificar colores de grupo con el comando
> Color_Group = NULL
NOTA: Cuando se establece en NULL, R atribuye automáticamente colores a las condiciones biológicas. De lo contrario, introduzca un vector que indique un color por grupo biológico.
Elija un método de normalización entre los aceptados por la función calcNormFactors de edgeR. Como por ejemplo
> Normalization_Method = "TMM"
Realizar el control de calidad ejecutando la siguiente función
> Quality_Control(Data_Directory, Results_Directory, Project_Name, Target, Raw_Counts, Filter_Strategy, Color_Group, CPM_Cutoff, Normalization_Method)
Estado Replicar = TRUE si los datos se emparejan según el factor de replicación, FALSE en caso contrario.
Asigne Interacción = VERDADERO para considerar una interacción entre los dos factores biológicos, FALSO en caso contrario.
Especifique el modelo estadístico con los siguientes comandos
> Modelo = GLM_Contrasts(Results_Directory, Project_Name, Destino, Replicar, Interacción)
> GLM_Model = Modelo$GLM_Model
> Contrastes = Modelo$Contrastes
Defina el umbral de la tasa de descubrimiento falso, aquí 0.05
> Alpha_DiffAnalysis =0,05
Realice el análisis diferencial con los siguientes comandos
> Index_Contrast=1:nrow(Contrastes)
> NbGenes_Profiles = 20
> NbGenes_Clustering = 50
> DiffAnalysis.edgeR (Data_Directory, Results_Directory, Project_Name, Target, Raw_Counts, GLM_Model, Contrastes, Index_Contrast, Filter_Strategy, Alpha_DiffAnalysis, NbGenes_Profiles, NbGenes_Clustering, CPM_Cutoff Normalization_Method)
Fijar un umbral para el análisis de enriquecimiento, aquí 0.01
> Alpha_Enrichment = 0,01
Realizar el análisis de enriquecimiento de las listas de genes expresados diferencialmente (DEG)
> Título = NULL
> Enriquecimiento(Results_Directory, Project_Name, Título, Reference_Enrichment, Alpha_Enrichment)
Elija las listas DEG que desea comparar. Como por ejemplo,
> Grupos = Contrastes$Contrastes[24:28]
Proporcione un nombre para la comparación de listas. Este nombre se utiliza para el directorio donde se guardarán los archivos de salida
> Título = "Interaction_with_Genotypes_1_and_2"
Especifique la acción que se va a realizar en las listas DEG estableciendo el parámetro Operación en unión o intersección. Nosotros elegimos
> Operación = "Unión"
Comparar las listas de DEG
> Venn_IntersectUnion(Data_Directory, Results_Directory, Project_Name, Título, Grupos, Operación)
Realizar un análisis de coexpresión con la función
> Coexpression_coseq(Data_Directory, Results_Directory, Project_Name, Título, Destino, Raw_Counts, Color_Group)
Realizar análisis de enriquecimiento de los clústeres de coexpresión
> Enriquecimiento(Results_Directory, Project_Name, Título, Reference_Enrichment, Alpha_Enrichment)
Generar dos archivos de registro que contengan toda la información necesaria para reproducir el análisis
> Save_Parameters( )
NOTA: Las líneas de comandos utilizadas en este protocolo se muestran en la figura 2. Se resaltan las líneas que deben modificarse para analizar otro conjunto de datos.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Todas las salidas de DiCoExpress se guardan en el directorio Tutorial/, que a su vez se coloca dentro del directorio Results/. Proporcionamos aquí algunas orientaciones para evaluar la calidad general del análisis.

Control de calidad
La salida del control de calidad, ubicada en el directorio Quality_Control/, es esencial para verificar que los resultados del análisis RNA-Seq sean confiables. El archivo Data_Quality_Control.pdf contiene varias gráficas obtenidas con datos sin procesar y normalizados que se pueden utilizar para identificar cualquier problema potencial con los datos. Los recuentos totales normalizados por muestra deben ser similares cuando se comparan las condiciones intra e inter. Además, se espera que los recuentos normalizados de expresión génica exhiban una mediana y varianza similares tanto en condiciones intra como inter (Figura 3A). De lo contrario, esto podría ser el signo de una variación no similar entre las condiciones, un problema que podría ser problemático para el ajuste del modelo.

Finalmente, los gráficos PCA en recuentos normalizados producidos en DiCoExpress son útiles para identificar posibles estructuras de datos subyacentes (Figura 3B). En nuestro ejemplo, no hay agrupamiento según las réplicas, lo que significa que este factor no es discriminante. Al mismo tiempo, se puede identificar una clara distinción entre tratamientos. Estos resultados indican un conjunto de datos de buena calidad, ya que siempre se espera que el efecto biológico sea más fuerte que el replicado. En conclusión, la calidad general observada aquí no impide ningún análisis posterior de todo el conjunto de datos.

Modelización estadística
DiCoExpress facilita la redacción del modelado estadístico del logaritmo de la expresión media a partir de las dos variables Replicar e Interacción. Un efecto replicado es concebible si las muestras de todas las condiciones biológicas se recogen al mismo tiempo y que este experimento se replica en diferentes días para medir la variabilidad biológica. En un experimento típico de ciencia vegetal, por ejemplo, las muestras se cultivan en la misma cámara de crecimiento independientemente de la condición biológica en estudio y las réplicas biológicas corresponden a experimentos iniciados en diferentes días. En este caso, los ejemplos de la misma replicación están emparejados y debe establecer Replicar en TRUE. De lo contrario, Replicar debe establecerse en FALSE. Este efecto de replicación también se conoce como efecto por lotes.

Si el diseño experimental se describe mediante dos factores biológicos que se espera que interactúen, establezca la variable Interacción en TRUE para considerar la interacción. Tenga en cuenta que para un proyecto que contiene un solo factor biológico, la variable Interacción se establece automáticamente en FALSE.

Análisis diferencial
Los DEG identificados para todos los contrastes probados están disponibles en archivos de texto ubicados en sus respectivos subdirectorios dentro del directorio DiffAnalysis/. De forma predeterminada, se prueban todos los contrastes. Dependiendo del diseño experimental, algunos contrastes pueden ser de interés biológico limitado (por ejemplo, un promedio en varios genotipos). Tenga en cuenta que el control de falsos positivos se realiza por contraste, lo que garantiza que los contrastes potencialmente irrelevantes no afecten al análisis. Sin embargo, es posible producir parcelas que solo contengan el contraste de intereses actuando sobre la variable Index_Contrast . Los detalles están disponibles en el manual de referencia en línea.

Es esencial notar que DiffAnalysis/ también contiene los histogramas de valor p en bruto que recientemente han demostrado ser la mejor manera de evaluar la calidad del modelado¹¹. Se supone que la distribución esperada de los valores p brutos es uniforme, con posiblemente un pico en el extremo izquierdo de la distribución. Un pico alto para un valor p bruto de 1 es indicativo de problemas de ajuste del modelo. En este caso, el problema a menudo se puede resolver aumentando el valor CPM_Cutoff conjunto, por ejemplo, de 1 a 5. Ejemplos de histogramas sin procesar están disponibles en la Figura 4A y en https://forgemia.inra.fr/GNet/dicoexpress/-/blob/master/DiCoExpress_Tutorial.pdf. Para cada contraste probado, los perfiles de expresión del DEG superior identificado (top 20 por defecto) se trazan en el Top20_Profile.pdf de archivo ubicado en el directorio del contraste. Un ejemplo para un gen identificado como expresado diferencialmente en un contraste se muestra en la Figura 4B. El número de DEG hacia arriba y hacia abajo se traza para cada contraste probado y se encuentra en el Down_Up_DEG.pdf del archivo (ejemplo en la Figura 4C).

Análisis de coexpresión
En nuestro ejemplo, el análisis de co-expresión se realiza sobre la unión de 5 listas de DEG, identificadas por contraste buscando la variación de la respuesta al tratamiento entre el Genotipo 1 o 2 frente a otros. El diagrama de Venn de DEG se muestra en la Figura 5A. Los genes coexpresados para cada grupo identificado se imprimen en archivos de texto individuales (un archivo por grupo). Los perfiles de expresión de los diferentes clústeres juntos están disponibles en el archivo Boxplot_profiles_Coseq.pdf (consulte el ejemplo de la figura 5B). Aunque las opciones de personalización están disponibles, solo deben ser utilizadas por usuarios avanzados. Consulte el manual de referencia para obtener una explicación completa de los diferentes parámetros.

Análisis de enriquecimiento
Las listas correspondientes a los análisis de contraste y enriquecimiento de conglomerados se encuentran en sus respectivos directorios. Un término de anotación que se considere significativo en este análisis puede estar sobrerrepresentado o subrepresentado en la lista de Gene_ID. Esta información se incluye en el archivo de salida.

Tenga en cuenta que la decisión de la prueba se toma a partir de los valores p sin procesar. Si el usuario desea ajustar los valores p sin procesar a posteriori, están disponibles en los archivos con el sufijo All_Enrichment_Results.txt.

Validez de DiCoExpress
Aunque DiCoExpress ha sido desarrollado para facilitar los análisis de experimentos multifactoriales de RNA-Seq, la validez de sus resultados depende en gran medida de las características del conjunto de datos. Varios resultados deben ser cuidadosamente comprobados antes de cualquier interpretación válida de los resultados. Primero, en el paso de control de calidad, el tamaño normalizado de la biblioteca debe ser similar y el recuento normalizado de expresión génica debe exhibir una mediana y varianza similares tanto en condiciones intra como inter. Luego, se debe prestar especial atención a la forma de los histogramas de valor p en bruto. Finalmente, cuando se realiza un análisis de coexpresión, un valor mínimo claramente definido para la ICL es indicativo de una buena calidad. Si no se cumplen estas condiciones, es probable que cualquier interpretación de los resultados sea errónea.

Figura 1. La canalización de análisis de DiCoExpress. Los siete pasos de un análisis completo de RNA-Seq utilizando DiCoExpress se indican que los cuadros azules representan los pasos donde se realizan los métodos estadísticos. El Paso 7 (Enriquecimiento) se puede realizar después del Paso 4 (Análisis diferencial y se denomina 7.1 en la Figura 2) y/o el Paso 6 (Análisis de coexpresión y se denomina 7.2 en la Figura 2). Los números rojos corresponden a los números de paso en el protocolo. Haga clic aquí para ver una versión más grande de esta figura.

Figura 2. Capturas de pantalla de las líneas de comandos de DiCoExpress. Se indican las líneas de comandos utilizadas para analizar el conjunto de datos del tutorial. El número en círculos negros es el mismo que en la Figura 1. Los rectángulos rojos resaltan las líneas que el usuario puede personalizar. Haga clic aquí para ver una versión más grande de esta figura.

Figura 3: Resultados representativos de la etapa de control de calidad. Figura obtenida con los recuentos normalizados del conjunto de datos "Tutorial". A) Diagrama de caja de recuentos normalizados. B) PCA en recuentos normalizados. Haga clic aquí para ver una versión más grande de esta figura.

Figura 4: Resultados representativos del análisis de expresiones diferenciales Figura obtenida con el conjunto de datos "Tutorial". A) Histograma del valor p bruto del contraste [control_Genotype2 - control_Genotype3]. B) Perfil de expresión génica C1G62301.1 en cada genotipo y condición, uno de los genes Top20 expresados diferencialmente en el contraste [control_Genotype2 - control_Genotype3]. C) Número de genes expresados diferencialmente hacia arriba y hacia abajo en cada contraste probado. Haga clic aquí para ver una versión más grande de esta figura.

Figura 5: Resultados representativos del Análisis de Coexpresión. Figura obtenida con el conjunto de datos "Tutorial". A) Diagrama de Venn de DEG a partir de los 5 "interacción con los contrastes de genotipo 1 y 2". Los DEG de la variación de la respuesta al tratamiento entre el genotipo 1 y 2, 1 y 3, 1 y 4, 2 y 3, 2 y 4 están en el círculo A, B, C, D, E respectivamente. El número escrito en la parte inferior derecha ("14877") es el número de genes que no son DE en ninguna lista. B) Perfil de expresión de genes del clúster de coexpresión 3. La figura se extrae de Tutorial_Interaction_with_Genotypes_1_and_2_Boxplot_profiles_Coseq.pdf. Haga clic aquí para ver una versión más grande de esta figura.

Archivo complementario. Haga clic aquí para descargar este archivo.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Debido a que RNA-Seq se ha convertido en un método omnipresente en los estudios biológicos, existe una necesidad constante de desarrollar herramientas analíticas versátiles y fáciles de usar. Un paso crítico dentro de la mayoría de los flujos de trabajo analíticos es a menudo identificar con confianza los genes expresados diferencialmente entre condiciones biológicas y/o tratamientos¹⁵. La producción de resultados confiables requiere un modelado estadístico adecuado, que ha sido la motivación para el desarrollo de DiCoExpress.

DiCoExpress es una herramienta basada en scripts implementada en R que tiene como objetivo ayudar a los biólogos a aprovechar al máximo las posibilidades de los estudios de comparación neutrales cuando buscan DEG. DiCoExpress proporciona una canalización estandarizada que ofrece la oportunidad de evaluar la estructura y la calidad de los datos, asegurando así que se elija el mejor enfoque de modelado. Sin ningún conocimiento particular en estadística o programación R, permite a los principiantes realizar un análisis completo de RNA-Seq desde los controles de calidad hasta la coexpresión a través del análisis diferencial basado en contrastes dentro de modelos lineales generalizados. Es importante tener en cuenta que DiCoExpress se centra en la parte estadística de un análisis RNA-Seq y requiere una tabla de recuento como entrada. Los múltiples métodos bioinformáticos dedicados a las alineaciones de lectura RNA-Seq y la creación de tablas de recuento están fuera del alcance de la herramienta. Sin embargo, tienen una influencia directa en la calidad del análisis final y deben elegirse cuidadosamente.

Aunque DiCoExpress no es una herramienta de "apuntar y hacer clic", su arquitectura de directorio y el script de plantilla proporcionado y utilizado en la interfaz de R-Studio lo hacen accesible para biólogos con un conocimiento mínimo de R. Una vez instalado DiCoExpress, los usuarios deben saber cómo usar una función en R e identificar los argumentos requeridos y opcionales. El primer paso crítico es proporcionar correctamente los dos archivos obligatorios que contienen los recuentos brutos para cada gen (el archivo COUNTS) y la descripción del diseño experimental (el archivo TARGET). El separador utilizado debe ser el mismo para cada archivo y la descripción de las muestras debe hacerse adecuadamente de acuerdo con las modalidades de los factores biológicos. Una vez que los dos archivos se cargan en DiCoExpress, el análisis está casi automatizado hasta el segundo paso crítico, es decir, el análisis de co-expresión. De hecho, este análisis puede llevar mucho tiempo y podría requerirse un potente servidor de cálculo para ejecutarlo en grandes conjuntos de datos.

Debido a que la automatización de la escritura de contraste se convierte en un desafío para más de dos factores biológicos, limitamos DiCoExpress al diseño completo y desequilibrado de hasta 2 factores biológicos. Si un proyecto contiene más de 2 factores biológicos, una solución práctica es colapsar dos de los factores iniciales para crear uno nuevo. Sin embargo, hay que tener en cuenta que la dificultad de dar una interpretación biológica significativa aumenta cuando aumenta el número de factores biológicos.

DiCoExpress se concibe como una herramienta en evolución y recomendamos encarecidamente a los usuarios que se suscriban a la lista de correo (https://groupes.renater.fr/sympa/subscribe/dicoexpress). Cualquier modificación o mejora de la herramienta se anunciará en la lista y damos la bienvenida a preguntas o sugerencias. También esperamos que la adopción de DiCoExpress por parte de una gran comunidad permita rastrear y corregir cualquier error que pueda ocurrir en algún contexto de análisis particular. Todas las actualizaciones y correcciones se enviarán al directorio git https://forgemia.inra.fr/GNet/dicoexpress.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Los autores no tienen nada que revelar

Acknowledgments

Este trabajo fue apoyado principalmente por la ANR PSYCHE (ANR-16-CE20-0009). Los autores agradecen a F. Desprez por la construcción del contenedor de DiCoExpress. El trabajo de KB está respaldado por el programa Amaizing de Inversión para el Futuro ANR-10-BTBR-01-01. Los laboratorios GQE e IPS2 se benefician del apoyo de Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

Materials

Name	Company	Catalog Number	Comments

DOWNLOAD MATERIALS LIST

References

Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. https://www.R-project.org/ (2020).
Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
Shiny: web application framework. , Available from: https://rdrr.io/cran/shiny/ (2021).
RStudio Team. RStudio: Integrated Development for R. RStudio, PBC. , Boston, MA. at (n.d (2020).
Lambert, I., Roux, C. P. -L., Colella, S., Martin-Magniette, M. -L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
Dillies, M. -A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Engineering

Análisis de experimentos multifactoriales de RNA-Seq con DiCoExpress

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.