Engineering

Analyse d’expériences multifactorielles de séquençage d’ARN avec DiCoExpress

Published: July 29, 2022 doi: 10.3791/62566

Kevin Baudry^1,2,3, Christine Paysant-Le Roux^1,2, Stefano Colella⁴, Benoît Castandet^1,2, Marie-Laure Martin^1,2,5

¹Université Paris-Saclay, CNRS, INRAE, Univ Evry, Institute of Plant Sciences Paris-Saclay (IPS2), Orsay, France, ²Université de Paris, CNRS, INRAE, Institute of Plant Sciences Paris Saclay (IPS2), Orsay, France, ³Université Paris-Saclay, INRAE, CNRS, AgroParisTech, GQE - Le Moulon, Gif-sur-Yvette, France, ⁴LSTM, Univ Montpellier, INRAE, IRD, CIRAD, Institut Agro, Montpellier, France, ⁵Universitté Paris-Saclay, AgroParisTech, INRAE, UMR MIA-Paris, Paris, France

Summary

DiCoExpress est un outil basé sur un script implémenté dans R pour effectuer une analyse RNA-Seq du contrôle qualité à la co-expression. DiCoExpress gère une conception complète et déséquilibrée jusqu’à 2 facteurs biologiques. Ce tutoriel vidéo guide l’utilisateur à travers les différentes fonctionnalités de DiCoExpress.

Abstract

L’utilisation appropriée de la modélisation statistique dans l’analyse des données NGS nécessite un niveau avancé d’expertise. Il y a eu récemment un consensus croissant sur l’utilisation de modèles linéaires généralisés pour l’analyse différentielle des données RNA-Seq et l’avantage des modèles de mélange pour effectuer une analyse de co-expression. Pour offrir un paramètre géré pour utiliser ces approches de modélisation, nous avons développé DiCoExpress qui fournit un pipeline R standardisé pour effectuer une analyse RNA-Seq. Sans connaissances particulières en statistiques ou en programmation R, les débutants peuvent effectuer une analyse complète RNA-Seq des contrôles qualité à la co-expression en passant par l’analyse différentielle basée sur les contrastes à l’intérieur d’un modèle linéaire généralisé. Une analyse d’enrichissement est proposée à la fois sur les listes des gènes exprimés différentiellement et sur les groupes de gènes co-exprimés. Ce didacticiel vidéo est conçu comme un protocole étape par étape pour aider les utilisateurs à tirer pleinement parti de DiCoExpress et de son potentiel pour permettre l’interprétation biologique d’une expérience RNA-Seq.

Introduction

La technologie de séquençage de l’ARN de nouvelle génération (RNA-Seq) est désormais l’étalon-or de l’analyse du transcriptome¹. Depuis les débuts de la technologie, les efforts combinés des bioinformaticiens et des biostatisticiens ont abouti au développement de nombreuses méthodes abordant toutes les étapes essentielles des analyses transcriptomiques, de la cartographie à la quantification des transcriptions². La plupart des outils dont dispose aujourd’hui le biologiste sont développés dans l’environnement logiciel R pour le calcul statistique et les graphiques³, et de nombreux progiciels pour l’analyse des données biologiques sont disponibles dans le référentiel Bioconductor⁴. Ces progiciels offrent un contrôle total et une personnalisation de l’analyse, mais ils se font au prix d’une utilisation intensive d’une interface de ligne de commande. Parce que de nombreux biologistes sont plus à l’aise avec une approche « point and click »⁵, la démocratisation des analyses RNA-Seq nécessite le développement d’interfaces ou de protocoles plus conviviaux⁶. Par exemple, il est possible de construire des interfaces web de paquets R en utilisant Shiny⁷, et l’analyse des données en ligne de commande est rendue plus intuitive avec l’interface R-studio⁸ . Le développement de tutoriels dédiés, étape par étape, peut également aider le nouvel utilisateur. En particulier, un tutoriel vidéo complète un tutoriel texte classique, conduisant à une compréhension plus profonde de toutes les étapes de la procédure.

Nous avons récemment développé DiCoExpress⁹, un outil d’analyse des expériences multifactorielles RNA-Seq dans R en utilisant des méthodes considérées comme les meilleures basées sur des études de comparaison neutres^10,11,12. À partir d’une table de comptage, DiCoExpress propose une étape de contrôle de la qualité des données suivie d’une analyse différentielle de l’expression génique (edgeR package¹³) à l’aide d’un modèle linéaire généralisé (GLM) et la génération de clusters de co-expression à l’aide de modèles de mélange gaussiens (coseq package¹²). DiCoExpress gère une conception complète et déséquilibrée jusqu’à 2 facteurs biologiques (génotype et traitement) et un facteur technique (réplication). L’originalité de DiCoExpress réside dans son architecture d’annuaire stockant et organisant les données, les scripts et les résultats et dans l’automatisation de l’écriture des contrastes permettant à l’utilisateur d’étudier de nombreuses questions au sein d’un même modèle statistique. On s’est également efforcé de fournir des graphiques illustrant les résultats statistiques.

L’espace de travail DiCoExpress est disponible au https://forgemia.inra.fr/GNet/dicoexpress. Il contient quatre répertoires, deux fichiers pdf et deux fichiers texte. Le répertoire Data/ contient les jeux de données d’entrée ; Pour ce protocole, nous utiliserons le jeu de données « tutorial ». Le répertoire Sources/ contient sept fonctions R nécessaires à la réalisation de l’analyse, et ne doit pas être modifié par l’utilisateur. L’analyse est exécutée à l’aide de scripts stockés dans le répertoire Template_scripts/. Celui utilisé dans ce protocole s’appelle DiCoExpress_Tutorial_JoVE.R et peut être facilement adapté à n’importe quel projet transcriptomique. Tous les résultats sont écrits dans le répertoire Results/ et stockés dans un sous-répertoire nommé en fonction du projet. Le fichier README.md contient des informations d’installation utiles, et tous les détails spécifiques concernant la méthode et son utilisation peuvent être trouvés dans le fichier DiCoExpress_Reference_Manual.pdf.

Ce tutoriel vidéo guide l’utilisateur à travers les différentes fonctionnalités de DiCoExpress dans le but de surmonter les réticences ressenties par les biologistes à l’aide d’outils basés sur la ligne de commande. Nous présentons ici l’analyse d’un ensemble de données RNA-Seq artificiel décrivant l’expression génique dans trois réplicas biologiques de quatre génotypes, avec ou sans traitement. Nous allons maintenant passer en revue les différentes étapes du flux de travail DiCoExpress illustrées à la figure 1. Le script décrit dans la section Protocole et les fichiers d’entrée sont disponibles sur le site : https://forgemia.inra.fr/GNet/dicoexpress

Préparer les fichiers de données
Les quatre fichiers csv stockés dans le répertoire Data/ doivent être nommés en fonction du nom du projet. Dans notre exemple, tous les noms commencent donc par « Tutorial », et nous allons définir Project_Name = « Tutorial » à l’étape 4 du protocole. Le séparateur utilisé dans les fichiers csv doit être indiqué dans la variable Sep à l’étape 4. Dans notre jeu de données « tutoriel », le séparateur est une tabulation. Pour les utilisateurs avancés, le jeu de données complet peut être réduit à un sous-ensemble en fournissant une liste d’instructions et une nouvelle Project_Name via la variable Filter. Cette option évite les copies redondantes des fichiers d’entrée et vérifie les principes FAIR¹⁴.

Parmi les quatre fichiers csv, seuls les fichiers COUNTS et TARGET sont obligatoires. Ils contiennent les comptes bruts pour chaque gène (ici Tutorial_COUNTS.csv) et la description du plan expérimental (ici Tutorial_TARGET.csv). Le fichier TARGET.csv décrit chaque échantillon (un échantillon par ligne) avec une modalité pour chaque facteur biologique ou technique (dans les colonnes). Nous recommandons fortement que les noms choisis pour les modalités commencent par une lettre et non par un chiffre. Le nom de la dernière colonne (« Répliquer ») ne peut pas être modifié. Enfin, les noms d’exemple (première colonne) doivent correspondre aux noms dans les en-têtes du fichier COUNTS.csv (Genotype1_control_rep1 dans notre exemple). Le fichier d’enrichissement.csv dans lequel chaque ligne contient un Gene_ID et un terme d’annotation n’est requis que si l’utilisateur prévoit d’exécuter l’analyse d’enrichissement. Si un gène a plusieurs annotations, elles devront être écrites sur des lignes différentes. Le fichier Annotation.csv est facultatif et est utilisé pour ajouter une brève description de chaque gène dans les fichiers de sortie. La meilleure façon d’obtenir un fichier d’annotation est de récupérer les informations à partir de bases de données dédiées (par exemple, Thalemine: https://bar.utoronto.ca/thalemine/begin.do pour Arabidopsis).

Installation de DiCoExpress
DiCoExpress nécessite des packages R spécifiques. Utilisez la ligne de commande source(« .. /Sources/Install_Packages.R ») dans la console R pour vérifier l’état d’installation du package requis. Pour les utilisateurs sous Linux, une autre solution consiste à installer le conteneur dédié à DiCoExpress et disponible chez https://forgemia.inra.fr/GNet/dicoexpress/container_registry. Par définition, ce conteneur contient DiCoExpress avec toutes les parties nécessaires, telles que les bibliothèques et autres dépendances.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. DiCoExpress

Ouvrez une session R studio et définissez le répertoire sur Template_scripts.
Ouvrez le script DiCoExpress_Tutorial.R dans R studio.
Chargez les fonctions DiCoExpress dans la session R avec les commandes suivantes:
> source(« .. /Sources/Load_Functions.R »)
> Load_Functions()
> Data_Directory = « .. /données »
> Results_Directory = « .. /Résultats/ »
Chargez les fichiers de données dans la session R avec les commandes suivantes :
> Project_Name = « Tutoriel »
> Filtre = NULL
> Sep="\t »
> Data_Files = Load_Data_Files(Data_Directory, Project_Name, Filtre, Sep)
Divisez l’objet Data_Files en plusieurs objets pour les manipuler facilement :
> Project_Name = Data_Files Project_Name $
> Cible = Data_Files$Cible
> Raw_Counts = Data_Files Raw_Counts $
> Annotation = Data_Files$Annotation
> Reference_Enrichment = Data_Files Reference_Enrichment $
Choisissez une stratégie parmi « NbConditions », « NbReplicates » ou « filterByExpr » et un seuil pour filtrer les gènes faiblement exprimés. Ici, nous choisissons
> Filter_Strategy = « NbReplicates »
> CPM_Cutoff = 1
Spécifier les couleurs de groupe à l’aide de la commande
> Color_Group = NULL
Remarque : Lorsqu’il est défini sur NULL, R attribue automatiquement des couleurs aux conditions biologiques. Sinon, entrez un vecteur indiquant une couleur par groupe biologique.
Choisissez une méthode de normalisation parmi celles acceptées par la fonction calcNormFactors de edgeR. Comme par exemple
> Normalization_Method = « TMM »
Effectuez le contrôle qualité en exécutant la fonction suivante
> Quality_Control(Data_Directory, Results_Directory, Project_Name, Target, Raw_Counts, Filter_Strategy, Color_Group, CPM_Cutoff, Normalization_Method)
État Réplique = TRUE si les données sont appariées en fonction du facteur de réplication, FALSE dans le cas contraire.
Assignez Interaction = VRAI pour considérer une interaction entre les deux facteurs biologiques, FAUX sinon.
Spécifiez le modèle statistique à l’aide des commandes suivantes
> Modèle = GLM_Contrasts(Results_Directory, Project_Name, Cible, Réplication, Interaction)
> GLM_Model = Model$GLM_Model
> Contrastes = Model$Contrasts
Définissez le seuil du taux de fausses découvertes, ici 0,05
> Alpha_DiffAnalysis = 0,05
Effectuez l’analyse différentielle avec les commandes suivantes
> Index_Contrast=1:nrow(Contrastes)
> NbGenes_Profiles = 20
> NbGenes_Clustering = 50
> DiffAnalysis.edgeR (Data_Directory, Results_Directory, Project_Name, Target, Raw_Counts, GLM_Model, Contrasts, Index_Contrast, Filter_Strategy, Alpha_DiffAnalysis, NbGenes_Profiles, NbGenes_Clustering, CPM_Cutoff, Normalization_Method)
Fixer un seuil pour l’analyse d’enrichissement, ici 0,01
> Alpha_Enrichment = 0,01
Effectuer l’analyse d’enrichissement des listes de gènes exprimés différentiellement (DEG)
> Titre = NULL
> Enrichissement(Results_Directory, Project_Name, Titre, Reference_Enrichment, Alpha_Enrichment)
Choisissez les listes DEG à comparer. Comme par exemple,
> Groupes = Contrastes$Contrastes[24:28]
Donnez un nom à la comparaison de liste. Ce nom est utilisé pour le répertoire où les fichiers de sortie seront enregistrés
> Titre = « Interaction_with_Genotypes_1_and_2 »
Spécifiez l’action à effectuer sur les listes DEG en définissant le paramètre Operation sur union ou intersection. Nous choisissons
> Opération = « Union »
Comparer les listes de DEG
> Venn_IntersectUnion(Data_Directory, Results_Directory, Project_Name, titre, groupes, opération)
Effectuer une analyse de co-expression avec la fonction
> Coexpression_coseq(Data_Directory, Results_Directory, Project_Name, Titre, Cible, Raw_Counts, Color_Group)
Effectuer une analyse d’enrichissement des clusters de co-expression
> Enrichissement(Results_Directory, Project_Name, Titre, Reference_Enrichment, Alpha_Enrichment)
Générer deux fichiers journaux contenant toutes les informations nécessaires pour reproduire l’analyse
> Save_Parameters ( )
Remarque : Les lignes de commande utilisées dans ce protocole sont illustrées dans la figure 2. Les lignes qui doivent être modifiées pour analyser un autre jeu de données sont mises en surbrillance.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Toutes les sorties DiCoExpress sont enregistrées dans le répertoire Tutorial/, lui-même placé dans le répertoire Results/. Nous fournissons ici quelques conseils pour évaluer la qualité globale de l’analyse.

Contrôle qualité
La sortie du contrôle qualité, située dans le répertoire Quality_Control/, est essentielle pour vérifier que les résultats de l’analyse RNA-Seq sont fiables. Le fichier Data_Quality_Control.pdf contient plusieurs graphiques obtenus avec des données brutes et normalisées qui peuvent être utilisées pour identifier les problèmes potentiels avec les données. Les comptes totaux normalisés par échantillon devraient être similaires lors de la comparaison intra- et inter-conditions. De plus, on s’attend à ce que le nombre normalisé d’expression génique présente une médiane et une variance similaires tant dans les conditions intra- qu’inter-conditions (figure 3A). Sinon, cela pourrait être le signe d’une variance non similaire entre les conditions, un problème qui pourrait être problématique pour l’ajustement du modèle.

Enfin, les diagrammes de l’ACP sur les dénombrements normalisés produits dans DiCoExpress sont utiles pour identifier les structures de données sous-jacentes potentielles (figure 3B). Dans notre exemple, il n’y a pas de regroupement en fonction des réplications, ce qui signifie que ce facteur n’est pas discriminant. Dans le même temps, une distinction claire peut être identifiée entre les traitements. Ces résultats indiquent un ensemble de données de bonne qualité puisque l’effet biologique devrait toujours être plus fort que celui de la réplique. En conclusion, la qualité globale observée ici n’empêche pas toute analyse ultérieure de l’ensemble de l’ensemble de données.

Modélisation statistique
DiCoExpress facilite l’écriture de la modélisation statistique du logarithme de l’expression moyenne à partir des deux variables Replicate et Interaction. Un effet de réplication est concevable si les échantillons de toutes les conditions biologiques sont prélevés en même temps et que cette expérience est reproduite à des jours différents pour mesurer la variabilité biologique. Dans une expérience typique de phytotechnie, par exemple, les échantillons sont cultivés dans la même chambre de croissance, quelle que soit la condition biologique étudiée, et les réplications biologiques correspondent à des expériences commencées à des jours différents. Dans ce cas, les exemples de la même réplication sont appariés et vous devez définir Répliquer sur TRUE. Sinon, Répliquer doit avoir la valeur FALSE. Cet effet de réplication est également connu sous le nom d’effet de lot.

Si le plan expérimental est décrit par deux facteurs biologiques susceptibles d’interagir, définissez la variable Interaction sur TRUE pour tenir compte de l’interaction. Notez que pour un projet ne contenant qu’un seul facteur biologique, la variable Interaction est automatiquement définie sur FALSE.

Analyse différentielle
Le DEG identifié pour tous les contrastes testés est disponible dans des fichiers texte situés dans leurs sous-répertoires respectifs du répertoire DiffAnalysis/. Par défaut, tous les contrastes sont testés. Selon le plan expérimental, certains contrastes peuvent présenter un intérêt biologique limité (par exemple, une moyenne sur plusieurs génotypes). Notez que le contrôle des faux positifs est effectué par contraste, ce qui garantit que les contrastes potentiellement non pertinents n’ont pas d’impact sur l’analyse. Il est cependant possible de produire des parcelles ne contenant que le contraste d’intérêts en agissant sur la variable Index_Contrast . Les détails sont disponibles dans le manuel de référence en ligne.

Il est essentiel de noter que DiffAnalysis/ contient également les histogrammes bruts de p-value qui se sont récemment révélés être le meilleur moyen d’évaluer la qualité de la modélisation¹¹. La distribution attendue des valeurs p brutes est censée être uniforme, avec éventuellement un pic à l’extrémité gauche de la distribution. Un pic élevé pour une valeur p brute de 1 indique des problèmes d’ajustement du modèle. Dans ce cas, le problème peut souvent être résolu en augmentant la valeur définie CPM_Cutoff, par exemple, de 1 à 5. Des exemples d’histogrammes bruts sont disponibles à la figure 4A et à https://forgemia.inra.fr/GNet/dicoexpress/-/blob/master/DiCoExpress_Tutorial.pdf. Pour chaque contraste testé, les profils d’expression du DEG supérieur identifié (top 20 par défaut) sont tracés dans le fichier Top20_Profile.pdf situé dans le répertoire du contraste. Un exemple pour un gène identifié comme exprimé différentiellement dans un contraste est présenté à la figure 4B. Le nombre de DEG haut et bas est tracé pour chaque contraste testé et se trouve dans le fichier Down_Up_DEG.pdf (exemple de la figure 4C).

Analyse de co-expression
Dans notre exemple, l’analyse de co-expression est réalisée sur l’union de 5 listes DEG, identifiées par contraste en recherchant la variation de la réponse au traitement entre le génotype 1 ou 2 par rapport aux autres. Le diagramme de Venn du DEG est illustré à la figure 5A. Les gènes co-exprimés pour chaque groupe identifié sont imprimés dans des fichiers texte individuels (un fichier par groupe). Les profils d’expression des différents clusters sont disponibles dans le fichier Boxplot_profiles_Coseq.pdf (voir l’exemple de la figure 5B). Bien que des options de personnalisation soient disponibles, elles ne doivent être utilisées que par les utilisateurs avancés. Veuillez vous référer au manuel de référence pour une explication complète des différents paramètres.

Analyse de l’enrichissement
Les listes correspondant aux analyses de contraste et d’enrichissement des clusters se trouvent dans leurs répertoires respectifs. Un terme d’annotation jugé important dans cette analyse peut être surreprésenté ou sous-représenté dans la liste Gene_ID. Ces informations sont incluses dans le fichier de sortie.

Notez que la décision de test est prise à partir des valeurs p brutes. Si l’utilisateur souhaite ajuster les valeurs p brutes a posteriori, elles sont disponibles dans les fichiers avec le suffixe All_Enrichment_Results.txt.

Validité de DiCoExpress
Bien que DiCoExpress ait été développé pour faciliter les analyses multifactorielles des expériences RNA-Seq, la validité de ses résultats dépend en grande partie des caractéristiques de l’ensemble de données. Plusieurs résultats doivent être soigneusement vérifiés avant toute interprétation valide des résultats. Tout d’abord, à l’étape du contrôle de la qualité, la taille normalisée de la bibliothèque devrait être similaire et le nombre normalisé d’expression génique devrait présenter une médiane et une variance similaires dans les conditions intra et inter-conditions. Ensuite, une attention particulière doit être portée à la forme des histogrammes bruts de la valeur p. Enfin, lors de la réalisation d’une analyse de co-expression, une valeur minimale clairement définie pour la LMIC indique une bonne qualité. Si ces conditions ne sont pas remplies, toute interprétation des résultats est susceptible d’être erronée.

Graphique 1. Le pipeline DiCoExpress Analysis. Les sept étapes d’une analyse complète RNA-Seq à l’aide de DiCoExpress sont indiquées Les cases bleues représentent les étapes où les méthodes statistiques sont effectuées. L’étape 7 (enrichissement) peut être effectuée après l’étape 4 (analyse différentielle et est nommée 7.1 dans la figure 2) et/ou l’étape 6 (analyse de co-expression et est nommée 7.2 dans la figure 2). Les numéros rouges correspondent aux numéros d’étape du protocole. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Graphique 2. Captures d’écran des lignes de commande DiCoExpress. Les lignes de commande utilisées pour analyser le jeu de données du didacticiel sont indiquées. Le nombre dans les cercles noirs est le même que dans la figure 1. Les rectangles rouges mettent en évidence les lignes qui peuvent être personnalisées par l’utilisateur. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 3 : Résultats représentatifs de l’étape du contrôle de la qualité. Figure obtenue avec le jeu de données « Tutorial » comptes normalisés. A) Boxplot des comptages normalisés. B) APC sur les comptes normalisés. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 4 : Résultats représentatifs de l’analyse des expressions différentielles Figure obtenue avec le jeu de données « Tutoriel ». A) Histogramme brut de la valeur p du contraste [control_Genotype2 - control_Genotype3]. B) Profil d’expression génique C1G62301.1 dans chaque génotype et condition, l’un des 20 gènes les plus exprimés différentiellement dans le contraste [control_Genotype2 - control_Genotype3]. C) Nombre de gènes exprimés différentiellement haut et bas dans chaque contraste testé. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 5 : Résultats représentatifs de l’analyse de coexpression. Figure obtenue avec le jeu de données « Tutorial ». A) Diagramme de Venn du DEG à partir des contrastes 5 « interaction avec les génotypes 1 et 2 ». Les DEG de la variation de la réponse au traitement entre les génotypes 1 et 2, 1 et 3, 1 et 4, 2 et 3, 2 et 4 sont dans les cercles A, B, C, D, E respectivement. Le nombre écrit en bas à droite (« 14877 ») est le nombre de gènes qui ne sont DE dans aucune liste. B) Profil d’expression des gènes du groupe de coexpression 3. La figure est extraite de Tutorial_Interaction_with_Genotypes_1_and_2_Boxplot_profiles_Coseq.pdf. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Fichier supplémentaire. Veuillez cliquer ici pour télécharger ce fichier.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Parce que RNA-Seq est devenu une méthode omniprésente dans les études biologiques, il y a un besoin constant de développer des outils analytiques polyvalents et conviviaux. Une étape critique dans la plupart des flux de travail analytiques consiste souvent à identifier avec confiance les gènes exprimés différemment entre les conditions biologiques et/ou les traitements¹⁵. La production de résultats fiables nécessite une modélisation statistique appropriée, ce qui a motivé le développement de DiCoExpress.

DiCoExpress est un outil basé sur des scripts implémenté dans R qui vise à aider les biologistes à tirer pleinement parti des possibilités des études comparatives neutres lors de la recherche de DEG. DiCoExpress fournit un pipeline standardisé offrant la possibilité d’évaluer la structure et la qualité des données, garantissant ainsi le choix de la meilleure approche de modélisation. Sans connaissances particulières en statistique ou en programmation R, il permet aux débutants d’effectuer une analyse complète RNA-Seq du contrôle qualité à la co-expression en passant par l’analyse différentielle basée sur les contrastes à l’intérieur de modèles linéaires généralisés. Il est important de noter que DiCoExpress se concentre sur la partie statistique d’une analyse RNA-Seq et nécessite une table de comptage comme entrée. Les multiples méthodes bioinformatiques dédiées aux alignements de lecture RNA-Seq et à la création de tables de comptage sont hors du champ de l’outil. Ils ont néanmoins une influence directe sur la qualité de l’analyse finale et doivent être choisis avec soin.

Bien que DiCoExpress ne soit pas un outil « pointer et cliquer », son architecture de répertoire et le script de modèle fourni et utilisé dans l’interface R-Studio le rendent accessible aux biologistes ayant une connaissance minimale de R. Une fois DiCoExpress installé, les utilisateurs doivent savoir comment utiliser une fonction dans R et identifier les arguments requis et facultatifs. La première étape critique consiste à fournir correctement les deux fichiers obligatoires contenant les comptes bruts pour chaque gène (le fichier COUNTS) et la description de la conception expérimentale (le fichier TARGET). Le séparateur utilisé doit être le même pour chaque dossier et la description des échantillons doit être faite de manière appropriée selon les modalités des facteurs biologiques. Une fois les deux fichiers chargés dans DiCoExpress, l’analyse est presque automatisée jusqu’à la deuxième étape critique, c’est-à-dire l’analyse de co-expression. Cette analyse peut en effet prendre beaucoup de temps et un serveur de calcul puissant pourrait être nécessaire pour l’exécuter sur de grands ensembles de données.

Parce que l’automatisation de l’écriture de contraste devient difficile pour plus de deux facteurs biologiques, nous avons limité DiCoExpress à la conception complète et déséquilibrée de jusqu’à 2 facteurs biologiques. Si un projet contient plus de 2 facteurs biologiques, une solution pratique consiste à réduire deux des facteurs initiaux pour en créer un nouveau. Néanmoins, il faut garder à l’esprit que la difficulté de donner une interprétation biologique significative augmente lorsque le nombre de facteurs biologiques augmente.

DiCoExpress est conçu comme un outil évolutif et nous encourageons fortement les utilisateurs à s’abonner à la liste de diffusion (https://groupes.renater.fr/sympa/subscribe/dicoexpress). Toute modification ou amélioration de l’outil sera annoncée sur la liste et nous accueillons volontiers vos questions ou suggestions. Nous espérons également que l’adoption de DiCoExpress par une grande communauté permettra de suivre et de corriger les bogues qui pourraient survenir dans un contexte d’analyse particulier. Toutes les mises à jour et corrections seront poussées vers le répertoire git https://forgemia.inra.fr/GNet/dicoexpress.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs n’ont rien à divulguer

Acknowledgments

Ce travail a été principalement soutenu par l’ANR PSYCHÉ (ANR-16-CE20-0009). Les auteurs remercient F. Desprez pour la construction du conteneur de DiCoExpress. Le travail de KB est soutenu par le programme Amaizing d’investissement pour l’avenir ANR-10-BTBR-01-01. Les laboratoires GQE et IPS2 bénéficient du soutien de Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

Materials

Name	Company	Catalog Number	Comments

DOWNLOAD MATERIALS LIST

References

Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. https://www.R-project.org/ (2020).
Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
Shiny: web application framework. , Available from: https://rdrr.io/cran/shiny/ (2021).
RStudio Team. RStudio: Integrated Development for R. RStudio, PBC. , Boston, MA. at (n.d (2020).
Lambert, I., Roux, C. P. -L., Colella, S., Martin-Magniette, M. -L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
Dillies, M. -A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Engineering

Analyse d’expériences multifactorielles de séquençage d’ARN avec DiCoExpress

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.