Engineering

Analisi di esperimenti multifattoriali RNA-Seq con DiCoExpress

Published: July 29, 2022 doi: 10.3791/62566

Kevin Baudry^1,2,3, Christine Paysant-Le Roux^1,2, Stefano Colella⁴, Benoît Castandet^1,2, Marie-Laure Martin^1,2,5

¹Université Paris-Saclay, CNRS, INRAE, Univ Evry, Institute of Plant Sciences Paris-Saclay (IPS2), Orsay, France, ²Université de Paris, CNRS, INRAE, Institute of Plant Sciences Paris Saclay (IPS2), Orsay, France, ³Université Paris-Saclay, INRAE, CNRS, AgroParisTech, GQE - Le Moulon, Gif-sur-Yvette, France, ⁴LSTM, Univ Montpellier, INRAE, IRD, CIRAD, Institut Agro, Montpellier, France, ⁵Universitté Paris-Saclay, AgroParisTech, INRAE, UMR MIA-Paris, Paris, France

Summary

DiCoExpress è uno strumento basato su script implementato in R per eseguire un'analisi RNA-Seq dal controllo di qualità alla co-espressione. DiCoExpress gestisce un design completo e sbilanciato fino a 2 fattori biologici. Questo video tutorial guida l'utente attraverso le diverse funzionalità di DiCoExpress.

Abstract

L'uso corretto della modellazione statistica nell'analisi dei dati NGS richiede un livello avanzato di competenza. Recentemente c'è stato un crescente consenso sull'uso di modelli lineari generalizzati per l'analisi differenziale dei dati di RNA-Seq e il vantaggio dei modelli di miscela per eseguire l'analisi di co-espressione. Per offrire un'impostazione gestita per utilizzare questi approcci di modellazione, abbiamo sviluppato DiCoExpress che fornisce una pipeline R standardizzata per eseguire un'analisi RNA-Seq. Senza particolari conoscenze in statistica o programmazione R, i principianti possono eseguire un'analisi completa di RNA-Seq dai controlli di qualità alla co-espressione attraverso l'analisi differenziale basata sui contrasti all'interno di un modello lineare generalizzato. Un'analisi di arricchimento viene proposta sia sulle liste di geni differenzialmente espressi, sia sui cluster di geni co-espressi. Questo video tutorial è concepito come un protocollo passo-passo per aiutare gli utenti a sfruttare appieno DiCoExpress e il suo potenziale nel potenziare l'interpretazione biologica di un esperimento RNA-Seq.

Introduction

La tecnologia di sequenziamento dell'RNA di nuova generazione (RNA-Seq) è ora il gold standard dell'analisi del trascrittoma¹. Fin dai primi giorni della tecnologia, gli sforzi combinati di bioinformatici e biostatistici hanno portato allo sviluppo di numerosi metodi che affrontano tutte le fasi essenziali delle analisi trascrittomiche, dalla mappatura alla quantificazione della trascrizione². La maggior parte degli strumenti oggi disponibili per il biologo sono sviluppati all'interno dell'ambiente software R per il calcolo statistico e i grafici³, e molti pacchetti per l'analisi dei dati biologici sono disponibili nel repository Bioconductor⁴. Questi pacchetti offrono il controllo totale e la personalizzazione dell'analisi, ma hanno il costo di un uso estensivo di un'interfaccia a riga di comando. Poiché molti biologi sono più a loro agio con un approccio "punta e clicca"⁵, la democratizzazione delle analisi RNA-Seq richiede lo sviluppo di interfacce o protocolli più user-friendly⁶. Ad esempio, è possibile creare interfacce web di pacchetti R utilizzando Shiny⁷ e l'analisi dei dati della riga di comando è resa più intuitiva con l'interfaccia R-studio⁸ . Lo sviluppo di tutorial dedicati e passo-passo può anche aiutare il nuovo utente. In particolare, un video tutorial integra un classico testo di testo, portando ad una comprensione più profonda di tutte le fasi della procedura.

Abbiamo recentemente sviluppato DiCoExpress⁹, uno strumento per analizzare esperimenti multifattoriali RNA-Seq in R utilizzando metodi considerati i migliori basati su studi di confronto neutri^10,11,12. Partendo da una tabella di conteggio, DiCoExpress propone una fase di controllo della qualità dei dati seguita da un'analisi di espressione genica differenziale (pacchetto edgeR¹³) utilizzando un modello lineare generalizzato (GLM) e la generazione di cluster di co-espressione utilizzando modelli di miscela gaussiana (pacchetto coseq¹²). DiCoExpress gestisce una progettazione completa e sbilanciata fino a 2 fattori biologici (genotipo e trattamento) e un fattore tecnico (replica). L'originalità di DiCoExpress risiede nella sua architettura di directory che memorizza e organizza dati, script e risultati e nell'automazione della scrittura dei contrasti che consente all'utente di indagare numerose domande all'interno dello stesso modello statistico. È stato inoltre compiuto uno sforzo per fornire risultati grafici che illustrano i risultati statistici.

L'area di lavoro DiCoExpress è disponibile all'indirizzo https://forgemia.inra.fr/GNet/dicoexpress. Contiene quattro directory, due pdf e due file di testo. La directory Data/ contiene i set di dati di input; Per questo protocollo, utilizzeremo il set di dati "Tutorial". La directory Sources/ contiene sette funzioni R necessarie per eseguire l'analisi e non deve essere modificata dall'utente. L'analisi viene eseguita utilizzando script memorizzati nella directory Template_scripts/. Quello utilizzato in questo protocollo si chiama DiCoExpress_Tutorial_JoVE.R e può essere facilmente adattato a qualsiasi progetto trascrittomico. Tutti i risultati sono scritti nella directory Results/ e memorizzati in una sottodirectory denominata in base al progetto. Il file README.md contiene utili informazioni di installazione e tutti i dettagli specifici relativi al metodo e al suo utilizzo sono disponibili nel file DiCoExpress_Reference_Manual.pdf.

Questo video tutorial guida l'utente attraverso le diverse funzionalità di DiCoExpress con l'obiettivo di superare la riluttanza sentita dai biologi utilizzando strumenti basati su riga di comando. Presentiamo qui l'analisi di un set di dati artificiale RNA-Seq che descrive l'espressione genica in tre repliche biologiche di quattro genotipi, con o senza trattamento. Esamineremo ora i diversi passaggi del flusso di lavoro DiCoExpress illustrati nella Figura 1. Lo script descritto nella sezione Protocollo e i file di input sono disponibili sul sito: https://forgemia.inra.fr/GNet/dicoexpress

Preparare i file di dati
I quattro file csv memorizzati nella directory Data/ devono essere denominati in base al nome del progetto. Nel nostro esempio, tutti i nomi, quindi, iniziano con "Tutorial" e imposteremo Project_Name = "Tutorial" nel passaggio 4 del protocollo. Il separatore utilizzato nei file CSV deve essere indicato nella variabile Sep nel passaggio 4. Nel nostro set di dati "tutorial", il separatore è una tabella. Per gli utenti avanzati l'intero set di dati può essere ridotto a un sottoinsieme fornendo un elenco di istruzioni e una nuova Project_Name tramite la variabile Filter. Questa opzione evita copie ridondanti dei file di input e verifica i principi FAIR¹⁴.

Tra i quattro file csv, solo i file COUNTS e TARGET sono obbligatori. Contengono i conteggi grezzi per ogni gene (qui Tutorial_COUNTS.csv) e la descrizione del disegno sperimentale (qui Tutorial_TARGET.csv). Il file TARGET.csv descrive ogni campione (un campione per riga) con una modalità per ciascun fattore biologico o tecnico (nelle colonne). Raccomandiamo vivamente che i nomi scelti per le modalità inizino con una lettera, non con un numero. Il nome dell'ultima colonna ("Replica") non può essere modificato. Infine, i nomi di esempio (prima colonna) devono corrispondere ai nomi nelle intestazioni del file COUNTS.csv (Genotype1_control_rep1 nel nostro esempio). Il file Enrichment.csv in cui ogni riga contiene un Gene_ID e un termine di annotazione è necessario solo se l'utente prevede di eseguire l'analisi di arricchimento. Se un gene ha diverse annotazioni, dovranno essere scritte su righe diverse. Il file Annotation.csv è facoltativo e viene utilizzato per aggiungere una breve descrizione di ogni gene nei file di output. Il modo migliore per ottenere un file di annotazione è recuperare le informazioni da database dedicati (ad esempio, Thalemine: https://bar.utoronto.ca/thalemine/begin.do per Arabidopsis).

Installazione di DiCoExpress
DiCoExpress richiede pacchetti R specifici. Utilizzare l'origine della riga di comando(".. /Sources/Install_Packages.R") nella console R per verificare lo stato di installazione del pacchetto richiesto. Per gli utenti su Linux, un'altra soluzione è quella di installare il contenitore dedicato a DiCoExpress e disponibile su https://forgemia.inra.fr/GNet/dicoexpress/container_registry. Per definizione, questo contenitore contiene DiCoExpress con tutte le parti necessarie, come librerie e altre dipendenze.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. DiCoExpress

Aprire una sessione di R Studio e impostare la directory su Template_scripts.
Aprire lo script DiCoExpress_Tutorial.R in R Studio.
Caricare le funzioni DiCoExpress nella sessione R con i seguenti comandi:
> fonte(".. /Fonti/Load_Functions.R")
> Load_Functions()
> Data_Directory = ".. /Dati"
> Results_Directory = ".. /Risultati/"
Caricare i file di dati nella sessione R con i seguenti comandi:
> Project_Name = "Tutorial"
> Filter = NULL
> Sep="\t"
> Data_Files = Load_Data_Files(Data_Directory, Project_Name, filtro, set)
Dividere l'oggetto Data_Files in più oggetti per manipolarli facilmente:
> Project_Name = Data_Files$Project_Name
> Target = Data_Files$Target
> Raw_Counts = Data_Files$Raw_Counts
> annotazione = Data_Files$annotazione
> Reference_Enrichment = Data_Files$Reference_Enrichment
Scegli una strategia tra "NbConditions", "NbReplicates" o "filterByExpr" e una soglia per filtrare i geni a bassa espressione. Qui scegliamo
> Filter_Strategy = "NbReplicates"
> CPM_Cutoff = 1
Specificare i colori dei gruppi con il comando
> Color_Group = NULL
NOTA: quando è impostato su NULL, R attribuisce automaticamente i colori alle condizioni biologiche. Altrimenti inserisci un vettore che indichi un colore per gruppo biologico.
Scegliere un metodo di normalizzazione tra quelli accettati dalla funzione calcNormFactors di edgeR. Come ad esempio
> Normalization_Method = "TMM"
Eseguire il controllo di qualità eseguendo la seguente funzione
> Quality_Control(Data_Directory, Results_Directory, Project_Name, Target, Raw_Counts, Filter_Strategy, Color_Group, CPM_Cutoff, Normalization_Method)
State Replicate = TRUE se i dati sono accoppiati in base al fattore di replica, FALSE in caso contrario.
Assegna Interazione = VERO per considerare un'interazione tra i due fattori biologici, FALSO altrimenti.
Specificare il modello statistico con i seguenti comandi
Modello > = GLM_Contrasts(Results_Directory, Project_Name, destinazione, replica, interazione)
> GLM_Model = Modello$GLM_Model
> Contrasti = Modello$Contrasti
Definisci la soglia del False Discovery Rate, qui 0.05
> Alpha_DiffAnalysis = 0,05
Eseguire l'analisi differenziale con i seguenti comandi
> Index_Contrast=1:nrow(Contrasti)
> NbGenes_Profiles = 20
> NbGenes_Clustering = 50
> DiffAnalysis.edgeR (Data_Directory, Results_Directory, Project_Name, Target, Raw_Counts, GLM_Model, Contrasti, Index_Contrast, Filter_Strategy, Alpha_DiffAnalysis, NbGenes_Profiles, NbGenes_Clustering, CPM_Cutoff, Normalization_Method)
Fissare una soglia per l'analisi dell'arricchimento, qui 0.01
> Alpha_Enrichment = 0,01
Eseguire l'analisi di arricchimento di liste di geni differenzialmente espressi (DEG)
> Titolo = NULL
> Arricchimento(Results_Directory, Project_Name, Titolo, Reference_Enrichment, Alpha_Enrichment)
Scegli gli elenchi DEG da confrontare. Come ad esempio,
> Gruppi = Contrasti$Contrasti[24:28]
Specificare un nome per il confronto dell'elenco. Questo nome viene utilizzato per la directory in cui verranno salvati i file di output
> Titolo = "Interaction_with_Genotypes_1_and_2"
Specificare l'azione da eseguire negli elenchi DEG impostando il parametro Operation su unione o intersezione. Scegliamo
> Operazione = "Unione"
Confronta gli elenchi DEG
> Venn_IntersectUnion(Data_Directory, Results_Directory, Project_Name, titolo, gruppi, operazione)
Eseguire un'analisi di co-espressione con la funzione
> Coexpression_coseq(Data_Directory, Results_Directory, Project_Name, titolo, bersaglio, Raw_Counts, Color_Group)
Eseguire l'analisi di arricchimento dei cluster di co-espressione
> Arricchimento(Results_Directory, Project_Name, Titolo, Reference_Enrichment, Alpha_Enrichment)
Generare due file di log contenenti tutte le informazioni necessarie per riprodurre l'analisi
> Save_Parameters( )
Nota : le righe di comando utilizzate in questo protocollo sono illustrate nella Figura 2. Vengono evidenziate le righe che devono essere modificate per analizzare un altro set di dati.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Tutti gli output di DiCoExpress vengono salvati nella directory Tutorial/, a sua volta collocata all'interno della directory Results/. Forniamo qui alcune indicazioni per valutare la qualità complessiva dell'analisi.

Controllo Qualità
L'output del controllo di qualità, situato nella directory Quality_Control/, è essenziale per verificare che i risultati dell'analisi RNA-Seq siano affidabili. Il file Data_Quality_Control.pdf contiene diversi grafici ottenuti con dati grezzi e normalizzati che possono essere utilizzati per identificare eventuali problemi potenziali con i dati. I conteggi totali normalizzati per campione dovrebbero essere simili quando si confrontano sia intra- che inter-condizioni. Inoltre, ci si aspetta che i conteggi di espressione genica normalizzati mostrino mediana e varianza simili sia nelle condizioni intra- che inter-condizioni (Figura 3A). In caso contrario, questo potrebbe essere il segno di una varianza non simile tra le condizioni, un problema che potrebbe essere problematico per l'adattamento del modello.

Infine, i grafici PCA sui conteggi normalizzati prodotti in DiCoExpress sono utili per identificare potenziali strutture di dati sottostanti (Figura 3B). Nel nostro esempio, non esiste un clustering in base alle repliche, il che significa che questo fattore non è discriminante. Allo stesso tempo, è possibile identificare una chiara distinzione tra i trattamenti. Questi risultati indicano un set di dati di buona qualità poiché ci si aspetta sempre che l'effetto biologico sia sempre più forte di quello replicato. In conclusione, la qualità complessiva osservata qui non impedisce alcuna successiva analisi dell'intero set di dati.

Modellazione statistica
DiCoExpress facilita la scrittura della modellazione statistica del logaritmo dell'espressione media dalle due variabili Replicate e Interaction. Un effetto replicato è concepibile se i campioni di tutte le condizioni biologiche vengono raccolti contemporaneamente e che questo esperimento viene replicato in giorni diversi per misurare la variabilità biologica. In un tipico esperimento di scienza delle piante, ad esempio, i campioni vengono coltivati nella stessa camera di crescita indipendentemente dalla condizione biologica in studio e le repliche biologiche corrispondono a esperimenti iniziati in giorni diversi. In questo caso, gli esempi della stessa replica vengono associati ed è necessario impostare Replica su TRUE. In caso contrario, Replica dovrebbe essere impostato su FALSE. Questo effetto di replica è noto anche come effetto batch.

Se il disegno sperimentale è descritto da due fattori biologici che si prevede interagiscano, impostare la variabile Interaction su TRUE per considerare l'interazione. Si noti che per un progetto contenente un solo fattore biologico, la variabile Interaction viene automaticamente impostata su FALSE.

Analisi differenziale
I DEG identificati per tutti i contrasti testati sono disponibili in file di testo situati nelle rispettive sottodirectory all'interno della directory DiffAnalysis/. Per impostazione predefinita, vengono testati tutti i contrasti. A seconda del disegno sperimentale, alcuni contrasti possono essere di interesse biologico limitato (ad esempio, una media su diversi genotipi). Si noti che il controllo dei falsi positivi viene eseguito per contrasto, assicurando che i contrasti potenzialmente irrilevanti non influiscano sull'analisi. È tuttavia possibile produrre grafici contenenti solo il contrasto di interessi agendo sulla variabile Index_Contrast . I dettagli sono disponibili nel manuale di riferimento online.

È essenziale notare che DiffAnalysis/ contiene anche gli istogrammi grezzi con valore p che hanno recentemente dimostrato di essere il modo migliore per valutare la qualità della modellazione¹¹. La distribuzione attesa dei valori p grezzi dovrebbe essere uniforme, con possibilmente un picco all'estremità sinistra della distribuzione. Un picco elevato per un valore p grezzo di 1 è indicativo di problemi di adattamento del modello. In questo caso, il problema può spesso essere risolto aumentando il valore CPM_Cutoff impostato, ad esempio da 1 a 5. Esempi di istogrammi grezzi sono disponibili nella Figura 4A e in https://forgemia.inra.fr/GNet/dicoexpress/-/blob/master/DiCoExpress_Tutorial.pdf. Per ogni contrasto testato, i profili di espressione del DEG superiore identificato (top 20 per impostazione predefinita) vengono tracciati nel file Top20_Profile.pdf che si trova nella directory del contrasto. Un esempio per un gene identificato come espresso in modo differenziale in un contrasto è mostrato nella Figura 4B. Il numero di gradi su e giù viene tracciato per ogni contrasto testato e si trova nel Down_Up_DEG.pdf del file (esempio nella Figura 4C).

Analisi di co-espressione
Nel nostro esempio, l'analisi di co-espressione viene eseguita sull'unione di 5 liste DEG, identificate per contrasto cercando la variazione della risposta al trattamento tra il Genotipo 1 o 2 rispetto ad altri. Il diagramma di Venn del DEG è mostrato nella Figura 5A. I geni co-espressi per ogni cluster identificato sono stampati in singoli file di testo (un file per cluster). I profili di espressione dei diversi cluster insieme sono disponibili nel file Boxplot_profiles_Coseq.pdf (vedere l'esempio nella Figura 5B). Sebbene siano disponibili opzioni di personalizzazione, devono essere utilizzate solo da utenti esperti. Si prega di fare riferimento al manuale di riferimento per una spiegazione completa dei diversi parametri.

Analisi dell'arricchimento
Gli elenchi corrispondenti alle analisi di contrasto e di arricchimento dei cluster si trovano nelle rispettive directory. Un termine di annotazione ritenuto significativo in questa analisi può essere sovrarappresentato o sottorappresentato nell'elenco Gene_ID. Queste informazioni sono incluse nel file di output.

Si noti che la decisione del test viene presa dai valori p grezzi. Se l'utente desidera regolare i valori p grezzi a posteriori, sono disponibili nei file con suffisso All_Enrichment_Results.txt.

Validità di DiCoExpress
Sebbene DiCoExpress sia stato sviluppato per facilitare le analisi degli esperimenti multifattoriali RNA-Seq, la validità dei suoi risultati dipende in gran parte dalle caratteristiche del set di dati. Diversi risultati dovrebbero essere attentamente controllati prima di qualsiasi interpretazione valida dei risultati. In primo luogo, nella fase di controllo della qualità, la dimensione della libreria normalizzata dovrebbe essere simile e il conteggio dell'espressione genica normalizzata dovrebbe mostrare mediana e varianza simili sia nelle condizioni intra che inter-condizioni. Quindi, una particolare attenzione dovrebbe essere prestata alla forma degli istogrammi grezzi con valore p. Infine, quando si esegue un'analisi di co-espressione, un valore minimo chiaramente definito per la ICL è indicativo di una buona qualità. Se queste condizioni non sono soddisfatte, qualsiasi interpretazione dei risultati è probabile che sia errata.

Figura 1. La pipeline di analisi DiCoExpress. Le sette fasi di un'analisi completa dell'RNA-Seq utilizzando DiCoExpress sono indicate le caselle blu che rappresentano le fasi in cui vengono eseguiti i metodi statistici. La fase 7 (arricchimento) può essere eseguita dopo la fase 4 (analisi differenziale ed è denominata 7.1 nella figura 2) e/o la fase 6 (analisi di co-espressione ed è denominata 7.2 nella figura 2). I numeri rossi corrispondono ai numeri di passaggio nel protocollo. Fare clic qui per visualizzare una versione ingrandita di questa figura.

Figura 2. Screenshot delle righe di comando di DiCoExpress. Vengono indicate le righe di comando utilizzate per analizzare il set di dati dell'esercitazione. Il numero nei cerchi neri è lo stesso della Figura 1. I rettangoli rossi evidenziano le linee che possono essere personalizzate dall'utente. Fare clic qui per visualizzare una versione ingrandita di questa figura.

Figura 3: Risultati rappresentativi della fase di controllo della qualità. Figura ottenuta con i conteggi normalizzati del set di dati "Tutorial". A) Boxplot dei conteggi normalizzati. B) PCA sui conteggi normalizzati. Fare clic qui per visualizzare una versione ingrandita di questa figura.

Figura 4: Risultati rappresentativi dell'analisi dell'espressione differenziale Figura ottenuta con il set di dati "Tutorial". A) Istogramma grezzo del valore p del contrasto [control_Genotype2 - control_Genotype3]. B) Profilo di espressione genica C1G62301.1 in ogni genotipo e condizione, uno dei primi 20 geni differenzialmente espressi nel contrasto [control_Genotype2 - control_Genotype3]. C) Numero di geni espressi in modo differenziale in ogni contrasto testato. Fare clic qui per visualizzare una versione ingrandita di questa figura.

Figura 5: Risultati rappresentativi dell'analisi di coespressione. Figura ottenuta con il dataset "Tutorial". A) Diagramma di Venn di DEG dai contrasti 5 "interazione con Genotipo 1 e 2". I DEG derivanti dalla variazione della risposta al trattamento tra genotipo 1 e 2, 1 e 3, 1 e 4, 2 e 3, 2 e 4 sono rispettivamente nel cerchio A, B, C, D, E. Il numero scritto in basso a destra ("14877") è il numero di geni che non sono DE in nessuna lista. B) Profilo di espressione di geni del Cluster di coespressione 3. La figura viene estratta da Tutorial_Interaction_with_Genotypes_1_and_2_Boxplot_profiles_Coseq.pdf. Fare clic qui per visualizzare una versione ingrandita di questa figura.

File supplementare. Clicca qui per scaricare questo file.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Poiché l'RNA-Seq è diventato un metodo onnipresente negli studi biologici, vi è una costante necessità di sviluppare strumenti analitici versatili e facili da usare. Un passo fondamentale all'interno della maggior parte dei flussi di lavoro analitici è spesso quello di identificare con sicurezza i geni espressi in modo differenziale tra condizioni biologiche e/o trattamenti¹⁵. La produzione di risultati affidabili richiede un'adeguata modellazione statistica, che è stata la motivazione per lo sviluppo di DiCoExpress.

DiCoExpress è uno strumento basato su script implementato in R che mira ad aiutare i biologi a sfruttare appieno le possibilità di studi di confronto neutrali quando cercano DEG. DiCoExpress fornisce una pipeline standardizzata che offre l'opportunità di valutare la struttura e la qualità dei dati, garantendo così che venga scelto il miglior approccio di modellazione. Senza particolari conoscenze in statistica o programmazione R, consente ai principianti di eseguire un'analisi completa di RNA-Seq dai controlli di qualità alla co-espressione attraverso l'analisi differenziale basata su contrasti all'interno di modelli lineari generalizzati. È importante notare che DiCoExpress si concentra sulla parte statistica di un'analisi RNA-Seq e richiede una tabella di conteggio come input. I molteplici metodi bioinformatici dedicati agli allineamenti di lettura RNA-Seq e alla creazione di tabelle di conteggio sono fuori dallo scopo dello strumento. Essi hanno tuttavia un'influenza diretta sulla qualità dell'analisi finale e dovrebbero essere scelti con cura.

Sebbene DiCoExpress non sia uno strumento "punta e clicca", la sua architettura di directory e lo script modello fornito e utilizzato nell'interfaccia di R-Studio lo rendono accessibile ai biologi con una conoscenza minima di R. Una volta installato DiCoExpress, gli utenti dovrebbero sapere come utilizzare una funzione in R e identificare gli argomenti obbligatori e facoltativi. Il primo passo critico è quello di fornire correttamente i due file obbligatori contenenti i conteggi grezzi per ogni gene (il file COUNTS) e la descrizione del disegno sperimentale (il file TARGET). Il separatore utilizzato dovrebbe essere lo stesso per ogni file e la descrizione dei campioni dovrebbe essere fatta in modo appropriato secondo le modalità dei fattori biologici. Una volta caricati i due file in DiCoExpress, l'analisi è quasi automatizzata fino al secondo passaggio critico, cioè l'analisi di co-espressione. Questa analisi può effettivamente richiedere molto tempo e potrebbe essere necessario un potente server di calcolo per eseguirla su set di dati di grandi dimensioni.

Poiché l'automazione della scrittura a contrasto diventa difficile per più di due fattori biologici, abbiamo limitato DiCoExpress alla progettazione completa e sbilanciata di un massimo di 2 fattori biologici. Se un progetto contiene più di 2 fattori biologici, una soluzione pratica è quella di comprimere due dei fattori iniziali per crearne uno nuovo. Tuttavia, bisogna tenere presente che la difficoltà di dare un'interpretazione biologica significativa aumenta quando aumenta il numero del fattore biologico.

DiCoExpress è concepito come uno strumento in evoluzione e incoraggiamo fortemente gli utenti a iscriversi alla mailing list (https://groupes.renater.fr/sympa/subscribe/dicoexpress). Eventuali modifiche o miglioramenti allo strumento saranno annunciati nell'elenco e accogliamo con favore domande o suggerimenti. Speriamo anche che l'adozione di DiCoExpress da parte di una grande comunità consentirà di tracciare e correggere eventuali bug che potrebbero verificarsi in un particolare contesto di analisi. Tutti gli aggiornamenti e le correzioni verranno inviati alla directory git https://forgemia.inra.fr/GNet/dicoexpress.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non hanno nulla da rivelare

Acknowledgments

Questo lavoro è stato sostenuto principalmente dall'ANR PSYCHE (ANR-16-CE20-0009). Gli autori ringraziano F. Desprez per la costruzione del container di DiCoExpress. Il lavoro KB è supportato dal programma Investment for the Future ANR-10-BTBR-01-01 Amaizing. I laboratori GQE e IPS2 beneficiano del supporto di Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

Materials

Name	Company	Catalog Number	Comments

DOWNLOAD MATERIALS LIST

References

Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. https://www.R-project.org/ (2020).
Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
Shiny: web application framework. , Available from: https://rdrr.io/cran/shiny/ (2021).
RStudio Team. RStudio: Integrated Development for R. RStudio, PBC. , Boston, MA. at (n.d (2020).
Lambert, I., Roux, C. P. -L., Colella, S., Martin-Magniette, M. -L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
Dillies, M. -A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Engineering

Analisi di esperimenti multifattoriali RNA-Seq con DiCoExpress

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.