Engineering

Analyse multifaktorieller RNA-Seq-Experimente mit DiCoExpress

Published: July 29, 2022 doi: 10.3791/62566

Kevin Baudry^1,2,3, Christine Paysant-Le Roux^1,2, Stefano Colella⁴, Benoît Castandet^1,2, Marie-Laure Martin^1,2,5

¹Université Paris-Saclay, CNRS, INRAE, Univ Evry, Institute of Plant Sciences Paris-Saclay (IPS2), Orsay, France, ²Université de Paris, CNRS, INRAE, Institute of Plant Sciences Paris Saclay (IPS2), Orsay, France, ³Université Paris-Saclay, INRAE, CNRS, AgroParisTech, GQE - Le Moulon, Gif-sur-Yvette, France, ⁴LSTM, Univ Montpellier, INRAE, IRD, CIRAD, Institut Agro, Montpellier, France, ⁵Universitté Paris-Saclay, AgroParisTech, INRAE, UMR MIA-Paris, Paris, France

Summary

DiCoExpress ist ein skriptbasiertes Tool, das in R implementiert ist, um eine RNA-Seq-Analyse von der Qualitätskontrolle bis zur Co-Expression durchzuführen. DiCoExpress verarbeitet das komplette und unausgewogene Design mit bis zu 2 biologischen Faktoren. Dieses Video-Tutorial führt den Benutzer durch die verschiedenen Funktionen von DiCoExpress.

Abstract

Der richtige Einsatz statistischer Modellierung in der NGS-Datenanalyse erfordert ein fortgeschrittenes Maß an Fachwissen. In letzter Zeit gibt es einen wachsenden Konsens über die Verwendung verallgemeinerter linearer Modelle für die differentielle Analyse von RNA-Seq-Daten und den Vorteil von Mischungsmodellen zur Durchführung von Co-Expressionsanalysen. Um eine verwaltete Umgebung für die Verwendung dieser Modellierungsansätze zu bieten, haben wir DiCoExpress entwickelt, das eine standardisierte R-Pipeline zur Durchführung einer RNA-Seq-Analyse bereitstellt. Ohne besondere Kenntnisse in Statistik oder R-Programmierung können Anfänger eine vollständige RNA-Seq-Analyse von der Qualitätskontrolle über die Co-Expression bis hin zur Differentialanalyse durchführen, die auf Kontrasten innerhalb eines verallgemeinerten linearen Modells basiert. Eine Anreicherungsanalyse wird sowohl für die Listen der differentiell exprimierten Gene als auch für die co-exprimierten Gencluster vorgeschlagen. Dieses Video-Tutorial ist als Schritt-für-Schritt-Protokoll konzipiert, um Benutzern zu helfen, DiCoExpress und sein Potenzial zur biologischen Interpretation eines RNA-Seq-Experiments voll auszuschöpfen.

Introduction

Die RNA-Sequenzierungstechnologie der nächsten Generation (RNA-Seq) ist heute der Goldstandard der Transkriptomanalyse¹. Seit den Anfängen der Technologie haben die gemeinsamen Anstrengungen von Bioinformatikern und Biostatistikern zur Entwicklung zahlreicher Methoden geführt, die alle wesentlichen Schritte der transkriptomischen Analyse abdecken, von der Kartierung bis zur Transkriptquantifizierung². Die meisten Werkzeuge, die dem Biologen heute zur Verfügung stehen, werden innerhalb der R-Softwareumgebung für statistische Berechnungen und Grafiken³ entwickelt, und viele Pakete für die biologische Datenanalyse sind im Bioconductor-Repositorium⁴ verfügbar. Diese Pakete bieten vollständige Kontrolle und Anpassung der Analyse, gehen jedoch zu Lasten der umfangreichen Verwendung einer Befehlszeilenschnittstelle. Da viele Biologen mit einem "Point-and-Click"^{-Ansatz 5} vertrauter sind, erfordert die Demokratisierung von RNA-Seq-Analysen die Entwicklung benutzerfreundlicherer Schnittstellen oder Protokolle⁶. Zum Beispiel ist es möglich, Webschnittstellen von R-Paketen mit Shiny⁷ zu erstellen, und die Kommandozeilen-Datenanalyse wird mit der R-studio^{8-Schnittstelle} intuitiver gestaltet. Die Entwicklung von dedizierten Schritt-für-Schritt-Tutorials kann auch dem neuen Benutzer helfen. Insbesondere ein Video-Tutorial ergänzt ein klassisches Text-Tutorial und führt zu einem tieferen Verständnis aller Verfahrensschritte.

Wir haben kürzlich DiCoExpress⁹ entwickelt, ein Werkzeug zur Analyse multifaktorieller RNA-Seq-Experimente in R mit Methoden, die als die besten gelten, basierend auf neutralen Vergleichsstudien^10,11,12. Ausgehend von einer Zähltabelle schlägt DiCoExpress einen Schritt zur Datenqualitätskontrolle vor, gefolgt von einer differentiellen Genexpressionsanalyse (edgeR-Paket¹³) unter Verwendung eines generalisierten linearen Modells (GLM) und der Erzeugung von Co-Expressionsclustern unter Verwendung von Gauß-Mischungsmodellen (coseq-Paket¹²). DiCoExpress verarbeitet das vollständige und unausgewogene Design mit bis zu 2 biologischen Faktoren (d. h. Genotyp und Behandlung) und einem technischen Faktor (d. h. Replikation). Die Originalität von DiCoExpress liegt in seiner Verzeichnisarchitektur, die Daten, Skripte und Ergebnisse speichert und organisiert, und in der Automatisierung des Schreibens der Kontraste, die es dem Benutzer ermöglicht, zahlreiche Fragen innerhalb desselben statistischen Modells zu untersuchen. Es wurde auch versucht, grafische Ausgaben zur Veranschaulichung der statistischen Ergebnisse bereitzustellen.

Der DiCoExpress-Arbeitsbereich steht https://forgemia.inra.fr/GNet/dicoexpress zur Verfügung. Es enthält vier Verzeichnisse, zwei PDF- und zwei Textdateien. Das Verzeichnis Data/ enthält die Eingabedatensätze; Für dieses Protokoll verwenden wir den Datensatz "tutorial". Das Verzeichnis Sources/ enthält sieben R-Funktionen, die für die Durchführung der Analyse erforderlich sind, und darf vom Benutzer nicht geändert werden. Die Analyse wird mit Skripten durchgeführt, die im Verzeichnis Template_scripts/ gespeichert sind. Das in diesem Protokoll verwendete heißt DiCoExpress_Tutorial_JoVE.R und kann leicht an jedes transkriptomische Projekt angepasst werden. Alle Ergebnisse werden in das Verzeichnis Results/ geschrieben und in einem Unterverzeichnis gespeichert, das nach dem Projekt benannt ist. Die README.md Datei enthält nützliche Installationsinformationen, und alle spezifischen Details über die Methode und ihre Verwendung finden Sie in der DiCoExpress_Reference_Manual.pdf Datei.

Dieses Video-Tutorial führt den Benutzer durch die verschiedenen Funktionen von DiCoExpress mit dem Ziel, die Zurückhaltung von Biologen bei der Verwendung von Befehlszeilen-basierten Tools zu überwinden. Wir präsentieren hier die Analyse eines künstlichen RNA-Seq-Datensatzes, der die Genexpression in drei biologischen Replikaten von vier Genotypen mit oder ohne Behandlung beschreibt. Wir werden nun die verschiedenen Schritte des DiCoExpress-Workflows durchgehen, die in Abbildung 1 dargestellt sind. Das im Abschnitt Protokoll beschriebene Skript und die Eingabedateien sind auf der Website verfügbar: https://forgemia.inra.fr/GNet/dicoexpress

Vorbereiten von Datendateien
Die vier CSV-Dateien, die im Verzeichnis Data/ gespeichert sind, sollten nach dem Projektnamen benannt werden. In unserem Beispiel beginnen daher alle Namen mit "Tutorial", und wir setzen Project_Name = "Tutorial" in Schritt 4 des Protokolls. Das in den CSV-Dateien verwendete Trennzeichen muss in Schritt 4 in der Variablen Sep angegeben werden. In unserem "Tutorial"-Dataset ist das Trennzeichen eine Tabelle. Für fortgeschrittene Benutzer kann der vollständige Datensatz auf eine Teilmenge reduziert werden, indem eine Liste von Anweisungen und eine neue Project_Name über die Filter-Variable bereitgestellt werden. Diese Option vermeidet redundante Kopien der Eingabedateien und verifiziert die FAIR-Prinzipien¹⁴.

Unter den vier CSV-Dateien sind nur die COUNTS- und TARGET-Dateien obligatorisch. Sie enthalten die Rohzahlen für jedes Gen (hier Tutorial_COUNTS.csv) und die experimentelle Designbeschreibung (hier Tutorial_TARGET.csv). Die Datei TARGET.csv beschreibt jede Probe (eine Probe pro Zeile) mit einer Modalität für jeden biologischen oder technischen Faktor (in den Spalten). Wir empfehlen dringend, dass die für die Modalitäten gewählten Namen mit einem Buchstaben und nicht mit einer Zahl beginnen. Der Name der letzten Spalte ("Replizieren") kann nicht geändert werden. Schließlich müssen die Beispielnamen (erste Spalte) mit den Namen in den Überschriften der Datei COUNTS.csv übereinstimmen (Genotype1_control_rep1 in unserem Beispiel). Die Anreicherungsdatei.csv in der jede Zeile einen Gene_ID und einen Anmerkungsterm enthält, ist nur erforderlich, wenn der Benutzer die Anreicherungsanalyse ausführen möchte. Wenn ein Gen mehrere Annotationen hat, müssen diese auf verschiedene Zeilen geschrieben werden. Die Annotation.csv Datei ist optional und wird verwendet, um eine kurze Beschreibung jedes Gens in den Ausgabedateien hinzuzufügen. Der beste Weg, eine Anmerkungsdatei zu erhalten, besteht darin, die Informationen aus dedizierten Datenbanken abzurufen (z. B. Thalemine: https://bar.utoronto.ca/thalemine/begin.do für Arabidopsis).

Installation von DiCoExpress
DiCoExpress erfordert spezielle R-Pakete. Verwenden Sie die Befehlszeilenquelle(".. /Sources/Install_Packages.R") in der R-Konsole, um den erforderlichen Paketinstallationsstatus zu überprüfen. Für Benutzer unter Linux besteht eine weitere Lösung darin, den für DiCoExpress dedizierten Container zu installieren, der bei https://forgemia.inra.fr/GNet/dicoexpress/container_registry verfügbar ist. Per Definition enthält dieser Container DiCoExpress mit allen benötigten Teilen wie Bibliotheken und anderen Abhängigkeiten.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. DiCoExpress

Öffnen Sie eine R Studio-Sitzung und legen Sie das Verzeichnis auf Template_scripts fest.
Öffnen Sie das DiCoExpress_Tutorial.R-Skript in R Studio.
Laden Sie DiCoExpress-Funktionen in der R-Sitzung mit den folgenden Befehlen:
> Quelle(".. /Quellen/Load_Functions.R")
> Load_Functions()
> Data_Directory = ".. /Daten"
> Results_Directory = ".. /Ergebnisse/"
Laden Sie Datendateien in der R-Sitzung mit den folgenden Befehlen:
> Project_Name = "Tutorial"
> Filter = NULL
> Sep="\t"
> Data_Files = Load_Data_Files(Data_Directory, Project_Name, Filter, Sep)
Teilen Sie das Objekt Data_Files in mehrere Objekte auf, um sie einfach zu bearbeiten:
> Project_Name = Data_Files$Project_Name
> Ziel = Data_Files$Target
> Raw_Counts = Data_Files$Raw_Counts
> Anmerkung = Data_Files$Annotation
> Reference_Enrichment = Data_Files$Reference_Enrichment
Wählen Sie eine Strategie zwischen "NbConditions", "NbReplicates" oder "filterByExpr" und einen Schwellenwert zum Filtern niedrig exprimierter Gene. Hier wählen wir
> Filter_Strategy = "NbReplicates"
> CPM_Cutoff = 1
Gruppenfarben mit dem Befehl angeben
> Color_Group = NULL
HINWEIS: Wenn es auf NULL gesetzt ist, ordnet R den biologischen Bedingungen automatisch Farben zu. Andernfalls geben Sie einen Vektor ein, der eine Farbe pro biologischer Gruppe angibt.
Wählen Sie eine Normalisierungsmethode aus, die von der Funktion calcNormFactors von edgeR akzeptiert wird. Wie zum Beispiel
> Normalization_Method = "TMM"
Führen Sie die Qualitätskontrolle durch, indem Sie die folgende Funktion ausführen
> Quality_Control(Data_Directory, Results_Directory, Project_Name, Ziel, Raw_Counts, Filter_Strategy, Color_Group, CPM_Cutoff, Normalization_Method)
State Replicate = TRUE, wenn Daten entsprechend dem Replikationsfaktor gepaart werden, andernfalls FALSE.
Assign Interaction = TRUE, um eine Wechselwirkung zwischen den beiden biologischen Faktoren zu berücksichtigen, andernfalls FALSE.
Angeben des statistischen Modells mit den folgenden Befehlen
> Modell = GLM_Contrasts(Results_Directory, Project_Name, Ziel, Replikation, Interaktion)
> GLM_Model = Modell$GLM_Model
> Kontraste = Model$Contrasts
Definieren Sie den Schwellenwert der False Discovery Rate, hier 0,05
> Alpha_DiffAnalysis = 0,05
Führen Sie die Differentialanalyse mit den folgenden Befehlen durch:
> Index_Contrast=1:nrow(Kontraste)
> NbGenes_Profiles = 20
> NbGenes_Clustering = 50
> DiffAnalysis.edgeR (Data_Directory, Results_Directory, Project_Name, Target, Raw_Counts, GLM_Model, Contrasts, Index_Contrast, Filter_Strategy, Alpha_DiffAnalysis, NbGenes_Profiles, NbGenes_Clustering, CPM_Cutoff, Normalization_Method)
Legen Sie einen Schwellenwert für die Anreicherungsanalyse fest, hier 0,01
> Alpha_Enrichment = 0,01
Durchführung der Anreicherungsanalyse von Listen differentiell exprimierter Gene (DEG)
> Titel = NULL
> Bereicherung(Results_Directory, Project_Name, Titel, Reference_Enrichment, Alpha_Enrichment)
Wählen Sie die zu vergleichenden DEG-Listen aus. Wie zum Beispiel,
> Gruppen = Kontraste$Kontraste[24:28]
Geben Sie einen Namen für den Listenvergleich an. Dieser Name wird für das Verzeichnis verwendet, in dem die Ausgabedateien gespeichert werden.
> Titel = "Interaction_with_Genotypes_1_and_2"
Geben Sie die Aktion an, die in den DEG-Listen ausgeführt werden soll, indem Sie den Parameter Operation auf Vereinigung oder Schnittpunkt setzen. Wir wählen
> Operation = "Union"
Vergleichen Sie die DEGs-Listen
> Venn_IntersectUnion(Data_Directory, Results_Directory, Project_Name, Titel, Gruppen, Operation)
Ausführen einer Co-Expressionsanalyse mit der Funktion
> Coexpression_coseq(Data_Directory, Results_Directory, Project_Name, Titel, Ziel, Raw_Counts, Color_Group)
Durchführen einer Anreicherungsanalyse der Co-Expression-Cluster
> Bereicherung(Results_Directory, Project_Name, Titel, Reference_Enrichment, Alpha_Enrichment)
Generieren Sie zwei Protokolldateien, die alle erforderlichen Informationen enthalten, um die Analyse zu reproduzieren
> Save_Parameters( )
Hinweis: Die in diesem Protokoll verwendeten Befehlszeilen sind in Abbildung 2 dargestellt. Linien, die geändert werden müssen, um einen anderen Datensatz zu analysieren, werden hervorgehoben.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Alle DiCoExpress-Ausgaben werden im Verzeichnis Tutorial/ gespeichert, das sich wiederum im Verzeichnis Results/ befindet. Wir bieten hier einige Hinweise zur Beurteilung der Gesamtqualität der Analyse.

Qualitätskontrolle
Die Ausgabe der Qualitätskontrolle, die sich im Verzeichnis Quality_Control/ befindet, ist unerlässlich, um die Zuverlässigkeit der RNA-Seq-Analyseergebnisse zu überprüfen. Die Data_Quality_Control.pdf Datei enthält mehrere Diagramme, die mit rohen und normalisierten Daten erhalten wurden, die verwendet werden können, um potenzielle Probleme mit den Daten zu identifizieren. Die gesamtnormalisierten Zählungen pro Stichprobe sollten beim Vergleich von intra- und inter-Bedingungen ähnlich sein. Darüber hinaus wird erwartet, dass die normalisierten Genexpressionszahlen sowohl unter intra- als auch unter inter-Bedingungen einen ähnlichen Median und eine ähnliche Varianz aufweisen (Abbildung 3A). Andernfalls könnte dies das Zeichen für eine nicht ähnliche Varianz zwischen den Bedingungen sein, ein Problem, das für die Modellanpassung problematisch sein könnte.

Schließlich sind PCA-Diagramme zu normalisierten Zählungen, die in DiCoExpress erstellt wurden, hilfreich, um potenzielle zugrunde liegende Datenstrukturen zu identifizieren (Abbildung 3B). In unserem Beispiel gibt es kein Clustering nach den Replikaten, was bedeutet, dass dieser Faktor nicht diskriminant ist. Gleichzeitig kann eine klare Unterscheidung zwischen den Behandlungen festgestellt werden. Diese Ergebnisse deuten auf einen qualitativ hochwertigen Datensatz hin, da erwartet wird, dass der biologische Effekt immer stärker ist als der Replikateffekt. Zusammenfassend lässt sich sagen, dass die hier beobachtete Gesamtqualität einer späteren Analyse des gesamten Datensatzes nicht entgegensteht.

Statistische Modellierung
DiCoExpress ermöglicht das Schreiben der statistischen Modellierung des Logarithmus des Mittelwertausdrucks aus den beiden Variablen Replicate und Interaction. Ein Replikationseffekt ist denkbar, wenn die Proben aller biologischen Bedingungen gleichzeitig gesammelt werden und dieses Experiment an verschiedenen Tagen repliziert wird, um die biologische Variabilität zu messen. In einem typischen pflanzenwissenschaftlichen Experiment werden beispielsweise Proben unabhängig von den untersuchten biologischen Bedingungen in derselben Wachstumskammer gezüchtet, und biologische Replikate entsprechen Experimenten, die an verschiedenen Tagen begonnen wurden. In diesem Fall werden die Beispiele desselben Replikats gepaart, und Sie sollten Replicate auf TRUE festlegen. Andernfalls sollte Replicate auf FALSE festgelegt werden. Dieser Replikationseffekt wird auch als Batcheffekt bezeichnet.

Wenn das experimentelle Design durch zwei biologische Faktoren beschrieben wird, von denen erwartet wird, dass sie interagieren, setzen Sie die Variable Interaction auf TRUE, um die Wechselwirkung zu berücksichtigen. Beachten Sie, dass für ein Projekt, das nur einen biologischen Faktor enthält, die Variable Interaktion automatisch auf FALSE gesetzt wird.

Differentialanalyse
Die für alle getesteten Kontraste identifizierten DEG sind in Textdateien verfügbar, die sich in ihren jeweiligen Unterverzeichnissen innerhalb des DiffAnalysis/-Verzeichnisses befinden. Standardmäßig werden alle Kontraste getestet. Je nach experimentellem Design können einige Kontraste von begrenztem biologischem Interesse sein (z. B. ein Durchschnitt auf mehreren Genotypen). Beachten Sie, dass die Falschpositivkontrolle pro Kontrast durchgeführt wird, um sicherzustellen, dass potenziell irrelevante Kontraste die Analyse nicht beeinflussen. Es ist jedoch möglich, Diagramme zu erstellen, die nur den Interessenkontrast enthalten, indem auf die Index_Contrast Variable einwirken. Details finden Sie im Online-Referenzhandbuch.

Es ist wichtig zu beachten, dass DiffAnalysis/ auch die rohen p-Wert-Histogramme enthält, die sich kürzlich als die beste Methode zur Beurteilung der Qualität der Modellierung^{erwiesen haben 11}. Die erwartete Verteilung der rohen p-Werte soll einheitlich sein, mit möglicherweise einem Peak am linken Ende der Verteilung. Ein hoher Spitzenwert für einen unformatierten p-Wert von 1 weist auf Probleme mit der Modellanpassung hin. In diesem Fall kann das Problem oft gelöst werden, indem der eingestellte CPM_Cutoff Wert beispielsweise von 1 auf 5 erhöht wird. Beispiele für Rohhistogramme sind in Abbildung 4A und in https://forgemia.inra.fr/GNet/dicoexpress/-/blob/master/DiCoExpress_Tutorial.pdf verfügbar. Für jeden getesteten Kontrast werden Expressionsprofile der am besten identifizierten DEG (standardmäßig Top 20) in der Datei Top20_Profile.pdf im Verzeichnis des Kontrasts gezeichnet. Ein Beispiel für ein Gen, das als differentiell in einem Kontrastmittel exprimiert identifiziert wurde, ist in Abbildung 4B dargestellt. Die Anzahl der Aufwärts- und Abwärts-DEG wird für jeden getesteten Kontrast aufgetragen und befindet sich in der Datei Down_Up_DEG.pdf (Beispiel in Abbildung 4C).

Koexpressionsanalyse
In unserem Beispiel wird die Koexpressionsanalyse auf der Vereinigung von 5 DEG-Listen durchgeführt, die durch Kontrast identifiziert wurden, um nach Variationen des Behandlungsansprechens zwischen Genotyp 1 oder 2 im Vergleich zu anderen zu suchen. Das Venn-Diagramm der DEG ist in Abbildung 5A dargestellt. Die co-exprimierten Gene für jeden identifizierten Cluster werden in einzelnen Textdateien (eine Datei pro Cluster) gedruckt. Die Ausdrucksprofile der verschiedenen Cluster zusammen sind in der Boxplot_profiles_Coseq.pdf Datei verfügbar (siehe Beispiel in Abbildung 5B). Obwohl Anpassungsoptionen verfügbar sind, sollten sie nur von fortgeschrittenen Benutzern verwendet werden. Eine vollständige Erklärung der verschiedenen Parameter finden Sie im Referenzhandbuch.

Anreicherungsanalyse
Listen, die den Kontrast- und Clusteranreicherungsanalysen entsprechen, befinden sich in ihren jeweiligen Verzeichnissen. Ein Anmerkungsbegriff, der in dieser Analyse als signifikant eingestuft wird, kann in der Gene_ID Liste entweder über- oder unterrepräsentiert sein. Diese Informationen sind in der Ausgabedatei enthalten.

Beachten Sie, dass die Testentscheidung aus den unformatierten p-Werten getroffen wird. Wenn der Benutzer die rohen p-Werte a posteriori anpassen möchte, stehen sie in den Dateien mit Suffix All_Enrichment_Results.txt zur Verfügung.

Gültigkeit von DiCoExpress
Obwohl DiCoExpress entwickelt wurde, um multifaktorielle RNA-Seq-Experimentanalysen zu ermöglichen, hängt die Gültigkeit seiner Ergebnisse weitgehend von den Eigenschaften des Datensatzes ab. Mehrere Ergebnisse sollten sorgfältig überprüft werden, bevor eine gültige Interpretation der Ergebnisse erfolgt. Erstens sollte im Qualitätskontrollschritt die normalisierte Bibliotheksgröße ähnlich sein und die normalisierte Genexpressionszahl sollte einen ähnlichen Median und eine ähnliche Varianz sowohl innerhalb als auch zwischen den Bedingungen aufweisen. Dann sollte besonders auf die Form der rohen p-Wert-Histogramme geachtet werden. Schließlich ist bei der Durchführung einer Co-Expressionsanalyse ein klar definierter Mindestwert für die ICL ein Hinweis auf eine gute Qualität. Sind diese Bedingungen nicht erfüllt, ist jede Interpretation der Ergebnisse wahrscheinlich falsch.

Abbildung 1. Die DiCoExpress Analysis Pipeline. Die sieben Schritte einer vollständigen RNA-Seq-Analyse mit DiCoExpress sind mit blauen Kästchen gekennzeichnet, die Schritte darstellen, in denen statistische Methoden durchgeführt werden. Schritt 7 (Anreicherung) kann nach Schritt 4 (Differentialanalyse und wird in Abbildung 2 als 7.1 bezeichnet) und/oder Schritt 6 (Co-Expressionsanalyse und wird in Abbildung 2 als 7.2 bezeichnet) durchgeführt werden. Rote Zahlen entsprechen den Schrittnummern im Protokoll. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Abbildung 2. Screenshots von DiCoExpress-Befehlszeilen. Befehlszeilen, die zum Analysieren des Lernprogramm-Datasets verwendet werden, werden angezeigt. Die Zahl in schwarzen Kreisen entspricht der in Abbildung 1. Rote Rechtecke heben Linien hervor, die vom Benutzer angepasst werden können. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Abbildung 3: Repräsentative Ergebnisse der Qualitätskontrolle. Abbildung, die mit dem "Tutorial"-Datensatz erhalten wurde, normalisierte Zählungen. A) Boxplot der normalisierten Zählungen. B) PCA bei normalisierten Zählungen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Abbildung 4: Repräsentative Ergebnisse der Differentialexpressionsanalyse Abbildung erhalten mit dem "Tutorial"-Datensatz. A) Rohes p-Wert-Histogramm des [control_Genotype2 - control_Genotype3] Kontrasts. B) C1G62301.1 Genexpressionsprofil in jedem Genotyp und Zustand, eines der Top20 differentiell exprimierten Gene im [control_Genotype2 - control_Genotype3] Kontrast. C) Anzahl der differentiell exprimierten Gene nach oben und unten in jedem getesteten Kontrast. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Abbildung 5: Repräsentative Ergebnisse der Koexpressionsanalyse. Abbildung erhalten mit dem Datensatz "Tutorial". A) Venn-Diagramm der DEG aus den 5 "Wechselwirkungen mit Genotyp 1 und 2" Kontrasten. DEG aus der Variation des Behandlungsansprechens zwischen Genotyp 1 und 2, 1 und 3, 1 und 4, 2 und 3, 2 und 4 liegen im Kreis A, B, C, D, E. Die unten rechts geschriebene Zahl ("14877") ist die Anzahl der Gene, die in keiner Liste DE sind. B) Expressionsprofil von Genen aus dem Koexpressionscluster 3. Die Figur wird aus Tutorial_Interaction_with_Genotypes_1_and_2_Boxplot_profiles_Coseq.pdf extrahiert. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Ergänzende Datei. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Da RNA-Seq zu einer allgegenwärtigen Methode in biologischen Studien geworden ist, besteht ein ständiger Bedarf, vielseitige und benutzerfreundliche Analysewerkzeuge zu entwickeln. Ein kritischer Schritt innerhalb der meisten analytischen Arbeitsabläufe besteht häufig darin, die Gene, die zwischen biologischen Bedingungen und/oder Behandlungen unterschiedlich exprimiert werden, mit Sicherheit zu identifizieren¹⁵. Die Erstellung zuverlässiger Ergebnisse erfordert eine ordnungsgemäße statistische Modellierung, die die Motivation für die Entwicklung von DiCoExpress war.

DiCoExpress ist ein skriptbasiertes, in R implementiertes Tool, das Biologen helfen soll, die Möglichkeiten neutraler Vergleichsstudien bei der Suche nach DEG voll auszuschöpfen. DiCoExpress bietet eine standardisierte Pipeline, die die Möglichkeit bietet, die Datenstruktur und -qualität zu bewerten und so sicherzustellen, dass der beste Modellierungsansatz gewählt wird. Ohne besondere Kenntnisse in Statistik oder R-Programmierung ermöglicht es Anfängern, eine vollständige RNA-Seq-Analyse von der Qualitätskontrolle über die Co-Expression bis hin zur Differentialanalyse durchzuführen, die auf Kontrasten in verallgemeinerten linearen Modellen basiert. Es ist wichtig zu beachten, dass DiCoExpress sich auf den statistischen Teil einer RNA-Seq-Analyse konzentriert und eine Zähltabelle als Eingabe benötigt. Die zahlreichen bioinformatischen Methoden, die sich der RNA-Seq-Leseausrichtung und der Erstellung von Zähltabellen widmen, liegen außerhalb des Umfangs des Tools. Sie haben jedoch einen direkten Einfluss auf die Qualität der Endanalyse und sollten sorgfältig ausgewählt werden.

Obwohl DiCoExpress kein "Point-and-Click"-Tool ist, machen seine Verzeichnisarchitektur und das in der R-Studio-Oberfläche bereitgestellte und verwendete Vorlagenskript es Biologen mit minimalen R-Kenntnissen zugänglich. Sobald DiCoExpress installiert ist, sollten Benutzer wissen, wie man eine Funktion in R verwendet und erforderliche und optionale Argumente identifiziert. Der erste kritische Schritt besteht darin, die beiden obligatorischen Dateien, die die Rohzahlen für jedes Gen (die COUNTS-Datei) und die Beschreibung des experimentellen Designs (die TARGET-Datei) enthalten, korrekt bereitzustellen. Das verwendete Trennzeichen sollte für jede Datei gleich sein, und die Beschreibung der Proben sollte entsprechend den Modalitäten der biologischen Faktoren erfolgen. Sobald die beiden Dateien in DiCoExpress geladen sind, ist die Analyse bis zum zweiten kritischen Schritt, der Co-Expressionsanalyse, nahezu automatisiert. Diese Analyse kann in der Tat zeitaufwendig sein und ein leistungsfähiger Berechnungsserver könnte erforderlich sein, um sie für große Datensätze auszuführen.

Da die Automatisierung des Kontrastschreibens für mehr als zwei biologische Faktoren eine Herausforderung darstellt, haben wir DiCoExpress auf das vollständige und unausgewogene Design von bis zu 2 biologischen Faktoren beschränkt. Wenn ein Projekt mehr als 2 biologische Faktoren enthält, besteht eine praktische Lösung darin, zwei der ursprünglichen Faktoren zu kollabieren, um einen neuen zu schaffen. Dennoch muss man bedenken, dass die Schwierigkeit, eine sinnvolle biologische Interpretation zu geben, zunimmt, wenn die biologische Faktorzahl zunimmt.

DiCoExpress ist als ein sich entwickelndes Tool konzipiert und wir empfehlen Benutzern dringend, die Mailingliste (https://groupes.renater.fr/sympa/subscribe/dicoexpress) zu abonnieren. Alle Änderungen oder Verbesserungen am Tool werden auf der Liste bekannt gegeben und wir freuen uns über Fragen oder Anregungen. Wir hoffen auch, dass die Einführung von DiCoExpress durch eine große Community es ermöglicht, Fehler zu verfolgen und zu beheben, die in einem bestimmten Analysekontext auftreten können. Alle Updates und Korrekturen werden in das git-Verzeichnis https://forgemia.inra.fr/GNet/dicoexpress übertragen.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Die Autoren haben nichts zu verraten

Acknowledgments

Diese Arbeit wurde hauptsächlich von der ANR PSYCHE (ANR-16-CE20-0009) unterstützt. Die Autoren danken F. Desprez für den Bau des Containers von DiCoExpress. Die KB-Arbeit wird durch das Programm Investment for the Future ANR-10-BTBR-01-01 Amaizing unterstützt. Die Laboratorien GQE und IPS2 profitieren von der Unterstützung von Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

Materials

Name	Company	Catalog Number	Comments

DOWNLOAD MATERIALS LIST

References

Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. https://www.R-project.org/ (2020).
Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
Shiny: web application framework. , Available from: https://rdrr.io/cran/shiny/ (2021).
RStudio Team. RStudio: Integrated Development for R. RStudio, PBC. , Boston, MA. at (n.d (2020).
Lambert, I., Roux, C. P. -L., Colella, S., Martin-Magniette, M. -L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
Dillies, M. -A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Engineering

Analyse multifaktorieller RNA-Seq-Experimente mit DiCoExpress

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.