Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Engineering

Multifactoriële RNA-Seq-experimenten analyseren met DiCoExpress

Published: July 29, 2022 doi: 10.3791/62566

Summary

DiCoExpress is een script-gebaseerde tool geïmplementeerd in R om een RNA-Seq analyse uit te voeren van kwaliteitscontrole tot co-expressie. DiCoExpress verwerkt een compleet en onevenwichtig ontwerp tot 2 biologische factoren. Deze videozelfstudie leidt de gebruiker door de verschillende functies van DiCoExpress.

Abstract

Het juiste gebruik van statistische modellering in NGS-gegevensanalyse vereist een geavanceerd niveau van expertise. Er is onlangs een groeiende consensus over het gebruik van gegeneraliseerde lineaire modellen voor differentiële analyse van RNA-Seq-gegevens en het voordeel van mengselmodellen om co-expressieanalyse uit te voeren. Om een beheerde instelling te bieden om deze modelleringsbenaderingen te gebruiken, hebben we DiCoExpress ontwikkeld dat een gestandaardiseerde R-pijplijn biedt om een RNA-Seq-analyse uit te voeren. Zonder enige specifieke kennis van statistiek of R-programmering, kunnen beginners een complete RNA-Seq-analyse uitvoeren van kwaliteitscontroles tot co-expressie door differentiële analyse op basis van contrasten in een gegeneraliseerd lineair model. Een verrijkingsanalyse wordt voorgesteld, zowel op de lijsten van differentieel tot expressie gebrachte genen, als op de co-expressiegenclusters. Deze videozelfstudie is opgevat als een stapsgewijs protocol om gebruikers te helpen ten volle te profiteren van DiCoExpress en het potentieel ervan bij het versterken van de biologische interpretatie van een RNA-Seq-experiment.

Introduction

Next-generation RNA sequencing (RNA-Seq) technologie is nu de gouden standaard van transcriptoomanalyse1. Sinds de begindagen van de technologie hebben de gecombineerde inspanningen van bio-informatici en biostatistici geresulteerd in de ontwikkeling van tal van methoden die alle essentiële stappen van transcriptomische analyses aanpakken, van mapping tot transcriptkwantificering2. De meeste tools die vandaag beschikbaar zijn voor de bioloog zijn ontwikkeld binnen de R-softwareomgeving voor statistische berekeningen en grafieken3, en veel pakketten voor biologische data-analyse zijn beschikbaar in de Bioconductor repository4. Deze pakketten bieden totale controle en aanpassing van de analyse, maar ze gaan ten koste van uitgebreid gebruik van een opdrachtregelinterface. Omdat veel biologen zich meer op hun gemak voelen bij een "point and click"-benadering5, vereist de democratisering van RNA-Seq-analyses de ontwikkeling van gebruiksvriendelijkere interfaces of protocollen6. Het is bijvoorbeeld mogelijk om webinterfaces van R-pakketten te bouwen met Shiny7 en de analyse van opdrachtregelgegevens wordt intuïtiever gemaakt met de R-studio8-interface . De ontwikkeling van speciale, stapsgewijze tutorials kan de nieuwe gebruiker ook helpen. In het bijzonder is een videozelfstudie een aanvulling op een klassieke tekst, wat leidt tot een dieper begrip van alle procedurestappen.

We hebben onlangs DiCoExpress9 ontwikkeld, een hulpmiddel voor het analyseren van multifactoriële RNA-Seq-experimenten in R met behulp van methoden die als de beste worden beschouwd op basis van neutrale vergelijkingsstudies 10,11,12. Uitgaande van een teltabel stelt DiCoExpress een stap voor de controle van de gegevenskwaliteit voor, gevolgd door een differentiële genexpressieanalyse (edgeR-pakket13) met behulp van een gegeneraliseerd lineair model (GLM) en het genereren van co-expressieclusters met behulp van Gaussiaanse mengselmodellen (coseq-pakket12). DiCoExpress verwerkt een compleet en onevenwichtig ontwerp tot 2 biologische factoren (d.w.z. genotype en behandeling) en één technische factor (d.w.z. repliceren). De originaliteit van DiCoExpress ligt in de directory-architectuur die gegevens, scripts en resultaten opslaat en organiseert en in de automatisering van het schrijven van de contrasten, waardoor de gebruiker tal van vragen binnen hetzelfde statistische model kan onderzoeken. Er werd ook getracht grafische outputs te leveren die de statistische resultaten illustreren.

De DiCoExpress-werkruimte is beschikbaar op https://forgemia.inra.fr/GNet/dicoexpress. Het bevat vier mappen, twee pdf en twee tekstbestanden. De directory Data/ bevat de input datasets; voor dit protocol gebruiken we de "tutorial" dataset. De map Sources/ bevat zeven R-functies die nodig zijn om de analyse uit te voeren en mag niet door de gebruiker worden gewijzigd. De analyse wordt uitgevoerd met behulp van scripts die zijn opgeslagen in de map Template_scripts/. Degene die in dit protocol wordt gebruikt, wordt DiCoExpress_Tutorial_JoVE.R genoemd en kan eenvoudig worden aangepast aan elk transcriptomisch project. Alle resultaten worden geschreven in de map Results/ en opgeslagen in een subdirectory die is benoemd naar het project. Het README.md-bestand bevat nuttige installatie-informatie en alle specifieke details over de methode en het gebruik ervan zijn te vinden in het DiCoExpress_Reference_Manual.pdf bestand.

Deze videozelfstudie leidt de gebruiker door de verschillende functies van DiCoExpress met als doel de terughoudendheid te overwinnen die biologen voelen met behulp van op de opdrachtregel gebaseerde tools. We presenteren hier de analyse van een kunstmatige RNA-Seq dataset die genexpressie beschrijft in drie biologische replicaties van vier genotypen, met of zonder behandeling. We zullen nu de verschillende stappen van de DiCoExpress-workflow doorlopen die in figuur 1 worden geïllustreerd. Het script dat wordt beschreven in de sectie Protocol en de invoerbestanden zijn beschikbaar op de site: https://forgemia.inra.fr/GNet/dicoexpress

Gegevensbestanden voorbereiden
De vier csv-bestanden die in de map Data/ zijn opgeslagen, moeten een naam krijgen op basis van de projectnaam. In ons voorbeeld beginnen alle namen daarom met "Tutorial" en stellen we Project_Name = "Tutorial" in stap 4 van het protocol. Het scheidingsteken dat in de csv-bestanden wordt gebruikt, moet worden aangegeven in de variabele Sep in stap 4. In onze "tutorial" dataset is het scheidingsteken een tabel. Voor gevorderde gebruikers kan de volledige gegevensset worden teruggebracht tot een subset door een lijst met instructies en een nieuwe Project_Name via de variabele Filter. Deze optie vermijdt overbodige kopieën van de invoerbestanden en verifieert FAIR-principes14.

Van de vier csv-bestanden zijn alleen de COUNTS- en TARGET-bestanden verplicht. Ze bevatten de ruwe tellingen voor elk gen (hier Tutorial_COUNTS.csv) en de experimentele ontwerpbeschrijving (hier Tutorial_TARGET.csv). Het TARGET.csv bestand beschrijft elk monster (één monster per rij) met een modaliteit voor elke biologische of technische factor (in de kolommen). We raden ten zeerste aan dat de namen die voor de modaliteiten worden gekozen, beginnen met een letter, niet met een nummer. De naam van de laatste kolom ("Repliceren") kan niet worden gewijzigd. Ten slotte moeten de voorbeeldnamen (eerste kolom) overeenkomen met de namen in de koppen van het bestand COUNTS.csv (Genotype1_control_rep1 in ons voorbeeld). Het bestand Enrichment.csv waarin elke regel één Gene_ID en één annotatieterm bevat, is alleen vereist als de gebruiker van plan is de verrijkingsanalyse uit te voeren. Als één gen meerdere annotaties heeft, moeten deze op verschillende regels worden geschreven. Het annotatie.csv bestand is optioneel en wordt gebruikt om een korte beschrijving van elk gen in de uitvoerbestanden toe te voegen. De beste manier om een annotatiebestand te krijgen, is door de informatie op te halen uit speciale databases (bijv. Thalemine: https://bar.utoronto.ca/thalemine/begin.do voor Arabidopsis).

Installatie van DiCoExpress
DiCoExpress vereist specifieke R-pakketten. Gebruik de opdrachtregelbron(".. /Sources/Install_Packages.R") in de R-console om de vereiste installatiestatus van het pakket te controleren. Voor gebruikers op Linux is een andere oplossing om de container te installeren die is gewijd aan DiCoExpress en beschikbaar is op https://forgemia.inra.fr/GNet/dicoexpress/container_registry. Per definitie bevat deze container DiCoExpress met alle benodigde onderdelen, zoals bibliotheken en andere afhankelijkheden.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. DiCoExpress

  1. Open een R-studiosessie en stel de map in op Template_scripts.
  2. Open het DiCoExpress_Tutorial.R-script in R studio.
  3. Laad DiCoExpress-functies in de R-sessie met de volgende opdrachten:
    > bron(".. /Bronnen/Load_Functions.R")
    > Load_Functions()
    > Data_Directory = ".. /Gegevens"
    > Results_Directory = ".. /Resultaten/"
  4. Laad gegevensbestanden in de R-sessie met de volgende opdrachten:
    > Project_Name = "Tutorial"
    > filter = NULL
    > Sep="\t"
    > Data_Files = Load_Data_Files(Data_Directory, Project_Name, Filter, Sep)
  5. Splits het object Data_Files in verschillende objecten om ze gemakkelijk te manipuleren:
    > Project_Name = Data_Files$Project_Name
    > Target = Data_Files$Target
    > Raw_Counts = Data_Files$Raw_Counts
    > annotatie = Data_Files$Annotatie
    > Reference_Enrichment = Data_Files$Reference_Enrichment
  6. Kies een strategie tussen "NbConditions", "NbReplicates" of "filterByExpr" en een drempel om laag tot expressie gebrachte genen te filteren. Hier kiezen we voor
    > Filter_Strategy = "NbReplicates"
    > CPM_Cutoff = 1
  7. Groepskleuren opgeven met de opdracht
    > Color_Group = NULL
    OPMERKING: Wanneer R is ingesteld op NULL, worden kleuren automatisch toegeschreven aan de biologische omstandigheden. Voer anders een vector in die een kleur per biologische groep aangeeft.
  8. Kies een normalisatiemethode onder de methoden die worden geaccepteerd door de functie calcNormFactors van edgeR. Zoals bijvoorbeeld
    > Normalization_Method = "TMM"
  9. Voer de kwaliteitscontrole uit door de volgende functie uit te voeren
    > Quality_Control(Data_Directory, Results_Directory, Project_Name, Target, Raw_Counts, Filter_Strategy, Color_Group, CPM_Cutoff, Normalization_Method)
  10. Status Repliceren = WAAR als gegevens worden gekoppeld volgens de replicatiefactor, ONWAAR anders.
  11. Wijs interactie = WAAR toe om een interactie tussen de twee biologische factoren te overwegen, onwaar anders.
  12. Geef het statistische model op met de volgende opdrachten
    > Model = GLM_Contrasts(Results_Directory, Project_Name, Target, Replicate, Interaction)
    > GLM_Model = Model$GLM_Model
    > contrasten = Model$Contrasten
  13. Definieer de drempel van de False Discovery Rate, hier 0,05
    > Alpha_DiffAnalysis =0,05
  14. Voer de differentiële analyse uit met de volgende opdrachten
    > Index_Contrast = 1: nrow (contrasten)
    > NbGenes_Profiles = 20
    > NbGenes_Clustering = 50
    > DiffAnalysis.edgeR (Data_Directory, Results_Directory, Project_Name, Target, Raw_Counts, GLM_Model, Contrasten, Index_Contrast, Filter_Strategy, Alpha_DiffAnalysis, NbGenes_Profiles, NbGenes_Clustering, CPM_Cutoff, Normalization_Method)
  15. Stel een drempel vast voor de verrijkingsanalyse, hier 0,01
    > Alpha_Enrichment = 0,01
  16. Voer de verrijkingsanalyse uit van differentieel tot expressie gebrachte genen (DEG) lijsten
    > Titel = NULL
    > Verrijking(Results_Directory, Project_Name, Titel, Reference_Enrichment, Alpha_Enrichment)
  17. Kies DEG-lijsten om te vergelijken. Zoals bijvoorbeeld,
    > groepen = Contrasten$Contrasten[24:28]
  18. Geef een naam op voor de lijstvergelijking. Deze naam wordt gebruikt voor de map waarin de uitvoerbestanden worden opgeslagen
    > Titel = "Interaction_with_Genotypes_1_and_2"
  19. Geef de actie op die moet worden uitgevoerd op de DEG-lijsten door de parameter Operatie in te stellen op unie of kruispunt. Wij kiezen
    > Operatie = "Unie"
  20. Vergelijk de DEG-lijsten
    > Venn_IntersectUnion(Data_Directory, Results_Directory, Project_Name, Titel, Groepen, Operatie)
  21. Een co-expressieanalyse uitvoeren met de functie
    > Coexpression_coseq(Data_Directory, Results_Directory, Project_Name, Titel, Target, Raw_Counts, Color_Group)
  22. Verrijkingsanalyse van de co-expressieclusters uitvoeren
    > Verrijking(Results_Directory, Project_Name, Titel, Reference_Enrichment, Alpha_Enrichment)
  23. Genereer twee logbestanden met alle benodigde informatie om de analyse te reproduceren
    > Save_Parameters( )
    OPMERKING: De opdrachtregels die in dit protocol worden gebruikt, worden weergegeven in Afbeelding 2. Lijnen die moeten worden aangepast om een andere gegevensset te analyseren, worden gemarkeerd.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Alle DiCoExpress-uitgangen worden opgeslagen in de map Tutorial/ zelf in de map Results/. We geven hier enkele richtlijnen voor het beoordelen van de algehele kwaliteit van de analyse.

Kwaliteitscontrole
De kwaliteitscontrole-uitvoer, die zich in de Quality_Control/ directory bevindt, is essentieel om te controleren of de RNA-Seq-analyseresultaten betrouwbaar zijn. Het Data_Quality_Control.pdf-bestand bevat verschillende plots die zijn verkregen met onbewerkte en genormaliseerde gegevens die kunnen worden gebruikt om mogelijke problemen met de gegevens te identificeren. De totale genormaliseerde tellingen per monster moeten vergelijkbaar zijn bij het vergelijken van zowel intra- als intercondities. Bovendien wordt verwacht dat de genormaliseerde genexpressietellingen vergelijkbare mediaan en variantie vertonen, zowel in intra- als intercondities (figuur 3A). Anders zou dit het teken kunnen zijn van niet-vergelijkbare variantie tussen omstandigheden, een probleem dat problematisch kan zijn voor modelaanpassing.

Ten slotte zijn PCA-plots op genormaliseerde tellingen geproduceerd in DiCoExpress nuttig om potentiële onderliggende gegevensstructuren te identificeren (figuur 3B). In ons voorbeeld is er geen clustering volgens de replica's, wat betekent dat deze factor niet discriminant is. Tegelijkertijd kan een duidelijk onderscheid worden gemaakt tussen behandelingen. Deze resultaten wijzen op een dataset van goede kwaliteit, omdat het biologische effect naar verwachting altijd sterker zal zijn dan het replicerende effect. Kortom, de hier waargenomen algehele kwaliteit verhindert geen verdere analyse van de gehele dataset.

Statistische modellering
DiCoExpress vergemakkelijkt het schrijven van de statistische modellering van de logaritme van de gemiddelde expressie van de twee variabelen Replicate en Interaction. Een replicatie-effect is denkbaar als de monsters van alle biologische aandoeningen tegelijkertijd worden verzameld en dat dit experiment op verschillende dagen wordt gerepliceerd om biologische variabiliteit te meten. In een typisch plantenwetenschappelijk experiment worden monsters bijvoorbeeld in dezelfde groeikamer gekweekt, ongeacht de biologische toestand die wordt bestudeerd en komen biologische replicaties overeen met experimenten die op verschillende dagen zijn gestart. In dit geval worden de voorbeelden van dezelfde replicaat gekoppeld en moet u Repliceren instellen op WAAR. Anders moet Replicate worden ingesteld op FALSE. Dit replicatie-effect wordt ook wel een batcheffect genoemd.

Als het experimentele ontwerp wordt beschreven door twee biologische factoren die naar verwachting zullen interageren, stelt u de variabele Interactie in op WAAR om de interactie te overwegen. Merk op dat voor een project dat slechts één biologische factor bevat, de variabele Interactie automatisch wordt ingesteld op FALSE.

Differentiële analyse
De DEG die voor alle geteste contrasten is geïdentificeerd, is beschikbaar in tekstbestanden in hun respectieve submappen in de diffanalyse/ directory. Standaard worden alle contrasten getest. Afhankelijk van het experimentele ontwerp kunnen sommige contrasten van beperkt biologisch belang zijn (bijvoorbeeld een gemiddelde op verschillende genotypen). Merk op dat de fout-positieve controle per contrast wordt uitgevoerd om ervoor te zorgen dat mogelijk irrelevante contrasten geen invloed hebben op de analyse. Het is echter mogelijk om percelen te produceren die alleen het contrast van belangen bevatten door te handelen op basis van de Index_Contrast variabele. Details zijn beschikbaar in de online referentiehandleiding.

Het is essentieel om op te merken dat DiffAnalysis/ ook de ruwe p-waarde histogrammen bevat waarvan onlangs is aangetoond dat ze de beste manier zijn om de kwaliteit van de modellering te beoordelen11. De verwachte verdeling van ruwe p-waarden wordt verondersteld uniform te zijn, met mogelijk een piek aan de linkerkant van de verdeling. Een hoge piek voor een ruwe p-waarde van 1 is indicatief voor modelaanpassingsproblemen. In dit geval kan het probleem vaak worden opgelost door de ingestelde CPM_Cutoff waarde te verhogen, bijvoorbeeld van 1 naar 5. Voorbeelden van ruwe histogrammen zijn beschikbaar in figuur 4A en in https://forgemia.inra.fr/GNet/dicoexpress/-/blob/master/DiCoExpress_Tutorial.pdf. Voor elk getest contrast worden expressieprofielen van de bovenste geïdentificeerde DEG (standaard top 20) uitgezet in het bestand Top20_Profile.pdf in de map van het contrast. Een voorbeeld voor één gen dat is geïdentificeerd als differentieel tot expressie gebracht in één contrast, is weergegeven in figuur 4B. Het aantal op en neer DEG wordt uitgezet voor elk getest contrast en wordt gevonden in het bestand Down_Up_DEG.pdf (voorbeeld in figuur 4C).

Co-expressie Analyse
In ons voorbeeld wordt de co-expressieanalyse uitgevoerd op de vereniging van 5 DEG-lijsten, geïdentificeerd door contrast op zoek naar variatie in behandelingsrespons tussen Genotype 1 of 2 en anderen. Het Venn-diagram van DEG is weergegeven in figuur 5A. De co-expressiegenen voor elk geïdentificeerd cluster worden afgedrukt in individuele tekstbestanden (één bestand per cluster). De expressieprofielen van de verschillende clusters samen zijn beschikbaar in het bestand Boxplot_profiles_Coseq.pdf (zie voorbeeld in figuur 5B). Hoewel aanpassingsopties beschikbaar zijn, mogen deze alleen worden gebruikt door geavanceerde gebruikers. Raadpleeg de referentiehandleiding voor een volledige uitleg van de verschillende parameters.

Verrijkingsanalyse
Lijsten die overeenkomen met de contrast- en clusterverrijkingsanalyses bevinden zich in hun respectieve mappen. Een annotatieterm die in deze analyse als significant wordt beschouwd, kan over- of ondervertegenwoordigd zijn in de Gene_ID lijst. Deze informatie wordt opgenomen in het uitvoerbestand.

Merk op dat de testbeslissing wordt genomen op basis van de onbewerkte p-waarden. Als de gebruiker de ruwe p-waarden a posteriori wil aanpassen, zijn deze beschikbaar in de bestanden met achtervoegsel All_Enrichment_Results.txt.

Geldigheid van DiCoExpress
Hoewel DiCoExpress is ontwikkeld om multifactoriële RNA-Seq-experimenten analyses mogelijk te maken, hangt de validiteit van de resultaten grotendeels af van de kenmerken van de dataset. Verschillende outputs moeten zorgvuldig worden gecontroleerd voordat de resultaten geldig worden geïnterpreteerd. Ten eerste moet in de kwaliteitscontrolestap de genormaliseerde bibliotheekgrootte vergelijkbaar zijn en moet het genormaliseerde aantal genexpressies vergelijkbare mediaan en variantie vertonen in zowel intra- als intercondities. Vervolgens moet bijzondere aandacht worden besteed aan de vorm van de ruwe p-waarde histogrammen. Ten slotte is bij het uitvoeren van een co-expressieanalyse een duidelijk gedefinieerde minimumwaarde voor de ICL indicatief voor een goede kwaliteit. Als niet aan deze voorwaarden wordt voldaan, is elke interpretatie van de resultaten waarschijnlijk onjuist.

Figure 1
Figuur 1. De DiCoExpress Analysis-pijplijn.  De zeven stappen van een volledige RNA-Seq-analyse met Behulp van DiCoExpress worden aangegeven blauwe vakken vertegenwoordigen stappen waar statistische methoden worden uitgevoerd. Stap 7 (Verrijking) kan worden gedaan na stap 4 (differentiële analyse en wordt in figuur 2 7.1 genoemd) en/of stap 6 (co-expressieanalyse en wordt in figuur 2 7.2 genoemd). Rode getallen komen overeen met de stapnummers in het protocol. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 2
Figuur 2. Schermafbeeldingen van DiCoExpress-opdrachtregels.  Opdrachtregels die worden gebruikt om de zelfstudiegegevensset te analyseren, worden aangegeven. Het aantal in zwarte cirkels is hetzelfde als in figuur 1. Rode rechthoeken markeren lijnen die door de gebruiker kunnen worden aangepast. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 3
Figuur 3: Representatieve resultaten van de kwaliteitscontrolestap.  Figuur verkregen met de "Tutorial" dataset genormaliseerde tellingen. A) Boxplot van genormaliseerde tellingen. B) PCA op genormaliseerde tellingen. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 4
Figuur 4: Representatieve resultaten van de differentiële expressieanalyse Figuur verkregen met de dataset "Tutorial". A) Ruw p-waarde histogram van het [control_Genotype2 - control_Genotype3] contrast. B) C1G62301.1 genexpressieprofiel in elk genotype en aandoening, een van de Top20 Differentieel Tot expressie gebracht Gen in het [control_Genotype2 - control_Genotype3] contrast. C) Aantal op en neer differentieel tot expressie gebrachte genen in elk getest contrast. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 5
Figuur 5: Representatieve resultaten van de Coexpressie Analyse.  Figuur verkregen met de "Tutorial" dataset. A) Venn diagram van DEG uit de 5 "interactie met Genotype 1 en 2" contrasten. DEG van de behandelingsresponsvariatie tussen Genotype 1 en 2, 1 en 3, 1 en 4, 2 en 3, 2 en 4 bevinden zich respectievelijk in cirkel A, B, C, D, E. Het getal rechtsonder ("14877") is het aantal genen dat in geen enkele lijst DE staat. B) Expressieprofiel van genen uit de coexpressiecluster 3. Figuur wordt geëxtraheerd uit Tutorial_Interaction_with_Genotypes_1_and_2_Boxplot_profiles_Coseq.pdf. Klik hier om een grotere versie van deze figuur te bekijken.

Aanvullend bestand. Klik hier om dit bestand te downloaden.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Omdat RNA-Seq een alomtegenwoordige methode is geworden in biologische studies, is er een constante behoefte om veelzijdige en gebruiksvriendelijke analytische hulpmiddelen te ontwikkelen. Een cruciale stap binnen de meeste analytische workflows is vaak om met vertrouwen de genen te identificeren die differentieel tot expressie komen tussen biologische aandoeningen en / of behandelingen15. De productie van betrouwbare resultaten vereist een goede statistische modellering, wat de motivatie is geweest voor de ontwikkeling van DiCoExpress.

DiCoExpress is een scriptgebaseerde tool geïmplementeerd in R die biologen helpt ten volle te profiteren van de mogelijkheden van neutrale vergelijkingsstudies bij het zoeken naar DEG. DiCoExpress biedt een gestandaardiseerde pijplijn die de mogelijkheid biedt om de gegevensstructuur en kwaliteit te evalueren, waardoor de beste modelleringsaanpak wordt gekozen. Zonder enige specifieke kennis van statistiek of R-programmering, stelt het beginners in staat om een volledige RNA-Seq-analyse uit te voeren, van kwaliteitscontroles tot co-expressie door differentiële analyse op basis van contrasten in gegeneraliseerde lineaire modellen. Het is belangrijk op te merken dat DiCoExpress zich richt op het statistische deel van een RNA-Seq-analyse en een teltabel als invoer vereist. De meerdere bioinformatica-methoden die zijn gewijd aan RNA-Seq-leesuitlijningen en het maken van teltabellen vallen buiten het bereik van de tool. Ze hebben niettemin een directe invloed op de kwaliteit van de uiteindelijke analyse en moeten zorgvuldig worden gekozen.

Hoewel DiCoExpress geen "point and click" -tool is, maken de directory-architectuur en het sjabloonscript dat wordt geleverd en gebruikt in de R-Studio-interface het toegankelijk voor biologen met minimale kennis van R. Zodra DiCoExpress is geïnstalleerd, moeten gebruikers weten hoe ze een functie in R moeten gebruiken en vereiste en optionele argumenten moeten identificeren. De eerste kritieke stap is het correct verstrekken van de twee verplichte bestanden met de onbewerkte tellingen voor elk gen (het COUNTS-bestand) en de experimentele ontwerpbeschrijving (het TARGET-bestand). De gebruikte separator moet voor elk bestand hetzelfde zijn en de beschrijving van de monsters moet op passende wijze worden uitgevoerd in overeenstemming met de modaliteiten van de biologische factoren. Zodra de twee bestanden in DiCoExpress zijn geladen, wordt de analyse bijna geautomatiseerd tot de tweede kritieke stap, d.w.z. de co-expressieanalyse. Deze analyse kan inderdaad tijdrovend zijn en een krachtige berekeningsserver kan nodig zijn om deze op grote datasets uit te voeren.

Omdat automatisering van het contrastschrijven een uitdaging wordt voor meer dan twee biologische factoren, hebben we DiCoExpress beperkt tot het volledige en onevenwichtige ontwerp van maximaal 2 biologische factoren. Als een project meer dan 2 biologische factoren bevat, is een praktische oplossing om twee van de initiële factoren samen te vouwen om een nieuwe te creëren. Niettemin moet men in gedachten houden dat de moeilijkheid om een zinvolle biologische interpretatie te geven toeneemt naarmate het aantal biologische factoren toeneemt.

DiCoExpress is opgevat als een evoluerende tool en we raden gebruikers ten zeerste aan om zich te abonneren op de mailinglijst (https://groupes.renater.fr/sympa/subscribe/dicoexpress). Eventuele wijzigingen of verbeteringen aan de tool worden aangekondigd op de lijst en we verwelkomen vragen of suggesties. We hopen ook dat de adoptie van DiCoExpress door een grote gemeenschap het mogelijk zal maken om eventuele bugs die zich in een bepaalde analysecontext kunnen voordoen, te volgen en op te lossen. Alle updates en correcties worden https://forgemia.inra.fr/GNet/dicoexpress naar de git directory gepusht.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteurs hebben niets te onthullen

Acknowledgments

Dit werk werd voornamelijk ondersteund door de ANR PSYCHE (ANR-16-CE20-0009). De auteurs bedanken F. Desprez voor de bouw van de container van DiCoExpress. KB-werk wordt ondersteund door het Anr-10-BTBR-01-01 Amaizing-programma investment for the Future. De laboratoria GQE en IPS2 profiteren van de steun van Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

Materials

Name Company Catalog Number Comments

DOWNLOAD MATERIALS LIST

References

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. https://www.R-project.org/ (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. Shiny: web application framework. , Available from: https://rdrr.io/cran/shiny/ (2021).
  8. RStudio Team. RStudio: Integrated Development for R. RStudio, PBC. , Boston, MA. at (n.d (2020).
  9. Lambert, I., Roux, C. P. -L., Colella, S., Martin-Magniette, M. -L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  10. Dillies, M. -A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  11. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  12. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  13. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  14. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  15. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Tags

Engineering Nummer 185
Multifactoriële RNA-Seq-experimenten analyseren met DiCoExpress
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Baudry, K., Paysant-Le Roux, C.,More

Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. L. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter