Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Engineering

Analyse af multifaktorielle RNA-Seq eksperimenter med DiCoExpress

Published: July 29, 2022 doi: 10.3791/62566

Summary

DiCoExpress er et scriptbaseret værktøj implementeret i R til at udføre en RNA-Seq-analyse fra kvalitetskontrol til co-ekspression. DiCoExpress håndterer komplet og ubalanceret design op til 2 biologiske faktorer. Denne video tutorial guider brugeren gennem de forskellige funktioner i DiCoExpress.

Abstract

Korrekt anvendelse af statistisk modellering i NGS-dataanalyse kræver et avanceret ekspertiseniveau. Der har for nylig været en voksende konsensus om at anvende generaliserede lineære modeller til differentiel analyse af RNA-Seq-data og fordelen ved blandingsmodeller til at udføre co-ekspressionsanalyse. For at tilbyde en administreret indstilling til at bruge disse modelleringsmetoder udviklede vi DiCoExpress, der giver en standardiseret R-pipeline til at udføre en RNA-Seq-analyse. Uden nogen særlig viden inden for statistik eller R-programmering kan begyndere udføre en komplet RNA-Seq-analyse fra kvalitetskontrol til co-ekspression gennem differentiel analyse baseret på kontraster inde i en generaliseret lineær model. En berigelsesanalyse foreslås både på listerne over differentielt udtrykte gener og de co-udtrykte genklynger. Denne video tutorial er udtænkt som en trin-for-trin protokol for at hjælpe brugerne med at drage fuld fordel af DiCoExpress og dets potentiale til at styrke den biologiske fortolkning af et RNA-Seq-eksperiment.

Introduction

Næste generations RNA-sekventeringsteknologi (RNA-Seq) er nu guldstandarden for transkriptomanalyse1. Siden teknologiens tidlige dage har den kombinerede indsats fra bioinformatikere og biostatistikere resulteret i udviklingen af adskillige metoder, der tackler alle de væsentlige trin i transkriptomiske analyser, fra kortlægning til transkriptionskvantificering2. De fleste af de værktøjer, der er tilgængelige i dag for biologen, er udviklet inden for R-softwaremiljøet til statistisk databehandling og grafer3, og mange pakker til biologisk dataanalyse er tilgængelige i Bioconductor repository4. Disse pakker tilbyder total kontrol og tilpasning af analysen, men de kommer på bekostning af omfattende brug af en kommandolinjegrænseflade. Fordi mange biologer er mere komfortable med en "peg og klik" tilgang5, kræver demokratiseringen af RNA-Seq-analyser udvikling af mere brugervenlige grænseflader eller protokoller6. For eksempel er det muligt at opbygge webgrænseflader af R-pakker ved hjælp af Shiny7, og kommandolinjedataanalyse gøres mere intuitiv med R-studio8-grænsefladen . Udviklingen af dedikerede, trinvise tutorials kan også hjælpe den nye bruger. Især supplerer en videotutorial en klassisk tekst, hvilket fører til en dybere forståelse af alle proceduretrinnene.

Vi har for nylig udviklet DiCoExpress9, et værktøj til analyse af multifaktorielle RNA-Seq-eksperimenter i R ved hjælp af metoder, der anses for at være de bedste baseret på neutrale sammenligningsundersøgelser 10,11,12. Med udgangspunkt i en tælletabel foreslår DiCoExpress et datakvalitetskontroltrin efterfulgt af en differentiel genekspressionsanalyse (edgeR-pakke13) ved hjælp af en generaliseret lineær model (GLM) og generering af co-ekspressionsklynger ved hjælp af gaussiske blandingsmodeller (coseq-pakke12). DiCoExpress håndterer komplet og ubalanceret design op til 2 biologiske faktorer (dvs. genotype og behandling) og en teknisk faktor (dvs. replikere). Originaliteten af DiCoExpress ligger i dens katalogarkitektur, der lagrer og organiserer data, scripts og resultater og i automatiseringen af skrivningen af kontrasterne, så brugeren kan undersøge adskillige spørgsmål inden for den samme statistiske model. Der blev også gjort en indsats for at levere grafiske output, der illustrerer de statistiske resultater.

DiCoExpress-arbejdsområdet er tilgængeligt på https://forgemia.inra.fr/GNet/dicoexpress. Den indeholder fire mapper, to pdf og to tekstfiler. Data/ biblioteket indeholder inputdatasættene; til denne protokol bruger vi datasættet "tutorial". Kildekataloget indeholder syv R-funktioner, der er nødvendige for at udføre analysen, og må ikke ændres af brugeren. Analysen køres ved hjælp af scripts, der er gemt i Template_scripts / -mappen. Den, der bruges i denne protokol, kaldes DiCoExpress_Tutorial_JoVE.R og kan let tilpasses ethvert transkriptomisk projekt. Alle resultaterne skrives i resultatkataloget og gemmes i en undermappe, der er navngivet i henhold til projektet. Den README.md fil indeholder nyttige installationsoplysninger, og eventuelle specifikke detaljer om metoden og dens anvendelse findes i DiCoExpress_Reference_Manual.pdf fil.

Denne videovejledning guider brugeren gennem de forskellige funktioner i DiCoExpress med det formål at overvinde den modvilje, som biologer føler ved hjælp af kommandolinjebaserede værktøjer. Vi præsenterer her analysen af et kunstigt RNA-Seq-datasæt, der beskriver genekspression i tre biologiske replikater af fire genotyper, med eller uden behandling. Vi vil nu gennemgå de forskellige trin i DiCoExpress-arbejdsgangen illustreret i figur 1. Scriptet beskrevet i afsnittet Protokol og inputfiler er tilgængelige på webstedet: https://forgemia.inra.fr/GNet/dicoexpress

Forberede datafiler
De fire csv-filer, der er gemt i data/ biblioteket, skal navngives i henhold til projektnavnet. I vores eksempel begynder alle navnene derfor med "Tutorial", og vi indstiller Project_Name = "Tutorial" i trin 4 i protokollen. Separatoren, der bruges i csv-filerne, skal angives i variablen Sep i trin 4. I vores "tutorial" datasæt er separatoren en tabulering. For avancerede brugere kan det fulde datasæt reduceres til et undersæt ved at angive en liste over instruktioner og en ny Project_Name via variablen Filter. Denne indstilling undgår overflødige kopier af inputfilerne og verificerer FAIR-principperne14.

Blandt de fire csv-filer er kun COUNTS- og TARGET-filerne obligatoriske. De indeholder råtællingerne for hvert gen (her Tutorial_COUNTS.csv) og den eksperimentelle designbeskrivelse (her Tutorial_TARGET.csv). Target.csv filen beskriver hver prøve (en prøve pr. række) med en modalitet for hver biologisk eller teknisk faktor (i kolonnerne). Vi anbefaler kraftigt, at de navne, der er valgt til modaliteterne, starter med et bogstav, ikke et tal. Navnet på den sidste kolonne ("Repliker") kan ikke ændres. Endelig skal eksempelnavnene (første kolonne) matche navnene i overskrifterne i COUNTS.csv filen (Genotype1_control_rep1 i vores eksempel). Filen Enrichment.csv, hvor hver linje indeholder ét Gene_ID og ét anmærkningsudtryk, er kun påkrævet, hvis brugeren planlægger at køre forbedringsanalysen. Hvis et gen har flere kommentarer, skal de skrives på forskellige linjer. Annotation.csv filen er valgfri og bruges til at tilføje en kort beskrivelse af hvert gen i outputfilerne. Den bedste måde at få en annotationsfil på er at hente oplysningerne fra dedikerede databaser (f.eks. Thalemine: https://bar.utoronto.ca/thalemine/begin.do for Arabidopsis).

Installation af DiCoExpress
DiCoExpress kræver specifikke R-pakker. Brug kommandolinjekilden(".. /Sources/Install_Packages.R") i R-konsollen for at kontrollere den påkrævede installationsstatus for pakken. For brugere på Linux er en anden løsning at installere containeren dedikeret til DiCoExpress og tilgængelig på https://forgemia.inra.fr/GNet/dicoexpress/container_registry. Per definition indeholder denne container DiCoExpress med alle de nødvendige dele, såsom biblioteker og andre afhængigheder.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. DiCoExpress

  1. Åbn en R-studiesession, og indstil mappen til Template_scripts.
  2. Åbn DiCoExpress_Tutorial.R-scriptet i R studio.
  3. Indlæs DiCoExpress-funktioner i R-sessionen med følgende kommandoer:
    > kilde(".. /Kilder/Load_Functions.R")
    > Load_Functions()
    > Data_Directory = ".. /Data"
    > Results_Directory = ".. /Resultater/"
  4. Indlæs datafiler i R-sessionen med følgende kommandoer:
    > Project_Name = "Vejledning"
    > Filter = NULL
    > Sep ="\t"
    > Data_Files = Load_Data_Files(Data_Directory, Project_Name, Filter, Sep)
  5. Opdel objektet Data_Files i flere objekter for nemt at manipulere dem:
    > Project_Name = Data_Files$Project_Name
    > Mål = Data_Files $Mål
    > Raw_Counts = Data_Files$Raw_Counts
    > Anmærkning = Data_Files$Anmærkning
    > Reference_Enrichment = Data_Files$Reference_Enrichment
  6. Vælg en strategi blandt "NbConditions", "NbReplicates" eller "filterByExpr" og en tærskel for at filtrere lavt udtrykte gener. Her vælger vi
    > Filter_Strategy = "NbReplicates"
    > CPM_Cutoff = 1
  7. Angiv gruppefarver med kommandoen
    > Color_Group = NULL
    BEMÆRK: Når den er indstillet til NULL, tilskriver R automatisk farver til de biologiske forhold. Ellers skal du indtaste en vektor, der angiver en farve pr. Biologisk gruppe.
  8. Vælg en normaliseringsmetode blandt dem, der accepteres af funktionen calcNormFactors af edgeR. Som for eksempel
    > Normalization_Method = "TMM"
  9. Udfør kvalitetskontrollen ved at udføre følgende funktion
    > Quality_Control(Data_Directory, Results_Directory, Project_Name, Target, Raw_Counts, Filter_Strategy, Color_Group, CPM_Cutoff Normalization_Method)
  10. Tilstand Replikat = SAND, hvis data er parret i henhold til replikatfaktoren, FALSK ellers.
  11. Tildel interaktion = SAND for at overveje en interaktion mellem de to biologiske faktorer, FALSK ellers.
  12. Angive den statistiske model med følgende kommandoer
    > Model = GLM_Contrasts (Results_Directory, Project_Name, Mål, Replikat, Interaktion)
    > GLM_Model = Model $ GLM_Model
    > Kontraster = Model$Kontraster
  13. Definer tærsklen for false discovery rate, her 0,05
    > Alpha_DiffAnalysis = 0,05
  14. Udfør differentialanalysen med følgende kommandoer
    > Index_Contrast=1:nrow(Kontraster)
    > NbGenes_Profiles = 20
    > NbGenes_Clustering = 50
    > DiffAnalysis.edgeR (Data_Directory, Results_Directory, Project_Name, Target, Raw_Counts, GLM_Model, Kontraster, Index_Contrast, Filter_Strategy, Alpha_DiffAnalysis, NbGenes_Profiles, NbGenes_Clustering, CPM_Cutoff Normalization_Method)
  15. Angiv en tærskel for berigelsesanalysen her 0,01
    > Alpha_Enrichment = 0,01
  16. Udfør berigelsesanalysen af deg-lister (differentially expressed genes)
    > Titel = NULL
    > berigelse (Results_Directory, Project_Name, titel, Reference_Enrichment Alpha_Enrichment)
  17. Vælg DEG-lister, der skal sammenlignes. Som for eksempel
    > Grupper = Kontraster$Kontraster[24:28]
  18. Angiv et navn til listesammenligningen. Dette navn bruges til den mappe, hvor outputfilerne gemmes
    > Titel = "Interaction_with_Genotypes_1_and_2"
  19. Angiv den handling, der skal udføres på DEG-listerne, ved at indstille parameteren Operation til forening eller skæringspunkt. Vi vælger
    > Operation = "Union"
  20. Sammenlign DEG-listerne
    > Venn_IntersectUnion(Data_Directory, Results_Directory, Project_Name, titel, grupper, drift)
  21. Udføre en co-ekspressionsanalyse med funktionen
    > Coexpression_coseq(Data_Directory, Results_Directory, Project_Name, titel, mål Raw_Counts Color_Group)
  22. Udføre forbedringsanalyse af co-ekspressionsklyngerne
    > berigelse (Results_Directory, Project_Name, titel, Reference_Enrichment Alpha_Enrichment)
  23. Generer to logfiler, der indeholder alle de nødvendige oplysninger til gengivelse af analysen
    > Save_Parameters( )
    BEMÆRK: Kommandolinjer, der bruges i denne protokol, er vist i figur 2. Linjer, der skal ændres for at analysere et andet datasæt, fremhæves.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Alle DiCoExpress-output gemmes i Tutorial / -mappen, selv placeret i Resultaterne / biblioteket. Vi giver her nogle retningslinjer for vurdering af analysens overordnede kvalitet.

Kvalitetskontrol
Kvalitetskontroloutputtet, der er placeret i Quality_Control / -biblioteket, er afgørende for at kontrollere, at RNA-Seq-analyseresultaterne er pålidelige. Den Data_Quality_Control.pdf fil indeholder flere plots opnået med rå og normaliserede data, der kan bruges til at identificere eventuelle problemer med dataene. De samlede normaliserede tællinger pr. prøve skal være ens, når man sammenligner både intra- og interbetingelser. Desuden forventes de normaliserede genekspressionstællinger at udvise lignende median og varians både i intra- og interbetingelser (figur 3A). Ellers kan dette være tegn på ikke-lignende varians mellem forhold, et problem, der kan være problematisk for modeltilpasning.

Endelig er PCA-plots på normaliserede tællinger produceret i DiCoExpress nyttige til at identificere potentielle underliggende datastrukturer (figur 3B). I vores eksempel er der ingen klyngedannelse i henhold til replikaterne, hvilket betyder, at denne faktor ikke er diskriminant. Samtidig kan der skelnes klart mellem behandlinger. Disse resultater indikerer et datasæt af god kvalitet, da den biologiske effekt altid forventes at være stærkere end replikaten. Afslutningsvis forhindrer den overordnede kvalitet, der observeres her, ikke nogen efterfølgende analyse af hele datasættet.

Statistisk modellering
DiCoExpress letter skrivningen af den statistiske modellering af logaritmen til middelekspressionen fra de to variabler Replikat og Interaktion. En replikativ effekt er tænkelig, hvis prøverne af alle de biologiske forhold indsamles på samme tid, og at dette eksperiment replikeres på forskellige dage for at måle biologisk variabilitet. I et typisk plantevidenskabseksperiment dyrkes prøver for eksempel i det samme vækstkammer uanset den biologiske tilstand under undersøgelse, og biologiske replikater svarer til eksperimenter startet på forskellige dage. I dette tilfælde parres prøverne af den samme replikat, og du skal indstille Repliker til SAND. Ellers skal Repliker indstilles til FALSK. Denne replikateffekt er også kendt som en batcheffekt.

Hvis det eksperimentelle design er beskrevet af to biologiske faktorer, der forventes at interagere, skal du indstille variablen Interaktion til SAND for at overveje interaktionen. Bemærk, at for et projekt, der kun indeholder én biologisk faktor, indstilles variablen Interaktion automatisk til FALSK.

Differentiel analyse
DEG identificeret for alle de testede kontraster er tilgængelige i tekstfiler placeret i deres respektive undermapper i DiffAnalysis / biblioteket. Som standard testes alle kontraster. Afhængigt af det eksperimentelle design kan nogle kontraster være af begrænset biologisk interesse (for eksempel et gennemsnit på flere genotyper). Bemærk, at kontrolelementet falsk positiv udføres pr. kontrast, hvilket sikrer, at potentielt irrelevante kontraster ikke påvirker analysen. Det er dog muligt at fremstille parceller, der kun indeholder interessekontrasten ved at handle på Index_Contrast variabel. Detaljer er tilgængelige i online referencemanualen.

Det er vigtigt at bemærke, at DiffAnalysis/ også indeholder de rå p-værdi histogrammer, der for nylig har vist sig at være den bedste måde at vurdere kvaliteten af modelleringen11. Den forventede fordeling af rå p-værdier formodes at være ensartet, med muligvis en top i venstre ende af fordelingen. En høj top for en rå p-værdi på 1 er tegn på modeltilpasningsproblemer. I dette tilfælde kan problemet ofte løses ved at øge sættet CPM_Cutoff værdi, for eksempel fra 1 til 5. Eksempler på rå histogrammer findes i figur 4A og i https://forgemia.inra.fr/GNet/dicoexpress/-/blob/master/DiCoExpress_Tutorial.pdf. For hver testet kontrast afbildes udtryksprofiler for den øverste DEG(top 20 som standard) i filen Top20_Profile.pdf placeret i kontrastens mappe. Et eksempel på et gen identificeret som differentielt udtrykt i en kontrast er vist i figur 4B. Antallet af op og ned DEG afbildes for hver testet kontrast og findes i filen Down_Up_DEG.pdf (eksempel i figur 4C).

Analyse af samudtryk
I vores eksempel udføres co-ekspressionsanalysen på foreningen af 5 DEG-lister, identificeret ved kontrast på udkig efter behandlingsresponsvariation mellem Genotype 1 eller 2 mod andre. Venn-diagrammet over DEG er vist i figur 5A. De samudtrykte gener for hver identificeret klynge udskrives i individuelle tekstfiler (en fil pr. klynge). Udtryksprofilerne for de forskellige klynger sammen er tilgængelige i Boxplot_profiles_Coseq.pdf-filen (se eksempel i figur 5B). Selvom tilpasningsmuligheder er tilgængelige, bør de kun bruges af avancerede brugere. Se referencemanualen for en fuldstændig forklaring af de forskellige parametre.

Analyse af berigelse
Lister, der svarer til kontrast- og klyngeberigelsesanalyserne, findes i deres respektive mapper. Et annoteringsudtryk, der findes som signifikant i denne analyse, kan enten være over- eller underrepræsenteret på listen over Gene_ID. Disse oplysninger er inkluderet i outputfilen.

Bemærk, at testbeslutningen træffes ud fra de rå p-værdier. Hvis brugeren ønsker at justere de rå p-værdier a posteriori, er de tilgængelige i filerne med suffiks All_Enrichment_Results.txt.

Gyldighed af DiCoExpress
Selvom DiCoExpress er udviklet til at lette multifaktorielle RNA-Seq-eksperimenter, afhænger gyldigheden af dets resultater i vid udstrækning af datasættets egenskaber. Flere output bør kontrolleres omhyggeligt, før der foretages en gyldig fortolkning af resultaterne. For det første skal den normaliserede biblioteksstørrelse i kvalitetskontroltrinnet være ens, og det normaliserede genekspressionsantal skal udvise lignende median og varians i både intra- og inter-betingelser. Derefter skal der lægges særlig vægt på formen af de rå p-værdi histogrammer. Endelig er en klart defineret minimumsværdi for ICL tegn på en god kvalitet, når der udføres en co-ekspressionsanalyse. Hvis disse betingelser ikke er opfyldt, vil enhver fortolkning af resultaterne sandsynligvis være fejlagtig.

Figure 1
Figur 1. DiCoExpress-analysepipelinen.  De syv trin i en komplet RNA-Seq-analyse ved hjælp af DiCoExpress er angivet blå bokse repræsenterer trin, hvor statistiske metoder udføres. Trin 7 (berigelse) kan udføres efter trin 4 (differentialanalyse og hedder 7.1 i figur 2) og/eller trin 6 (Co-ekspressionsanalyse og hedder 7.2 i figur 2). Røde tal svarer til trinnumrene i protokollen. Klik her for at se en større version af denne figur.

Figure 2
Figur 2. Skærmbilleder af DiCoExpress kommandolinjer.  Kommandolinjer, der bruges til at analysere selvstudiedatasættet, er angivet. Tallet i sorte rande er det samme som i figur 1. Røde rektangler fremhæver linjer, der kan tilpasses af brugeren. Klik her for at se en større version af denne figur.

Figure 3
Figur 3: Repræsentative resultater af kvalitetskontroltrinnet.  Figur opnået med "Tutorial" datasæt normaliserede tællinger. A) Boxplot af normaliserede tællinger. B) Partnerskabs- og samarbejdsaftale om normaliserede tællinger. Klik her for at se en større version af denne figur.

Figure 4
Figur 4: Repræsentative resultater af differentialekspressionsanalysen Figur opnået med datasættet "Tutorial". A) Rå p-værdi histogram af [control_Genotype2 - control_Genotype3] kontrast. B) C1G62301.1 genekspressionsprofil i hver genotype og tilstand, et af Top20 differential udtrykt gen i kontrasten [control_Genotype2 - control_Genotype3]. C) Antal op og ned differentielt udtrykte gener i hver testet kontrast. Klik her for at se en større version af denne figur.

Figure 5
Figur 5: Repræsentative resultater af coexpressionanalysen.  Figur opnået med datasættet "Tutorial". A) Venn-diagram over DEG fra 5 "interaktion med Genotype 1 og 2" kontraster. DEG fra behandlingsresponsvariationen mellem Genotype 1 og 2, 1 og 3, 1 og 4, 2 og 3, 2 og 4 er i henholdsvis cirkel A, B, C, D, E. Tallet skrevet nederst til højre ("14877") er antallet af gener, der ikke er DE på nogen liste. B) Ekspressionsprofil af gener fra coexpression Cluster 3. Figuren er udtrukket af Tutorial_Interaction_with_Genotypes_1_and_2_Boxplot_profiles_Coseq.pdf. Klik her for at se en større version af denne figur.

Supplerende fil. Klik her for at downloade denne fil.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Fordi RNA-Seq er blevet en allestedsnærværende metode i biologiske studier, er der et konstant behov for at udvikle alsidige og brugervenlige analytiske værktøjer. Et kritisk skridt i de fleste af de analytiske arbejdsgange er ofte med sikkerhed at identificere de gener, der udtrykkes forskelligt mellem biologiske tilstande og/eller behandlinger15. Produktionen af pålidelige resultater kræver korrekt statistisk modellering, hvilket har været motivationen for udviklingen af DiCoExpress.

DiCoExpress er et scriptbaseret værktøj implementeret i R, der sigter mod at hjælpe biologer med at drage fuld fordel af mulighederne for neutrale sammenligningsundersøgelser, når de leder efter DEG. DiCoExpress giver en standardiseret pipeline, der giver mulighed for at evaluere datastrukturen og kvaliteten, hvilket sikrer, at den bedste modelleringsmetode vælges. Uden nogen særlig viden inden for statistik eller R-programmering giver det begyndere mulighed for at udføre en komplet RNA-Seq-analyse fra kvalitetskontrol til co-ekspression gennem differentiel analyse baseret på kontraster inden for generaliserede lineære modeller. Det er vigtigt at bemærke, at DiCoExpress fokuserer på den statistiske del af en RNA-Seq-analyse og kræver en tælletabel som input. De mange bioinformatiske metoder dedikeret til RNA-Seq-læsejusteringer og oprettelsen af tælletabeller er uden for værktøjets anvendelsesområde. De har ikke desto mindre direkte indflydelse på kvaliteten af den endelige analyse og bør vælges omhyggeligt.

Selvom DiCoExpress ikke er et "peg og klik" -værktøj, gør dets katalogarkitektur og skabelonscriptet, der leveres og bruges i R-Studio-grænsefladen, det tilgængeligt for biologer med minimal viden om R. Når DiCoExpress er installeret, skal brugerne vide, hvordan man bruger en funktion i R og identificerer nødvendige og valgfrie argumenter. Det første kritiske trin er korrekt at levere de to obligatoriske filer, der indeholder råtællingerne for hvert gen (COUNTS-filen) og den eksperimentelle designbeskrivelse (TARGET-filen). Den anvendte separator skal være den samme for hver fil, og beskrivelsen af prøverne skal udføres korrekt i overensstemmelse med de biologiske faktorers modaliteter. Når de to filer er indlæst i DiCoExpress, automatiseres analysen næsten indtil det andet kritiske trin, dvs. co-ekspressionsanalysen. Denne analyse kan faktisk være tidskrævende, og det kan være nødvendigt med en kraftfuld beregningsserver for at køre den på store datasæt.

Fordi automatisering af kontrastskrivningen bliver udfordrende for mere end to biologiske faktorer, begrænsede vi DiCoExpress til det komplette og ubalancerede design af op til 2 biologiske faktorer. Hvis et projekt indeholder mere end 2 biologiske faktorer, er en praktisk løsning at kollapse to af de indledende faktorer for at skabe en ny. Ikke desto mindre skal man huske på, at vanskeligheden ved at give en meningsfuld biologisk fortolkning øges, når det biologiske faktortal stiger.

DiCoExpress er tænkt som et udviklende værktøj, og vi opfordrer kraftigt brugere til at abonnere på mailinglisten (https://groupes.renater.fr/sympa/subscribe/dicoexpress). Eventuelle ændringer eller forbedringer af værktøjet vil blive annonceret på listen, og vi modtager gerne spørgsmål eller forslag. Vi håber også, at vedtagelsen af DiCoExpress af et stort samfund vil gøre det muligt at spore og rette eventuelle fejl, der måtte opstå i en bestemt analysekontekst. Alle opdateringer og rettelser skubbes til git-biblioteket https://forgemia.inra.fr/GNet/dicoexpress.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har intet at afsløre

Acknowledgments

Dette arbejde blev hovedsageligt støttet af ANR PSYCHE (ANR-16-CE20-0009). Forfatterne takker F. Desprez for opførelsen af containeren af DiCoExpress. KB-arbejde understøttes af Investering for fremtiden ANR-10-BTBR-01-01 Amaizing-programmet. GQE- og IPS2-laboratorierne nyder godt af støtte fra Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

Materials

Name Company Catalog Number Comments

DOWNLOAD MATERIALS LIST

References

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. https://www.R-project.org/ (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. Shiny: web application framework. , Available from: https://rdrr.io/cran/shiny/ (2021).
  8. RStudio Team. RStudio: Integrated Development for R. RStudio, PBC. , Boston, MA. at (n.d (2020).
  9. Lambert, I., Roux, C. P. -L., Colella, S., Martin-Magniette, M. -L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  10. Dillies, M. -A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  11. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  12. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  13. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  14. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  15. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Tags

Ingeniørarbejde udgave 185
Analyse af multifaktorielle RNA-Seq eksperimenter med DiCoExpress
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Baudry, K., Paysant-Le Roux, C.,More

Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. L. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter