Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Engineering

Analysere multifaktorielle RNA-Seq-eksperimenter med DiCoExpress

Published: July 29, 2022 doi: 10.3791/62566

Summary

DiCoExpress er et skriptbasert verktøy implementert i R for å utføre en RNA-Seq-analyse fra kvalitetskontroll til samuttrykk. DiCoExpress håndterer komplett og ubalansert design opptil 2 biologiske faktorer. Denne videoopplæringen guider brukeren gjennom de forskjellige funksjonene i DiCoExpress.

Abstract

Riktig bruk av statistisk modellering i NGS dataanalyse krever et avansert kompetansenivå. Det har nylig vært en økende konsensus om bruk av generaliserte lineære modeller for differensialanalyse av RNA-Seq-data og fordelen med blandingsmodeller for å utføre kouttrykksanalyse. For å tilby en administrert innstilling for å bruke disse modelleringsmetodene, utviklet vi DiCoExpress som gir en standardisert R-rørledning for å utføre en RNA-Seq-analyse. Uten noen spesiell kunnskap i statistikk eller R-programmering, kan nybegynnere utføre en komplett RNA-Seq-analyse fra kvalitetskontroller til samuttrykk gjennom differensialanalyse basert på kontraster i en generalisert lineær modell. En anrikningsanalyse foreslås både på listene over differensielt uttrykte gener og de meduttrykte genklyngene. Denne videoopplæringen er oppfattet som en trinnvis protokoll for å hjelpe brukerne til å dra full nytte av DiCoExpress og dens potensial for å styrke den biologiske tolkningen av et RNA-Seq-eksperiment.

Introduction

Neste generasjons RNA-sekvenseringsteknologi (RNA-Seq) er nå gullstandarden for transkriptomanalyse1. Siden teknologiens tidlige dager har den kombinerte innsatsen til bioinformatikere og biostatistikere resultert i utviklingen av en rekke metoder som takler alle de essensielle trinnene i transkriptomiske analyser, fra kartlegging til transkripsjonskvantifisering2. De fleste verktøyene som er tilgjengelige for biologen i dag, er utviklet i R-programvaremiljøet for statistisk databehandling og grafer3, og mange pakker for biologisk dataanalyse er tilgjengelige i Bioconductor-depotet4. Disse pakkene gir total kontroll og tilpasning av analysen, men de kommer på bekostning av omfattende bruk av et kommandolinjegrensesnitt. Fordi mange biologer er mer komfortable med en "pek og klikk" -tilnærming5, krever demokratisering av RNA-Seq-analyser utvikling av mer brukervennlige grensesnitt eller protokoller6. For eksempel er det mulig å bygge webgrensesnitt av R-pakker ved hjelp av Shiny7, og kommandolinjedataanalyse blir gjort mer intuitiv med R-studio8-grensesnittet . Utviklingen av dedikerte, trinnvise opplæringsprogrammer kan også hjelpe den nye brukeren. Spesielt supplerer en videoopplæring en klassisk tekst, noe som fører til en dypere forståelse av alle prosedyretrinnene.

Vi har nylig utviklet DiCoExpress9, et verktøy for å analysere multifaktorielle RNA-Seq-eksperimenter i R ved hjelp av metoder som anses å være de beste basert på nøytrale sammenligningsstudier10,11,12. Med utgangspunkt i en telletabell foreslår DiCoExpress et datakvalitetskontrolltrinn etterfulgt av en differensial genuttrykksanalyse (edgeR-pakke13) ved hjelp av en generalisert lineær modell (GLM) og generering av kouttrykksklynger ved bruk av Gaussiske blandingsmodeller (coseq-pakke12). DiCoExpress håndterer komplett og ubalansert design opptil 2 biologiske faktorer (dvs. genotype og behandling) og en teknisk faktor (dvs. replikere). Originaliteten til DiCoExpress ligger i katalogarkitekturen som lagrer og organiserer data, skript og resultater og i automatiseringen av skrivingen av kontrastene slik at brukeren kan undersøke mange spørsmål innenfor samme statistiske modell. Det ble også gjort en innsats for å gi grafiske utganger som illustrerer de statistiske resultatene.

DiCoExpress-arbeidsområdet er tilgjengelig på https://forgemia.inra.fr/GNet/dicoexpress. Den inneholder fire kataloger, to pdf og to tekstfiler. Data/ katalogen inneholder inngangsdatasettene; For denne protokollen vil vi bruke datasettet "Tutorial". Kilder/ katalog inneholder syv R-funksjoner som er nødvendige for å utføre analysen, og må ikke endres av brukeren. Analysen kjøres ved hjelp av skript som er lagret i Template_scripts/-mappen. Den som brukes i denne protokollen kalles DiCoExpress_Tutorial_JoVE.R og kan enkelt tilpasses ethvert transkriptomisk prosjekt. Alle resultatene skrives i Resultater / katalogen og lagres i en underkatalog navngitt i henhold til prosjektet. Den README.md filen inneholder nyttig installasjonsinformasjon, og eventuelle spesifikke detaljer om metoden og bruken av den finner du i DiCoExpress_Reference_Manual.pdf-filen.

Denne videoopplæringen guider brukeren gjennom de forskjellige funksjonene i DiCoExpress med sikte på å overvinne motviljen som biologer føler ved hjelp av kommandolinjebaserte verktøy. Vi presenterer her analysen av et kunstig RNA-Seq-datasett som beskriver genuttrykk i tre biologiske replikasjoner av fire genotyper, med eller uten behandling. Vi vil nå gå gjennom de forskjellige trinnene i DiCoExpress-arbeidsflyten illustrert i figur 1. Skriptet beskrevet i protokolldelen og inndatafiler er tilgjengelige på nettstedet: https://forgemia.inra.fr/GNet/dicoexpress

Klargjøre datafiler
De fire csv-filene som er lagret i Data/ katalogen, skal navngis i henhold til prosjektnavnet. I vårt eksempel begynner derfor alle navnene med "Tutorial", og vi vil sette Project_Name = "Tutorial" i trinn 4 i protokollen. Skilletegnet som brukes i csv-filene, må angis i sep-variabelen i trinn 4. I vårt "tutorial" datasett er separatoren en tabulering. For avanserte brukere kan hele datasettet reduseres til et delsett ved å gi en liste over instruksjoner og en ny Project_Name gjennom filtervariabelen. Dette alternativet unngår overflødige kopier av inndatafilene og verifiserer FAIR-prinsippene14.

Blant de fire csv-filene er bare COUNTS- og TARGET-filene obligatoriske. De inneholder råtallene for hvert gen (her Tutorial_COUNTS.csv) og den eksperimentelle designbeskrivelsen (her Tutorial_TARGET.csv). TARGET.csv filen beskriver hver prøve (en prøve per rad) med en modalitet for hver biologisk eller teknisk faktor (i kolonnene). Vi anbefaler på det sterkeste at navnene som er valgt for modalitetene starter med en bokstav, ikke et tall. Navnet på den siste kolonnen ("Replikere") kan ikke endres. Til slutt må eksempelnavnene (første kolonne) samsvare med navnene i overskriftene i COUNTS.csv-filen (Genotype1_control_rep1 i vårt eksempel). Filen Enrichment.csv der hver linje inneholder én Gene_ID og én merknadsterm er bare nødvendig hvis brukeren planlegger å kjøre berikelsesanalysen. Hvis ett gen har flere merknader, må de skrives på forskjellige linjer. Merknadsfilen .csv er valgfri og brukes til å legge til en kort beskrivelse av hvert gen i utdatafilene. Den beste måten å få en merknadsfil på er å hente informasjonen fra dedikerte databaser (f.eks. Thalemine: https://bar.utoronto.ca/thalemine/begin.do for Arabidopsis).

Installasjon av DiCoExpress
DiCoExpress krever spesifikke R-pakker. Bruk kommandolinjekilden(".. /Sources/Install_Packages.R") i R-konsollen for å kontrollere den nødvendige installasjonsstatusen for pakken. For brukere på Linux er en annen løsning å installere beholderen dedikert til DiCoExpress og tilgjengelig på https://forgemia.inra.fr/GNet/dicoexpress/container_registry. Per definisjon inneholder denne beholderen DiCoExpress med alle delene som trengs, for eksempel biblioteker og andre avhengigheter.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. DiCoExpress

  1. Åpne en R Studio-økt, og angi at katalogen skal Template_scripts.
  2. Åpne DiCoExpress_Tutorial.R-skriptet i R studio.
  3. Last inn DiCoExpress-funksjoner i R-økten med følgende kommandoer:
    > kilde(".. /Kilder/Load_Functions.R")
    > Load_Functions()
    > Data_Directory = ".. /Data"
    > Results_Directory = ".. /Resultater/"
  4. Last inn datafiler i R-økten med følgende kommandoer:
    > Project_Name = "Tutorial"
    > Filter = NULL
    > Sep="\t"
    > Data_Files = Load_Data_Files(Data_Directory, Project_Name, Filter, Sep)
  5. Del objektet Data_Files i flere objekter for å manipulere dem enkelt:
    > Project_Name = Data_Files $ Project_Name
    > Mål = Data_Files$-mål
    > Raw_Counts = Data_Files $ Raw_Counts
    > Merknad = Data_Files$Merknad
    > Reference_Enrichment = Data_Files $ Reference_Enrichment
  6. Velg en strategi blant "NbConditions", "NbReplicates" eller "filterByExpr" og en terskel for å filtrere gener med lavt uttrykk. Her velger vi
    > Filter_Strategy = "NbReplicates"
    > CPM_Cutoff = 1
  7. Angi gruppefarger med kommandoen
    > Color_Group = NULL
    MERK: Når den er satt til NULL, tilskriver R automatisk farger til de biologiske betingelsene. Ellers skriver du inn en vektor som indikerer en farge per biologisk gruppe.
  8. Velg en normaliseringsmetode blant de som er akseptert av funksjonen calcNormFactors of edgeR. Som for eksempel
    > Normalization_Method = "TMM"
  9. Utfør kvalitetskontrollen ved å utføre følgende funksjon
    > Quality_Control(Data_Directory, Results_Directory, Project_Name, Target, Raw_Counts, Filter_Strategy, Color_Group, CPM_Cutoff Normalization_Method)
  10. Tilstandsreplikasjon = SANN hvis data er paret i henhold til replikasjonsfaktoren, USANN ellers.
  11. Tilordne interaksjon = SANN for å vurdere en interaksjon mellom de to biologiske faktorene, USANN ellers.
  12. Angi den statistiske modellen med følgende kommandoer
    > Modell = GLM_Contrasts(Results_Directory, Project_Name, Mål, Replikasjon, Samhandling)
    > GLM_Model = Modell $ GLM_Model
    > Kontraster = Modell $ Kontraster
  13. Definer terskelen for False Discovery Rate, her 0,05
    > Alpha_DiffAnalysis =0,05
  14. Utfør differensialanalysen med følgende kommandoer
    > Index_Contrast=1:nrow(kontraster)
    > NbGenes_Profiles = 20
    > NbGenes_Clustering = 50
    > DiffAnalysis.edgeR (Data_Directory, Results_Directory, Project_Name, Target, Raw_Counts, GLM_Model, Contrasts, Index_Contrast, Filter_Strategy, Alpha_DiffAnalysis, NbGenes_Profiles, NbGenes_Clustering, CPM_Cutoff, Normalization_Method)
  15. Fastsette en terskel for anrikningsanalysen, her 0,01
    > Alpha_Enrichment = 0,01
  16. Utfør anrikningsanalysen av differensielt uttrykte gener (DEG) lister
    > Tittel = NULL
    > Berikelse(Results_Directory, Project_Name, tittel, Reference_Enrichment, Alpha_Enrichment)
  17. Velg DEG-lister som skal sammenlignes. Som for eksempel,
    > Grupper = Kontraster $ Kontraster [24:28]
  18. Angi et navn for listesammenligningen. Dette navnet brukes for katalogen der utdatafilene skal lagres
    > Tittel = "Interaction_with_Genotypes_1_and_2"
  19. Angi handlingen som skal utføres på DEG-listene ved å sette parameteren Operation til union eller skjæringspunkt. Vi velger
    > Operasjon = "Union"
  20. Sammenlign DEG-listene
    > Venn_IntersectUnion(Data_Directory, Results_Directory, Project_Name, tittel, grupper, operasjon)
  21. Utføre en samuttrykksanalyse med funksjonen
    > Coexpression_coseq(Data_Directory, Results_Directory, Project_Name, tittel, mål, Raw_Counts Color_Group)
  22. Utføre berikelsesanalyse av kouttrykksklyngene
    > Berikelse(Results_Directory, Project_Name, tittel, Reference_Enrichment, Alpha_Enrichment)
  23. Generere to loggfiler som inneholder all nødvendig informasjon for å reprodusere analysen
    > Save_Parameters( )
    MERK: Kommandolinjer som brukes i denne protokollen er vist i figur 2. Linjer som må endres for å analysere et annet datasett, utheves.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Alle DiCoExpress-utgangene lagres i opplæringen / katalogen, selv plassert i Resultater / katalogen. Vi gir her litt veiledning for å vurdere den generelle kvaliteten på analysen.

Kvalitetskontroll
Kvalitetskontrollutgangen, som ligger i Quality_Control / katalogen, er avgjørende for å verifisere at RNA-Seq-analyseresultatene er pålitelige. Den Data_Quality_Control.pdf filen inneholder flere tomter oppnådd med rå og normaliserte data som kan brukes til å identifisere potensielle problemer med dataene. De totale normaliserte tellingene per prøve skal være like når man sammenligner både intra- og mellomforhold. Videre forventes de normaliserte genuttrykkstallene å vise tilsvarende median og varians både i intra- og interbetingelser (figur 3A). Ellers kan dette være tegn på ikke-lignende avvik mellom forhold, et problem som kan være problematisk for modelltilpasning.

Til slutt er PCA-plott på normaliserte tellinger produsert i DiCoExpress nyttige for å identifisere potensielle underliggende datastrukturer (figur 3B). I vårt eksempel er det ingen klynger i henhold til replikasjonene, noe som betyr at denne faktoren ikke er diskriminerende. Samtidig kan det identifiseres et klart skille mellom behandlinger. Disse resultatene indikerer et datasett av god kvalitet siden den biologiske effekten alltid forventes å være sterkere enn den replikerende. Konklusjonen er at den generelle kvaliteten som observeres her, ikke forhindrer noen etterfølgende analyse av hele datasettet.

Statistisk modellering
DiCoExpress forenkler skrivingen av den statistiske modelleringen av logaritmen til middeluttrykket fra de to variablene Replicate og Interaction. En replikasjonseffekt kan tenkes dersom prøvene av alle de biologiske tilstandene samles inn samtidig, og at dette eksperimentet replikeres på forskjellige dager for å måle biologisk variabilitet. I et typisk plantevitenskapelig eksperiment dyrkes for eksempel prøver i samme vekstkammer uavhengig av den biologiske tilstanden som studeres, og biologiske replikasjoner tilsvarer eksperimenter startet på forskjellige dager. I dette tilfellet er prøvene av den samme replikasjonen paret, og du bør sette Replikere til SANN. Ellers bør Replikere settes til USANN. Denne replikeringseffekten er også kjent som en satsvis effekt.

Hvis det eksperimentelle designet er beskrevet av to biologiske faktorer som forventes å samhandle, sett variabelen Interaksjon til TRUE for å vurdere interaksjonen. Legg merke til at for et prosjekt som bare inneholder én biologisk faktor, settes variabelen Samhandling automatisk til USANN.

Differensiell analyse
DEG identifisert for alle testede kontraster er tilgjengelige i tekstfiler som ligger i deres respektive underkataloger i DiffAnalysis / katalogen. Som standard testes alle kontrastene. Avhengig av eksperimentell design, kan noen kontraster være av begrenset biologisk interesse (for eksempel et gjennomsnitt på flere genotyper). Merk at den falske positive kontrollen utføres per kontrast, noe som sikrer at potensielt irrelevante kontraster ikke påvirker analysen. Det er imidlertid mulig å produsere tomter som bare inneholder interessekontrasten ved å handle på den Index_Contrast variabelen. Detaljer er tilgjengelig i den elektroniske referansehåndboken.

Det er viktig å merke seg at DiffAnalysis/ også inneholder de rå p-verdihistogrammene som nylig har vist seg å være den beste måten å vurdere kvaliteten på modelleringen11. Den forventede fordelingen av rå p-verdier skal være jevn, med muligens en topp i venstre ende av fordelingen. En høy topp for en rå p-verdi på 1 indikerer problemer med modelltilpasning. I dette tilfellet kan problemet ofte løses ved å øke settet CPM_Cutoff verdien, for eksempel fra 1 til 5. Eksempler på rå histogrammer er tilgjengelige i figur 4A og i https://forgemia.inra.fr/GNet/dicoexpress/-/blob/master/DiCoExpress_Tutorial.pdf. For hver testet kontrast tegnes uttrykksprofiler for den identifiserte DEG-verdien (topp 20 som standard) i filen Top20_Profile.pdf ligger i katalogen for kontrasten. Et eksempel på ett gen identifisert som differensielt uttrykt i en kontrast er vist i figur 4B. Antall opp og ned DEG er plottet for hver testet kontrast og finnes i filen Down_Up_DEG.pdf (eksempel i figur 4C).

Analyse av kouttrykk
I vårt eksempel er kouttrykksanalysen utført på foreningen av 5 DEG-lister, identifisert derimot på jakt etter behandlingsresponsvariasjon mellom genotype 1 eller 2 mot andre. Venn-diagram over DEG er vist i figur 5A. De meduttrykte genene for hver identifiserte klynge skrives ut i individuelle tekstfiler (en fil per klynge). Uttrykksprofilene til de forskjellige klyngene sammen er tilgjengelige i den Boxplot_profiles_Coseq.pdf filen (se eksempel i figur 5B). Selv om tilpasningsalternativer er tilgjengelige, bør de bare brukes av avanserte brukere. Se referansehåndboken for en fullstendig forklaring av de forskjellige parameterne.

Berikelse Analyse
Lister som tilsvarer kontrast- og klyngeberikelsesanalysene er plassert i deres respektive kataloger. Et merknadsbegrep funnet som signifikant i denne analysen kan enten være over- eller underrepresentert i Gene_ID listen. Denne informasjonen er inkludert i utdatafilen.

Merk at testbeslutningen tas fra de rå p-verdiene. Hvis brukeren ønsker å justere de rå p-verdiene a posteriori, er de tilgjengelige i filene med suffikset All_Enrichment_Results.txt.

Gyldigheten av DiCoExpress
Selv om DiCoExpress er utviklet for å lette multifaktorielle RNA-Seq-eksperimentanalyser, avhenger gyldigheten av resultatene i stor grad av egenskapene til datasettet. Flere utganger bør kontrolleres nøye før noen gyldig tolkning av resultatene. For det første, i kvalitetskontrolltrinnet, bør den normaliserte bibliotekstørrelsen være lik, og det normaliserte genuttrykkstallet skal vise lignende median og varians i både intra- og mellomforhold. Deretter bør det tas særlig hensyn til formen på de rå p-verdihistogrammene. Til slutt, når du utfører en samuttrykksanalyse, indikerer en klart definert minimumsverdi for ICL en god kvalitet. Hvis disse betingelsene ikke er oppfylt, vil enhver tolkning av resultatene sannsynligvis være feil.

Figure 1
Figur 1. DiCoExpress-analysepipelinen.  De syv trinnene i en komplett RNA-Seq-analyse ved hjelp av DiCoExpress er angitt blå bokser representerer trinn der statistiske metoder utføres. Trinn 7 (Berikelse) kan gjøres etter trinn 4 (differensialanalyse og heter 7.1 i figur 2) og/eller trinn 6 (samuttrykksanalyse og heter 7.2 i figur 2). Røde tall tilsvarer trinnnumrene i protokollen. Klikk her for å se en større versjon av dette tallet.

Figure 2
Figur 2. Skjermbilder av DiCoExpress-kommandolinjer.  Kommandolinjer som brukes til å analysere opplæringsdatasettet, er angitt. Tallet i svarte sirkler er det samme som i figur 1. Røde rektangler markerer linjer som kan tilpasses av brukeren. Klikk her for å se en større versjon av dette tallet.

Figure 3
Figur 3: Representative resultater av kvalitetskontrolltrinnet.  Figur oppnådd med datasettet "Tutorial" normaliserte teller. A) Boxplot av normaliserte tellinger. B) PCA på normaliserte tellinger. Klikk her for å se en større versjon av dette tallet.

Figure 4
Figur 4: Representative resultater fra differensialuttrykksanalysen Figur oppnådd med datasettet "Tutorial". A) Rå p-verdi histogram av [control_Genotype2 - control_Genotype3] kontrast. B) C1G62301.1 genuttrykksprofil i hver genotype og tilstand, en av Top20 differensielt uttrykt gen i [control_Genotype2 - control_Genotype3] kontrast. C) Antall opp og ned differensielt uttrykte gener i hver testet kontrast. Klikk her for å se en større versjon av dette tallet.

Figure 5
Figur 5: Representative resultater fra koekspresjonsanalysen.  Figur oppnådd med datasettet "Tutorial". A) Venn-diagram over DEG fra kontrastene 5 "interaksjon med genotype 1 og 2". DEG fra variasjonen i behandlingsrespons mellom genotype 1 og 2, 1 og 3, 1 og 4, 2 og 3, 2 og 4 er i henholdsvis sirkel A, B, C, D, E. Tallet skrevet nederst til høyre ("14877") er antall gener som ikke er DE i noen liste. B) Ekspresjonsprofil av gener fra kouttrykket Cluster 3. Figuren er hentet fra Tutorial_Interaction_with_Genotypes_1_and_2_Boxplot_profiles_Coseq.pdf. Klikk her for å se en større versjon av dette tallet.

Tilleggsfil. Vennligst klikk her for å laste ned denne filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Fordi RNA-Seq har blitt en allestedsnærværende metode i biologiske studier, er det et konstant behov for å utvikle allsidige og brukervennlige analyseverktøy. Et kritisk skritt i de fleste analytiske arbeidsflyter er ofte å identifisere med sikkerhet genene som er differensielt uttrykt mellom biologiske tilstander og / eller behandlinger15. Produksjonen av pålitelige resultater krever riktig statistisk modellering, som har vært motivasjonen for utviklingen av DiCoExpress.

DiCoExpress er et skriptbasert verktøy implementert i R som tar sikte på å hjelpe biologer til å dra full nytte av mulighetene for nøytrale sammenligningsstudier når de leter etter DEG. DiCoExpress gir en standardisert rørledning som gir muligheten til å evaluere datastrukturen og kvaliteten, og sikrer derfor at den beste modelleringsmetoden velges. Uten noen spesiell kunnskap i statistikk eller R-programmering, tillater det nybegynnere å utføre en komplett RNA-Seq-analyse fra kvalitetskontroller til samuttrykk gjennom differensialanalyse basert på kontraster i generaliserte lineære modeller. Det er viktig å merke seg at DiCoExpress fokuserer på den statistiske delen av en RNA-Seq-analyse og krever en telletabell som input. De mange bioinformatikkmetodene dedikert til RNA-Seq-lesejusteringer og opprettelse av telletabeller er utenfor verktøyets omfang. De har likevel direkte innflytelse på kvaliteten på sluttanalysen og bør velges nøye.

Selv om DiCoExpress ikke er et "pek og klikk" -verktøy, gjør katalogarkitekturen og malskriptet som tilbys og brukes i R-Studio-grensesnittet det tilgjengelig for biologer med minimal kunnskap om R. Når DiCoExpress er installert, bør brukerne vite hvordan de bruker en funksjon i R og identifisere nødvendige og valgfrie argumenter. Det første kritiske trinnet er å korrekt gi de to obligatoriske filene som inneholder råtellingene for hvert gen (COUNTS-filen) og den eksperimentelle designbeskrivelsen (TARGET-filen). Den brukte separatoren skal være den samme for hver fil, og beskrivelsen av prøvene skal gjøres på riktig måte i henhold til modalitetene til de biologiske faktorene. Når de to filene er lastet inn i DiCoExpress, blir analysen nesten automatisert til det andre kritiske trinnet, dvs. samuttrykksanalysen. Denne analysen kan faktisk være tidkrevende, og en kraftig beregningsserver kan være nødvendig for å kjøre den på store datasett.

Fordi automatisering av kontrastskrivingen blir utfordrende for mer enn to biologiske faktorer, begrenset vi DiCoExpress til den komplette og ubalanserte utformingen av opptil 2 biologiske faktorer. Hvis et prosjekt inneholder mer enn 2 biologiske faktorer, er en praktisk løsning å kollapse to av de opprinnelige faktorene for å skape en ny. Likevel må man huske på at vanskeligheten med å gi en meningsfull biologisk tolkning øker når det biologiske faktortallet øker.

DiCoExpress er tenkt som et utviklende verktøy, og vi oppfordrer sterkt brukere til å abonnere på adresselisten (https://groupes.renater.fr/sympa/subscribe/dicoexpress). Eventuelle endringer eller forbedringer av verktøyet vil bli annonsert på listen, og vi tar gjerne imot spørsmål eller forslag. Vi håper også at adopsjonen av DiCoExpress av et stort samfunn vil tillate sporing og fiksing av eventuelle feil som kan oppstå i en bestemt analysekontekst. Alle oppdateringer og rettelser vil bli presset til git-katalogen https://forgemia.inra.fr/GNet/dicoexpress.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har ingenting å avsløre

Acknowledgments

Dette arbeidet ble hovedsakelig støttet av ANR PSYCHE (ANR-16-CE20-0009). Forfatterne takker F. Desprez for byggingen av beholderen til DiCoExpress. KB-arbeid støttes av Investment for the Future ANR-10-BTBR-01-01 Amaizing-programmet. GQE- og IPS2-laboratoriene drar nytte av støtte fra Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

Materials

Name Company Catalog Number Comments

DOWNLOAD MATERIALS LIST

References

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. https://www.R-project.org/ (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. Shiny: web application framework. , Available from: https://rdrr.io/cran/shiny/ (2021).
  8. RStudio Team. RStudio: Integrated Development for R. RStudio, PBC. , Boston, MA. at (n.d (2020).
  9. Lambert, I., Roux, C. P. -L., Colella, S., Martin-Magniette, M. -L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  10. Dillies, M. -A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  11. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  12. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  13. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  14. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  15. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Tags

Prosjektering utgave 185
Analysere multifaktorielle RNA-Seq-eksperimenter med DiCoExpress
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Baudry, K., Paysant-Le Roux, C.,More

Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. L. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter