Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Engineering

Analysera multifaktoriella RNA-Seq-experiment med DiCoExpress

Published: July 29, 2022 doi: 10.3791/62566

Summary

DiCoExpress är ett skriptbaserat verktyg implementerat i R för att utföra en RNA-Seq-analys från kvalitetskontroll till samuttryck. DiCoExpress hanterar komplett och obalanserad design upp till 2 biologiska faktorer. Denna videohandledning guidar användaren genom de olika funktionerna i DiCoExpress.

Abstract

Korrekt användning av statistisk modellering i NGS-dataanalys kräver en avancerad expertisnivå. Det har nyligen funnits en växande konsensus om att använda generaliserade linjära modeller för differentialanalys av RNA-Seq-data och fördelen med blandningsmodeller för att utföra samuttrycksanalys. För att erbjuda en hanterad inställning för att använda dessa modelleringsmetoder utvecklade vi DiCoExpress som tillhandahåller en standardiserad R-pipeline för att utföra en RNA-Seq-analys. Utan någon särskild kunskap inom statistik eller R-programmering kan nybörjare utföra en komplett RNA-Seq-analys från kvalitetskontroller till samuttryck genom differentialanalys baserad på kontraster i en generaliserad linjär modell. En anrikningsanalys föreslås både på listorna över differentiellt uttryckta gener och de samuttryckta genklusterna. Denna videohandledning är tänkt som ett steg-för-steg-protokoll för att hjälpa användare att dra full nytta av DiCoExpress och dess potential att stärka den biologiska tolkningen av ett RNA-Seq-experiment.

Introduction

Nästa generations RNA-sekvenseringsteknik (RNA-Seq) är nu guldstandarden för transkriptomanalys1. Sedan teknikens tidiga dagar har de kombinerade ansträngningarna från bioinformatiker och biostatistiker resulterat i utvecklingen av många metoder som hanterar alla väsentliga steg i transkriptomiska analyser, från kartläggning till transkriptkvantifiering2. De flesta av de verktyg som idag finns tillgängliga för biologen är utvecklade inom R-mjukvarumiljön för statistisk beräkning och grafer3, och många paket för biologisk dataanalys finns tillgängliga i Bioconductor-förvaret4. Dessa paket erbjuder total kontroll och anpassning av analysen, men de kostar omfattande användning av ett kommandoradsgränssnitt. Eftersom många biologer är mer bekväma med en "peka och klicka" -metod5, kräver demokratiseringen av RNA-Seq-analyser utveckling av mer användarvänliga gränssnitt eller protokoll6. Det är till exempel möjligt att bygga webbgränssnitt för R-paket med Shiny7, och kommandoradsdataanalys görs mer intuitiv med R-studio 8-gränssnittet. Utvecklingen av dedikerade, steg-för-steg-handledning kan också hjälpa den nya användaren. I synnerhet kompletterar en videohandledning en klassisk text, vilket leder till en djupare förståelse för alla procedursteg.

Vi har nyligen utvecklat DiCoExpress9, ett verktyg för att analysera multifaktoriella RNA-Seq-experiment i R med metoder som anses vara de bästa baserade på neutrala jämförelsestudier10,11,12. Med utgångspunkt från en räkningstabell föreslår DiCoExpress ett datakvalitetskontrollsteg följt av en differentiell genuttrycksanalys (edgeR-paket13) med hjälp av en generaliserad linjär modell (GLM) och generering av samuttryckskluster med gaussiska blandningsmodeller (coseq-paket12). DiCoExpress hanterar komplett och obalanserad design upp till 2 biologiska faktorer (dvs. genotyp och behandling) och en teknisk faktor (dvs. replikera). DiCoExpress originalitet ligger i dess katalogarkitektur som lagrar och organiserar data, skript och resultat och i automatiseringen av skrivandet av kontrasterna så att användaren kan undersöka många frågor inom samma statistiska modell. Man försökte också tillhandahålla grafiska resultat som illustrerar de statistiska resultaten.

DiCoExpress-arbetsytan är tillgänglig på https://forgemia.inra.fr/GNet/dicoexpress. Den innehåller fyra kataloger, två pdf och två textfiler. Katalogen Data/ innehåller indatauppsättningarna. För det här protokollet använder vi datauppsättningen "Tutorial". Katalogen Källor/ innehåller sju R-funktioner som är nödvändiga för att utföra analysen och får inte ändras av användaren. Analysen körs med hjälp av skript som lagras i katalogen Template_scripts/. Den som används i detta protokoll kallas DiCoExpress_Tutorial_JoVE.R och kan enkelt anpassas till alla transkriptomiska projekt. Alla resultat skrivs i katalogen Resultat/ och lagras i en underkatalog med namnet enligt projektet. Den README.md filen innehåller användbar installationsinformation, och eventuella specifika detaljer om metoden och dess användning finns i DiCoExpress_Reference_Manual.pdf filen.

Denna videohandledning guidar användaren genom de olika funktionerna i DiCoExpress i syfte att övervinna den motvilja som biologer känner med hjälp av kommandoradsbaserade verktyg. Vi presenterar här analysen av en artificiell RNA-Seq-dataset som beskriver genuttryck i tre biologiska replikat av fyra genotyper, med eller utan behandling. Vi kommer nu att gå igenom de olika stegen i DiCoExpress-arbetsflödet som illustreras i figur 1. Skriptet som beskrivs i avsnittet Protokoll och indatafiler finns på webbplatsen: https://forgemia.inra.fr/GNet/dicoexpress

Förbereda datafiler
De fyra csv-filerna som lagras i katalogen Data/ ska namnges enligt projektnamnet. I vårt exempel börjar därför alla namn med "Tutorial", och vi kommer att ställa in Project_Name = "Tutorial" i steg 4 i protokollet. Avgränsaren som används i csv-filerna måste anges i sep-variabeln i steg 4. I vår "tutorial"-datauppsättning är avgränsaren en tabulering. För avancerade användare kan den fullständiga datauppsättningen reduceras till en delmängd genom att tillhandahålla en lista med instruktioner och en ny Project_Name via filtervariabeln. Det här alternativet undviker redundanta kopior av indatafilerna och verifierar FAIR-principerna14.

Bland de fyra csv-filerna är endast COUNTS- och TARGET-filerna obligatoriska. De innehåller råräkningarna för varje gen (här Tutorial_COUNTS.csv) och den experimentella designbeskrivningen (här Tutorial_TARGET.csv). I target.csv-filen beskrivs varje prov (ett prov per rad) med en modalitet för varje biologisk eller teknisk faktor (i kolumnerna). Vi rekommenderar starkt att namnen som valts för metoderna börjar med en bokstav, inte en siffra. Namnet på den sista kolumnen ("Replikera") kan inte ändras. Slutligen måste exempelnamnen (första kolumnen) matcha namnen i rubrikerna i filen COUNTS.csv (Genotype1_control_rep1 i vårt exempel). Filen Berikning.csv där varje rad innehåller en Gene_ID och en anteckningsterm krävs endast om användaren planerar att köra berikningsanalysen. Om en gen har flera kommentarer måste de skrivas på olika linjer. Filen Annotation.csv är valfri och används för att lägga till en kort beskrivning av varje gen i utdatafilerna. Det bästa sättet att få en anteckningsfil är att hämta informationen från dedikerade databaser (t.ex. Thalemine: https://bar.utoronto.ca/thalemine/begin.do för Arabidopsis).

Installation av DiCoExpress
DiCoExpress kräver specifika R-paket. Använd kommandoradskällan(".. /Sources/Install_Packages.R") i R-konsolen för att kontrollera den nödvändiga paketinstallationsstatusen. För användare på Linux är en annan lösning att installera behållaren dedikerad till DiCoExpress och tillgänglig på https://forgemia.inra.fr/GNet/dicoexpress/container_registry. Per definition innehåller den här containern DiCoExpress med alla delar som behövs, till exempel bibliotek och andra beroenden.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. DiCoExpress

  1. Öppna en R Studio-session och ange katalogen till Template_scripts.
  2. Öppna DiCoExpress_Tutorial.R-skriptet i R studio.
  3. Ladda DiCoExpress-funktioner i R-sessionen med följande kommandon:
    > källa(".. /Källor/Load_Functions.R")
    > Load_Functions()
    > Data_Directory = ".. /Data"
    > Results_Directory = ".. /Resultat/"
  4. Läs in datafiler i R-sessionen med följande kommandon:
    > Project_Name = "Handledning"
    > filter = NULL
    > sep="\t"
    > Data_Files = Load_Data_Files(Data_Directory, Project_Name, Filter, sep)
  5. Dela upp objektet Data_Files i flera objekt för att enkelt manipulera dem:
    > Project_Name = Data_Files$Project_Name
    > Mål = Data_Files$Mål
    > Raw_Counts = Data_Files$Raw_Counts
    > Annotering = Data_Files$Annotering
    > Reference_Enrichment = Data_Files$Reference_Enrichment
  6. Välj en strategi bland "NbConditions", "NbReplicates" eller "filterByExpr" och ett tröskelvärde för att filtrera låguttryckta gener. Här väljer vi
    > Filter_Strategy = "NbReplicates"
    > CPM_Cutoff = 1
  7. Ange gruppfärger med kommandot
    > Color_Group = NULL
    OBS: När den är inställd på NULL tillskriver R automatiskt färger till de biologiska förhållandena. Annars anger du en vektor som anger en färg per biologisk grupp.
  8. Välj en normaliseringsmetod bland de som accepteras av funktionen calcNormFactors för edgeR. Som till exempel
    > Normalization_Method = "TMM"
  9. Utför kvalitetskontrollen genom att utföra följande funktion
    > Quality_Control(Data_Directory, Results_Directory, Project_Name, Target, Raw_Counts, Filter_Strategy, Color_Group, CPM_Cutoff Normalization_Method)
  10. State Replicate = TRUE om data paras ihop enligt replikeringsfaktorn, FALSE annars.
  11. Tilldela interaktion = SANT för att överväga en interaktion mellan de två biologiska faktorerna, FALSKT annars.
  12. Ange statistikmodellen med följande kommandon
    > modell = GLM_Contrasts(Results_Directory, Project_Name, mål, replikera, interaktion)
    > GLM_Model = Modell$GLM_Model
    > Kontraster = Modell$Kontraster
  13. Definiera tröskelvärdet för falsk upptäcktsfrekvens, här 0,05
    > Alpha_DiffAnalysis =0,05
  14. Utför differentialanalysen med följande kommandon
    > Index_Contrast=1:nrow(Kontraster)
    > NbGenes_Profiles = 20
    > NbGenes_Clustering = 50
    > DiffAnalysis.edgeR (Data_Directory, Results_Directory, Project_Name, Target, Raw_Counts, GLM_Model, Kontraster, Index_Contrast, Filter_Strategy, Alpha_DiffAnalysis, NbGenes_Profiles, NbGenes_Clustering, CPM_Cutoff Normalization_Method)
  15. Fixa ett tröskelvärde för anrikningsanalysen, här 0,01
    > Alpha_Enrichment = 0,01
  16. Utföra anrikningsanalys av differentiellt uttryckta gener (DEG) listor
    > Titel = NULL
    > Berikning(Results_Directory, Project_Name, titel, Reference_Enrichment Alpha_Enrichment)
  17. Välj DEG-listor som ska jämföras. Som till exempel,
    > Grupper = Kontraster$Kontraster[24:28]
  18. Ange ett namn för listjämförelsen. Det här namnet används för katalogen där utdatafilerna ska sparas
    > Titel = "Interaction_with_Genotypes_1_and_2"
  19. Ange den åtgärd som ska utföras i DEG-listorna genom att ange parametern Operation till union eller korsning. Vi väljer
    > Operation = "Unionen"
  20. Jämför DEGs-listorna
    > Venn_IntersectUnion(Data_Directory, Results_Directory, Project_Name, titel, grupper, operation)
  21. Utföra en samuttrycksanalys med funktionen
    > Coexpression_coseq(Data_Directory, Results_Directory, Project_Name, Titel, Mål, Raw_Counts Color_Group)
  22. Utföra berikningsanalys av samuttrycksklustren
    > Berikning(Results_Directory, Project_Name, titel, Reference_Enrichment Alpha_Enrichment)
  23. Generera två loggfiler som innehåller all nödvändig information för att återskapa analysen
    > Save_Parameters( )
    OBS: Kommandorader som används i detta protokoll visas i figur 2. Rader som måste ändras för att analysera en annan datauppsättning markeras.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Alla DiCoExpress-utgångar sparas i Tutorial / katalogen, som själv placeras i Resultat / katalogen. Vi ger här lite vägledning för att bedöma analysens övergripande kvalitet.

Kvalitetskontroll
Kvalitetskontrollutgången, som finns i Quality_Control / -katalogen, är avgörande för att verifiera att RNA-Seq-analysresultaten är tillförlitliga. Den Data_Quality_Control.pdf filen innehåller flera diagram som erhållits med råa och normaliserade data som kan användas för att identifiera eventuella problem med data. Det totala normaliserade antalet per prov bör vara liknande när man jämför både intra- och mellanförhållanden. Dessutom förväntas de normaliserade genuttrycksräkningarna uppvisa liknande median och varians både under intra- och interförhållanden (figur 3A). Annars kan detta vara tecknet på icke-liknande varians mellan villkor, ett problem som kan vara problematiskt för modellanpassning.

Slutligen är PCA-diagram på normaliserade räkningar som produceras i DiCoExpress till hjälp för att identifiera potentiella underliggande datastrukturer (figur 3B). I vårt exempel finns det ingen klustring enligt replikaten, vilket innebär att denna faktor inte är diskriminerande. Samtidigt kan en tydlig skillnad identifieras mellan behandlingar. Dessa resultat indikerar en datamängd av god kvalitet eftersom den biologiska effekten alltid förväntas vara starkare än den replikerade. Sammanfattningsvis hindrar den övergripande kvaliteten som observeras här inte någon efterföljande analys av hela datasetet.

Statistisk modellering
DiCoExpress underlättar skrivandet av den statistiska modelleringen av logaritmen för medeluttrycket från de två variablerna Replikera och Interaktion. En replikateffekt är tänkbar om proverna från alla biologiska förhållanden samlas in samtidigt och att detta experiment replikeras på olika dagar för att mäta biologisk variabilitet. I ett typiskt växtvetenskapligt experiment odlas till exempel prover i samma tillväxtkammare oavsett det biologiska tillstånd som studeras och biologiska replikat motsvarar experiment som startats vid olika dagar. I det här fallet paras exemplen på samma replikat ihop och du bör ange Replikera till SANT. Annars ska Replikera vara inställt på FALSE. Denna replikeringseffekt är också känd som en batcheffekt.

Om den experimentella designen beskrivs av två biologiska faktorer som förväntas interagera, ställ in variabeln interaktion på TRUE för att överväga interaktionen. Observera att för ett projekt som bara innehåller en biologisk faktor ställs variabeln Interaktion automatiskt in på FALSE.

Differentiell analys
DEG som identifierats för alla testade kontraster finns i textfiler som finns i deras respektive underkataloger i katalogen DiffAnalysis/. Som standard testas alla kontraster. Beroende på den experimentella designen kan vissa kontraster vara av begränsat biologiskt intresse (till exempel ett genomsnitt på flera genotyper). Observera att den falska positiva kontrollen utförs per kontrast som säkerställer att potentiellt irrelevanta kontraster inte påverkar analysen. Det är dock möjligt att producera tomter som endast innehåller kontrasten mellan intressen genom att agera på den Index_Contrast variabeln. Mer information finns i online-referenshandboken.

Det är viktigt att notera att DiffAnalysis/ även innehåller de råa p-värdehistogram som nyligen har visat sig vara det bästa sättet att bedöma kvaliteten på modelleringen11. Den förväntade fördelningen av råa p-värden ska vara enhetlig, med möjligen en topp på vänster sida av fördelningen. En hög topp för ett rå p-värde på 1 är ett tecken på modellanpassningsproblem. I det här fallet kan problemet ofta lösas genom att öka uppsättningen CPM_Cutoff värdet, till exempel från 1 till 5. Exempel på råa histogram finns i figur 4A och i https://forgemia.inra.fr/GNet/dicoexpress/-/blob/master/DiCoExpress_Tutorial.pdf. För varje testad kontrast ritas uttrycksprofiler för den översta DEG som identifieras (topp 20 som standard) i filen Top20_Profile.pdf som finns i kontrastens katalog. Ett exempel för en gen som identifieras som differentiellt uttryckt i en kontrast visas i figur 4B. Antalet upp- och nedgångar DEG ritas för varje testad kontrast och finns i filen Down_Up_DEG.pdf (exempel i figur 4C).

Analys av samuttryck
I vårt exempel utförs samuttrycksanalysen på föreningen av 5 DEG-listor, identifierade av kontrast som letar efter behandlingssvarsvariation mellan Genotyp 1 eller 2 mot andra. Venndiagram över DEG visas i figur 5A. De samuttryckta generna för varje identifierat kluster skrivs ut i enskilda textfiler (en fil per kluster). Uttrycksprofilerna för de olika klustren tillsammans är tillgängliga i Boxplot_profiles_Coseq.pdf-filen (se exempel i bild 5B). Även om anpassningsalternativ är tillgängliga bör de endast användas av avancerade användare. Se referenshandboken för en fullständig förklaring av de olika parametrarna.

Anrikningsanalys
Listor som motsvarar kontrast- och klusterberikningsanalyserna finns i deras respektive kataloger. En anteckningsterm som finns som signifikant i denna analys kan vara antingen över- eller underrepresenterad i Gene_ID-listan. Den här informationen ingår i utdatafilen.

Observera att testbeslutet fattas utifrån de råa p-värdena. Om användaren vill justera de råa p-värdena i efterhand finns de tillgängliga i filerna med suffix All_Enrichment_Results.txt.

Giltighet av DiCoExpress
Även om DiCoExpress har utvecklats för att underlätta multifaktoriella RNA-Seq-experimentanalyser, beror giltigheten av dess resultat till stor del på datasetets egenskaper. Flera utdata bör noggrant kontrolleras innan någon giltig tolkning av resultaten görs. För det första, i kvalitetskontrollsteget, bör den normaliserade biblioteksstorleken vara liknande och det normaliserade genuttrycksantalet bör uppvisa liknande median och varians i både intra- och inter-förhållanden. Därefter bör särskild uppmärksamhet ägnas åt formen på de råa p-värdehistogrammen. Slutligen, när man utför en samuttrycksanalys, är ett tydligt definierat minimivärde för ICL ett tecken på en god kvalitet. Om dessa villkor inte är uppfyllda är det troligt att någon tolkning av resultaten är felaktig.

Figure 1
Figur 1. Pipelinen för DiCoExpress-analys.  De sju stegen i en fullständig RNA-Seq-analys med DiCoExpress indikeras blå rutor representerar steg där statistiska metoder utförs. Steg 7 (Berikning) kan göras efter steg 4 (differentialanalys och heter 7.1 i figur 2) och/eller steg 6 (samuttrycksanalys och heter 7.2 i figur 2). Röda siffror motsvarar stegnumren i protokollet. Klicka här för att se en större version av denna siffra.

Figure 2
Figur 2. Skärmdumpar av DiCoExpress-kommandorader.  Kommandorader som används för att analysera självstudiedatauppsättningen anges. Siffran i svarta cirklar är densamma som i figur 1. Röda rektanglar markerar linjer som kan anpassas av användaren. Klicka här för att se en större version av denna siffra.

Figure 3
Figur 3: Representativa resultat av kvalitetskontrollsteget.  Bild som hämtas med datauppsättningen "Självstudie" normaliserade antal. A) Boxplot av normaliserade räkningar. B) PCA på normaliserade räkningar. Klicka här för att se en större version av denna siffra.

Figure 4
Bild 4: Representativa resultat av differentialuttrycksanalysen Figur som erhållits med datauppsättningen "Självstudie". A) Rå p-värde histogram av [control_Genotype2 - control_Genotype3] kontrast. B) C1G62301.1 genuttrycksprofil i varje genotyp och tillstånd, en av de 20 bästa differentiellt uttryckta generna i kontrasten [control_Genotype2 - control_Genotype3]. C) Antal upp och ner differentiellt uttryckta gener i varje testad kontrast. Klicka här för att se en större version av denna siffra.

Figure 5
Figur 5: Representativa resultat av coexpression-analysen.  Bild som erhållits med datauppsättningen "Självstudie". A) Venndiagram över DEG från 5 "interaktion med genotyp 1 och 2" kontraster. DEG från behandlingssvarsvariationen mellan genotyp 1 och 2, 1 och 3, 1 och 4, 2 och 3, 2 och 4 är i cirkel A, B, C, D, E respektive. Numret skrivet längst ner till höger ("14877") är antalet gener som inte är DE i någon lista. B) Uttrycksprofil för gener från coexpression Cluster 3. Figuren extraheras från Tutorial_Interaction_with_Genotypes_1_and_2_Boxplot_profiles_Coseq.pdf. Klicka här för att se en större version av denna siffra.

Kompletterande fil. Klicka här för att ladda ner den här filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Eftersom RNA-Seq har blivit en allestädes närvarande metod i biologiska studier finns det ett ständigt behov av att utveckla mångsidiga och användarvänliga analysverktyg. Ett kritiskt steg inom de flesta analytiska arbetsflöden är ofta att med säkerhet identifiera de gener som uttrycks olika mellan biologiska tillstånd och/eller behandlingar15. Produktionen av tillförlitliga resultat kräver korrekt statistisk modellering, vilket har varit motivationen för utvecklingen av DiCoExpress.

DiCoExpress är ett skriptbaserat verktyg implementerat i R som syftar till att hjälpa biologer att dra full nytta av möjligheterna till neutrala jämförelsestudier när de letar efter DEG. DiCoExpress tillhandahåller en standardiserad pipeline som erbjuder möjlighet att utvärdera datastrukturen och kvaliteten, vilket säkerställer att den bästa modelleringsmetoden väljs. Utan någon speciell kunskap inom statistik eller R-programmering tillåter det nybörjare att utföra en komplett RNA-Seq-analys från kvalitetskontroller till samuttryck genom differentialanalys baserad på kontraster inom generaliserade linjära modeller. Det är viktigt att notera att DiCoExpress fokuserar på den statistiska delen av en RNA-Seq-analys och kräver en räkningstabell som indata. De många bioinformatikmetoderna som är dedikerade till RNA-Seq-läsjusteringar och skapandet av räkningstabeller ligger utanför verktygets omfattning. De har dock ett direkt inflytande på kvaliteten på den slutliga analysen och bör väljas noggrant.

Även om DiCoExpress inte är ett "peka och klicka" -verktyg, gör dess katalogarkitektur och mallskriptet som tillhandahålls och används i R-Studio-gränssnittet det tillgängligt för biologer med minimal kunskap om R. När DiCoExpress har installerats bör användarna veta hur man använder en funktion i R och identifiera obligatoriska och valfria argument. Det första kritiska steget är att korrekt tillhandahålla de två obligatoriska filerna som innehåller råräkningarna för varje gen (COUNTS-filen) och den experimentella designbeskrivningen (TARGET-filen). Den använda separatorn bör vara densamma för varje fil och beskrivningen av proverna bör göras på lämpligt sätt i enlighet med formerna för de biologiska faktorerna. När de två filerna har laddats i DiCoExpress är analysen nästan automatiserad tills det andra kritiska steget, dvs samuttrycksanalysen. Denna analys kan verkligen vara tidskrävande och en kraftfull beräkningsserver kan krävas för att köra den på stora datamängder.

Eftersom automatisering av kontrastskrivningen blir utmanande för mer än två biologiska faktorer begränsade vi DiCoExpress till den fullständiga och obalanserade designen av upp till 2 biologiska faktorer. Om ett projekt innehåller mer än 2 biologiska faktorer är en praktisk lösning att kollapsa två av de ursprungliga faktorerna för att skapa en ny. Ändå måste man komma ihåg att svårigheten att ge en meningsfull biologisk tolkning ökar när det biologiska faktorantalet ökar.

DiCoExpress är tänkt som ett utvecklande verktyg och vi uppmuntrar starkt användare att prenumerera på e-postlistan (https://groupes.renater.fr/sympa/subscribe/dicoexpress). Eventuella ändringar eller förbättringar av verktyget kommer att meddelas på listan och vi välkomnar frågor eller förslag. Vi hoppas också att antagandet av DiCoExpress av en stor gemenskap kommer att göra det möjligt att spåra och fixa eventuella buggar som kan uppstå i ett visst analyssammanhang. Alla uppdateringar och korrigeringar skickas till git-katalogen https://forgemia.inra.fr/GNet/dicoexpress.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Författarna har inget att avslöja

Acknowledgments

Detta arbete stöddes huvudsakligen av ANR PSYCHE (ANR-16-CE20-0009). Författarna tackar F. Desprez för byggandet av behållaren i DiCoExpress. KB-arbetet stöds av programmet Investment for the Future ANR-10-BTBR-01-01 Amaizing. GQE- och IPS2-laboratorierna får stöd från Saclay Plant Sciences-SPS (ANR-17-EUR-0007).

Materials

Name Company Catalog Number Comments

DOWNLOAD MATERIALS LIST

References

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. https://www.R-project.org/ (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. Shiny: web application framework. , Available from: https://rdrr.io/cran/shiny/ (2021).
  8. RStudio Team. RStudio: Integrated Development for R. RStudio, PBC. , Boston, MA. at (n.d (2020).
  9. Lambert, I., Roux, C. P. -L., Colella, S., Martin-Magniette, M. -L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  10. Dillies, M. -A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  11. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  12. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  13. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  14. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  15. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Tags

Teknik utgåva 185
Analysera multifaktoriella RNA-Seq-experiment med DiCoExpress
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Baudry, K., Paysant-Le Roux, C.,More

Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. L. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter