Waiting
Login-Verarbeitung ...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Cancer Research

Tre metoder til differentialudtryksanalyse til RNA-sekventering: limma, EdgeR, DESeq2

Published: September 18, 2021 doi: 10.3791/62528
* These authors contributed equally

Summary

Der blev leveret en detaljeret protokol over differentialudtryksanalysemetoder til RNA-sekventering: limma, EdgeR, DESeq2.

Abstract

RNA sekventering (RNA-seq) er en af de mest anvendte teknologier i transcriptomics, da det kan afsløre forholdet mellem den genetiske ændring og komplekse biologiske processer og har stor værdi i diagnostik, prognostikere og terapi af tumorer. Differentieret analyse af RNA-seq-data er afgørende for at identificere afvigende transskriptioner, og limma, EdgeR og DESeq2 er effektive værktøjer til differentialanalyse. RNA-seq differentialanalyse kræver dog visse færdigheder med R-sprog og evnen til at vælge en passende metode, som mangler i læseplanen for medicinsk uddannelse.

Heri leverer vi den detaljerede protokol til at identificere differentierede udtrykte gener (DEGs) mellem cholangiocarcinoma (CHOL) og normale væv gennem limma, DESeq2 og EdgeR, og resultaterne er vist i vulkanplot og Venn-diagrammer. De tre protokoller af limma, DESeq2 og EdgeR er ens, men har forskellige trin blandt analyseprocesserne. En lineær model bruges f.eks. Derudover er de normaliserede RNA-seq count data nødvendige for EdgeR og limma, men er ikke nødvendige for DESeq2.

Her leverer vi en detaljeret protokol for tre differentialanalysemetoder: limma, EdgeR og DESeq2. Resultaterne af de tre metoder overlapper delvis hinanden. Alle tre metoder har deres egne fordele, og valget af metode afhænger kun af dataene.

Introduction

RNA-sekventering (RNA-seq) er en af de mest anvendte teknologier i transcriptomics med mange fordele (f.eks. høj datagen reproducerbarhed) og har dramatisk øget vores forståelse af funktionerne og dynamikken i komplekse biologiske processer1,2. Identifikation af aberrate udskrifter under forskellige biologiske sammenhænge, som også er kendt som differentieret udtrykte gener (DEGs), er et vigtigt skridt i RNA-seq analyse. RNA-seq gør det muligt at få en dyb forståelse af patogeneserelaterede molekylære mekanismer og biologiske funktioner. Derfor er differentialanalyse blevet betragtet som værdifuld for diagnostik, prognostik og terapi af tumorer3,4,5. I øjeblikket er der udviklet flere open source R/Bioconductor-pakker til RNA-seq differentialudtryksanalyse, især limma, DESeq2 og EdgeR1,6,7. Differentialanalyse kræver imidlertid visse færdigheder med R-sprog og evnen til at vælge den rigtige metode, som mangler i læseplanen for medicinsk uddannelse.

I denne protokol, baseret på cholangiocarcinoma (CHOL) RNA-seq tælle data udvundet fra The Cancer Genome Atlas (TCGA), tre af de mest kendte metoder (limma8, EdgeR9 og DESeq210) blev udført, henholdsvis af R-program11 til at identificere DEGs mellem CHOL og normale væv. De tre protokoller af limma, EdgeR og DESeq2 er ens, men har forskellige trin blandt analyseprocesserne. De normaliserede RNA-seq-optællingsdata erf.eks. Desuden er edgeR specielt velegnet til RNA-seq data, mens limmaen bruges til mikroarrays og RNA-seq. En lineær model vedtages af limma for at vurdere DEGs12, mens statistikkerne i edgeR er baseret på de negative binomialfordelinger, herunder empirisk Bayes-skøn, nøjagtige tests, generaliserede lineære modeller og kvasi-sandsynlighedstest9.

Sammenfattende leverer vi de detaljerede protokoller for RNA-seq differentialudtryksanalyse ved hjælp af henholdsvis limma, DESeq2 og EdgeR. Ved at henvise til denne artikel kan brugerne nemt udføre RNA-seq differentialanalysen og vælge passende differentialanalysemetoder til deres data.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

BEMÆRK: Åbn R-studiet program og indlæse R-fil "DEGs.R", kan filen hentes fra supplerende filer / scripts.

1. Download og forbehandling af data

  1. Download de høje gennemløb sekventering (HTSeq) tælle data af cholangiocarcinoma (CHOL) fra The Cancer Genome Atlas (TCGA). Dette trin kan nemt opnås ved hjælp af følgende R-kode.
    1. Klik på Kør for at installere R-pakker.
    2. Klik på Kør for at indlæse R-pakker.
      if(!requireNamespace("BiocManager", quietly=TRUE))
      + install.packages("BiocManager")
      BiocManager::install(c("TCGAbiolinks", "SummarizedExperiment"))
    3. Angiv arbejdsmappen.
      bibliotek (TCGAbiolinks)
      bibliotek (Opsummeret erfaring)
      setwd("C:/Brugere/LIUSHIYI/Desktop")
    4. Vælg kræfttype.
      kræft <- "TCGA-CHOL"
    5. Kør R-koden fra filen "GDCquery.R" for at hente dataene. Filen "GDCquery.R" kan anskaffes fra supplerende filer/scripts:
      kilde("Supplerende filer/Scripts/GDCquery.R")
      hoved(cnt)
      ##TCGA-3X-AAVA-01A-11R-A41I-07
      ##ENSG00000000003 4262
      ##ENSG00000000005 1
      ##ENSG00000000419 1254
      ##ENSG00000000457 699
      ##ENSG00000000460 239
      ##ENSG00000000938 334
      BEMÆRK: Efter udførelsen downloades CHOLHTSeq-tælledataene og navngives "cnt", hvor rækker repræsenterer ensemblegen-id'er, og kolonner repræsenterer prøve-id'er. Læg mærke til tallene på positionerne 14-15 i prøve-id'erne. tal fra 01 til 09 angiver tumorer og spænder fra 10 til 19 angiver normale væv.
  2. Konverter ensemble gen-id'er til gensymboler.
    1. Importer anmærkningsfilen til R i henhold til lagerstien. Anmærkningsfilen (gencode.v22.annotation.gtf) kan hentet fra supplerende filer.
      gtf_v22 <- rtracklayer::import('Supplerende filer/gencode.v22.annotation.gtf')
    2. Kør R-koden fra "gtf_v22. R"-fil, som kan erhverves fra supplerende filer/scripts:
      kilde("Supplerende filer/scripts/gtf_v22. R")
    3. Anvend funktionen "ann" for at konvertere ensemblegen-id'erne til gensymboler.
      cnt=ann(cnt;gtf_v22)
  3. Filtrering af lav udtrykt gener
    1. Klik på Kør for at installere R-pakken "edgeR".
      BiocManager::install("edgeR")
    2. Klik på Kør for at indlæse R-pakken "edgeR".
      bibliotek(kantR)
    3. Kør følgende R-kode for at holde gener med antal pr. million (CPM) værdier større end en ud af mindst to prøver.
      holde <- rækkeSums(cpm(cnt)>1)>=2
      CNT <- as.matrix(cnt[keep,])
      BEMÆRK: CPM-værdien (Counts per million) bruges i stedet for antal læsninger for at eliminere afvigelsen forårsaget af forskellige sekventeringsdybder.

2. Differential udtryksanalyse gennem "limma"

  1. Klik på Kør for at installere R-pakken "limma".
    BiocManager::install("limma")
  2. Klik på Kør for at indlæse R-pakkerne "limma", "edgeR".
    bibliotek (limma)
    bibliotek(kantR)
  3. Kør følgende R-kode for at oprette designmatrixen.
    gruppe <- substring(colnames(cnt),14,15) # Extract group information
    gruppe [gruppe %i% "01"] <- "Cancer" # set '01' as tumor tissue
    gruppe [gruppe %i% "11"] <- "Normal" # set '11' as normal tissue
    gruppe <- factor (group, levels = c("Normal","Cancer"))
    1. Opret designmatrixen.
      design <- model.matrix (~gruppe)
      rækkenavne(design) <- kolonnenavne(cnt)
    2. Opret DGEList-objektet.
      DGE <- DGEList(counts = cnt, group = group)
    3. Normaliser dataene.
      dge <- calcNormFactors(dge, metode = "TMM")
    4. Kør følgende R-kode for at udføre den limma-trend-metodebaserede differentialudtryksanalyse.
      dge
      ##An genstand for klassen "DGEList"
      ##$counts
      ##TCGA-3X-AAVA-01A-11R-A41I-07
      ##TSPAN6 4262
      ##DPM1 1254
      ##SCYL3 699
      ##C1orf112 239
      ##FGR 334
    5. Beregn CPM-værdien.
      logdge <- cpm(dge, log=TRUE, prior.count=3)
    6. Klik på Kør for at tilpasse en lineær model til at forudsige dataene eller udlede relationen mellem variabler.
      fit <- lmFit (logdge, design)
    7. Beregn T-værdien, F-værdien og log-odds baseret på Bayesian.
      passer <-eBayes (fit, trend = TRUE)
    8. Uddrag resultattabellen.
      res_limma<- as.data.frame(topTable(fit,n=Inf))

      hoved(res_limma)
      ## logFC AveExpr t P.Value adj. P.Val B
      ##RP11-252E2.2 -4.899493 -2.488589 -20.88052 2.386656e-25 4.931786e-21 47.28823
      ##BX842568.1 -4.347930 -2.595205 -20.14532 1.082759e-24 1.118706e-20 45.83656
      ##CTC-537E7.3 -5.154894 -2.143292 -19.59571 3.452354e-24 2.216114e-20 44.72001
      ##RP11-468N14.3 -6.532259 -2.029714 -19.49409 4.289807e-24 2.216114e-20 44.51056
      ##AP006216.5 -4.507051 -2.670915 -19.25649 7.153356e-24 2.956339e-20 44.01704
      ##RP11-669E14.4 -4.107204 -2.828311 -18.93246 1.448209e-23 4.987633e-20 43.33543
      #The resultat af differentialudtryksanalyse gemmes i "res_limma", som omfatter gen-id'et, log2 fold ændringsværdi (logFC), det gennemsnitlige log2-udtryksniveau for genet i eksperimentet (AveExpr), den ændrede t-statistik (t), relavent p-værdi (P.Value), den falske opdagelseshastighed (FDR) korrigeret p-værdi (adj. P.Val) og log-oddsene for differentierede udtrykte gener (B)
      BEMÆRK: Funktionen "calcNormFactors()" i "edgeR" blev brugt til at normalisere dataene for at eliminere den indflydelse, der er forårsaget af prøveforberedelse eller bibliotekskonstruktion og sekventering. Ved konstruktionen af designmatrix er det nødvendigt at matche eksperimentelt design (f.eks. vævstype: normalt eller tumorvæv) for at prøve ID'er af matrixen. limma-trenden er velegnet til data, hvis sekventeringsdybde er den samme, mens limma-voom er egnet: i) når prøvebibliotekets størrelse er anderledes; ii) data, der ikke er normaliseret af TMM — der er meget "støj" i dataene. En positiv logFC betyder, at genet er up-reguleret i eksperimentet, mens negativt tal betyder, at genet er nedreguleret.
    9. Identificer DEG'erne.
      res_limma$sig <-as.factor(
      ifelse(res_limma$adj. P.Val < 0,05 & abs(res_limma$logFC) > 2,
      ifelse(res_limma$logFC > 2 ,'up','down'),'not')) # Adj.p-værdien < 0,05 og |log2FC| >= 2 er tærskler til at identificere DEG'erne
      resumé(res_limma$sig)
      # #down ikke op
      ##1880 ​17341 1443
    10. Skriv resultattabellen til en fil.
      skrive.csv(res_limma, fil = 'result_limma.csv')
    11. Klik på Kør for at installere R-pakken "ggplot2".
      install.packages("ggplot2")
    12. Klik på Kør for at indlæse R-pakken "ggplot2".
      bibliotek (ggplot2)
    13. Kør R-koden fra vulkanen. R" for at skabe vulkanplottet. Filen "vulkan. R" kan erhverves fra supplerende filer.
      kilde("Supplerende filer/Scripts/vulkan. R")
      vulkan (res_limma,"logFC","adj. P.Val",2,0.05)
      BEMÆRK: Gener kan kortlægges til forskellige positioner i henhold til deres log2FC- og adj-p-værdier, de opregulerede DEG'er er farvet med rødt, og de nedregulerede DEG'er er farvet med grønt.
    14. Klik på Eksportér for at gemme vulkanplottet.
      BEMÆRK: Vulkanplotterne kan genereres og downloades i forskellige formater (f.eks. pdf, TIFF, PNG, JPEG-format). Gener kan knyttes til forskellige positioner i henhold til deres log2FC- og adj p-værdier, de opregulerede DEG'er (log2FC > 2, adj p < 0,05) er farvet med rødt, og de nedregulerede DEG'er (log2FC < -2, adj p < 0,05) er farvet i grøn, ikke-DEGs er farvet med gråt.

3. Differentialudtryksanalyse gennem "edgeR"

  1. Klik på Kør for at indlæse R-pakken "edgeR".
    bibliotek(kantR)
  2. Kør følgende R-kode for at oprette en designmatrix.
    gruppe <-understreng(kolnavne(cnt),14,15)
    gruppe [gruppe %i% "01"] <- "Kræft"
    gruppe [gruppe %i% "11"] <- "Normal"
    group=factor(gruppe, niveauer = c("Normal","Kræft"))
    design <-model.matrix(~gruppe)
    rækkenavne(design) = kolonnenavne(cnt)
  3. Klik på Kør for at oprette DGEList-objektet.
    dge <- DGEList(counts=cnt)
  4. Normaliser dataene.
    dge <- calcNormFactors(dge, metode = "TMM")
  5. Klik på Kør for at estimere spredningen af genekspressionsværdier.
    dge <- estimateDisp(dge, design, robust = T)
  6. Klik på Kør for at tilpasse modellen til at tælle data.
    fit <- glmQLFit(dge, design)
  7. Foretag en statistisk test.
    passer <- glmQLFTest(fit)
  8. Uddrag resultattabellen. Resultatet gemmes i "res_edgeR", som omfatter værdien for ændring af logfoldning, log CPM, F, p-værdi og FDR korrigeret p-værdi.
    res_edgeR=as.data.frame(topTags(fit, n=Inf))
    hoved(res_edgeR)
    ## logFC logCPM F PValue FDR
    ##GCDH -3.299633 5.802700 458.5991 1.441773e-25 2.979280e-21
    ##MSMO1 -3.761400 7.521111 407.0416 1.730539e-24 1.787993e-20R
    ##CL1 -3.829504 5.319641 376.5043 8.652474e-24 5.516791e-20
    ##ADI1 -3.533664 8.211281 372.6671 1.067904e-23 5.516791e-20
    ##KCNN2 -5.583794 3.504017 358.6525 2.342106e-23 9.679455e-20
    ##GLUD1 -3.287447 8.738080 350.0344 3.848408e-23 1.194406e-19
    #The resultat gemmes i "res_edgeR", som omfatter logfoldningsændringsværdien (logFC), log CPM, F, p-værdi og FDR korrigeret p-værdi
  9. Identificer DEG'erne.
    res_edgeR$sig = as.factor(
    ifelse(res_edgeR$FDR < 0,05 & abs(res_edgeR$logFC) > 2,
    ifelse(res_edgeR$logFC > 2 ,'up','down'),'not'))
    resumé(res_edgeR$sig)
    # #down ikke op
    ##1578 15965 3121
  10. Skriv resultattabellen til en fil.
    skrive.csv(res_edgeR, fil = 'res_edgeR.csv')
  11. Skab vulkanplottet.
    vulkan (res_edgeR,"logFC","FDR",2,0.05)
  12. Klik på Eksportér for at gemme vulkanplottet.

4. Differential udtryksanalyse gennem "DESeq2"

  1. Klik på Kør for at installere R-pakkerne "DESeq2".
    BiocManager::install("DESeq2")
  2. Klik på Kør for at indlæse R-pakkerne "DESeq2".
    bibliotek (DESeq2)
  3. Kør følgende R-kode for at bestemme grupperingsfaktoren.
    gruppe <-understreng(kolnavne(cnt),14,15)
    gruppe [gruppe %i% "01"] <- "Kræft"
    gruppe [gruppe %i% "11"] <- "Normal"
    group=factor(gruppe, niveauer = c("Normal","Kræft"))
  4. Opret OBJEKTET DESeqDataSet .
    dds <-DESeqDataSetFromMatrix (cnt, DataFrame(gruppe), design = ~gruppe)
    Dds
    ##class: DESeqDataSet
    ##dim: 20664 45
    ##metadata(1): version
    ##assays(1): tæller
    # #rownames(20664): TSPAN6 DPM1 ... RP11-274B21.13 LINC01144
    ##rowData navne(0):
    # #colnames(45): TCGA-3X-AAVA-01A-11R-A41I-07 ...
    ##colData navne(1): gruppe
  5. Udfør analysen.
    dds <- DESeq(dds)
  6. Generer resultattabellen.
    res_DESeq2 <- data.frame(resultater(dds))

    hoved(res_DESeq2)
    ## baseMean log2FoldChange lfcSE stat pvalue padj
    ##TSPAN6 4704.9243 -0.8204515 0.3371667 -2.433370 1.495899e-02 2.760180e-02
    ##DPM1 1205.9087 -0.3692497 0.1202418 -3.070894 2.134191e-03 4.838281e-03
    ##SCYL3 954.9772 0.2652530 0.2476441 1.071106 2.841218e-01 3.629059e-01
    ##C1orf112 277.7756 0.7536911 0.2518929 2.992109 2.770575e-03 6.101584e-03
    ##FGR 345.8789 -0.6423198 0.3712729 -1.730047 8.362180e-02 1.266833e-01
    ##CFH 27982.3546 -3.8761382 0.5473363 -7.081823 1.422708e-12 1.673241e-11
    BEMÆRK: Resultatet gemmes i "res_DESeq2", som omfatter gennemsnittet af det normaliserede antal læsninger (baseMean), logfoldsændringsværdien (log2FoldChange), standardfejlen for ændring af logfold (lfcSE), Wald-statistikken (stat), den oprindelige p-værdi (pvalue) og korrigeret p-værdi (padj)
  7. Identificer DEG'er.
    res_DESeq2$sig = as.factor(
    ifelse(res_DESeq2$padj < 0,05 & abs(res_DESeq2$log2FoldChange) > 2,
    ifelse(res_DESeq2$log2FoldChange > 2 ,'up','down'),'not'))
    resumé(res_DESeq2$sig)
    # #down ikke op
    ##1616 16110 2938
  8. Skriv resultattabellen til en fil.
    skrive.csv(res_DESeq2, fil = 'res_DESeq2.csv')
  9. Skab vulkanplottet.
    vulkan(res_DESeq2,"log2FoldChange","padj",2,0.05)
  10. Klik på Eksportér for at gemme vulkanplottet.

5. Venn-diagram

  1. Klik på Kør for at installere R-pakken "VennDiagram".
    install.packages("VennDiagram")
  2. Klik på Kør for at indlæse R-pakken "VennDiagram".
    bibliotek (VennDiagram)
  3. Lav et Venn-diagram over regulerede DEG'er.
    grid.newpage()
    grid.draw(venn.diagram(liste(Limma=rækkenavne(res_
    limma[res_limma$sig=="up",])
    edgeR=rækkenavne(res_edgeR[res_edgeR$sig=="up",])
    DESeq2=rækkenavne(res_DESeq2[res_DESeq2$sig==
    "op",]))
    NULL,højde = 3,bredde = 3,enheder = "i",
    col="sort",lwd=0,3,fill=c("#FF6666","#FFFF00",
    "#993366"),
    alpha=c(0,5, 0,5, 0,5),hoved = "Up-regulated DEGs"))
  4. Klik på Eksporter for at gemme Venn-diagrammet.
  5. Lav et Venn-diagram over nedregulerede DEG'er.
    grid.newpage()
    grid.draw(venn.diagram(liste(Limma=rækkenavne(res_
    limma[res_limma$sig=="ned",])
    edgeR=rækkenavne(res_edgeR[res_edgeR$sig==
    "ned",]),
    DESeq2=rækkenavne(res_DESeq2[res_DESeq2$sig=="ned",]))
    NULL,højde = 3,bredde = 3,enheder = "i",
    col="sort",lwd=0,3,fill=c("#FF6666","#FFFF00",
    "#993366"),
    alpha=c(0,5, 0,5, 0,5),hoved = "Nedregulerede DEG'er"))
  6. Klik på Eksporter for at gemme Venn-diagrammet.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Der er forskellige tilgange til at visualisere resultatet af differentialudtryksanalyse, blandt hvilke vulkanplottet og Venn-diagrammet bruges særligt. limma identificeret 3323 DEGs mellem CHOL og normale væv med |logFC|≥2 og adj. P.Val <0,05 som tærskler, hvoraf 1880 var nedreguleret i CHOL-væv, og 1443 var up-regulerede (Figur 1a). I mellemtiden identificerede EdgeR de 1578 nedregulerede DEG'er og 3121 up-regulerede DEG 'er(figur 1b); DESeq2 identificerede de nedregulerede DEG'er fra 1616 og de up-regulerede DEG'er for 2938(figur 1c). Ved at sammenligne resultaterne af disse tre metoder blev 1431 up-regulerede DEG'er og 1531 nedregulerede DEG'er overlappet (figur 2).

Figure 1
Figur 1. Identifikation af differentierede gener (DEG) mellem CHOL og normalt væv. (a-c) Vulkanplotterne af alle gener erhvervet af henholdsvis limma, edgeR og DESeq2, adj p-værdi (-log10) er afbildet mod foldændringen (log2), røde punkter repræsenterer de opregulerede DEG'er (justeret p-værdi<0,05 og log | FC|> 2) og de grønne punkter repræsenterer de nedregulerede DEG'er (justeret p-værdi< 0,05 og log | FC|< 2). Klik her for at se en større version af dette tal.

Figure 2
Figur 2. Venn diagrammer viser overlapning mellem resultaterne stammer fra limma, edgeR og DESeq2. Klik her for at se en større version af dette tal.

Supplerende filer. Klik her for at hente denne fil.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Rigelige aberrate udskrifter i kræft kan let identificeres ved RNA-seq differentialanalyse5. Anvendelsen af RNA-seq differentialudtryksanalyse er imidlertid ofte begrænset, da det kræver visse færdigheder med R-sprog og evnen til at vælge passende metoder. For at løse dette problem giver vi en detaljeret introduktion til de tre mest kendte metoder (limma, EdgeR og DESeq2) og tutorials til anvendelse af RNA-seq differentialudtryksanalysen. Dette vil lette forståelsen af ligheder og forskelle på tværs af alle tre metoder, gøre det muligt at vælge en passende metode til individuelle data og gøre det muligt for os at forstå de komplekse dynamiske biologiske processer.

Her præsenterer vi en detaljeret protokol for RNA-seq differentialudtryksanalyse gennem henholdsvis limma, edgeR og DESeq2 i fem faser: (i) download og forbehandling af data, (ii-iv) differentialudtryksanalyse gennem henholdsvis limma, edgeR og DESeq2 , (v) sammenligning af resultaterne af disse tre metoder gennem et Venn-diagram.

De tre metoder har lignende og forskellige trin mellem processerne i differentialudtryksanalysen. En lineær model bruges til statistik i limma, som gælder for alle genekspressionsteknologier, herunder mikroarrays, RNA-seq og kvantitativ PCR8,13, mens edgeR og DESeq2 implementerer en række statistiske metoder baseret på den negative binomialfordeling9,10og edgeR og DESeq2 er egnede til RNA-seq-data. Derudover er de normaliserede RNA-seq-tælledata nødvendige for EdgeR og limma, mens DESeq2 bruger sine egne biblioteksuoverensstemmelser til at rette data i stedet for normalisering, og dataene i DESeq2 skal være en heltalsmatrix. Normaliseringsmetoderne omfatter TMM (trimmet middelværdi af M-værdier), TMMwsp, RLE (relativt logudtryk) og øvre kvartil, blandt hvilke TMM er den mest anvendte normaliseringsmetode for RNA-seq-data. Resultaterne af de tre metoder viste, at DESeq2 og EdgeR opnår flere DEG'er end limma. Årsagen til denne forskel er, at edgeR og DESeq2 er baseret på den negative binomialmodel, som bidrager til et stort antal falske positiver. Tværtimod bruger limma-voom kun variansfunktionen og viser ikke overdrevne falske positiver, som det er tilfældet med en variansstabiliserende transformation efterfulgt af lineær modelanalyse med limma14,15,16.

Alle tre metoder har deres egne fordele, og valget afhænger bare af typen af data. Hvis der f.eks. er mikroarraydata, skal limma prioriteres med prioritet, men når det er næste generations sekventeringsdata, foretrækkes DESeq2 og EdgeR9,10,17. Sammenfattende leverer vi her en detaljeret protokol for henholdsvis RNA-seq differentialudtryksanalyse med R-pakker limma, edgeR og DESeq2. Resultaterne af de tre metoder overlapper delvist hinanden, og disse forskellige metoder har deres respektive fordele. Desværre dækker denne protokol ikke de tekniske detaljer for andre datatyper (f.eks. mikroarraydata) og metoder (f.eks. EBSeq)18.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Håndskriftet er ikke udgivet før og kan ikke udgives andetsteds. Alle forfattere har bidraget til oprettelsen af dette manuskript for vigtigt intellektuelt indhold og læst og godkendt det endelige manuskript. Vi erklærer, at der ikke er nogen interessekonflikt.

Acknowledgments

Dette arbejde blev støttet af National Natural Science Foundation of China (Grant No. 81860276) og Key Special Fund Projects of National Key R&D Program (Grant No. 2018YFC1003200).

Materials

Name Company Catalog Number Comments
R version 3.6.2 free software
Rstudio free software

DOWNLOAD MATERIALS LIST

References

  1. Tambonis, T., Boareto, M., Leite, V. B. P. Differential Expression Analysis in RNA-seq Data Using a Geometric Approach. Journal of Computational Biology. 25, 1257-1265 (2018).
  2. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews. Genetics. 10, 57-63 (2009).
  3. Anders, S., et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nature Protocols. 8, 1765-1786 (2013).
  4. McDermaid, A., Monier, B., Zhao, J., Liu, B., Ma, Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Briefings in Bioinformatics. 20, 2044-2054 (2019).
  5. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12, 0190152 (2017).
  6. Law, C. W., et al. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Research. 5, (2016).
  7. Varet, H., Brillet-Guéguen, L., Coppée, J. Y., Dillies, M. A. SARTools: A DESeq2- and EdgeR-Based R Pipeline for Comprehensive Differential Analysis of RNA-Seq Data. PloS One. 11, 0157022 (2016).
  8. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43, 47 (2015).
  9. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26, Oxford, England. 139-140 (2010).
  10. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15, 550 (2014).
  11. Gentleman, R. C., et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5, 80 (2004).
  12. Law, C. W., Chen, Y., Shi, W., Smyth, G. K. voom: Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology. 15, 29 (2014).
  13. Smyth, G. K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology. 3, (2004).
  14. Lund, S. P., Nettleton, D., McCarthy, D. J., Smyth, G. K. Detecting differential expression in RNA-sequence data using quasi-likelihood with shrunken dispersion estimates. Statistical Applications in Genetics and Molecular Biology. 11, (2012).
  15. Reeb, P. D., Steibel, J. P. Evaluating statistical analysis models for RNA sequencing experiments. Frontiers in Genetics. 4, 178 (2013).
  16. Rocke, D. M., et al. Excess False Positive Rates in Methods for Differential Gene Expression Analysis using RNA-Seq Data. bioRxiv. , (2015).
  17. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC genomics. 11, 383 (2010).
  18. Leng, N., et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 29, Oxford, England. 1035-1043 (2013).

Tags

Kræftforskning Nummer 175
Tre metoder til differentialudtryksanalyse til RNA-sekventering: limma, EdgeR, DESeq2
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Liu, S., Wang, Z., Zhu, R., Wang,More

Liu, S., Wang, Z., Zhu, R., Wang, F., Cheng, Y., Liu, Y. Three Differential Expression Analysis Methods for RNA Sequencing: limma, EdgeR, DESeq2. J. Vis. Exp. (175), e62528, doi:10.3791/62528 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter