En detaljert protokoll for differensialuttrykksanalysemetoder for RNA-sekvensering ble gitt: limma, EdgeR, DESeq2.
RNA-sekvensering (RNA-seq) er en av de mest brukte teknologiene innen transkripsjon, da den kan avsløre forholdet mellom den genetiske endringen og komplekse biologiske prosesser og har stor verdi i diagnostikk, prognostikk og terapeutiske svulster. Differensialanalyse av RNA-seq-data er avgjørende for å identifisere avvikende transkripsjoner, og limma, EdgeR og DESeq2 er effektive verktøy for differensialanalyse. Imidlertid krever RNA-seq differensialanalyse visse ferdigheter med R-språk og evnen til å velge en passende metode, som mangler i læreplanen for medisinsk utdanning.
Heri gir vi den detaljerte protokollen for å identifisere differensialt uttrykte gener (DEG) mellom cholangiocarcinoma (CHOL) og normalt vev gjennom henholdsvis limma, DESeq2 og EdgeR, og resultatene vises i vulkanplott og Venn-diagrammer. De tre protokollene limma, DESeq2 og EdgeR er like, men har forskjellige trinn blant prosessene i analysen. For eksempel brukes en lineær modell til statistikk i limma, mens den negative binomiske fordelingen brukes i edgeR og DESeq2. I tillegg er de normaliserte RNA-seq count-dataene nødvendige for EdgeR og limma, men er ikke nødvendig for DESeq2.
Her gir vi en detaljert protokoll for tre differensialanalysemetoder: limma, EdgeR og DESeq2. Resultatene av de tre metodene er delvis overlappende. Alle tre metodene har sine egne fordeler, og valg av metode avhenger bare av dataene.
RNA-sekvensering (RNA-seq) er en av de mest brukte teknologiene innen transkripsjon med mange fordeler (f.eks. høy datareroduserbarhet), og har dramatisk økt vår forståelse av funksjonene og dynamikken i komplekse biologiske prosesser1,2. Identifisering av aberrate transkripsjoner under ulike biologiske kontekster, som også er kjent som differensialt uttrykte gener (DEGs), er et viktig skritt i RNA-seq analyse. RNA-seq gjør det mulig å få en dyp forståelse av patogeneserelaterte molekylære mekanismer og biologiske funksjoner. Derfor har differensialanalyse blitt ansett som verdifull for diagnostikk, prognostikk og terapeutiske svulster3,4,5. For tiden er flere open source R / Bioconductor-pakker utviklet for RNA-seq differensialuttrykksanalyse, spesielt limma, DESeq2 og EdgeR1,6,7. Differensialanalyse krever imidlertid visse ferdigheter med R-språk og evnen til å velge riktig metode, som mangler i læreplanen for medisinsk utdanning.
I denne protokollen, basert på cholangiokarsinom (CHOL) RNA-seq count data hentet fra The Cancer Genome Atlas (TCGA), ble tre av de mest kjente metodene (limma8, EdgeR9 og DESeq210) utført av R-programmet11 for å identifisere DEG-ene mellom CHOL og normalt vev. De tre protokollene limma, EdgeR og DESeq2 er like, men har forskjellige trinn blant prosessene i analysen. De normaliserte RNA-seq count -dataene er for eksempel nødvendige for EdgeR og limma8,9, mens DESeq2 bruker sine egne bibliotekavvik til å korrigere data i stedet for normalisering10. Videre er edgeR spesielt egnet for RNA-seq data, mens limma brukes til mikroarrays og RNA-seq. En lineær modell er vedtatt av limma for å vurdere DEGs12, mens statistikken i edgeR er basert på de negative binomiske fordelingene, inkludert empiriske Bayes-estimering, eksakte tester, generaliserte lineære modeller og kvasi-sannsynlighetstester9.
Oppsummert tilbyr vi de detaljerte protokollene for RNA-seq differensialuttrykksanalyse ved hjelp av henholdsvis limma, DESeq2 og EdgeR. Ved å referere til denne artikkelen kan brukerne enkelt utføre RNA-seq differensialanalysen og velge de riktige differensialanalysemetodene for dataene sine.
Rikelig aberrate transkripsjoner i kreft kan lett identifiseres ved RNA-seq differensialanalyse5. Anvendelsen av RNA-seq differensialuttrykksanalyse er imidlertid ofte begrenset, da det krever visse ferdigheter med R-språk og kapasitet til å velge passende metoder. For å løse dette problemet gir vi en detaljert introduksjon til de tre mest kjente metodene (limma, EdgeR og DESeq2) og opplæringsprogrammer for å bruke RNA-seq differensialuttrykksanalyse. Dette vil legge til rette for forståels…
The authors have nothing to disclose.
Dette arbeidet ble støttet av National Natural Science Foundation of China (Grant No. 81860276) og Key Special Fund Projects of National Key R&D Program (Grant No. 2018YFC1003200).