Summary

Identifiering av alternativ skarvning och polyadenylering i RNA-seq-data

Published: June 24, 2021
doi:

Summary

Alternativ skarvning (AS) och alternativ polyadenylation (APA) utökar mångfalden av transkriptisoformer och deras produkter. Här beskriver vi bioinformatiska protokoll för att analysera bulk RNA-seq och 3 ‘end sequencing assays för att detektera och visualisera AS och APA som varierar över experimentella förhållanden.

Abstract

Förutom den typiska analysen av RNA-Seq för att mäta differentiellt genuttryck (DGE) över experimentella / biologiska förhållanden, kan RNA-seq-data också användas för att utforska andra komplexa regleringsmekanismer på exonnivå. Alternativ skarvning och polyadenylation spelar en avgörande roll för en gens funktionella mångfald genom att generera olika isoformer för att reglera genuttryck på post-transkriptionsnivå, och att begränsa analyser till hela gennivån kan missa detta viktiga regleringsskikt. Här demonstrerar vi detaljerade stegvisa analyser för identifiering och visualisering av differentiell användning av exon- och polyadenyleringsplatser över förhållanden, med hjälp av Bioconductor och andra paket och funktioner, inklusive DEXSeq, diffSplice från Limma-paketet och rMATS.

Introduction

RNA-seq har använts i stor utsträckning genom åren vanligtvis för att uppskatta differentiellt genuttryck och genupptäckt1. Dessutom kan den också användas för att uppskatta varierande användning på exonnivå på grund av genuttryck för olika isoformer, vilket bidrar till en bättre förståelse av genreglering på post-transkriptionsnivå. Majoriteten av eukaryota gener genererar olika isoformer genom alternativ skarvning (AS) för att öka mångfalden av mRNA-uttryck. AS-händelser kan delas in i olika mönster: hoppning av fullständiga exoner (SE) där en (“kassett”) exon helt tas bort ur transkriptet tillsammans med dess flankerande introner; alternativt (givare) 5′ val av skarvplats (A5SS) och alternativt 3′ (acceptor) skarvplatsval (A3SS) när två eller flera skarvställen finns i vardera änden av en exon; retention av introner (RI) när en intron behålls inom det mogna mRNA-transkriptet och ömsesidig uteslutning av exonanvändning (MXE) där endast en av de två tillgängliga exonerna kan behållas vid en tidpunkt 2,3. Alternativ polyadenylation (APA) spelar också en viktig roll för att reglera genuttryck med hjälp av alternativa poly (A) -ställen för att generera flera mRNA -isoformer från ett enda transkript4. De flesta polyadenyleringsställen (pAs) är belägna i 3′-oöversatta regionen (3’UTR), vilket genererar mRNA-isoformer med olika 3’UTR-längder. Eftersom 3’UTR är det centrala navet för att känna igen regulatoriska element, kan olika 3′ UTR-längder påverka mRNA-lokalisering, stabilitet och översättning5. Det finns en klass av 3 ‘slutsekvenseringsanalyser optimerade för att upptäcka APA som skiljer sig åt i detaljerna i protokollet6. Rörledningen som beskrivs här är konstruerad för PolyA-seq, men kan anpassas för andra protokoll enligt beskrivningen.

I denna studie presenterar vi en pipeline av differentiella exonanalysmetoder7,8 (figur 1), som kan delas in i två breda kategorier: exonbaserad (DEXSeq9, diffSplice 10) och händelsebaserad (replikera multivariat analys av transkriptskarvning (rMATS)11). De exonbaserade metoderna jämför vikförändringen över förhållanden för enskilda exoner, mot ett mått på den totala genvecksförändringen för att kalla differentiellt uttryckt exonanvändning, och utifrån det beräkna ett gennivåmått på AS-aktivitet. Händelsebaserade metoder använder exon-intron-spanning junction reads för att upptäcka och klassificera specifika skarvningshändelser, till exempel exon-hoppning eller retention av introner, och särskilja dessa AS-typer i utdata3. Således ger dessa metoder kompletterande vyer för en fullständig analys av AS12,13. Vi valde DEXSeq (baserat på DESeq214 DGE-paketet) och diffSplice (baserat på Limma10 DGE-paketet) för studien eftersom de är bland de mest använda paketen för differentialsplitsningsanalys. rMATS valdes som en populär metod för händelsebaserad analys. En annan populär händelsebaserad metod är MISO (Blandning av isoformer)1. För APA anpassar vi det exobaserade tillvägagångssättet.

Figure 1
Figur 1. Analys pipeline. Flödesschema över stegen som används i analysen. Stegen inkluderar: att hämta data, utföra kvalitetskontroller och läsa justering följt av att räkna läsningar med hjälp av anteckningar för kända exoner, introner och pA-platser, filtrering för att ta bort låga räkningar och normalisering. PolyA-seq-data analyserades för alternativa pA-ställen med diffSplice/DEXSeq-metoder, bulk-RNA-Seq analyserades för alternativ skarvning på exonnivå med diffSplice/DEXseq-metoder och AS-händelser analyserades med rMATS. Klicka här för att se en större version av denna siffra.

RNA-seq-data som används i denna undersökning förvärvades från Gene Expression Omnibus (GEO) (GSE138691)15. Vi använde mus-RNA-seq-data från denna studie med två tillståndsgrupper: vildtyp (WT) och muskelblindliknande typ 1-knockout (Mbnl1 KO) med tre replikat vardera. För att demonstrera differentiell polyadenylationsplatsanvändningsanalys erhöll vi musembryofibroblaster (MEF) PolyA-seq-data (GEO Accession GSE60487)16. Data har fyra villkorsgrupper: Wild-type (WT), Muscleblind-like type1/type 2 double knockout (Mbnl1/2 DKO), Mbnl 1/2 DKO med Mbnl3 knockdown (KD) och Mbnl1/2 DKO med Mbnl3-kontroll (Ctrl). Varje villkorsgrupp består av två replikat.

GEO-anslutning SRA Run-nummer Exempel på namn Tillstånd Replikera Vävnad Sekvensering Läslängd
RNA-Seq GSM4116218 SRR10261601 Mbnl1KO_Thymus_1 Mbnl1 knockout Rep 1 Bräss Parat slut 100 bp
GSM4116219 SRR10261602 Mbnl1KO_Thymus_2 Mbnl1 knockout Rep 2 Bräss Parat slut 100 bp
GSM4116220 SRR10261603 Mbnl1KO_Thymus_3 Mbnl1 knockout Rep 3 Bräss Parat slut 100 bp
GSM4116221 SRR10261604 WT_Thymus_1 Vild typ Rep 1 Bräss Parat slut 100 bp
GSM4116222 SRR10261605 WT_Thymus_2 Vild typ Rep 2 Bräss Parat slut 100 bp
GSM4116223 SRR10261606 WT_Thymus_3 Vild typ Rep 3 Bräss Parat slut 100 bp
3P-Seq GSM1480973 SRR1553129 WT_1 Vild typ (WT) Rep 1 Musembryonala fibroblaster (MEF) Enkel ände 40 punkter
GSM1480974 SRR1553130 WT_2 Vild typ (WT) Rep 2 Musembryonala fibroblaster (MEF) Enkel ände 40 punkter
GSM1480975 SRR1553131 DKO_1 Mbnl 1/2 dubbel knockout (DKO) Rep 1 Musembryonala fibroblaster (MEF) Enkel ände 40 punkter
GSM1480976 SRR1553132 DKO_2 Mbnl 1/2 dubbel knockout (DKO) Rep 2 Musembryonala fibroblaster (MEF) Enkel ände 40 punkter
GSM1480977 SRR1553133 DKOsiRNA_1 Mbnl 1/2 dubbel knockout med Mbnl 3 siRNA (KD) Rep 1 Musembryonala fibroblaster (MEF) Enkel ände 40 punkter
GSM1480978 SRR1553134 DKOsiRNA_2 Mbnl 1/2 dubbel knockout med Mbnl 3 siRNA (KD) Rep 2 Musembryonala fibroblaster (MEF) Enkel ände 36 bp
GSM1480979 SRR1553135 DKONTsiRNA_1 Mbnl 1/2 dubbel knockout med icke-målinriktat siRNA (Ctrl) Rep 1 Musembryonala fibroblaster (MEF) Enkel ände 40 punkter
GSM1480980 SRR1553136 DKONTsiRNA_2 Mbnl 1/2 dubbel knockout med icke-målinriktat siRNA (Ctrl) Rep 2 Musembryonala fibroblaster (MEF) Enkel ände 40 punkter

Tabell 1. Sammanfattning av RNA-Seq- och PolyA-seq-dataset som används för analysen.

Protocol

1. Installation av verktyg och R-paket som används i analysen Conda är en populär och flexibel pakethanterare som möjliggör bekväm installation av paket med deras beroenden på alla plattformar. Använd ‘Anaconda’ (conda package manager) för att installera ‘conda’ som kan användas för att installera de verktyg/paket som krävs för analysen. Ladda ner ‘Anaconda’ enligt systemkraven från https://www.anaconda.com/products/individual#Downloads och installera det genom att följa …

Representative Results

Efter att ha kört ovanstående steg-för-steg-arbetsflöde är AS- och APA-analysutdata och representativa resultat i form av tabeller och datadiagram, genererade enligt följande. SOM:Huvudresultatet av AS-analysen (tilläggstabell 1 för diffSplice; Tabell 2 för DEXSeq) är en lista över exoner som visar differentiell användning över förhållanden, och en lista över gener som visar signifikant total skarvningsaktivitet för en ell…

Discussion

I denna studie utvärderade vi exonbaserade och händelsebaserade metoder för att upptäcka AS och APA i bulk RNA-Seq och 3 ‘slutsekvenseringsdata. De exonbaserade AS-metoderna ger både en lista över differentiellt uttryckta exoner och en rangordning på gennivå ordnad efter den statistiska signifikansen av den totala differentialsplitsaktiviteten på gennivå (tabellerna 1-2, 4-5). För diffSplice-paketet bestäms differentiell användning genom att anpassa viktade linjära modeller på en exon-niv?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Denna studie stöddes av ett Australian Research Council (ARC) Future Fellowship (FT16010043) och ANU Futures Scheme.

Materials

Not relevent for computational study

References

  1. Katz, Y., Wang, E. T., Airoldi, E. M., Burge, C. B. Analysis and design of RNA sequencing experiments for identifying isoform regulation. Nature Methods. 7 (12), 1009-1015 (2010).
  2. Wang, Y., et al. Mechanism of alternative splicing and its regulation. Biomedical Reports. 3 (2), 152-158 (2015).
  3. Mehmood, A., et al. Systematic evaluation of differential splicing tools for RNA-seq studies. Briefings in Bioinformatics. 21 (6), 2052-2065 (2020).
  4. Movassat, M., et al. Coupling between alternative polyadenylation and alternative splicing is limited to terminal introns. RNA Biology. 13 (7), 646-655 (2016).
  5. Tian, B., Manley, J. L. Alternative polyadenylation of mRNA precursors. Nature Reviews Molecular Cell Biology. 18 (1), 18-30 (2017).
  6. Herrmann, C. J., et al. PolyASite 2.0: a consolidated atlas of polyadenylation sites from 3′ end sequencing. Nucleic Acids Research. 48 (1), 174-179 (2020).
  7. Liu, R., Loraine, A. E., Dickerson, J. A. Comparisons of computational methods for differential alternative splicing detection using RNA-seq in plant systems. BMC Bioinformatics. 15 (1), 364 (2014).
  8. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17 (1), 13 (2016).
  9. Anders, S., Reyes, A., Huber, W. Detecting differential usage of exons from RNA-seq data. Genome Research. 22 (10), 2008-2017 (2012).
  10. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43 (7), 47 (2014).
  11. Shen, S., et al. rMATS: Robust and flexible detection of differential alternative splicing from replicate RNA-Seq data. Proceedings of the National Academy of Sciences. 111 (51), 5593-5601 (2014).
  12. Mehmood, A., et al. Systematic evaluation of differential splicing tools for RNA-seq studies. Briefings in bioinformatics. 21 (6), 2052-2065 (2020).
  13. Kanitz, A., et al. Comparative assessment of methods for the computational inference of transcript isoform abundance from RNA-seq data. Genome biology. 16 (1), 1-26 (2015).
  14. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15 (12), 550 (2014).
  15. Sznajder, L. J., et al. Loss of MBNL1 induces RNA misprocessing in the thymus and peripheral blood. Nature Communications. 11, 1-11 (2020).
  16. Batra, R., et al. Loss of MBNL leads to disruption of developmentally regulated alternative polyadenylation in RNA-mediated disease. Molecular Cell. 56 (2), 311-322 (2014).
  17. Leinonen, R., Sugawara, H., Shumway, M., et al. The sequence read archive. Nucleic acids research. 39, 19-21 (2010).
  18. Tange, O. . GNU parallel-the command-line power tool. 36, 42-47 (2011).
  19. Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet journal. 17 (1), 10-12 (2011).
  20. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  21. Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29 (1), 15-21 (2013).
  22. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
  23. Robinson, M. D., Oshlack, A. A scaling normalization method for differential expression analysis of RNA-seq data. Genome Biology. 11 (3), 25 (2010).
  24. Veiga, D. F. T. maser: Mapping Alternative Splicing Events to pRoteins. R package version 1.4.0. , (2019).
  25. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (13), 25 (2009).
  26. Quinlan, A. R., Hall, I. M. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics. 26 (6), 841-842 (2010).
  27. Ramírez, F., Dündar, F., Diehl, S., Grüning, B. A., Manke, T. deepTools: a flexible platform for exploring deep-sequencing data. Nucleic acids research. 42 (1), 187-191 (2014).
  28. Merino, G. A., Conesa, A., Fernández, E. A. A benchmarking of workflows for detecting differential splicing and differential expression at isoform level in human RNA-seq studies. Briefings in bioinformatics. 20 (2), 471-481 (2019).
  29. Chhangawala, S., Rudy, G., Mason, C. E., Rosenfeld, J. A. The impact of read length on quantification of differentially expressed genes and splice junction detection. Genome biology. 16 (1), 1-10 (2015).
  30. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biol. 17, 13 (2016).
  31. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7 (3), 562-578 (2012).
  32. Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics. 12, 323 (2011).
  33. Bray, N. L., Pimentel, H., Melsted, P., Pachter, L. Near-optimal probabilistic RNA-seq quantification. Nat Biotechnol. 34 (5), 525-527 (2016).

Play Video

Cite This Article
Dixit, G., Zheng, Y., Parker, B., Wen, J. Identification of Alternative Splicing and Polyadenylation in RNA-seq Data. J. Vis. Exp. (172), e62636, doi:10.3791/62636 (2021).

View Video