Alternativ skarvning (AS) och alternativ polyadenylation (APA) utökar mångfalden av transkriptisoformer och deras produkter. Här beskriver vi bioinformatiska protokoll för att analysera bulk RNA-seq och 3 ‘end sequencing assays för att detektera och visualisera AS och APA som varierar över experimentella förhållanden.
Förutom den typiska analysen av RNA-Seq för att mäta differentiellt genuttryck (DGE) över experimentella / biologiska förhållanden, kan RNA-seq-data också användas för att utforska andra komplexa regleringsmekanismer på exonnivå. Alternativ skarvning och polyadenylation spelar en avgörande roll för en gens funktionella mångfald genom att generera olika isoformer för att reglera genuttryck på post-transkriptionsnivå, och att begränsa analyser till hela gennivån kan missa detta viktiga regleringsskikt. Här demonstrerar vi detaljerade stegvisa analyser för identifiering och visualisering av differentiell användning av exon- och polyadenyleringsplatser över förhållanden, med hjälp av Bioconductor och andra paket och funktioner, inklusive DEXSeq, diffSplice från Limma-paketet och rMATS.
RNA-seq har använts i stor utsträckning genom åren vanligtvis för att uppskatta differentiellt genuttryck och genupptäckt1. Dessutom kan den också användas för att uppskatta varierande användning på exonnivå på grund av genuttryck för olika isoformer, vilket bidrar till en bättre förståelse av genreglering på post-transkriptionsnivå. Majoriteten av eukaryota gener genererar olika isoformer genom alternativ skarvning (AS) för att öka mångfalden av mRNA-uttryck. AS-händelser kan delas in i olika mönster: hoppning av fullständiga exoner (SE) där en (“kassett”) exon helt tas bort ur transkriptet tillsammans med dess flankerande introner; alternativt (givare) 5′ val av skarvplats (A5SS) och alternativt 3′ (acceptor) skarvplatsval (A3SS) när två eller flera skarvställen finns i vardera änden av en exon; retention av introner (RI) när en intron behålls inom det mogna mRNA-transkriptet och ömsesidig uteslutning av exonanvändning (MXE) där endast en av de två tillgängliga exonerna kan behållas vid en tidpunkt 2,3. Alternativ polyadenylation (APA) spelar också en viktig roll för att reglera genuttryck med hjälp av alternativa poly (A) -ställen för att generera flera mRNA -isoformer från ett enda transkript4. De flesta polyadenyleringsställen (pAs) är belägna i 3′-oöversatta regionen (3’UTR), vilket genererar mRNA-isoformer med olika 3’UTR-längder. Eftersom 3’UTR är det centrala navet för att känna igen regulatoriska element, kan olika 3′ UTR-längder påverka mRNA-lokalisering, stabilitet och översättning5. Det finns en klass av 3 ‘slutsekvenseringsanalyser optimerade för att upptäcka APA som skiljer sig åt i detaljerna i protokollet6. Rörledningen som beskrivs här är konstruerad för PolyA-seq, men kan anpassas för andra protokoll enligt beskrivningen.
I denna studie presenterar vi en pipeline av differentiella exonanalysmetoder7,8 (figur 1), som kan delas in i två breda kategorier: exonbaserad (DEXSeq9, diffSplice 10) och händelsebaserad (replikera multivariat analys av transkriptskarvning (rMATS)11). De exonbaserade metoderna jämför vikförändringen över förhållanden för enskilda exoner, mot ett mått på den totala genvecksförändringen för att kalla differentiellt uttryckt exonanvändning, och utifrån det beräkna ett gennivåmått på AS-aktivitet. Händelsebaserade metoder använder exon-intron-spanning junction reads för att upptäcka och klassificera specifika skarvningshändelser, till exempel exon-hoppning eller retention av introner, och särskilja dessa AS-typer i utdata3. Således ger dessa metoder kompletterande vyer för en fullständig analys av AS12,13. Vi valde DEXSeq (baserat på DESeq214 DGE-paketet) och diffSplice (baserat på Limma10 DGE-paketet) för studien eftersom de är bland de mest använda paketen för differentialsplitsningsanalys. rMATS valdes som en populär metod för händelsebaserad analys. En annan populär händelsebaserad metod är MISO (Blandning av isoformer)1. För APA anpassar vi det exobaserade tillvägagångssättet.
Figur 1. Analys pipeline. Flödesschema över stegen som används i analysen. Stegen inkluderar: att hämta data, utföra kvalitetskontroller och läsa justering följt av att räkna läsningar med hjälp av anteckningar för kända exoner, introner och pA-platser, filtrering för att ta bort låga räkningar och normalisering. PolyA-seq-data analyserades för alternativa pA-ställen med diffSplice/DEXSeq-metoder, bulk-RNA-Seq analyserades för alternativ skarvning på exonnivå med diffSplice/DEXseq-metoder och AS-händelser analyserades med rMATS. Klicka här för att se en större version av denna siffra.
RNA-seq-data som används i denna undersökning förvärvades från Gene Expression Omnibus (GEO) (GSE138691)15. Vi använde mus-RNA-seq-data från denna studie med två tillståndsgrupper: vildtyp (WT) och muskelblindliknande typ 1-knockout (Mbnl1 KO) med tre replikat vardera. För att demonstrera differentiell polyadenylationsplatsanvändningsanalys erhöll vi musembryofibroblaster (MEF) PolyA-seq-data (GEO Accession GSE60487)16. Data har fyra villkorsgrupper: Wild-type (WT), Muscleblind-like type1/type 2 double knockout (Mbnl1/2 DKO), Mbnl 1/2 DKO med Mbnl3 knockdown (KD) och Mbnl1/2 DKO med Mbnl3-kontroll (Ctrl). Varje villkorsgrupp består av två replikat.
GEO-anslutning | SRA Run-nummer | Exempel på namn | Tillstånd | Replikera | Vävnad | Sekvensering | Läslängd | |
RNA-Seq | GSM4116218 | SRR10261601 | Mbnl1KO_Thymus_1 | Mbnl1 knockout | Rep 1 | Bräss | Parat slut | 100 bp |
GSM4116219 | SRR10261602 | Mbnl1KO_Thymus_2 | Mbnl1 knockout | Rep 2 | Bräss | Parat slut | 100 bp | |
GSM4116220 | SRR10261603 | Mbnl1KO_Thymus_3 | Mbnl1 knockout | Rep 3 | Bräss | Parat slut | 100 bp | |
GSM4116221 | SRR10261604 | WT_Thymus_1 | Vild typ | Rep 1 | Bräss | Parat slut | 100 bp | |
GSM4116222 | SRR10261605 | WT_Thymus_2 | Vild typ | Rep 2 | Bräss | Parat slut | 100 bp | |
GSM4116223 | SRR10261606 | WT_Thymus_3 | Vild typ | Rep 3 | Bräss | Parat slut | 100 bp | |
3P-Seq | GSM1480973 | SRR1553129 | WT_1 | Vild typ (WT) | Rep 1 | Musembryonala fibroblaster (MEF) | Enkel ände | 40 punkter |
GSM1480974 | SRR1553130 | WT_2 | Vild typ (WT) | Rep 2 | Musembryonala fibroblaster (MEF) | Enkel ände | 40 punkter | |
GSM1480975 | SRR1553131 | DKO_1 | Mbnl 1/2 dubbel knockout (DKO) | Rep 1 | Musembryonala fibroblaster (MEF) | Enkel ände | 40 punkter | |
GSM1480976 | SRR1553132 | DKO_2 | Mbnl 1/2 dubbel knockout (DKO) | Rep 2 | Musembryonala fibroblaster (MEF) | Enkel ände | 40 punkter | |
GSM1480977 | SRR1553133 | DKOsiRNA_1 | Mbnl 1/2 dubbel knockout med Mbnl 3 siRNA (KD) | Rep 1 | Musembryonala fibroblaster (MEF) | Enkel ände | 40 punkter | |
GSM1480978 | SRR1553134 | DKOsiRNA_2 | Mbnl 1/2 dubbel knockout med Mbnl 3 siRNA (KD) | Rep 2 | Musembryonala fibroblaster (MEF) | Enkel ände | 36 bp | |
GSM1480979 | SRR1553135 | DKONTsiRNA_1 | Mbnl 1/2 dubbel knockout med icke-målinriktat siRNA (Ctrl) | Rep 1 | Musembryonala fibroblaster (MEF) | Enkel ände | 40 punkter | |
GSM1480980 | SRR1553136 | DKONTsiRNA_2 | Mbnl 1/2 dubbel knockout med icke-målinriktat siRNA (Ctrl) | Rep 2 | Musembryonala fibroblaster (MEF) | Enkel ände | 40 punkter |
Tabell 1. Sammanfattning av RNA-Seq- och PolyA-seq-dataset som används för analysen.
I denna studie utvärderade vi exonbaserade och händelsebaserade metoder för att upptäcka AS och APA i bulk RNA-Seq och 3 ‘slutsekvenseringsdata. De exonbaserade AS-metoderna ger både en lista över differentiellt uttryckta exoner och en rangordning på gennivå ordnad efter den statistiska signifikansen av den totala differentialsplitsaktiviteten på gennivå (tabellerna 1-2, 4-5). För diffSplice-paketet bestäms differentiell användning genom att anpassa viktade linjära modeller på en exon-niv?…
The authors have nothing to disclose.
Denna studie stöddes av ett Australian Research Council (ARC) Future Fellowship (FT16010043) och ANU Futures Scheme.