Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

आरएनए-सेक डेटा में वैकल्पिक स्प्लिसिंग और पॉलीएडेनाइलेशन की पहचान

Published: June 24, 2021 doi: 10.3791/62636

Summary

वैकल्पिक स्प्लिसिंग (एएस) और वैकल्पिक पॉलीएडेनाइलेशन (एपीए) ट्रांसक्रिप्ट आइसोफॉर्म और उनके उत्पादों की विविधता का विस्तार करते हैं। यहां, हम प्रयोगात्मक स्थितियों में अलग-अलग एएस और एपीए का पता लगाने और कल्पना करने के लिए थोक आरएनए-सेक और 3 'एंड सीक्वेंसिंग परख का विश्लेषण करने के लिए जैव सूचना विज्ञान प्रोटोकॉल का वर्णन करते हैं।

Abstract

जैविक स्थितियों में विभेदक जीन अभिव्यक्ति (डीजीई) को मापने के लिए आरएनए-सेक के विशिष्ट विश्लेषण के साथ-साथ, आरएनए-सेक डेटा का उपयोग एक्सॉन स्तर पर अन्य जटिल नियामक तंत्रों का पता लगाने के लिए भी किया जा सकता है। वैकल्पिक स्प्लिसिंग और पॉलीएडेनाइलेशन पोस्ट-ट्रांसक्रिप्शनल स्तर पर जीन अभिव्यक्ति को विनियमित करने के लिए विभिन्न आइसोफॉर्म उत्पन्न करके जीन की कार्यात्मक विविधता में महत्वपूर्ण भूमिका निभाते हैं, और पूरे जीन स्तर तक विश्लेषण को सीमित करने से इस महत्वपूर्ण नियामक परत को याद किया जा सकता है। यहां, हम बायोकंडक्टर और अन्य पैकेजों और कार्यों का उपयोग करके स्थितियों में अंतर एक्सॉन और पॉलीएडेनाइलेशन साइट उपयोग की पहचान और विज़ुअलाइज़ेशन के लिए विस्तृत चरण-दर-चरण विश्लेषण प्रदर्शित करते हैं, जिसमें डेक्ससेक, लिम्मा पैकेज से डिफस्प्लिस और आरएमएटीएस शामिल हैं।

Introduction

आरएनए-सेक का व्यापक रूप से वर्षों से व्यापक रूप से उपयोग किया गया है आमतौर पर अंतर जीन अभिव्यक्ति और जीन खोज1 का आकलन करने के लिए। इसके अलावा, इसका उपयोग विभिन्न आइसोफॉर्म व्यक्त करने वाले जीन के कारण अलग-अलग एक्सॉन स्तर के उपयोग का अनुमान लगाने के लिए भी किया जा सकता है, इसलिए पोस्ट-ट्रांसक्रिप्शनल स्तर पर जीन विनियमन की बेहतर समझ में योगदान देता है। यूकेरियोटिक जीन के बहुमत एमआरएनए अभिव्यक्ति की विविधता को बढ़ाने के लिए वैकल्पिक स्प्लिसिंग (एएस) द्वारा विभिन्न आइसोफॉर्म उत्पन्न करते हैं। एएस घटनाओं को विभिन्न पैटर्नों में विभाजित किया जा सकता है: पूर्ण एक्सॉन (एसई) को छोड़ना जहां एक ("कैसेट") एक्सॉन को इसके फ्लैंकिंग इंट्रोन्स के साथ प्रतिलेख से पूरी तरह से हटा दिया जाता है; वैकल्पिक (दाता) 5 'स्प्लिस साइट चयन (ए 5 एसएस) और वैकल्पिक 3 ' (स्वीकर्ता) स्प्लिस साइट चयन (ए 3 एसएस) जब एक्सॉन के दोनों छोर पर दो या दो से अधिक स्प्लिस साइटें मौजूद होती हैं; इंट्रोन्स (आरआई) का प्रतिधारण जब एक इंट्रोन को परिपक्व एमआरएनए प्रतिलेख और एक्सॉन उपयोग (एमएक्सई) के पारस्परिक बहिष्करण के भीतर बनाए रखा जाता है, जहां दो उपलब्ध एक्सॉन में से केवल एक कोएक समय में बनाए रखा जा सकता है। वैकल्पिक पॉलीएडेनाइलेशन (एपीए) एक एकल प्रतिलेख4 से कई एमआरएनए आइसोफॉर्म उत्पन्न करने के लिए वैकल्पिक पॉली (ए) साइटों का उपयोग करके जीन अभिव्यक्ति को विनियमित करने में भी महत्वपूर्ण भूमिका निभाता है। अधिकांश पॉलीएडेनाइलेशन साइटें (पीए) 3 'अअनुवादित क्षेत्र (3' यूटीआर) में स्थित हैं, जो विविध 3 ' यूटीआर लंबाई के साथ एमआरएनए आइसोफॉर्म उत्पन्न करती हैं। चूंकि 3 'यूटीआर नियामक तत्वों को पहचानने के लिए केंद्रीय केंद्र है, इसलिए विभिन्न 3 'यूटीआर लंबाई एमआरएनए स्थानीयकरण, स्थिरता और अनुवाद5 को प्रभावित कर सकती है। एपीए का पता लगाने के लिए अनुकूलित 3 'अंत अनुक्रमण परखों का एक वर्ग है जो प्रोटोकॉल6 के विवरण में भिन्न है। यहां वर्णित पाइपलाइन पॉलीए-सेक के लिए डिज़ाइन की गई है, लेकिन वर्णित अन्य प्रोटोकॉल के लिए अनुकूलित किया जा सकता है।

इस अध्ययन में, हम विभेदक एक्सॉन विश्लेषण विधियों 7,8 (चित्रा 1) की एक पाइपलाइन प्रस्तुत करते हैं, जिसे दो व्यापक श्रेणियों में विभाजित किया जा सकता है: एक्सॉन-आधारित (DEXSeq9, डिफस्पिस्प्लिस10) और इवेंट-आधारित (ट्रांसक्रिप्ट स्प्लिसिंग के मल्टीवेरिएट विश्लेषण (rMATS)11 को दोहराएं)। एक्सॉन-आधारित विधियां अलग-अलग एक्सॉन की स्थितियों में गुना परिवर्तन की तुलना करती हैं, समग्र जीन फोल्ड परिवर्तन के माप के खिलाफ अलग-अलग व्यक्त एक्सॉन उपयोग को कॉल करती हैं, और इससे एएस गतिविधि के जीन-स्तर माप की गणना करती हैं। इवेंट-आधारित विधियां एक्सॉन-इंट्रॉन-पैनिंग जंक्शन रीड का उपयोग विशिष्ट स्प्लिसिंग घटनाओं का पता लगाने और वर्गीकृत करने के लिए करती हैं जैसे कि एक्सॉन स्किपिंग या इंट्रोन्स के प्रतिधारण, और आउटपुट3 में इन एएस प्रकारों को अलग करना। इस प्रकार, ये विधियां एएस12,13 के पूर्ण विश्लेषण के लिए पूरक विचार प्रदान करती हैं। हमने अध्ययन के लिए DEXSeq (DESeq214 DGE पैकेज के आधार पर) और डिफस्प्लिस (लिम्मा10 DGE पैकेज के आधार पर) का चयन किया क्योंकि वे विभेदक स्प्लिसिंग विश्लेषण के लिए सबसे व्यापक रूप से उपयोग किए जाने वाले पैकेजों में से हैं। आरएमएटीएस को घटना-आधारित विश्लेषण के लिए एक लोकप्रिय विधि के रूप में चुना गया था। एक और लोकप्रिय घटना-आधारित विधि एमआईएसओ (आइसोफॉर्म का मिश्रण) 1 है। एपीए के लिए हम एक्सॉन-आधारित दृष्टिकोण को अनुकूलित करते हैं।

Figure 1
चित्र 1. विश्लेषण पाइपलाइन। विश्लेषण में उपयोग किए गए चरणों का फ़्लोचार्ट। चरणों में शामिल हैं: डेटा प्राप्त करना, गुणवत्ता जांच करना और संरेखण पढ़ना, जिसके बाद ज्ञात एक्सॉन, इंट्रोन्स और पीए साइटों के लिए एनोटेशन का उपयोग करके रीड की गिनती, कम गिनती को हटाने और सामान्यीकरण के लिए फ़िल्टर करना। डिफस्प्लिस/डीईएक्ससेक विधियों का उपयोग करके वैकल्पिक पीए साइटों के लिए पॉलीए-सेक डेटा का विश्लेषण किया गया था, थोक आरएनए-सेक का विश्लेषण एक्सॉन स्तर पर वैकल्पिक स्प्लिसिंग के लिए डिफस्प्लिस / डीईएक्ससेक विधियों के साथ किया गया था, और एएस घटनाओं का विश्लेषण आरएमएटीएस के साथ किया गया था। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें।

इस सर्वेक्षण में उपयोग किए गए आरएनए-सेक डेटा को जीन एक्सप्रेशन ओमनीबस (जीईओ) (जीएसई 138691)15 से प्राप्त किया गया था। हमने इस अध्ययन से माउस आरएनए-सेक डेटा का उपयोग दो स्थिति समूहों के साथ किया: वाइल्ड-टाइप (डब्ल्यूटी) और मसलब्लाइंड जैसे टाइप 1 नॉकआउट (एमबीएनएल 1 केओ) प्रत्येक में तीन प्रतिकृतियां थीं। विभेदक पॉलीएडेनाइलेशन साइट उपयोग विश्लेषण का प्रदर्शन करने के लिए, हमने माउस भ्रूण फाइब्रोब्लास्ट (एमईएफ) पॉलीए-सेक डेटा (जीईओ परिग्रहण जीएसई 60487)16 प्राप्त किया। डेटा में चार स्थिति समूह हैं: वाइल्ड-टाइप (डब्ल्यूटी), मसलब्लाइंड जैसे टाइप 1/टाइप 2 डबल नॉकआउट (एमबीएनएल 1/2 डीकेओ), एमबीएनएल 1/2 डीकेओ के साथ एमबीएनएल 3 वध (केडी) और एमबीएनएल 3 नियंत्रण (सीटीआरएल) के साथ एमबीएनएल 1/2 डीकेओ। प्रत्येक स्थिति समूह में दो प्रतिकृतियां होती हैं।

जीईओ परिग्रहण SRA रन नंबर नमूना नाम दशा प्रतिकृति ऊतक अनुक्रमण पढ़ने की लंबाई
आरएनए-सेक GSM4116218 SRR10261601 Mbnl1KO_Thymus_1 Mbnl1 नॉकआउट प्रतिनिधि 1 थाइमस पेयर-एंड 100 bp
GSM4116219 SRR10261602 Mbnl1KO_Thymus_2 Mbnl1 नॉकआउट प्रतिनिधि 2 थाइमस पेयर-एंड 100 bp
GSM4116220 SRR10261603 Mbnl1KO_Thymus_3 Mbnl1 नॉकआउट प्रतिनिधि 3 थाइमस पेयर-एंड 100 bp
GSM4116221 SRR10261604 WT_Thymus_1 जंगली प्रकार प्रतिनिधि 1 थाइमस पेयर-एंड 100 bp
GSM4116222 SRR10261605 WT_Thymus_2 जंगली प्रकार प्रतिनिधि 2 थाइमस पेयर-एंड 100 bp
GSM4116223 SRR10261606 WT_Thymus_3 जंगली प्रकार प्रतिनिधि 3 थाइमस पेयर-एंड 100 bp
3P-Seq GSM1480973 SRR1553129 WT_1 जंगली प्रकार (WT) प्रतिनिधि 1 माउस भ्रूण फाइब्रोब्लास्ट (एमईएफ) सिंगल-एंड 40 बीपी
GSM1480974 SRR1553130 WT_2 जंगली प्रकार (WT) प्रतिनिधि 2 माउस भ्रूण फाइब्रोब्लास्ट (एमईएफ) सिंगल-एंड 40 बीपी
GSM1480975 SRR1553131 DKO_1 एमबीएनएल 1/2 डबल नॉकआउट (डीकेओ) प्रतिनिधि 1 माउस भ्रूण फाइब्रोब्लास्ट (एमईएफ) सिंगल-एंड 40 बीपी
GSM1480976 SRR1553132 DKO_2 एमबीएनएल 1/2 डबल नॉकआउट (डीकेओ) प्रतिनिधि 2 माउस भ्रूण फाइब्रोब्लास्ट (एमईएफ) सिंगल-एंड 40 बीपी
GSM1480977 SRR1553133 DKOsiRNA_1 Mbnl 3 sirna (KD) के साथ Mbnl 1/2 डबल नॉकआउट प्रतिनिधि 1 माउस भ्रूण फाइब्रोब्लास्ट (एमईएफ) सिंगल-एंड 40 बीपी
GSM1480978 SRR1553134 DKOsiRNA_2 Mbnl 3 sirna (KD) के साथ Mbnl 1/2 डबल नॉकआउट प्रतिनिधि 2 माउस भ्रूण फाइब्रोब्लास्ट (एमईएफ) सिंगल-एंड 36 बीपी
GSM1480979 SRR1553135 DKONTsiRNA_1 गैर-लक्ष्यीकरण सीआरएनए (Ctrl) के साथ Mbnl 1/2 डबल नॉकआउट प्रतिनिधि 1 माउस भ्रूण फाइब्रोब्लास्ट (एमईएफ) सिंगल-एंड 40 बीपी
GSM1480980 SRR1553136 DKONTsiRNA_2 गैर-लक्ष्यीकरण सीआरएनए (Ctrl) के साथ Mbnl 1/2 डबल नॉकआउट प्रतिनिधि 2 माउस भ्रूण फाइब्रोब्लास्ट (एमईएफ) सिंगल-एंड 40 बीपी

तालिका 1. विश्लेषण के लिए उपयोग किए जाने वाले आरएनए-सेक और पॉलीए-सेक डेटासेट का सारांश।

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. विश्लेषण में उपयोग किए जाने वाले उपकरण और आर पैकेज की स्थापना

  1. कोंडा एक लोकप्रिय और लचीला पैकेज प्रबंधक है जो सभी प्लेटफार्मों पर उनकी निर्भरता के साथ पैकेज की सुविधाजनक स्थापना की अनुमति देता है। 'कोंडा' स्थापित करने के लिए 'एनाकोंडा' (कोंडा पैकेज मैनेजर) का उपयोग करें जिसका उपयोग विश्लेषण के लिए आवश्यक उपकरण / पैकेज स्थापित करने के लिए किया जा सकता है।
  2. https://www.anaconda.com/products/individual#Downloads से सिस्टम आवश्यकताओं के अनुसार 'एनाकोंडा' डाउनलोड करें और ग्राफिकल इंस्टॉलर में संकेतों का पालन करके इसे स्थापित करें। लिनक्स कमांड-लाइन पर निम्नलिखित लिखकर 'कोंडा' का उपयोग करके सभी आवश्यक पैकेज स्थापित करें।
    conda install -c daler sratoolkit
    conda install -c conda-forge parallel
    conda install -c bioconda star bowtie fastqc rmats rmats2sashimiplot samtools fasterq-dump cutadapt bedtools deeptools
  3. प्रोटोकॉल में उपयोग किए गए सभी आर पैकेज डाउनलोड करने के लिए, आर कंसोल में निम्न कोड टाइप करें ('आर' टाइप करके लिनक्स कमांड-लाइन पर शुरू किया गया) या आरस्टूडियो कंसोल।
    bioc_packages<- c("DEXSeq", "Rsubread", "EnhancedVolcano", "edgeR", "limma", "maser","GenomicRanges")
    packages<- c("magrittr", "rtracklayer", "tidyverse", "openxlsx", "BiocManager")
    #Install if not already installed
    installed_packages<-packages%in% rownames(installed.packages())
    installed_bioc_packages<-bioc_packages%in% rownames(installed.packages())
    if(any(installed_packages==FALSE)) {
    install.packages(packages[!installed_packages],dependencies=TRUE)
    BiocManager::install(packages[!installed_bioc_packages], dependencies=TRUE)
    }

    नोट: इस कम्प्यूटेशनल प्रोटोकॉल में, कमांड या तो आर नोटबुक फाइलों (एक्सटेंशन वाली फाइलें" के रूप में दिए जाएंगे। आरएमडी "), आर कोड फाइलें (एक्सटेंशन वाली फाइलें "। आर "), या लिनक्स बैश शेल स्क्रिप्ट (एक्सटेंशन ".sh" वाली फाइलें)। आर नोटबुक (आरएमडी) फ़ाइलों को फ़ाइल का उपयोग कर के RStudio में खोला जाना चाहिए | फ़ाइल ..., और व्यक्तिगत कोड खंड (जो आर कमांड या बैश शेल कमांड हो सकते हैं) खोलें, फिर ऊपरी दाईं ओर हरे तीर पर क्लिक करके इंटरैक्टिव रूप से चलाएं। R कोड फ़ाइलों को RStudio में खोलकर, या Linux कमांड-लाइन पर "Rscript" के साथ प्रीफेसिंग करके चलाया जा सकता है, उदाहरण के लिए.sh example.sh Rscript उदाहरण।

2. आरएनए-सेक का उपयोग करके वैकल्पिक स्प्लिसिंग (एएस) विश्लेषण

  1. डेटा डाउनलोडिंग और प्री-प्रोसेसिंग
    नोट: नीचे एनोटेट किए गए कोड स्निपेट पूरक कोड फ़ाइल में उपलब्ध हैं "AS_analysis_RNASeq.Rmd", व्यक्तिगत चरणों का इंटरैक्टिव रूप से पालन करने के लिए, और लिनक्स कमांड-लाइन पर बैच में चलाने के लिए एक बैश स्क्रिप्ट के रूप में भी प्रदान किया जाता है (sh downloading_data_preprocessing.sh).
    1. कच्चे डेटा को डाउनलोड करना।
      1. एसआरए टूलकिट (v2.10.8)17 से 'प्रीफेच' कमांड का उपयोग करके अनुक्रम पढ़ें पुरालेख (SRA) से कच्चा डेटा डाउनलोड करें। जीएनयू समानांतर उपयोगिता18 का उपयोग करके समानांतर में डाउनलोड करने के लिए निम्नलिखित कमांड में अनुक्रम में एसआरए परिग्रहण आईडी दें। समानांतर में SRR10261601 से SRR10261606 तक परिग्रहण आईडी की SRA फ़ाइलों को डाउनलोड करने के लिए, लिनक्स कमांड-लाइन पर निम्न का उपयोग करें।
        ​seq 10261601 10261606 | parallel prefetch SRR{}
      2. एसआरए टूलकिट से 'फास्टक्यू-डंप' फ़ंक्शन का उपयोग करके संग्रह से फास्टक्यू फाइलें निकालें। जीएनयू समानांतर का उपयोग करें और सभी एसआरए फ़ाइलों के नाम एक साथ दें।
        ​parallel -j 3 fastq-dump --gzip --skip-technical --read-filter pass --dumpbase --split-e --clip --origfmt {} :::
      3. लिनक्स कमांड-लाइन पर निम्नलिखित का उपयोग करके www.ensembl.org से माउस (जीनोम असेंबली जीआरसीएम 39) के लिए संदर्भ जीनोम और एनोटेशन डाउनलोड करें।
        wget -nv -O annotation.gtf.gz http://ftp.ensembl.org/pub/release-103/gtf/mus_musculus/Mus_musculus.GRCm39.103.gtf.gz \ && gunzip -f annotation.gtf.gz
        wget -nv -O genome.fa.gz http://ftp.ensembl.org/pub/release-103/fasta/mus_musculus/dna/Mus_musculus.GRCm39.dna.primary_assembly.fa.gz \ && gunzip -f genome.fa.gz
        GTF=$(readlink -f annotation.gtf)
        GENOME=$(readlink -f genome.fa)
    2. प्री-प्रोसेसिंग और मैपिंग जीनोम असेंबली को पढ़ता है
      1. गुणवत्ता नियंत्रण। FASTQC (FASTQ Quality Check v0.11.9)19 के साथ कच्चे पढ़ने की गुणवत्ता का आकलन करें। एक आउटपुट फ़ोल्डर बनाएं और एकाधिक इनपुट फास्टा फ़ाइलों पर समानांतर के साथ फास्टक्यूसी चलाएं। यह चरण प्रत्येक नमूने के लिए एक गुणवत्ता रिपोर्ट उत्पन्न करेगा। आगे का विश्लेषण करने से पहले पढ़ने की गुणवत्ता स्वीकार्य है, यह सुनिश्चित करने के लिए रिपोर्ट की जांच करें। ( https://www.bioinformatics.babraham.ac.uk/projects/fastqc/ पर रिपोर्ट को समझने के लिए उपयोगकर्ता मैनुअल देखें)
        mkdir fastqc_out
        parallel "fastqc {} -o fastqc_out" ::: $RAW_DATA/*.fastq.gz

        नोट: यदि आवश्यक हो, तो फ्लैंकिंग एडाप्टर में अनुक्रमण को हटाने के लिए 'कटएडेप्ट'20 या 'ट्रिममोमैटिक' 21 के साथ एडाप्टर ट्रिमिंग करें, जो आरएनए टुकड़े के आकार और पढ़ने की लंबाई के आधार पर भिन्न होता है। इस विश्लेषण में हमने इस चरण को छोड़ दिया क्योंकि प्रभावित पढ़ने का अंश न्यूनतम था।
      2. संरेखण पढ़ें. प्री-प्रोसेसिंग में अगले चरण में संदर्भ जीनोम में रीड का मानचित्रण शामिल है। सबसे पहले, स्टार22 के 'जीनोमजेनेट' फ़ंक्शन का उपयोग करके संदर्भ जीनोम के लिए सूचकांक का निर्माण करें और फिर कच्चे रीड को संदर्भ में संरेखित करें (वैकल्पिक रूप से पूर्वनिर्मित इंडेक्स स्टार वेबसाइट से उपलब्ध हैं और सीधे संरेखण के लिए उपयोग किया जा सकता है)। Linux आदेश-पंक्ति पर निम्न आदेश चलाएँ।
        #Build STAR index
        GDIR=STAR_indices
        mkdir $GDIR
        STAR --runMode genomeGenerate --genomeFastaFiles $GENOME --sjdbGTFfile $GTF --runThreadN 8 --genomeDir $GDIR
        ODIR=results/mapping
        mkdir -p $ODIR
        #Align reads to the genome
        for fq1 in $RAW_DATA/*R1.fastq.gz;
        do
        fq2=$(echo $fq1| sed 's/1.fastq.gz/2.fastq.gz/g');
        OUTPUT=$(basename ${fq1}| sed 's/R1.fastq.gz//g');
        STAR --genomeDir $GDIR \
        --runThreadN 12 \
        --readFilesCommand zcat \
        --readFilesIn ${fq1}${fq2}\
        --outFileNamePrefix $ODIR\/${OUTPUT} \
        --outSAMtype BAM SortedByCoordinate \
        --outSAMunmapped Within \
        --outSAMattributes Standard
        Done

        नोट: स्टार संरेखक संरेखण पढ़ने के बाद प्रत्येक नमूने के लिए बीएएम (बाइनरी संरेखण मानचित्र) फ़ाइलों को उत्पन्न और सॉर्ट करेगा। आगे के चरणों पर जाने से पहले बीएएम फ़ाइलों को क्रमबद्ध किया जाना चाहिए।
  2. एक्सॉन एनोटेशन तैयार करना।
    1. पूरक कोड फ़ाइल "prepare_mm_exon_annotation चलाएँएनोटेशन तैयार करने के लिए जीटीएफ (जीन ट्रांसफर प्रारूप) प्रारूप में डाउनलोड किए गए एनोटेशन के साथ आर"। चलाने के लिए, Linux आदेश-पंक्ति पर निम्न टाइप करें।
      Rscript prepare_mm_exon_annotation.R annotation.gtf
      नोट: जीटीएफ फ़ाइल में विभिन्न आइसोफॉर्म के लिए कई एक्सॉन प्रविष्टियां हैं। इस फ़ाइल का उपयोग प्रत्येक एक्सॉन के लिए कई प्रतिलेख आईडी को "ध्वस्त" करने के लिए किया जाता है। एक्सॉन गिनती डिब्बे को परिभाषित करने के लिए यह एक महत्वपूर्ण कदम है।
  3. गिनती पढ़ता है। अगला कदम विभिन्न प्रतिलेख / एक्सॉन में मैप किए गए रीड की संख्या की गणना करना है। पूरक फ़ाइल देखें: "AS_analysis_RNASeq.Rmd".
    1. आवश्यक लायब्रेरीज़ लोड करें:
      packages<- c("Rsubread","tidyverse", "magrittr", "EnhancedVolcano", "edgeR","openxlsx")
      invisible(lapply(packages, library, character.only=TRUE))
    2. पिछले चरण (2.2) से प्राप्त संसाधित एनोटेशन फ़ाइल लोड करें।
      load("mm_exon_anno.RData")
    3. चरण 2.2.2 में प्राप्त सभी बीएएम फाइलों को 'फीचरकाउंट्स' के इनपुट के रूप में पढ़ें। .bam के साथ समाप्त होने वाली निर्देशिका से प्रत्येक फ़ाइल को सूचीबद्ध करके पहले bam फ़ाइलों वाले फ़ोल्डर को पढ़ें। Rsubread पैकेज से 'फीचरकाउंट्स' का उपयोग करें जो प्रत्येक सुविधा से जुड़ी गणनाओं के मैट्रिक्स को उत्पन्न करने के लिए इनपुट के रूप में बीएएम फ़ाइलों और संसाधित जीटीएफ एनोटेशन (संदर्भ) को लेता है, जिसमें एक्सॉन (सुविधाओं) का प्रतिनिधित्व करने वाली पंक्तियाँ और नमूने का प्रतिनिधित्व करने वाले कॉलम होते हैं।
      countData <- dir("bams", pattern=".bam$", full.names=T) %>%
      featureCounts(annot.ext=anno,
      isGTFAnnotationFile=FALSE,
      minMQS=0,useMetaFeatures=FALSE,
      allowMultiOverlap=TRUE,
      largestOverlap=TRUE,
      countMultiMappingReads=FALSE,
      primaryOnly=TRUE,
      isPairedEnd=TRUE,
      nthreads=12)
    4. इसके बाद, कम व्यक्त एक्सॉन को हटाने के लिए गैर-विशिष्ट फ़िल्टरिंग करें ("गैर-विशिष्ट" इंगित करता है कि चयन पूर्वाग्रहों से बचने के लिए फ़िल्टरिंग में प्रयोगात्मक स्थिति जानकारी का उपयोग नहीं किया जाता है)। 'एजआर' पैकेज23 से सीपीएम फ़ंक्शन का उपयोग करके डेटा को कच्चे पैमाने से प्रति मिलियन (सीपीएम) की गणना में बदलें और कम से कम तीन नमूनों में एक सेटटेबल सीमा (इस डेटासेट के लिए एक सीपीएम का उपयोग किया जाता है) से अधिक गणना वाले एक्सॉन रखें। केवल एक एक्सॉन के साथ जीन को भी हटा दें।
      # Non-specific filtering: Remove the exons with low counts
      isexpr<- rownames(countData$counts)[rowSums(cpm(countData$counts)>1) >=3]
      countData$counts<-countData$counts[rownames(countData$counts) %in%isexpr, ]
      anno<-anno%>% filter(GeneID%in% rownames(countData$counts))
      # Remove genes with only 1 site and NA in geneIDs
      dn<-anno%>%group_by(GeneID)%>%summarise(nsites=n())%>% filter(nsites>1&!is.na(GeneID))
      anno<-anno%>% filter(GeneID%in%dn$GeneID)
      countData$counts<-countData$counts[rownames(countData$counts) %in%anno$GeneID, ]

      नोट: विभिन्न डेटा का उपयोग करते समय फीचरकाउंट के लिए आवश्यक पैरामीटर की जांच करें, उदाहरण के लिए, सिंगल-एंड रीड के लिए, 'isPairedEnd = FALSE' सेट करें। अपने डेटा के लिए विकल्प चुनने के लिए RSubread उपयोगकर्ता-मार्गदर्शिका देखें, और नीचे चर्चा अनुभाग देखें।
  4. विभेदक स्प्लिसिंग और एक्सॉन उपयोग विश्लेषण। हम इस चरण के लिए दो विकल्पों का वर्णन करते हैं: DEXSeq और DiffSplice। या तो इस्तेमाल किया जा सकता है और समान परिणाम दे सकता है। संगतता के लिए, यदि आप DGE के लिए DESeq2 पैकेज पसंद करते हैं और Limma-आधारित DGE विश्लेषण के लिए DiffSplice का उपयोग करते हैं, तो DEXSeq का चयन करें। अनुपूरक फाइल देखें: "AS_analysis_RNASeq.Rmd".
    1. विभेदक एक्सॉन विश्लेषण के लिए DEXSeq पैकेज का उपयोग करना।
      1. लायब्रेरी लोड करें और प्रयोगात्मक डिज़ाइन को परिभाषित करने के लिए एक नमूना तालिका बनाएँ।
        library(DEXSeq)
        sampleTable<-data.frame(row.names= c("Mbnl1KO_Thymus_1", "Mbnl1KO_Thymus_2", "Mbnl1KO_Thymus_3", "WT_Thymus_1", "WT_Thymus_2", "WT_Thymus_3"), condition= rep(c("Mbnl1_KO", "WT"),c(3,3)), libType= rep(c("paired-end")))

        नोट: पंक्ति नाम पढ़ने की गणना के लिए फीचरकाउंट्स द्वारा उपयोग किए जाने वाले बीएएम फ़ाइल नामों के अनुरूप होना चाहिए। नमूना तालिका में प्रत्येक नमूने का विवरण होता है जिसमें शामिल होते हैं: पुस्तकालय-प्रकार और स्थिति। अंतर उपयोग का पता लगाने के लिए विरोधाभास या परीक्षण समूह को परिभाषित करना आवश्यक है।
      2. एक्सॉन जानकारी फ़ाइल तैयार करें। अगले चरण में DEXSeq ऑब्जेक्ट बनाने के लिए इनपुट के रूप में GRanges (जीनोमिक रेंज) ऑब्जेक्ट्स (https://bioconductor.org/packages/release/bioc/html/GenomicRanges.html) के रूप में एक्सॉन जानकारी की आवश्यकता होती है। एक्सॉनइन्फो ऑब्जेक्ट बनाने के लिए रीड काउंट के साथ जीन आईडी का मिलान करें।
        exoninfo<-anno[anno$GeneID%in% rownames(countData$counts),]
        exoninfo<-GRanges(seqnames=anno$Chr,
        ranges=IRanges(start=anno$Start, end=anno$End, width=anno$Width),strand=Rle(anno$Strand))
        mcols(exoninfo)$TranscriptIDs<-anno$TranscriptIDs
        mcols(exoninfo)$Ticker<-anno$Ticker
        mcols(exoninfo)$ExonID<-anno$ExonID
        mcols(exoninfo)$n<-anno$n
        mcols(exoninfo)$GeneID<-anno$GeneID
        transcripts_l= strsplit(exoninfo$TranscriptIDs, "\\,")
        save(countData, sampleTable, exoninfo, transcripts_l, file="AS_countdata.RData")
      3. DEXSeqDataSet फ़ंक्शन का उपयोग करDEXSeq ऑब्जेक्ट बनाएँ। DEXSeq ऑब्जेक्ट एक साथ पढ़ने की गिनती, एक्सॉन सुविधा जानकारी और नमूना जानकारी एकत्र करता है। गणना मैट्रिक्स से DEXSeq ऑब्जेक्ट बनाने के लिए चरण 3 में उत्पन्न पठन गणना और पिछले चरण से प्राप्त एक्सॉन जानकारी का उपयोग करें। नमूनाडेटा तर्क नमूने (और उनकी विशेषताएं: लाइब्रेरी प्रकार और स्थिति) को परिभाषित करने वाला एक डेटा फ्रेम इनपुट लेता है, 'डिज़ाइन' मॉडल सूत्र संकेतन का उपयोग करके अंतर परीक्षण के लिए डिज़ाइन मैट्रिक्स उत्पन्न करने के लिए नमूना डेटा का उपयोग करता है। ध्यान दें कि एक महत्वपूर्ण इंटरैक्शन शब्द, स्थिति: एक्सॉन, इंगित करता है कि किसी विशेष एक्सॉन पर गिरने वाले जीन पर पढ़ने का अंश प्रयोगात्मक स्थिति पर निर्भर करता है यानी एएस है। अधिक जटिल प्रयोगात्मक डिजाइनों के लिए मॉडल सूत्र सेट करने के पूर्ण विवरण के लिए DEXSeq प्रलेखन देखें। सुविधा की जानकारी के लिए, एक्सॉन आईडी, संबंधित जीन और प्रतिलेख की आवश्यकता होती है।
        ​dxd<-DEXSeqDataSet(countData$counts,sampleData=sampleTable, design=~sample+exon+condition:exon,featureID=exoninfo$ExonID,groupID=exoninfo$GeneID,featureRanges=exoninfo, transcripts=transcripts_l)
      4. सामान्यीकरण और फैलाव अनुमान। इसके बाद, नमूनों के बीच सामान्यीकरण करें और निम्नलिखित आदेशों का उपयोग करके आरएनए-सेक और जैविक परिवर्तनशीलता की असतत प्रकृति से पॉइसन गिनती शोर दोनों के कारण डेटा के विचरण का अनुमान लगाएं।
        ​dxd %<>% estimateSizeFactors %>% estimateDispersions %T>% plotDispEsts
      5. विभेदक उपयोग के लिए परीक्षण। भिन्नता के आकलन के बाद, प्रत्येक जीन के लिए अंतर एक्सॉन उपयोग के लिए परीक्षण करें और परिणाम उत्पन्न करें।
        dxd%<>%testForDEU%>%estimateExonFoldChanges(fitExpToVar=
        "condition")#Estimate fold changes
        dxr=DEXSeqResults(dxd)
      6. निम्नलिखित आदेश का उपयोग करके चयनित जीन के लिए स्प्लिसिंग घटनाओं की कल्पना करें।
        plotDEXSeq(dxr,"Wnk1", displayTranscripts=TRUE, splicing=TRUE,legend
        =TRUE,cex.axis=1.2,cex=1.3,lwd=2)

        रुचि के जीन के लिए अतिरिक्त भूखंड उत्पन्न करने और विभिन्न थ्रेसहोल्ड पर ज्वालामुखी भूखंड उत्पन्न करने के लिए आर नोटबुक फ़ाइल "AS_analysis_RNASeq.आरएमडी" की जांच करें।
    2. डिफरेंशियल स्प्लिसिंग की पहचान करने के लिए लिम्मा से डिफस्प्लिस का उपयोग करना। R नोटबुक फ़ाइल का पालन करें "AS_analysis_RNASeq.Rmd". सुनिश्चित करें कि आगे बढ़ने से पहले इनपुट फाइलें तैयार करने के लिए चरण 2.1-2.3 का पालन किया गया है।
      1. लायब्रेरीज़ लोड करें
        library(limma)
        library(edgeR)
      2. गैर-विशिष्ट फ़िल्टरिंग. 2.3 में प्राप्त पठन गणनाओं का मैट्रिक्स निकालें। एजआर पैकेज से 'डीजीईलिस्ट' फ़ंक्शन का उपयोग करके सुविधाओं की एक सूची बनाएं, जहां पंक्तियां जीन का प्रतिनिधित्व करती हैं और कॉलम नमूने का प्रतिनिधित्व करते हैं।
        mycounts=countData$counts
        #Change the rownames of the countdata to exon Ids instead of genes for unique rownames.
        rownames(mycounts) = exoninfo$ExonID
        dge<-DGEList(counts=mycounts)
        #Filtering
        isexpr<- rowSums(cpm(dge)>1) >=3
        dge<-dge[isexpr,,keep.lib.sizes=FALSE]
        #Extract the exon annotations for only transcripts meeting non-specific filter
        exoninfo=anno%>% filter(ExonID%in% rownames(dge$counts))
        #Convert the exoninfo into GRanges object
        exoninfo1<-GRanges(seqnames=exoninfo$Chr,
        ranges=IRanges(start=exoninfo$Start, end=exoninfo$End, width=exoninfo$Width),strand=Rle(exoninfo$Strand))
        mcols(exoninfo1)$TranscriptIDs<-exoninfo$TranscriptIDs
        mcols(exoninfo1)$Ticker<-exoninfo$Ticker
        mcols(exoninfo1)$ExonID<-exoninfo$ExonID
        mcols(exoninfo1)$n<-exoninfo$n
        mcols(exoninfo1)$GeneID<-exoninfo$GeneID
        transcripts_l= strsplit(exoninfo1$TranscriptIDs, "\\,")

        नोट: एक गैर-विशिष्ट फ़िल्टरिंग चरण के रूप में, गणनाओं को एन नमूनों में से x में सीपीएम < 1 द्वारा फ़िल्टर किया जाता है, जहां x किसी भी स्थिति में प्रतिकृति की न्यूनतम संख्या है। इस उदाहरण के लिए n = 6 और x = 3।
      3. एम मानों के छंटनी माध्य (टीएमएम सामान्यीकरण विधि) का उपयोग करके 'एजआर' पैकेज से 'कैल्सनॉर्म फैक्टर्स' फ़ंक्शन के साथ नमूनों में गणना को सामान्य करें, यह लाइब्रेरी आकार को समायोजित करने के लिए स्केलिंग कारकों की गणना करेगा।
        ​dge<-calcNormFactors(dge)
      4. चरण 2.4.1.1 में उत्पन्न नमूनाटेबल का उपयोग करें और डिज़ाइन मैट्रिक्स बनाएँ। डिजाइन मैट्रिक्स डिजाइन की विशेषता है। अधिक उन्नत प्रयोगात्मक डिजाइनों के लिए डिजाइन मैट्रिसेस पर विवरण के लिए लिम्मा उपयोगकर्ता गाइड (https://www.bioconductor.org/packages/devel/bioc/vignettes/limma/inst/doc/usersguide.pdf) अध्याय 8 और 9 देखें।
        Treat<- factor(sampleTable$condition)
        design<- model.matrix(~0+Treat)
        colnames(design) <- levels(Treat)
      5. प्रति एक्सॉन एक रैखिक मॉडल फिट करें। आरएनए-सेक डेटा को संसाधित करने के लिए 'लिम्मा' पैकेज के 'वूम' फ़ंक्शन को चलाएं ताकि भिन्नता का अनुमान लगाया जा सके और पॉइसन गिनती शोर को सही करने के लिए सटीक वजन उत्पन्न किया जा सके, और एक्सॉन-स्तर की गणना को लॉग 2-काउंट प्रति मिलियन (लॉगसीपीएम) में बदल दिया जा सके। फिर प्रत्येक एक्सॉन के लिए अभिव्यक्ति डेटा के लिए रैखिक मॉडल फिट करने के लिए 'एलएमफिट' फ़ंक्शन का उपयोग करके रैखिक मॉडलिंग चलाएं। विभेदक एक्सॉन अभिव्यक्ति का पता लगाने के लिए 'ईबेयस' फ़ंक्शन का उपयोग करके फिट किए गए मॉडल के लिए अनुभवजन्य बेयस आंकड़ों की गणना करें। इसके बाद, रुचि की प्रयोगात्मक तुलना के लिए एक विपरीत मैट्रिक्स को परिभाषित करें। तुलना की प्रत्येक जोड़ी के लिए गुणांक और मानक त्रुटियाँ प्राप्त करने के लिए 'कंट्रास्ट्स.फिट' का उपयोग करें.
        v<-voom(dge,design,plot=FALSE)
        fit<-lmFit(v,design)
        fit<-eBayes(fit)
        colnames(fit)
        cont.matrix<-makeContrasts(
        Mbnl1_KO_WT=Mbnl1_KO-WT,
        levels=design)
        fit2<-contrasts.fit(fit,cont.matrix)
      6. विभेदक स्प्लिसिंग विश्लेषण। वाइल्ड-टाइप और नॉकआउट के बीच जीन के एक्सॉन उपयोग में अंतर का परीक्षण करने के लिए फिट किए गए मॉडल पर 'डिफस्प्लिस' चलाएं और 'टॉपस्प्लिस' फ़ंक्शन का उपयोग करके शीर्ष रैंक किए गए परिणामों का पता लगाएं: टेस्ट = "टी" एएस एक्सॉन की रैंकिंग देता है, टेस्ट = "सिम्स" जीन की रैंकिंग देता है।
        ex<-diffSplice(fit2,geneid=exoninfo$GeneID,exonid=exoninfo$ExonID)
        ts<-topSplice(ex,n=Inf,FDR=0.1, test="t", sort.by="logFC")
        ​tg<-topSplice(ex,n=Inf,FDR=0.1, test="simes")
      7. दृश्य। परिणामों को 'प्लॉटस्प्लिस' फ़ंक्शन के साथ प्लॉट करें, जिससे जीनिड तर्क में रुचि का जीन मिलता है। लॉग फोल्ड द्वारा क्रमबद्ध शीर्ष परिणामों को एक वस्तु में सहेजें और एक्सॉन प्रदर्शित करने के लिए एक ज्वालामुखी प्लॉट उत्पन्न करें।
        plotSplice(ex,geneid="Wnk1", FDR=0.1)
        #Volcano plot
        EnhancedVolcano(ts,lab=ts$ExonID,selectLab= head((ts$ExonID),2000), xlab= bquote(~Log[2]~'fold change'), x='logFC', y='P.Value', title='Volcano Plot', subtitle='Mbnl1_KO vs WT (Limma_diffSplice)', FCcutoff=2, labSize=4,legendPosition="right", caption= bquote(~Log[2]~"Fold change cutoff, 2; FDR 10%"))
    3. rMATS का उपयोग करना
      1. सुनिश्चित करें कि rMATS v4.1.1 (कम प्रसंस्करण समय और मेमोरी की कम आवश्यकताओं के कारण rMATS टर्बो के रूप में भी जाना जाता है) का नवीनतम संस्करण या तो कार्यशील निर्देशिका में कोंडा या गिटहब (https://github.com/Xinglab/rmats-turbo/releases/download/v4.1.1/rmats_turbo_v4_1_1.tar.gz) का उपयोग करके स्थापित किया गया है। "AS_analysis_RNASeq.Rmd" में अनुभाग 4.3 का पालन करें।
      2. मैपिंग के बाद प्राप्त बीएएम फ़ाइलों वाले फ़ोल्डर पर जाएं और ',' द्वारा अलग किए गए बीएएम फ़ाइलों (पथ के साथ) के नाम को कॉपी करके दो शर्तों के लिए , जैसा कि आरएमएटीएस द्वारा आवश्यक है, टेक्स्ट फाइलें तैयार करें। लिनक्स कमांड-लाइन पर निम्नलिखित कमांड चलाए जाने चाहिए:
        mkdir rMATS_analysis
        cd bams/
        ls -pd "$PWD"/*| grep "WT"| tr '\n'','> Wt.txt
        ls -pd "$PWD"/*| grep "Mb"| tr '\n'','> KO.txt
        mv *.txt ../rMATS_analysis
      3. 2.1.1.3 में प्राप्त जीटीएफ फ़ाइल के साथ, पिछले चरण में उत्पन्न दो इनपुट फ़ाइलों के साथ rmats.py चलाएँ। यह एक आउटपुट फ़ोल्डर 'rmats_out' उत्पन्न करेगा जिसमें प्रत्येक स्प्लिसिंग ईवेंट के लिए अलग-अलग आंकड़ों (पी-मान और समावेशन स्तर) का वर्णन करने वाली पाठ फाइलें होंगी।
        python rmats-turbo/rmats.py --b1 KO.txt --b2 Wt.txt --gtf annotation.gtf -t paired --readLength 50 --nthread 8 --od rmats_out/ --tmp rmats_tmp --task pos
        नोट: एक जीटीएफ फ़ाइल के रूप में संदर्भ एनोटेशन भी आवश्यक है। यदि डेटा एकल-अंत है, तो मापदंडों की जांच करें, और तदनुसार -टी विकल्प बदलें।
      4. RMATS परिणामों की खोज. RMATS परिणामों का पता लगाने के लिए बायोकंडक्टर पैकेज 'maser'25 का उपयोग करें। जंक्शन और एक्सॉन काउंट्स (जेसीईसी) टेक्स्ट फाइलों को 'मासर' ऑब्जेक्ट में लोड करें और प्रति स्प्लिसिंग इवेंट में कम से कम पांच औसत रीड शामिल करके कवरेज के आधार पर परिणाम को फ़िल्टर करें।
        library(maser)
        mbnl1<-maser("/rmats_out/", c("WT","Mbnl1_KO"), ftype="JCEC")
        #Filtering out events by coverage
        mbnl1_filt<-filterByCoverage(mbnl1,avg_reads=5)
      5. RMATS परिणामों की कल्पना करना। 'मासर' पैकेज से 'टॉपइवेंट्स' फ़ंक्शन का उपयोग करके फॉल्स डिस्कवरी रेट (एफडीआर) 10% और प्रतिशत स्प्लिस्ड इन (डेल्टापीएसआई) में न्यूनतम 10% परिवर्तन पर महत्वपूर्ण स्प्लिसिंग घटनाओं का चयन करें। इसके बाद, रुचि के व्यक्तिगत जीन (नमूना जीन-डब्ल्यूएनके 1) के लिए जीन घटनाओं की जांच करें और उस जीन के प्रत्येक स्प्लिसिंग घटना के लिए पीएसआई मूल्यों को प्लॉट करें। घटना प्रकार निर्दिष्ट करके एक ज्वालामुखी प्लॉट उत्पन्न करें।
        #Top splicing events at 10% FDR
        mbnl1_top<-topEvents(mbnl1_filt,fdr=0.1, deltaPSI=0.1)
        mbnl1_top
        #Check the gene events for a particular gene
        mbnl1_wnk1<-geneEvents(mbnl1_filt,geneS="Wnk1", fdr=0.1, deltaPSI=0.1)
        maser::display(mbnl1_wnk1,"SE")
        plotGenePSI(mbnl1_wnk1,type="SE", show_replicates
        =TRUE)
        ​volcano(mbnl1_filt,fdr=0.1, deltaPSI=0.1,type="SE")
        +xlab("deltaPSI")+ylab("Log10 Adj. Pvalue")+ggtitle("Volcano Plot of exon skipping events")
      6. 'rmats2shahimiplot' पैकेज का उपयोग करके पाठ फ़ाइलों के रूप में RMATS के साथ प्राप्त स्प्लिसिंग इवेंट्स परिणाम के लिए साशिमी प्लॉट उत्पन्न करें। लिनक्स कमांड-लाइन पर पायथन स्क्रिप्ट चलाएँ।
        python ./src/rmats2sashimiplot/rmats2sashimiplot.py --b1 ../bams/WT_Thymus_1.bam,../bams/WT_Thymus_2.bam,../bams/WT_Thymus_3.bam --b2 ../bams/Mbnl1KO_Thymus_1.bam,../bams/Mbnl1KO_Thymus_2.bam,../bams/Mbnl1KO_Thymus_3.bam -t SE -e ../rMATS_analysis/rmats_out/SE.MATS.JC.txt --l1 WT --l2 Mbnl1_KO --exon_s 1 --intron_s 5 -o ../rMATS_analysis/rmats2shasmi_output
        नोट: यह प्रक्रिया समय लेने वाली हो सकती है क्योंकि यह इवेंट फ़ाइल में सभी परिणामों के लिए साशिमी प्लॉट उत्पन्न करेगी। 'मासर' से टॉपइवेंट्स फ़ंक्शन द्वारा प्रदर्शित शीर्ष परिणामों (जीन नाम और एक्सॉन) का चयन करें और संबंधित साशिमी प्लॉट की कल्पना करें।

3. 3'अंत अनुक्रमण का उपयोग करके वैकल्पिक पॉलीएडेनाइलेशन (एपीए) विश्लेषण

  1. डेटा डाउनलोडिंग और प्री-प्रोसेसिंग
    नोट: पूरक आर नोटबुक फ़ाइल "APA_analysis_3PSeq_notebook देखें। डेटा डाउनलोडिंग और प्री-प्रोसेसिंग चरणों के लिए पूर्ण आदेशों के लिए आरएमडी", या लिनक्स कमांड-लाइन पर पूरक बैश फ़ाइल "APA_data_downloading_preprocessing.sh" चलाएं।
    1. परिग्रहण आईडी (1553136 के 1553129) के साथ एसआरए से डेटा डाउनलोड करें।
    2. सेंस स्ट्रैंड अनुक्रम प्राप्त करने के लिए ट्रिम एडेप्टर और रिवर्स पूरक।
      नोट: यह चरण उपयोग किए गए पॉलीए-सेक परख के लिए विशिष्ट है।
    3. मानचित्र बोटी संरेखक26 का उपयोग करके माउस जीनोम असेंबली को पढ़ता है।
  2. पीए साइट एनोटेशन तैयार करना।
    नोट: पीए साइट एनोटेशन फ़ाइल का प्रसंस्करण पहले पूरक आर नोटबुक फ़ाइल "APA_analysis_3PSeq_notebook का उपयोग करके किया जाता है। Rmd" (2.1 - 2.6), और फिर बैश फ़ाइल "APA_annotation_preparation.sh" का उपयोग करना।
    1. PolyASite 2.0 डेटाबेस 6 से pA साइट एनोटेशन डाउनलोडकरें
    2. 3'-अअनुवादित क्षेत्र (यूटीआर) पीए साइटों को बनाए रखने के लिए पीए साइट एनोटेशन का चयन करें, जिन्हें डाउनस्ट्रीम विश्लेषण के लिए एनोटेट टर्मिनल एक्सॉन (टीई) या एनोटेटेड टर्मिनल एक्सॉन (डीएस) के 1000 एनटी डाउनस्ट्रीम के रूप में एनोटेट किया जाता है।
    3. पीए साइट चोटियाँ प्राप्त करें। प्रत्येक पीए क्लीवेज साइट पर लंगर डालें, और बेडटूल्स और डीपटूल्स27,28 का उपयोग करके औसत पठन कवरेज की कल्पना करें। परिणामों से पता चला है कि मैप किए गए रीड की चोटियां मुख्य रूप से दरार साइटों (चित्रा 5 और पूरक आंकड़ा 5) के ऊपर ~ 60 बीपी के भीतर फैली हुई थीं। इसलिए, पीए साइटों के निर्देशांक को एनोटेशन फ़ाइल से उनके क्लीवेज साइटों के अपस्ट्रीम 60 बीपी तक बढ़ाया गया था। उपयोग किए गए विशिष्ट 3 'एंड सीक्वेंसिंग प्रोटोकॉल के आधार पर, इस चरण को पॉलीए-सेक के अलावा अन्य परखों के लिए अनुकूलित करने की आवश्यकता होगी।
  3. गिनती पढ़ती है
    1. पीए साइट एनोटेशन फ़ाइल तैयार करें।
      anno<- read.table(file= "flanking60added.pA_annotation.bed",
      stringsAsFactors=FALSE, check.names=FALSE, header=FALSE, sep="")
      colnames(anno) <- c("chrom", "chromStart", "chromEnd", "name", "score", "strand", "rep", "annotation", "gene_name", "gene_id")
      anno<- dplyr::select(anno,name,chrom, chromStart,chromEnd, strand,gene_id,gene_name,rep)
      colnames(anno) <- c("GeneID", "Chr", "Start", "End", "Strand", "Ensembl", "Symbol", "repID")
    2. कच्ची गिनती प्राप्त करने के लिए 'फीचरकाउंट्स' लागू करें। विभिन्न उपकरणों का उपयोग करएपीए विश्लेषण के लिए गणना तालिका को RData फ़ाइल "APA_countData.Rdata" के रूप में सहेजें।
      countData<- dir("bamfiles", pattern="sorted.bam$", full.names=TRUE) %>%
      # Read all bam files as input for featureCounts
      featureCounts(annot.ext=anno, isGTFAnnotationFile= FALSE,minMQS=0,useMetaFeatures= TRUE,allowMultiOverlap=TRUE, largestOverlap= TRUE,strandSpecific=1, countMultiMappingReads =TRUE,primaryOnly= TRUE,isPairedEnd= FALSE,nthreads=12)%T>%
      save(file="APA_countData.Rdata")

      नोट: 'फीचरकाउंट्स' फ़ंक्शन में सूचीबद्ध किसी भी पैरामीटर को बदलने के लिए सचेत रहें। 'स्ट्रैंडस्पेसिफिक' पैरामीटर को संशोधित करें ताकि यह सुनिश्चित किया जा सके कि यह उपयोग किए गए 3' अंत अनुक्रमण परख की अनुक्रमण दिशा के अनुरूप है (अनुभवजन्य रूप से, प्लस और माइनस स्ट्रैंड पर जीन पर जीनोम ब्राउज़र में डेटा की कल्पना करना इसे स्पष्ट करेगा)।
    3. countData की गैर-विशिष्ट फ़िल्टरिंग लागू करें. फ़िल्टरिंग अंतर पीए साइट उपयोग परीक्षणों में सांख्यिकीय मजबूती में काफी सुधार कर सकती है। सबसे पहले, हमने केवल एक पीए साइट के साथ उन जीनों को हटा दिया, जिन पर अलग-अलग पीए साइट उपयोग को परिभाषित नहीं किया जा सकता है। दूसरा, हम कवरेज के आधार पर गैर-विशिष्ट फ़िल्टरिंग लागू करते हैं: गणना को एन नमूनों में से एक्स में 1 से कम सीपीएम द्वारा फ़िल्टर किया जाता है, जहां एक्स किसी भी स्थिति में प्रतिकृति की न्यूनतम संख्या है। इस उदाहरण के लिए N = 8 और x = 2।
      load(file= "APA_countData.Rdata")# Skip this step if already loaded
      # Non-specific filtering: Remove the pA sites not differentially expressed in the samples

      countData<-countData$counts%>%as.data.frame%>% .[rowSums(edgeR::cpm(.)>1) >=2, ]
      anno%<>% .[.$GeneID%in% rownames(countData), ]
      # Remove genes with only 1 site and NA in geneIDs
      dnsites<-anno%>%group_by(Symbol)%>%summarise(nsites=n())%>% filter(nsites>1&!is.na(Symbol))
      anno<-anno%>% filter(Symbol%in%dnsites$Symbol)
      countData<-countData[rownames(countData) %in%anno$GeneID, ]
  4. DEXSeq और डिफस्प्लिस पाइपलाइनों का उपयोग करके विभेदक पॉलीएडेनाइलेशन साइट उपयोग विश्लेषण।
    1. DEXSeq पैकेज का उपयोग करना
      नोट: चूंकि डेक्ससेक पाइपलाइन के लिए एक कंट्रास्ट मैट्रिक्स को परिभाषित नहीं किया जा सकता है, इसलिए प्रत्येक दो प्रयोगात्मक स्थितियों के अंतर एपीए विश्लेषण को अलग से किया जाना चाहिए। प्रक्रिया को समझाने के लिए स्थिति डब्ल्यूटी और स्थिति डीकेओ का अंतर एपीए विश्लेषण एक उदाहरण के रूप में किया जाता है। अनुपूरक फाइल देखें "APA_analysis_3PSeq_notebook। Rmd" इस खंड के चरण-दर-चरण वर्कफ़्लो और अन्य विरोधाभासों के अंतर एपीए विश्लेषण के लिए।
      1. लायब्रेरी लोड करें और प्रयोगात्मक डिज़ाइन को परिभाषित करने के लिए एक नमूना तालिका बनाएँ।
        c("DEXSeq", "GenomicRanges") %>% lapply(library, character.only=TRUE) %>%invisible
        sampleTable1<- data.frame(row.names= c("WT_1","WT_2","DKO_1","DKO_2"),
        condition= c(rep("WT", 2), rep("DKO", 2)),
        ​libType= rep("single-end", 4))
      2. बायोकंडक्टर पैकेज GRanges का उपयोग करके पीए साइटों की जानकारी फ़ाइल तैयार करें।
        # Prepare the GRanges object for DEXSeqDataSet object construction
        PASinfo <- GRanges(seqnames = anno$Chr,
        ranges = IRanges(start = anno$Start, end = anno$End),strand = Rle(anno$Strand))
        mcols(PASinfo)$PASID<-anno$repID
        mcols(PASinfo)$GeneEns<-anno$Ensembl
        mcols(PASinfo)$GeneID<-anno$Symbol
        # Prepare the new feature IDs, replace the strand information with letters to match the current pA site clusterID
        new.featureID <- anno$Strand %>% as.character %>% replace(. %in% "+", "F") %>% replace(. %in% "-", "R") %>% paste0(as.character(anno$repID), .)
      3. DEXSeq ऑब्जेक्ट बनाने के लिए चरण 3.3 में उत्पन्न पठन गणना और पिछले चरण से प्राप्त pA साइट जानकारी का उपयोग करें।
        # Select the read counts of the condition WT and DKO
        countData1<- dplyr::select(countData, SRR1553129.sorted.bam, SRR1553130.sorted.bam, SRR1553131.sorted.bam, SRR1553132.sorted.bam)
        # Rename the columns of countData using sample names in sampleTable
        colnames(countData1) <- rownames(sampleTable1)
        dxd1<-DEXSeqDataSet(countData=countData1,
        sampleData=sampleTable1,
        design=~sample+exon+condition:exon,
        featureID=new.featureID,
        groupID=anno$Symbol,
        featureRanges=PASinfo)
      4. DEXSeq ऑब्जेक्ट में स्थितियों के स्तर को परिभाषित करने के माध्यम से कंट्रास्ट जोड़ी को परिभाषित करें।
        dxd1$condition<- factor(dxd1$condition, levels= c("WT", "DKO"))
        # The contrast pair will be "DKO - WT"
      5. सामान्यीकरण और फैलाव अनुमान। आरएनए-सेक डेटा के समान, 3' एंड सीक्वेंसिंग डेटा के लिए 'एस्टिमेटसाइज फैक्टर्स' फ़ंक्शन का उपयोग करके नमूनों (प्रत्येक नमूने के लिए अनुपात का कॉलम-वार औसत) के बीच सामान्यीकरण करता है, और 'अनुमान फैलाव' फ़ंक्शन का उपयोग करके डेटा की भिन्नता का अनुमान लगाता है, फिर 'प्लॉटडिस्पेस्ट' फ़ंक्शन का उपयोग करके फैलाव अनुमान परिणाम की कल्पना करता है।
        ​dxd1 %<>% estimateSizeFactors %>% estimateDispersions %T>% plotDispEsts
      6. फ़ंक्शन 'testForDEU' का उपयोग करके प्रत्येक जीन के लिए विभेदक पीए साइट उपयोग परीक्षण, फिर फ़ंक्शन 'एस्टिमेटएक्सॉनफोल्डचेंज' का उपयोग करके पीए साइट उपयोग के गुना परिवर्तन का अनुमान लगाएं। फ़ंक्शन 'DEXSeqResults' का उपयोग करके परिणामों की जांच करें और महत्वपूर्ण अंतर पीए साइटों के मानदंड के रूप में 'एफडीआर < 10% ' सेट करें।
        dxd1 %<>% testForDEU %>% estimateExonFoldChanges(fitExpToVar = "condition")
        dxr1 <- DEXSeqResults(dxd1)
        dxr1
        mcols(dxr1)$description
        table(dxr1$padj<0.1) # Check the number of differential pA sites (FDR < 0.1)
        table(tapply(dxr1$padj<0.1, dxr1$groupID, any)) # Check the number of gene overlapped with differential pA site
      7. फ़ंक्शन 'प्लॉटडेक्ससेक' द्वारा उत्पन्न विभेदक एपीए भूखंडों और 'एन्हांस्ड वोल्कानो' फ़ंक्शन द्वारा ज्वालामुखी प्लॉट का उपयोग करके विभेदक पीए साइट उपयोग परिणामों का विज़ुअलाइज़ेशन।
        # Select the top 100 significant differential pA sites ranked by FDR
        topdiff.PAS<- dxr1%>%as.data.frame%>%rownames_to_column%>%arrange(padj)%$%groupID[1:100]

        # Apply plotDEXSeq for the visualization of differential polyA usage
        plotDEXSeq(dxr1,"S100a7a", legend=TRUE, expression=FALSE,splicing=TRUE, cex.axis=1.2, cex=1.3,lwd=2)

        # Apply perGeneQValue to check the top genes with differential polyA site usage
        dxr1%<>% .[!is.na(.$padj), ]
        dgene<- data.frame(perGeneQValue= perGeneQValue (dxr1)) %>%rownames_to_column("groupID")

        dePAS_sig1<-dxr1%>% data.frame() %>%
        dplyr::select(-matches("dispersion|stat|countData|genomicData"))%>%
        inner_join(dgene)%>%arrange(perGeneQValue)%>%distinct()%>%
        filter(padj<0.1)

        # Apply EnhancedVolcano package to visualise differential polyA site usage
        "EnhancedVolcano"%>% lapply(library, character.only=TRUE) %>%invisible
        EnhancedVolcano(dePAS_sig1, lab=dePAS_sig1$groupID, x='log2fold_DKO_WT',
        y='pvalue',title='Volcano Plot',subtitle='DKO vs WT',
        FCcutoff=1,labSize=4, legendPosition="right",
        caption= bquote(~Log[2]~"Fold change cutoff, 1; FDR 10%"))
    2. डिफस्प्लिस पैकेज का उपयोग करना। पूरक आर नोटबुक फ़ाइल "APA_analysis_3PSeq_notebook देखें। इस अनुभाग के चरण-दर-चरण वर्कफ़्लो के लिए Rmd".
      1. अंतर पीए उपयोग विश्लेषण के लिए रुचि के विरोधाभासों को परिभाषित करें।
        नोट: यह चरण डीजीईलिस्ट ऑब्जेक्ट के निर्माण और प्रसंस्करण के बाद किया जाना चाहिए, जो आर नोटबुक फ़ाइल "APA_analysis_3PSeq_notebook में शामिल है। आरएमडी".
        contrast.matrix<-makeContrasts(DKO_vs_WT=DKO-
        WT,Ctrl_vs_DKO=Ctrl-DKO,
        KD_vs_Ctrl=KD-Ctrl,KD_vs_DKO=KD-DKO,levels=design)
        fit2<-fit%>%contrasts.fit(contrast.matrix)%>%eBayes
        summary(decideTests(fit2))
        ex<-diffSplice(fit2,geneid=anno$Symbol,exonid=new.featureID)
        topSplice(ex) #Check the top significant results with topSplice
      2. फ़ंक्शन 'प्लॉटस्प्लिस' द्वारा विभेदक एपीए भूखंडों का उपयोग करके रुचि के विरोधाभासों (यहां "डीकेओ - डब्ल्यूटी") के परिणाम की कल्पना करें और फ़ंक्शन 'एन्हांस्ड वोल्कानो' के साथ ज्वालामुखी भूखंड। R नोटबुक फ़ाइल "APA_analysis_3PSeq_notebook देखें। अन्य कंट्रास्ट जोड़े के विज़ुअलाइज़ेशन के लिए आरएमडी " 4.2.7 - 4.2.9।
        sig1<-topSplice(ex,n=Inf,FDR=0.1,coef=1, test="t", sort.by="logFC")
        sig1.genes<-topSplice(ex,n=Inf,FDR=0.1,coef=1, test="simes")
        plotSplice(ex, coef=1,geneid="S100a7a", FDR = 0.1)
        plotSplice(ex,coef=1,geneid="Tpm1", FDR = 0.1)
        plotSplice(ex,coef=1,geneid="Smc6", FDR = 0.1)
        EnhancedVolcano(sig1, lab=sig1$GeneID,xlab= bquote(~Log[2]~'fold change'),
        x='logFC', y='P.Value', title='Volcano Plot', subtitle='DKO vs WT',
        FCcutoff=1, labSize=6, legendPosition="right")

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

उपरोक्त चरण-दर-चरण वर्कफ़्लो चलाने के बाद, एएस और एपीए विश्लेषण आउटपुट और प्रतिनिधि परिणाम तालिकाओं और डेटा प्लॉट के रूप में होते हैं, जो निम्नानुसार उत्पन्न होते हैं।

जैसा:
एएस विश्लेषण का मुख्य आउटपुट (डिफस्प्लिस के लिए पूरक तालिका 1 ; DEXSeq के लिए तालिका 2 ) एक्सॉन की एक सूची है जो स्थितियों में अंतर उपयोग दिखाती है, और जीन की एक सूची इसके एक या अधिक घटक एक्सॉन की महत्वपूर्ण समग्र स्प्लिसिंग गतिविधि दिखाती है, जिसे सांख्यिकीय महत्व द्वारा रैंक किया गया है। पूरक तालिका 1, टैब 2 महत्वपूर्ण एक्सॉन दिखाता है, जिसमें कॉलम एक्सॉन बनाम बाकी, प्रति-एक्सॉन असमायोजित पी-वैल्यू और समायोजित पी-वैल्यू (बेंजामिनी-हॉकबर्ग सुधार) के अंतर एफसी दिखाते हैं। समायोजित पी-मानों पर थ्रेसहोल्डिंग परिभाषित एफडीआर के साथ एक्सॉन का एक सेट देगा। पूरक तालिका 1, टैब 3 जीन की एक रैंक सूची दिखाता है जो समग्र स्प्लिसिंग गतिविधि के महत्व को दर्शाता है, जिसमें एक कॉलम सिम्स विधि का उपयोग करके जीन-स्तर समायोजित पी-वैल्यू की गणना दिखाता है। इसी तरह के डेटा DEXSeq के लिए तालिका 2 में दिखाए गए हैं। पूरक चित्र 1 और पूरक चित्र 2 एमबीएनएल 1, टीसीएफ 7 और एलईएफ 1 जीन में अंतर स्प्लिसिंग पैटर्न दिखाते हैं जिन्हें डेटा15 के साथ प्रस्तुत प्रकाशित लेख में प्रयोगात्मक रूप से मान्य किया गया है। लेखकों ने पांच जीनों- Mbnl1, Mbnl2, Lef1, Tcf7 और Ncor2 का प्रयोगात्मक सत्यापन दिखाया है। हमारे दृष्टिकोण ने इन सभी जीनों में अंतर स्प्लिसिंग पैटन का पता लगाया। यहां हम पूरक तालिका 1-3 में प्राप्त क्रमशः DEXSeq, diffSplice और rMATS का उपयोग करके प्रत्येक जीन के लिए FDR स्तर प्रस्तुत करते हैं: Mbnl1 (0, 6.6E-61,0), Mbnl2 (0,0.18,0), Lef1 (1.4E-10, 1.3E-04, 0), Tcf7 (0, 1.1E-6, 0) और Ncor2 (9.2E-11, 0.

चित्रा 2 तीन अलग-अलग उपकरणों से प्राप्त आउटपुट के बीच तुलना प्रदर्शित करता है और डब्ल्यूएनके 1 जीन में वैकल्पिक स्प्लिसिंग पैटर्न दिखाता है। ज्वालामुखी भूखंडों को चित्रा 2 ए (डिफस्प्लिस) और चित्रा 2 बी (डेक्ससेक) में दिखाया गया है। एक अतिरिक्त तीन उच्च रैंक वाले जीन पूरक चित्रा 1 (डिफस्प्लिस) और पूरक चित्रा 2 (DEXSeq) में दिखाए गए हैं। वाई-अक्ष सांख्यिकीय महत्व (-लॉग 10 पी-मान) दिखाता है और एक्स-अक्ष प्रभाव आकार (गुना परिवर्तन) दिखाता है। शीर्ष बाएं या दाएं चतुर्थांश में स्थित जीन पर्याप्त एफसी और वास्तविक अंतर के मजबूत सांख्यिकीय सबूत का संकेत देते हैं।

Figure 2
चित्र 2. डिफस्प्लिस, डेक्ससेक और आरएमएटीएस से प्राप्त वैकल्पिक स्प्लिसिंग परिणामों की तुलना। |
() लिम्मा डिफस्प्लिस विश्लेषण से आरएनए-सेक का ज्वालामुखी प्लॉट (बाएं): एक्स-अक्ष लॉग एक्सॉन फोल्ड परिवर्तन दिखाता है; y-अक्ष -log10 p-मान दिखाता है। प्रत्येक बिंदु एक एक्सॉन से मेल खाता है। पी-मान = 1 ई -5 पर क्षैतिज डैश लाइन; ऊर्ध्वाधर ने दो गुना परिवर्तन (एफसी) पर लाइनों को ध्वस्त कर दिया। लाल एक्सॉन पर्याप्त एफसी और सांख्यिकीय महत्व दिखाते हैं। विभेदक स्प्लिसिंग प्लॉट (दाएं): स्प्लिसिंग पैटर्न को एक उदाहरण जीन डब्ल्यूएनके 1 के लिए प्रदर्शित किया जाता है जहां एक्स-अक्ष प्रति प्रतिलेख एक्सॉन आईडी दिखाता है; वाई-अक्ष एक्सॉन सापेक्ष लॉग फोल्ड परिवर्तन दिखाता है (एक्सॉन के लॉगएफसी और अन्य सभी एक्सॉन के लिए समग्र लॉगएफसी के बीच का अंतर)। लाल रंग में हाइलाइट किए गए एक्सॉन सांख्यिकीय रूप से महत्वपूर्ण अंतर अभिव्यक्ति दिखाते हैं (एफडीआर < 0.1)।
(बी) डेक्ससेक विश्लेषण से प्राप्त आरएनए-सेक के ज्वालामुखी प्लॉट (बाएं) और विभेदक एक्सॉन उपयोग (दाएं)। WNK1 जीन गुलाबी रंग में हाइलाइट किए गए WT और Mbnl1 नॉक-आउट के बीच एक्सॉन के महत्वपूर्ण अंतर उपयोग को दर्शाता है, जो (A) में एक ही अंतर एक्सॉन के अनुरूप है।
(सी) आरएनएटीएस विश्लेषण से प्राप्त डब्ल्यूएनके 1 के लिए ज्वालामुखी प्लॉट (बाएं) और सशिमी प्लॉट (दाएं)। ज्वालामुखी की साजिश में जंगली प्रकार में महत्वपूर्ण स्किप्ड (कैसेट) एक्सॉन (एसई) घटना को दर्शाया गया है, जो 10% एफडीआर पर नॉकआउट की तुलना में 0.1 > प्रतिशत स्प्लिस्ड (पीएसआई या ए) मूल्यों में परिवर्तन के साथ है। x-अक्ष स्थितियों में PSI मानों में परिवर्तन दिखाता है, और y-अक्ष लॉग P-मान दिखाता है। साशिमी प्लॉट WNK1 जीन में एक स्किप एक्सॉन घटना दिखाता है, जो (ए) और (बी) में एक महत्वपूर्ण अंतर एक्सॉन के अनुरूप है। प्रत्येक पंक्ति एक आरएनए-सेक नमूने का प्रतिनिधित्व करती है: जंगली-प्रकार और एमबीएनएल 1 नॉक-आउट की तीन प्रतिकृतियां। ऊंचाई आरपीकेएम में रीड कवरेज दिखाती है और कनेक्टिंग आर्क एक्सॉन में जंक्शन को दर्शाते हैं। एनोटेटेड जीन मॉडल वैकल्पिक आइसोफॉर्म प्लॉट के निचले भाग में दिखाए गए हैं। सी का निचला पैनल पीएसआई सांख्यिकी की गणना करने के लिए उपयोग किए जाने वाले जंक्शन रीड को दर्शाता है।
(डी) वेन आरेख विभिन्न विधियों द्वारा प्राप्त महत्वपूर्ण अंतर एक्सॉन की संख्या की तुलना करता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें।

चित्र 2 एक (दाएं पैनल) शीर्ष रैंक जीनों में से एक के एक्सॉन अंतर का एक आरेखीय प्रदर्शन दिखाता है, जो वाई-अक्ष पर लॉगएफसी और एक्स-अक्ष पर एक्सॉन संख्या दिखाता है। यह उदाहरण जीन WNK1 के लिए स्थितियों के बीच भिन्न एक कैसेट एक्सॉन दिखाता है। DEXSeq से विभेदक एक्सॉन उपयोग प्लॉट WNK1.6.45 के पास पांच एक्सॉन साइटों पर अंतर स्प्लिसिंग के सबूत दिखाता है। डब्ल्यूटी की तुलना में एमबीएनएल 1 केओ नमूनों में गुलाबी रंग में हाइलाइट किए गए एक्सॉन को अलग किए जाने की संभावना है। ये एक्सॉन डिफस्प्लिस द्वारा प्राप्त परिणामों के पूरक हैं जो विशिष्ट जीनोमिक स्थिति पर एक समान पैटर्न दिखाता है। अधिक उदाहरण पूरक चित्र 1 और पूरक चित्र 2 में दिखाए गए हैं। दिलचस्प परिणामों की पुष्टि करने के लिए एक अधिक विस्तृत दृश्य यूसीएससी (सांता क्रूज़ विश्वविद्यालय) या आईजीवी (एकीकृत जीनोमिक्स व्यूअर) जीनोम ब्राउज़र (नहीं दिखाया गया) में आरपीएम (रीड्स प्रति मिलियन) इकाइयों में कवरेज (विगल) ट्रैक की तुलना करके दिया जा सकता है, साथ ही रुचि के अन्य ट्रैक, जैसे ज्ञात जीन मॉडल, संरक्षण और अन्य जीनोम-वाइड परख के साथ दृश्य सहसंबंध।

rMATS आउटपुट तालिका प्रकार (पूरक तालिका 3) द्वारा वर्गीकृत महत्वपूर्ण वैकल्पिक स्प्लिसिंग घटनाओं को सूचीबद्ध करती है। चित्रा 2 सी जीन के एक ज्वालामुखी प्लॉट को दर्शाता है जो वैकल्पिक रूप से विभाजित होते हैं, जिसमें प्रभाव का आकार11 के अंतर "प्रतिशत स्प्लिस्ड इन" (पीएसआई या ए) सांख्यिकी द्वारा मापा जाता है।

पीएसआई एक कैसेट एक्सॉन (यानी, कैसेट एक्सॉन को मैपिंग पढ़ता है या जंक्शन एक्सॉन को ओवरलैपिंग पढ़ता है) के समावेश के अनुरूप पढ़ने के प्रतिशत को संदर्भित करता है, जिसकी तुलना एक्सॉन बहिष्करण के अनुरूप होती है यानी जंक्शन आसन्न अपस्ट्रीम और डाउनस्ट्रीम एक्सॉन ( चित्रा 2 सी का निचला पैनल) में पढ़ता है। चित्रा 2 सी के दाहिने पैनल में जीन के लिए कवरेज ट्रैक पर अलग-अलग स्प्लिसिंग घटना के साथ डब्ल्यूएनके 1 जीन के साशिमी प्लॉट को दिखाया गया है, जिसमें एमबीएनएल 1 केओ में एक स्किप एक्सॉन है। एक्सॉन में शामिल होने वाले आर्क जंक्शन रीड की संख्या दिखाते हैं (एक स्प्लिस्ड-आउट इंट्रॉन को पार करना पढ़ता है)। पूरक तालिका 3 के विभिन्न टैब प्रत्येक प्रकार की घटना के महत्वपूर्ण पठन दिखाते हैं जो एक्सॉन सीमाओं (जंक्शन गणना और एक्सॉन गणना (जेसीईसी)) के साथ जंक्शनों तक फैला हुआ है। चित्रा 2 डी तीन उपकरणों द्वारा पता लगाए गए महत्वपूर्ण अंतर रूप से विभाजित एक्सॉन की तुलना करता है।

Figure 3
चित्र 3. RMATS विश्लेषण द्वारा अधिग्रहित वैकल्पिक स्प्लिसिंग घटनाएं। ए) एएस घटनाओं के प्रकार। यह आंकड़ा आरएमएटीएस प्रलेखन11 से अनुकूलित किया गया है, जिसमें संवैधानिक और वैकल्पिक रूप से विभाजित एक्सॉन के साथ स्प्लिसिंग घटना की व्याख्या की गई है। एफडीआर 10% पर प्रत्येक घटना की संख्या के साथ लेबल किया गया। बी) एडी 3 जीन का साशिमी प्लॉट जो स्किप्ड एक्सॉन (एसई) का प्रदर्शन करता है। सी) बाज़ 2 बी जीन का साशिमी प्लॉट वैकल्पिक 5 'स्प्लिस साइट (ए 5 एसएस) का प्रदर्शन करता है। डी) एलएसएम 14 बी जीन का साशिमी प्लॉट वैकल्पिक 3 'स्प्लिस साइट (ए 3 एसएस) का प्रदर्शन करता है। ई) एमटीए 1 जीन का साशिमी प्लॉट पारस्परिक रूप से अनन्य एक्सॉन (एमएक्सई) का प्रदर्शन करता है। एफ) एआरपीपी 21 जीन का साशिमी प्लॉट बरकरार इंट्रोन (आरआई) का प्रदर्शन करता है। लाल पंक्तियाँ जंगली प्रकार की तीन प्रतिकृतियों का प्रतिनिधित्व करती हैं और नारंगी पंक्तियाँ Mbnl1 नॉक-आउट प्रतिकृतियों का प्रतिनिधित्व करती हैं। एक्स-अक्ष जीनोमिक निर्देशांक और स्ट्रैंड जानकारी से मेल खाती है, वाई-अक्ष आरपीकेएम में कवरेज दिखाता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें।

चित्रा 3 उन घटनाओं के शीर्ष महत्वपूर्ण जीनों के साशिमी भूखंडों की मदद से एसई, ए 5 एसएस, ए 3 एसएस, एमएक्सई और आरआई के स्प्लिसिंग घटनाओं के प्रकारों को दर्शाता है। डब्ल्यूटी और Mbnl1_KO दोनों की तीन प्रतिकृतियों की तुलना करने पर, कुल 1272 एसई घटनाओं, 130 ए 5एसएस, 116 ए 3 एसएस, 215 एमएक्सई और 313 आरआई घटनाओं का एफडीआर 10% पर पता लगाया गया था। साशिमी प्लॉट एक उदाहरण के रूप में शीर्ष जीन का उपयोग करके घटना के प्रकार को दर्शाता है।

आपा:
एपीए विश्लेषण से आउटपुट एक्सॉन-स्तर एएस विश्लेषण के समान है। 3'यूटीआर में अंतर एपीए गतिविधि द्वारा रैंक किए गए शीर्ष जीनों की एक तालिका प्रदान की गई है (पूरक तालिका 4 और पूरक तालिका 5)। चित्रा 4 ए अलग-अलग डिफस्प्लाइस और डेक्ससेक का उपयोग करके उत्पन्न 3'यूटीआर में अंतर एपीए गतिविधि द्वारा जीन के ज्वालामुखी भूखंडों को दर्शाता है। चित्रा 4 बी विभिन्न पाइपलाइनों से प्राप्त महत्वपूर्ण अंतर पीए साइट उपयोग परिणामों की तुलना में वेन प्लॉट प्रदर्शित करता है। चित्रा 4 सी और 4 डी डिफस्प्लिस और डीईएक्ससेक दोनों का उपयोग करके उत्पन्न जीन फॉसल 2 (चित्रा 4 सी) और पपोला (चित्रा 4 डी) के 3'यूटीआर में अंतर पीए साइट उपयोग का आरेखीय प्रतिनिधित्व दिखाते हैं, जो प्रयोगात्मक रूप से डीकेओ में पीए साइट उपयोग के महत्वपूर्ण डिस्टल टू समीपस्थ शिफ्ट (फॉसल 2) और महत्वपूर्ण समीपस्थ से डिस्टल शिफ्ट (पपोला) को दिखाने के लिए मान्य हैं। क्रमशः। अधिक उदाहरण पूरक चित्र 3 और पूरक चित्र 4 में दिखाए गए हैं।

Figure 4
चित्र 4. डिफस्प्लिस और डीईएक्ससेक द्वारा वैकल्पिक पॉलीएडेनाइलेशन प्लॉट। ए) डिफस्प्लिस और डेक्ससेक का उपयोग करके उत्पन्न पॉलीए-सेक डेटा के ज्वालामुखी भूखंड। एक्स-अक्ष लॉग पीए साइट फोल्ड परिवर्तन दिखाता है; y-अक्ष -log10 p-मान दिखाता है। प्रत्येक बिंदु एक पीए साइट से मेल खाता है। पी-मान = 1 ई -5 पर क्षैतिज डैश लाइन; ऊर्ध्वाधर 2 गुना एफसी पर लाइनों को धराशायी करता है। लाल एक्सॉन पर्याप्त एफसी और सांख्यिकीय महत्व दिखाते हैं। बी) वेन प्लॉट विभिन्न पाइपलाइनों से प्राप्त महत्वपूर्ण अंतर पीए साइट उपयोग परिणामों की तुलना करता है। C-D) डिफरेंशियल एपीए प्लॉट डिफरेंशियल एपीए प्लॉट डिफर्फ़स्पिन और डेक्ससेक का उपयोग करके उत्पन्न होते हैं जो फॉसल 2 और पपोला जीन के लिए समीपस्थ, आंतरिक और डिस्टल पीए साइटों को दिखाते हैं। आंकड़े चित्रा 2 (बी) के समान फ़ंक्शन द्वारा उत्पन्न होते हैं, लेकिन एक्सॉन की जगह पीए साइटों के साथ। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें।

चित्रा 5 पॉलीए-सेक परख के लिए एनोटेटेड पीए क्लीवेज साइटों के आसपास अपेक्षित पठन वितरण की पुष्टि करने के लिए एक नैदानिक प्लॉट है। यह जीनोम-वाइड स्तर पर ज्ञात पीए दरार साइटों पर लंगर डालने वाले क्षेत्रों में औसत कवरेज दिखाता है। इस मामले में, साइटों के अपस्ट्रीम पढ़ने के अपेक्षित ढेर की कल्पना की जाती है। सभी पॉलीए-सेक नमूनों के लिए पीए साइटों पर लंगर डाले गए पठन वितरण पूरक चित्र 5 में दिखाए गए हैं।

Figure 5
चित्र 5. पीए दरार साइटों के आसपास औसत कवरेज प्लॉट। पॉलीए-सेक डेटा के लिए क्लीवेज साइट ऊर्ध्वाधर डैश लाइन द्वारा दिखाया गया है। एक्स-अक्ष पीए दरार साइटों के सापेक्ष आधार स्थिति दिखाता है, अपस्ट्रीम और डाउनस्ट्रीम में 100 न्यूक्लियोटाइड तक; वाई-अक्ष सीपीएम में लाइब्रेरी के आकार द्वारा सामान्यीकृत सभी पीए क्लीवेज साइटों पर औसत पठन कवरेज दिखाता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें।

एक ही पाइपलाइन द्वारा उत्पन्न विभिन्न विरोधाभासों के अंतर एपीए परिणामों की तुलना और सत्यापित जीनोम ब्राउज़र में प्रतिनिधि महत्वपूर्ण अंतर पीए साइटों के रीड कवरेज की कल्पना करके की जा सकती है। चित्रा 6 ए वेन प्लॉट है जो डिफस्प्लिस से प्राप्त विभिन्न विरोधाभासों के काफी अंतर पीए साइट उपयोग की तुलना करता है। चित्रा 6 बी-डी विभिन्न जीनों के लिए पीए साइटों पर रीड कवरेज के आईजीवी स्नैपशॉट हैं, जो डिफस्प्लिस का उपयोग करके एपीए विश्लेषण में खोजे गए पैटर्न के अनुरूप पैटर्न दिखाते हैं। चित्रा 6B जीन Paip2 के लिए pA साइट उपयोग के महत्वपूर्ण समीपस्थ से डिस्टल शिफ्ट को मान्य करता है, जो विशिष्ट रूप से DKO बनाम WT के विपरीत पाया जाता है, लेकिन अन्य दो विरोधाभासों KD बनाम WT, और Ctr बनाम WT में नहीं। चित्र 6C जीन CCL2 के लिए pA साइट उपयोग के महत्वपूर्ण डिस्टल से समीपस्थ बदलाव को मान्य करता है। जबकि चित्रा 6 डी जीन Cacna2d1 के लिए सभी विरोधाभासों के महत्वपूर्ण अंतर पीए उपयोग को मान्य करता है।

Figure 6
चित्र 6. डिफस्प्लिस परिणामों की तुलना और सत्यापन। ए) वेन आरेख डिफस्प्लाइस से प्राप्त विभिन्न विरोधाभासों के महत्वपूर्ण अंतर पीए साइट उपयोग परिणामों की तुलना करता है। B-D) आईजीवी स्नैपशॉट पीए पीक पीक ्स को विभिन्न स्थितियों में जीन पाइप 2, सीसीएल 2 और Cacna2d1 के कवरेज की कल्पना करता है। प्रत्येक ट्रैक एक विशिष्ट स्थिति में पढ़ने के कवरेज का प्रतिनिधित्व करता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें।

पूरक चित्र 1. "लिम्मा डिफस्प्लिस के साथ अंतर स्प्लिसिंग का आरएनए-सेक विश्लेषण". (ए) लिम्मा डिफस्प्लिस विश्लेषण से आरएनए-सेक का ज्वालामुखी प्लॉट: एक्स-अक्ष लॉग एक्सॉन फोल्ड परिवर्तन दिखाता है; y-अक्ष -log10 p-मान दिखाता है। प्रत्येक बिंदु एक एक्सॉन से मेल खाता है। पी-मान = 1 ई -5 पर क्षैतिज डैश लाइन; ऊर्ध्वाधर ने दो गुना परिवर्तन (एफसी) पर लाइनों को ध्वस्त कर दिया। लाल एक्सॉन पर्याप्त एफसी और सांख्यिकीय महत्व दिखाते हैं। (बी-डी) विभेदक स्प्लिसिंग प्लॉट: स्प्लिसिंग पैटर्न क्रमशः जीन Mbnl1, Tcf7 और Lef1 के लिए प्रदर्शित किए जाते हैं, जहां x-अक्ष प्रति प्रतिलेख एक्सॉन आईडी दिखाता है; वाई-अक्ष एक्सॉन सापेक्ष लॉग फोल्ड परिवर्तन दिखाता है (एक्सॉन के लॉगएफसी और अन्य सभी एक्सॉन के लिए समग्र लॉगएफसी के बीच का अंतर)। लाल रंग में हाइलाइट किए गए एक्सॉन सांख्यिकीय रूप से महत्वपूर्ण अंतर अभिव्यक्ति दिखाते हैं (एफडीआर < 0.1)। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें.

पूरक चित्र 2. "डेक्ससेक के साथ अंतर एक्सॉन उपयोग का आरएनए-सेक विश्लेषण"। (ए) ज्वालामुखी प्लॉट। (बी-डी) विभेदक एक्सॉन उपयोग डेक्ससेक विश्लेषण से प्राप्त आरएनए-सेक। जीन Mbnl1, Tcf7, और Lef1, क्रमशः गुलाबी रंग में हाइलाइट किए गए WT और Mbnl1 नॉक-आउट के बीच एक्सॉन के महत्वपूर्ण अंतर उपयोग को दर्शाते हैं, जो पूरक चित्र 1 में एक ही अंतर एक्सॉन के अनुरूप हैं। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें.  

पूरक चित्र 3. डिफस्प्लिस द्वारा वैकल्पिक पॉलीएडेनाइलेशन प्लॉट। ए) माउस पॉलीए-सेक डेटा से प्राप्त तीन कंट्रास्ट जोड़े में डिफस्प्लिस का उपयोग करके उत्पन्न पॉलीए-सेक डेटा के ज्वालामुखी भूखंड, जिसमें डबल नॉकआउट (डीकेओ) बनाम वाइल्ड-टाइप (डब्ल्यूटी), नॉक-डाउन (केडी) बनाम डब्ल्यूटी, और कंट्रोल (सीटीआरएल) बनाम डब्ल्यूटी शामिल हैं। y-अक्ष -log10 p-मान दिखाता है। प्रत्येक बिंदु एक पीए साइट से मेल खाता है। पी-मान = 1 ई -5 पर क्षैतिज डैश लाइन; ऊर्ध्वाधर 2 गुना एफसी पर लाइनों को धराशायी करता है। लाल पीए साइटें पर्याप्त एफसी और सांख्यिकीय महत्व दिखाती हैं। बी) डिफरेंशियल एपीए प्लॉट ्स डिफरेंशियल एपीए प्लॉट ्स का उपयोग करके उत्पन्न किए गए हैं, जो उच्च रैंक वाले जीन एस 100 ए 7 ए, टीपीएम 1 और एसएमसी 6 के लिए समीपस्थ, आंतरिक और डिस्टल पीए साइटों को दिखाते हैं। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें.  

पूरक चित्र 4. DEXSeq पाइपलाइन द्वारा विभेदक पीए उपयोग विश्लेषण। ए) माउस पॉलीए-सेक डेटा से प्राप्त तीन जोड़े में डेक्ससेक का उपयोग करके उत्पन्न पॉलीए-सेक डेटा के ज्वालामुखी भूखंड, जिसमें डबल नॉकआउट (डीकेओ) बनाम वाइल्ड-टाइप (डब्ल्यूटी), नॉक-डाउन (केडी) बनाम डब्ल्यूटी, और कंट्रोल (सीटीआरएल) बनाम डब्ल्यूटी शामिल हैं। y-अक्ष -log10 p-मान दिखाता है। प्रत्येक बिंदु एक पीए साइट से मेल खाता है। पी-मान = 1 ई -5 पर क्षैतिज डैश लाइन; ऊर्ध्वाधर 2 गुना एफसी पर लाइनों को धराशायी करता है। लाल पीए साइटें पर्याप्त एफसी और सांख्यिकीय महत्व दिखाती हैं। बी) डीईएक्ससेक का उपयोग करके उत्पन्न विभेदक एपीए प्लॉट उच्च रैंक वाले जीन एस 100 ए 7 ए, टीपीएम 1 और एसएमसी 6 के लिए समीपस्थ, आंतरिक और डिस्टल पीए साइटों को दर्शाते हैं। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें.  

पूरक चित्र 5. पीए दरार साइटों के आसपास औसत कवरेज प्लॉट और हीटमैप।  कवरेज चार स्थितियों के लिए दिखाया गया है, जिसमें आगे और पीछे के स्ट्रैंड पर जीन अलग-अलग दिखाए गए हैं। एक्स-अक्ष पीए दरार साइटों के सापेक्ष आधार स्थिति दिखाता है, अपस्ट्रीम और डाउनस्ट्रीम में 100 न्यूक्लियोटाइड तक; वाई-अक्ष सभी पीए दरार साइटों पर संबंधित सापेक्ष आधार पदों पर औसत कवरेज को संदर्भित करता है। हीटमैप एक वैकल्पिक दृश्य प्रदान करते हैं, जिसमें प्रत्येक पीए क्लीवेज साइट को एक्स-अक्ष पर एक अलग पंक्ति के रूप में दिखाया जाता है, जो कवरेज द्वारा आदेशित होता है। तीव्रता शो पढ़ते कवरेज (किंवदंती देखें)। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें.

अनुपूरक तालिका 1. एएस विश्लेषण का डिफस्प्लिस आउटपुट। पहला टैब दूसरे (एक्सॉन-स्तर) और तीसरे (जीन-स्तर) टैब में प्रस्तुत मूल आउटपुट के लिए कॉलम नामों को परिभाषित करता है। कृपया इस तालिका को डाउनलोड करने के लिए यहाँ क्लिक करें.

अनुपूरक तालिका 2. एएस विश्लेषण का DEXSeq आउटपुट। पहला टैब दूसरे (एक्सॉन-स्तर) और तीसरे (जीन-स्तर) टैब में प्रस्तुत मूल आउटपुट के लिए कॉलम नामों को परिभाषित करता है। कृपया इस तालिका को डाउनलोड करने के लिए यहाँ क्लिक करें.

अनुपूरक तालिका 3. एएस विश्लेषण का आरएमएटीएस आउटपुट। पहला टैब सारांश फ़ाइल (टैब 2) और प्रत्येक ईवेंट (टैब 3-7) के लिए JCEC फ़ाइलों के लिए स्तंभ नामों को परिभाषित करता है. कृपया इस तालिका को डाउनलोड करने के लिए यहाँ क्लिक करें.

अनुपूरक तालिका 4. एपीए विश्लेषण का डिफस्प्लिस आउटपुट। पहला टैब दूसरे (पीए साइट-स्तर) और तीसरे (जीन-स्तर) टैब में प्रस्तुत मूल आउटपुट के लिए कॉलम नामों को परिभाषित करता है। कृपया इस तालिका को डाउनलोड करने के लिए यहाँ क्लिक करें.

अनुपूरक तालिका 5. एपीए विश्लेषण का डेक्ससेक आउटपुट। पहला टैब दूसरे (पीए साइट-स्तर) और तीसरे (जीन-स्तर) टैब में प्रस्तुत मूल आउटपुट के लिए कॉलम नामों को परिभाषित करता है। कृपया इस तालिका को डाउनलोड करने के लिए यहाँ क्लिक करें.

अनुपूरक तालिका 6. एएस के लिए महत्वपूर्ण रूप से परिवर्तित एक्सॉन और एपीए के लिए पीए साइटों की संख्या का सारांश। कृपया इस तालिका को डाउनलोड करने के लिए यहाँ क्लिक करें.

अनुपूरक तालिका 7. एएस / एपीए विश्लेषण में उपयोग किए जाने वाले उपकरणों और पैकेजों का सारांश। कृपया इस तालिका को डाउनलोड करने के लिए यहाँ क्लिक करें.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

इस अध्ययन में, हमने थोक आरएनए-सेक और 3 'अंत अनुक्रमण डेटा में एएस और एपीए का पता लगाने के लिए एक्सॉन-आधारित और घटना-आधारित दृष्टिकोणों का मूल्यांकन किया। एक्सॉन-आधारित एएस दृष्टिकोण अलग-अलग व्यक्त एक्सॉन की एक सूची और समग्र जीन-स्तरीय विभेदक स्प्लिसिंग गतिविधि (तालिका 1-2, 4-5) के सांख्यिकीय महत्व द्वारा आदेशित जीन-स्तरीय रैंकिंग दोनों का उत्पादन करते हैं। डिफस्प्लिस पैकेज के लिए, विभेदक उपयोग एक्सॉन-स्तर पर भारित रैखिक मॉडल फिट करके निर्धारित किया जाता है ताकि एक ही जीन के भीतर अन्य एक्सॉन के औसत लॉग फोल्ड-परिवर्तन के खिलाफ एक्सॉन के अंतर लॉग फोल्ड-परिवर्तन का अनुमान लगाया जा सके (जिसे प्रति एक्सॉन एफसी कहा जाता है)। जीन-स्तरीय सांख्यिकीय महत्व की गणना सिम्स विधि10 द्वारा जीन-वार परीक्षण में व्यक्तिगत एक्सॉन-स्तर महत्व परीक्षणों को जोड़कर की जाती है। जीन-स्तरीय विभेदक स्प्लिसिंग गतिविधि द्वारा इस रैंकिंग का उपयोग बाद में10 शामिल प्रमुख मार्गों के जीन सेट संवर्धन विश्लेषण (जीएसईए) करने के लिए किया जा सकता है। DEXSeq विभेदक एक्सॉन उपयोग को मापने के लिए एक सामान्यीकृत रैखिक मॉडल फिट करके एक समान रणनीति का उपयोग करता है, हालांकि फ़िल्टरिंग, सामान्यीकरण और फैलाव अनुमान जैसे कुछ चरणों में भिन्न होता है। डेक्ससेक और डिफस्प्लिस का उपयोग करके एएस गतिविधि और एपीए दिखाने वाले शीर्ष 500 रैंक एक्सॉन की तुलना करने पर, हमें क्रमशः 310 एक्सॉन और 300 पीए साइटों का ओवरलैप मिला, जो दो एक्सॉन-आधारित दृष्टिकोणों की सहमति का प्रदर्शन करता है, जिसे पिछले अध्ययन 29 में भी प्रदर्शित किया गया था। एएस का व्यापक पता लगाने और वर्गीकरण के लिए एक्सॉन-आधारित (या तो डेक्ससेक या डिफस्प्लाइस) और एक घटना-आधारित दृष्टिकोण दोनों के संयोजन का उपयोग करने की सिफारिश की जाती है। एपीए के लिए, उपयोगकर्ता या तो DEXSeq या diffSplice चुन सकते हैं: दोनों विधियों को ट्रांसस्क्रिप्टोमिक्स प्रयोगों की एक विस्तृत श्रृंखला में अच्छा प्रदर्शन करने के लिए दिखाया गयाहै

एएस विश्लेषण के लिए आरएनए-सेक लाइब्रेरी तैयार करने में, स्ट्रैंड-विशिष्ट बल्क आरएनए-सेक प्रोटोकॉल8 का उपयोग करना महत्वपूर्ण है, क्योंकि कशेरुक जीनोम में जीन का एक बड़ा अंश विभिन्न किस्में पर ओवरलैप होता है, और एक गैर-स्ट्रैंड-विशिष्ट प्रोटोकॉल इन अतिव्यापी क्षेत्रों को अलग करने में असमर्थ है, जो अंतिम एक्सॉन का पता लगाने के लिए भ्रमित करता है। एक और विचार पढ़ने की गहराई है, जिसमें स्प्लिसिंग विश्लेषण ों को डीजीई की तुलना में गहरे अनुक्रमण की आवश्यकता होती है, उदाहरण के लिए प्रति नमूना 30-60 मिलियन रीड, जबकि डीजीई (https://sapac.support.illumina.com/bulletins/2017/04/considerations-for-rna-seq-read-length-and-coverage-.html) के लिए प्रति नमूना 5-25 मिलियन रीड। प्रोटोकॉल में प्रदर्शित सभी उपकरण सिंगल-एंड और पेयर-एंड सीक्वेंसिंग डेटा दोनों का समर्थन करते हैं। यदि जंक्शन रीडिंग का पता लगाने के लिए केवल ज्ञात जीन एनोटेशन का उपयोग किया जाता है, तो सिंगल-एंडेड शॉर्ट रीड (≥ 50 बीपी) का उपयोग किया जा सकता है, हालांकि नए स्प्लिस जंक्शनों का नए सिरे से पता लगाने से युग्मित-अंत और लंबे (≥ 100 बीपी)से लाभ होता है। आरएनए निष्कर्षण प्रोटोकॉल का विकल्प - या तो पॉलीए चयन या आरआरएनए की कमी - आरएनए की गुणवत्ता और प्रयोगात्मक प्रश्न पर निर्भर करता है - चर्चा के लिए31 देखें। पुस्तकालय निर्माण के विवरण के आधार पर, रीड संरेखण, फीचर काउंटिंग और आरएमएटीएस के मापदंडों के लिए यहां दी गई उदाहरण स्क्रिप्ट में संशोधन की आवश्यकता होगी। फीचरकाउंट्स, या इसी तरह के तरीकों का उपयोग करके प्रारंभिक एक्सॉन स्तर की रीडिंग काउंट्स की गणना करते समय, गणना और स्ट्रैंडनेस के लिए फ़ंक्शन विकल्पों को सही ढंग से कॉन्फ़िगर करने के लिए ध्यान रखा जाना चाहिए: फीचरकाउंट्स में, हमने उपयोग किए गए स्ट्रैंड-विशिष्ट आरएनए-सेक प्रोटोकॉल के लिए उचित रूप से "स्ट्रैंडस्पेसिफिक" तर्क सेट किया है; और एक्सॉन-स्तर की मात्रा का निर्धारण करने के लिए यह उम्मीद की जाती है कि एक रीड आसन्न एक्सॉन पर मैप करेगा, और इसलिए हमने मल्टीओवरलैप पैरामीटर को ट्रू पर अनुमति दी है। एपीए के लिए, अलग-अलग 3 'एंड सीक्वेंसिंग प्रोटोकॉल6 हैं जो पीए साइट के सापेक्ष चोटियों के सटीक स्थान में भिन्न होते हैं। हमारे उदाहरण डेटा के लिए हम निर्धारित करते हैं कि पीक पीए साइट के अपस्ट्रीम 60 बीपी है जैसा कि चित्रा 5 द्वारा दिखाया गया है, और इस विश्लेषण को अन्य 3 'अंत अनुक्रमण प्रोटोकॉल के लिए अनुकूलित करने की आवश्यकता होगी।

इस प्रोटोकॉल में हम व्यक्तिगत एक्सॉन के स्तर पर अंतर विश्लेषण की चर्चा के दायरे को सीमित करते हैं, और आसन्न एक्सॉन-इंट्रॉन संयोजनों से युक्त स्प्लिसिंग घटनाएं होती हैं। हम आइसोफॉर्म डी नोवो पुनर्निर्माण के आधार पर विश्लेषण के वर्ग पर चर्चा नहीं करते हैं जैसे कि कफलिंक्स, कफडिफ32, आरएसईएम33, कैलिस्टो34 जिसका उद्देश्य पूरे वैकल्पिक आइसोफॉर्म की पूर्ण और सापेक्ष अभिव्यक्ति का पता लगाना और मात्रा निर्धारित करना है। एक्सॉन और इवेंट-आधारित विधियां व्यक्तिगत स्प्लिसिंग घटनाओं का पता लगाने के लिए अधिक संवेदनशील हैंऔर कई मामलों में आइसोफॉर्म-स्तरीय परिमाणीकरण की आवश्यकता के बिना आगे के विश्लेषण के लिए आवश्यक सभी जानकारी प्रदान करती हैं।

इस प्रोटोकॉल में स्रोत फ़ाइलों का नवीनतम संस्करण https://github.com/jiayuwen/AS_APA_JoVE पर उपलब्ध हैं

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

लेखकों के पास खुलासा करने के लिए कुछ भी नहीं है।

Acknowledgments

इस अध्ययन को ऑस्ट्रेलियाई अनुसंधान परिषद (एआरसी) फ्यूचर फैलोशिप (एफटी 16010043) और एएनयू फ्यूचर्स स्कीम द्वारा समर्थित किया गया था।

Materials

Name Company Catalog Number Comments
Not relevent for computational study

DOWNLOAD MATERIALS LIST

References

  1. Katz, Y., Wang, E. T., Airoldi, E. M., Burge, C. B. Analysis and design of RNA sequencing experiments for identifying isoform regulation. Nature Methods. 7 (12), 1009-1015 (2010).
  2. Wang, Y., et al. Mechanism of alternative splicing and its regulation. Biomedical Reports. 3 (2), 152-158 (2015).
  3. Mehmood, A., et al. Systematic evaluation of differential splicing tools for RNA-seq studies. Briefings in Bioinformatics. 21 (6), 2052-2065 (2020).
  4. Movassat, M., et al. Coupling between alternative polyadenylation and alternative splicing is limited to terminal introns. RNA Biology. 13 (7), 646-655 (2016).
  5. Tian, B., Manley, J. L. Alternative polyadenylation of mRNA precursors. Nature Reviews Molecular Cell Biology. 18 (1), 18-30 (2017).
  6. Herrmann, C. J., et al. PolyASite 2.0: a consolidated atlas of polyadenylation sites from 3' end sequencing. Nucleic Acids Research. 48 (1), 174-179 (2020).
  7. Liu, R., Loraine, A. E., Dickerson, J. A. Comparisons of computational methods for differential alternative splicing detection using RNA-seq in plant systems. BMC Bioinformatics. 15 (1), 364 (2014).
  8. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17 (1), 13 (2016).
  9. Anders, S., Reyes, A., Huber, W. Detecting differential usage of exons from RNA-seq data. Genome Research. 22 (10), 2008-2017 (2012).
  10. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43 (7), 47 (2014).
  11. Shen, S., et al. rMATS: Robust and flexible detection of differential alternative splicing from replicate RNA-Seq data. Proceedings of the National Academy of Sciences. 111 (51), 5593-5601 (2014).
  12. Mehmood, A., et al. Systematic evaluation of differential splicing tools for RNA-seq studies. Briefings in bioinformatics. 21 (6), 2052-2065 (2020).
  13. Kanitz, A., et al. Comparative assessment of methods for the computational inference of transcript isoform abundance from RNA-seq data. Genome biology. 16 (1), 1-26 (2015).
  14. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15 (12), 550 (2014).
  15. Sznajder, L. J., et al. Loss of MBNL1 induces RNA misprocessing in the thymus and peripheral blood. Nature Communications. 11, 1-11 (2020).
  16. Batra, R., et al. Loss of MBNL leads to disruption of developmentally regulated alternative polyadenylation in RNA-mediated disease. Molecular Cell. 56 (2), 311-322 (2014).
  17. Leinonen, R., Sugawara, H., Shumway, M., et al. The sequence read archive. Nucleic acids research. 39, suppl_1 19-21 (2010).
  18. Tange, O. GNU parallel-the command-line power tool. 36, 42-47 (2011).
  19. Andrews, S. FastQC: a quality control tool for high throughput sequence data. Bioinformatics. , Available from: http://www.bioinformatics.babraham.ac.uk/projects/fastqc/2010 (2011).
  20. Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet journal. 17 (1), 10-12 (2011).
  21. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  22. Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29 (1), Oxford, England. 15-21 (2013).
  23. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
  24. Robinson, M. D., Oshlack, A. A scaling normalization method for differential expression analysis of RNA-seq data. Genome Biology. 11 (3), 25 (2010).
  25. Veiga, D. F. T. maser: Mapping Alternative Splicing Events to pRoteins. R package version 1.4.0. , (2019).
  26. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome Biology. 10 (13), 25 (2009).
  27. Quinlan, A. R., Hall, I. M. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics. 26 (6), 841-842 (2010).
  28. Ramírez, F., Dündar, F., Diehl, S., Grüning, B. A., Manke, T. deepTools: a flexible platform for exploring deep-sequencing data. Nucleic acids research. 42 (1), 187-191 (2014).
  29. Merino, G. A., Conesa, A., Fernández, E. A. A benchmarking of workflows for detecting differential splicing and differential expression at isoform level in human RNA-seq studies. Briefings in bioinformatics. 20 (2), 471-481 (2019).
  30. Chhangawala, S., Rudy, G., Mason, C. E., Rosenfeld, J. A. The impact of read length on quantification of differentially expressed genes and splice junction detection. Genome biology. 16 (1), 1-10 (2015).
  31. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biol. 17, 13 (2016).
  32. Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7 (3), 562-578 (2012).
  33. Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC Bioinformatics. 12, 323 (2011).
  34. Bray, N. L., Pimentel, H., Melsted, P., Pachter, L. Near-optimal probabilistic RNA-seq quantification. Nat Biotechnol. 34 (5), 525-527 (2016).

Tags

जीव विज्ञान अंक 172
आरएनए-सेक डेटा में वैकल्पिक स्प्लिसिंग और पॉलीएडेनाइलेशन की पहचान
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Dixit, G., Zheng, Y., Parker, B.,More

Dixit, G., Zheng, Y., Parker, B., Wen, J. Identification of Alternative Splicing and Polyadenylation in RNA-seq Data. J. Vis. Exp. (172), e62636, doi:10.3791/62636 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter