Cancer Research

आरएनए अनुक्रमण के लिए तीन अंतर अभिव्यक्ति विश्लेषण विधियां: लिम्मा, एजर, डीसेक्यू2

Published: September 18, 2021 doi: 10.3791/62528

Shiyi Liu*¹, Zitao Wang*¹, Ronghui Zhu¹, Feiyan Wang², Yanxiang Cheng¹, Yeqiang Liu²

¹Department of Obstetrics and Gynecology, Renmin Hospital of Wuhan University, ²Department of Pathology, Shanghai Skin Disease Hospital, Tongji University School of Medicine

* These authors contributed equally

Summary

आरएनए अनुक्रमण के लिए अंतर अभिव्यक्ति विश्लेषण विधियों का एक विस्तृत प्रोटोकॉल प्रदान किया गया था: लिम्मा, एजर, डीसेक्यू 2।

Abstract

आरएनए अनुक्रमण (आरएनए-एसईक्यू) ट्रांसक्रिप्टोमिक्स में सबसे व्यापक रूप से उपयोग की जाने वाली प्रौद्योगिकियों में से एक है क्योंकि यह आनुवंशिक परिवर्तन और जटिल जैविक प्रक्रियाओं के बीच संबंध प्रकट कर सकता है और ट्यूमर के निदान, शकुन और चिकित्सीय में महान मूल्य है। आरएनए-एसईक्यू डेटा का अंतर विश्लेषण गुमराह प्रतिलेखन की पहचान करने के लिए महत्वपूर्ण है, और लिम्मा, एजर और डीसेक्यू 2 अंतर विश्लेषण के लिए कुशल उपकरण हैं। हालांकि, आरएनए-एसईक्यू अंतर विश्लेषण के लिए आर भाषा के साथ कुछ कौशल और एक उपयुक्त विधि चुनने की क्षमता की आवश्यकता होती है, जो चिकित्सा शिक्षा के पाठ्यक्रम में कमी है।

इसके साथ ही, हम क्रमशः लिम्मा, डीसेक्यू2 और एजर के माध्यम से कोलंगियोकार्सिनोमा (चोल) और सामान्य ऊतकों के बीच अंतर व्यक्त जीन (डीईजी) की पहचान करने के लिए विस्तृत प्रोटोकॉल प्रदान करते हैं, और परिणाम ज्वालामुखी भूखंडों और वेन आरेखों में दिखाए जाते हैं। लिम्मा, DESeq2 और EdgeR के तीन प्रोटोकॉल समान हैं, लेकिन विश्लेषण की प्रक्रियाओं के बीच अलग-अलग कदम हैं। उदाहरण के लिए, लिम्मा में आंकड़ों के लिए एक रैखिक मॉडल का उपयोग किया जाता है, जबकि नकारात्मक बिनोमियल वितरण का उपयोग एजर और डीसेक्यू 2 में किया जाता है। इसके अतिरिक्त, एडजर और लिम्मा के लिए सामान्यीकृत आरएनए-सेक्यू काउंट डेटा आवश्यक है लेकिन डीसेक्यू2 के लिए आवश्यक नहीं है।

यहां, हम तीन अंतर विश्लेषण विधियों के लिए एक विस्तृत प्रोटोकॉल प्रदान करते हैं: लिम्मा, एजर और डीसेक्यू 2। तीन तरीकों के परिणाम आंशिक रूप से ओवरलैपिंग हैं। सभी तीन तरीकों के अपने फायदे हैं, और विधि का चुनाव केवल डेटा पर निर्भर करता है।

Introduction

आरएनए-अनुक्रमण (आरएनए-एसईक्यू) कई फायदों (जैसे, उच्च डेटा प्रजनन क्षमता) के साथ ट्रांसक्रिप्टोमिक्स में सबसे व्यापक रूप से उपयोग की जाने वाली प्रौद्योगिकियों में से एक है, और नाटकीय रूप से जटिल जैविक प्रक्रियाओं की कार्यों और गतिशीलता के बारे में हमारी समझ में वृद्धि हुई है^1,^2। विभिन्न जैविक संदर्भ के तहत एबररेट ट्रांसक्रिप्ट की पहचान, जिसे अंतर रूप से व्यक्त जीन (डीईजी) के रूप में भी जाना जाता है, आरएनए-एसईक्यू विश्लेषण में एक महत्वपूर्ण कदम है। आरएनए-एसईक्यू रोगजनन से संबंधित आणविक तंत्र और जैविक कार्यों की गहरी समझ प्राप्त करना संभव बनाता है। इसलिए, अंतर विश्लेषण को ट्यूमर^3,^4,⁵के निदान, शकुन और चिकित्सीय के लिए मूल्यवान माना गया है। वर्तमान में, आरएनए-सेक्यू अंतर अभिव्यक्ति विश्लेषण, विशेष रूप से लिम्मा, डीसेक्यू2 और एजआर^1,^6,⁷के लिए अधिक ओपन-सोर्स आर/बायोकंडक्टर पैकेज विकसित किए गए हैं। हालांकि, अंतर विश्लेषण आर भाषा और उचित विधि है, जो चिकित्सा शिक्षा के पाठ्यक्रम में कमी है चुनने की क्षमता के साथ कुछ कौशल की आवश्यकता है ।

इस प्रोटोकॉल में, कैंसर जीनोम एटलस (टीसीजीए) से निकाले गए कोलंगियोकार्सिनोमा (चोल) आरएनए-सेक्यू काउंट डेटा के आधार पर, तीन सबसे ज्ञात तरीकों (लिम्मा^8,एजर⁹ और डीईईक्यू¹⁰⁾क्रमशः आर प्रोग्राम¹¹ द्वारा कोल और सामान्य ऊतकों के बीच डीईजी की पहचान करने के लिए किए गए थे। लिम्मा, एजर और डीसेक्यू2 के तीन प्रोटोकॉल समान हैं लेकिन विश्लेषण की प्रक्रियाओं के बीच अलग-अलग कदम हैं। उदाहरण के लिए, एडगर और लिम्मा^8,⁹के लिए सामान्यीकृत आरएनए-सेक्यू काउंट डेटा आवश्यक है, जबकि डीईईक्यू2^{सामान्यीकरण 10}के बजाय डेटा को सही करने के लिए अपनी लाइब्रेरी विसंगतियों का उपयोग करता है। इसके अलावा, एजर आरएनए-सेक्यू डेटा के लिए विशेष रूप से उपयुक्त है, जबकि लिम्मा का उपयोग माइक्रोएरास और आरएनए-सेक्यू के लिए किया जाता है। डीईजी¹²का आकलन करने के लिए लिम्मा द्वारा एक रैखिक मॉडल अपनाया जाता है, जबकि एजर में आंकड़े नकारात्मक द्विमौमिक वितरण पर आधारित होते हैं, जिसमें अनुभवजन्य बायस अनुमान, सटीक परीक्षण, सामान्यीकृत रैखिक मॉडल और अर्ध-संभावना परीक्षण⁹शामिल हैं।

संक्षेप में, हम क्रमशः लिम्मा, डीसेक्यू2 और एजर का उपयोग करके आरएनए-सेक्यू अंतर अभिव्यक्ति विश्लेषण के विस्तृत प्रोटोकॉल प्रदान करते हैं। इस लेख का हवाला देकर, उपयोगकर्ता आसानी से आरएनए-सेक्यू अंतर विश्लेषण कर सकते हैं और अपने डेटा के लिए उपयुक्त अंतर विश्लेषण विधियों का चयन कर सकते हैं।

Subscription Required. Please recommend JoVE to your librarian.

Protocol

नोट: आर स्टूडियो कार्यक्रम खोलें और आर फ़ाइल "DEGs.R" लोड, फ़ाइल अनुपूरक फ़ाइलों से प्राप्त किया जा सकता है/

1. डेटा को डाउनलोड करना और प्री-प्रोसेसिंग करना

कैंसर जीनोम एटलस (टीसीजीए) से कोलंगियोकार्सिनोमा (चोल) के उच्च-थ्रूपुट अनुक्रमण (एचटीसेक्यू) गिनती डेटा डाउनलोड करें। इस चरण को निम्नलिखित आर कोड द्वारा आसानी से प्राप्त किया जा सकता है।
1. आर पैकेज स्थापित करने के लिए रन पर क्लिक करें।
2. आर पैकेज लोड करने के लिए रन पर क्लिक करें।
  यदि (!आवश्यकतानाम स्थान ("BiocManager", चुपचाप = सच))
  + इंस्टॉल.पैकेज ("BiocManager")
  BiocManager:: स्थापित (c ("TCGAbiolinks", "सारांशएक्सपीयरमेंट"))
3. कार्य निर्देशिका निर्धारित करें।
  पुस्तकालय (टीसीजीआयलिंक्स)
  पुस्तकालय (सारांशितएक्सपीरिटी)
  setwd ("C:/उपयोगकर्ताओं/LIUSHIYI/डेस्कटॉप")
4. कैंसर के प्रकार का चयन करें।
  कैंसर <- "टीसीजीए-चोल"
5. डेटा डाउनलोड करने के लिए "GDCquery.R" फ़ाइल से आर कोड चलाएं। फ़ाइल "GDCquery.R" अनुपूरक फ़ाइलों/लिपियों से प्राप्त किया जा सकता है:
  स्रोत ("अनुपूरक फाइलें/लिपियां/GDCquery.R")
  प्रमुख (सीएनटी)
  ##TCGA-3X-AAVA-01A-11R-A41I-07
  ##ENSG00000000003 4262
  ##ENSG00000000005 1
  ##ENSG00000000419 1254
  ##ENSG00000000457 699
  ##ENSG00000000460 239
  ##ENSG00000000938 334
  नोट: निष्पादन के बाद, CHOLHTSeq गिनती डेटा डाउनलोड किया जाएगा और नाम "सीएनटी", जहां पंक्तियों कलाकारों की टुकड़ी जीन टीडीएस का प्रतिनिधित्व करते है और कॉलम नमूना टीडीएस का प्रतिनिधित्व करते हैं । कृपया नमूना टीडीएस में 14-15 पदों पर संख्या नोटिस; 01 से 09 तक की संख्या ट्यूमर को इंगित करती है और 10 से 19 तक की संख्या सामान्य ऊतकों को इंगित करती है।
पहनावा जीन की विज्ञापनों को जीन प्रतीकों में परिवर्तित करें।
1. अपने भंडारण पथ के अनुसार एनोटेशन फाइल को आर में आयात करें। एनोटेशन फाइल (gencode.v22.annotation.gtf) पूरक फाइलों से प्राप्त किया जा सकता है।
  gtf_v22 <-rtracklayer:: आयात ('अनुपूरक फ़ाइलें/gencode.v22.annotation.gtf')
2. "gtf_v22 से आर कोड चलाएं। आर "फ़ाइल, जो अनुपूरक फ़ाइलों/लिपियों से प्राप्त किया जा सकता है:
  स्रोत ("अनुपूरक फाइलें/स्क्रिप्ट/gtf_v22 । R")
3. कलाकारों की टुकड़ी जीन टीडीएस को जीन प्रतीकों में परिवर्तित करने के लिए फ़ंक्शन "ऐन" लागू करें।
  सीएनटी= ऐन (सीएनटी, gtf_v22)
कम व्यक्त जीन फ़िल्टर करना
1. क्लिक करें आर पैकेज "एजर" स्थापित करने के लिए रन करें।
  BiocManager:: स्थापित ("edgeR")
2. क्लिक करें आर पैकेज "एजर" लोड करने के लिए चलाएं।
  पुस्तकालय (एजर)
3. निम्नलिखित आर कोड चलाने के लिए प्रति मिलियन गिनती के साथ जीन रखने के लिए (सीपीएम) मूल्यों को कम से दो नमूनों में एक से अधिक है ।
  < रखें- पंक्तियां (सीपीएम (सीएनटी) >1) > = 2
  सीएनटी <- as.मैट्रिक्स (सीएनटी [रखो,])
  नोट: विभिन्न अनुक्रमण गहराई के कारण विचलन को खत्म करने के लिए पढ़े गए गिनती के बजाय प्रति मिलियन (सीपीएम) मूल्य की गिनती का उपयोग किया जाता है।

2. "लिम्मा" के माध्यम से अंतर अभिव्यक्ति विश्लेषण

क्लिक करें आर पैकेज "लिम्मा" स्थापित करने के लिए चलाएं।
BiocManager:: स्थापित ("लिम्मा")
क्लिक करें आर संकुल "लिम्मा", "edgeR" लोड करने के लिए चलाते हैं।
पुस्तकालय (लिम्मा)
पुस्तकालय (एजर)
डिजाइन मैट्रिक्स बनाने के लिए निम्नलिखित आर कोड चलाएं।
समूह <- substring(colnames(cnt),14,15) # Extract group information
समूह [समूह%% %%%"01"] <- "Cancer" # set '01' as tumor tissue
समूह [समूह%% %%%"11"] <- "Normal" # set '11' as normal tissue
समूह <- factor (group, levels = c("Normal","Cancer"))
1. डिजाइन मैट्रिक्स बनाएं।
  डिजाइन <- मॉडल.मैट्रिक्स (~ समूह)
  पंक्तियां (डिजाइन) <- कोलनाम (सीएनटी)
2. DGEList ऑब्जेक्ट बनाएं।
  < डगे- डीजेईलिस्ट (मायने रखता है = सीएएनटी, समूह = समूह)
3. डेटा को सामान्य करें।
  < डजे- कैल्कनॉर्मफैक्टर्स (ge, विधि = "टीएमएम")
4. लिम्मा-ट्रेंड विधि आधारित अंतर अभिव्यक्ति विश्लेषण करने के लिए निम्नलिखित आर कोड चलाएं।
  डग
  ##An वर्ग का उद्देश्य "DGEList"
  ##$counts
  ##TCGA-3X-AAVA-01A-11R-A41I-07
  ##TSPAN6 4262
  ##DPM1 1254
  ##SCYL3 699
  ##C1orf112 239
  ##FGR 334
5. सीपीएम मूल्य की गणना करें।
  लॉगडेज <- सीपीएम (ड्ज, लॉग =ट्रू, पूर्व.काउंट = 3)
6. डेटा की भविष्यवाणी करने या चर के बीच संबंधों का अनुमान लगाने के लिए एक रैखिक मॉडल फिट करने के लिए रन पर क्लिक करें।
  फिट <- एलएमफिट (लॉगेज, डिजाइन)
7. बायसियन के आधार पर टी वैल्यू, एफ वैल्यू और लॉग-ऑड्स की गणना करें।
  फिट <- ईबेनेस (फिट, ट्रेंड = ट्रू)
8. परिणाम तालिका निकालें।
  res_limma<- as.data.frame (टॉपटेबल (फिट,एन=आईएनएफ))
  
  मुखिया (res_limma)
  ## लॉगएफसी AveExpr t P.Value adj । पी वैल बी
  ##RP11-252E2.2 -4.899493 -2.488589 -20.88052 2.386656e-25 4.931786e-21 47.28823
  ##BX842568.1 -4.347930 -2.595205 -20.14532 1.082759e-24 1.118706e-20 45.83656
  ##CTC-537E7.3 -5.154894 -2.143292 -19.59571 3.452354e-24 2.216114e-20 44.72001
  ##RP11-468N14.3 -6.532259 -2.029714 -19.49409 4.289807e-24 2.216114e-20 44.51056
  ##AP006216.5 -4.507051 -2.670915 -19.25649 7.153356e-24 2.956339e-20 44.01704
  ##RP11-669E14.4 -4.107204 -2.828311 -18.93246 1.448209e-23 4.987633e-20 43.33543
  अंतर अभिव्यक्ति विश्लेषण के परिणाम #The "res_limma" में सहेजा जाता है, जिसमें जीन आईडी, लॉग2 गुना परिवर्तन मूल्य (लॉगएफसी), प्रयोग में जीन का औसत लॉग2 अभिव्यक्ति स्तर (AveExpr), संशोधित टी आंकड़ा (टी), रेलावेंट पी वैल्यू (पी.वैल्यू), झूठी खोज दर (एफडीआर) सही पी वैल्यू (एडीजे) शामिल है। P.Val) और लॉग-बाधाओं के अंतर व्यक्त जीन (बी)
  नोट: नमूना तैयारी या पुस्तकालय निर्माण और अनुक्रमण के कारण प्रभाव को खत्म करने के लिए डेटा को सामान्य बनाने के लिए "एजर" के "calcNormFactors ()" समारोह का उपयोग किया गया था। डिजाइन मैट्रिक्स के निर्माण में, मैट्रिक्स की टीडीएस का नमूना करने के लिए प्रयोगात्मक डिजाइन (उदाहरण के लिए, ऊतक प्रकार: सामान्य या ट्यूमर ऊतक) से मेल करना आवश्यक है। लिम्मा-प्रवृत्ति डेटा के लिए उपयुक्त है जिसकी अनुक्रमण गहराई समान है, जबकि लिम्मा-वोम उपयुक्त है: (i) जब नमूना पुस्तकालय का आकार अलग होता है; (ii) टीएमएम द्वारा डेटा सामान्य नहीं किया गया है; (iii) आंकड़ों में बहुत अधिक शोर है। एक सकारात्मक लॉगएफसी का मतलब है कि जीन प्रयोग में ऊपर विनियमित है, जबकि नकारात्मक संख्या का मतलब है कि जीन नीचे विनियमित है ।
9. डीईजी की पहचान करें।
  res_limma $sig <-as.factor
  ifelse (res_limma $adj । 2 > 0.वैल < 0.05 और एबीएस (res_limma $लॉगएफसी)
  ifelse (res_limma $logFC > 2 'अप', 'नीचे'), 'नहीं') # adj.p मूल्य < 0.05 और |log2FC| > = 2 DEGs की पहचान करने के लिए थ्रेसहोल्ड हैं
  सारांश (res_limma $ sig)
  ##down नहीं
  ##1880 17341 1443
10. परिणाम तालिका को फ़ाइल में आउटपुट करें।
  लिखें.csv (res_limma, फ़ाइल = 'result_limma.csv')
11. क्लिक करें आर पैकेज "ggplot2" स्थापित करने के लिए चलाते हैं।
  इंस्टॉल.पैकेज ("ggplot2")
12. क्लिक करें आर पैकेज "ggplot2" लोड करने के लिए चलाते हैं।
  पुस्तकालय (ggplot2)
13. "ज्वालामुखी" से आर कोड चलाएं। आर "ज्वालामुखी साजिश बनाने के लिए । फ़ाइल "ज्वालामुखी। आर "अनुपूरक फाइलों से प्राप्त किया जा सकता है।
  स्रोत ("अनुपूरक फाइलें/स्क्रिप्ट/ज्वालामुखी। R")
  ज्वालामुखी (res_limma", "लॉगएफसी", "एडीजे। पी वैल", 2,0.05)
  नोट: जीन उनके log2FC और adj-पी मूल्यों के अनुसार विभिन्न पदों के लिए मैप किया जा सकता है, ऊपर विनियमित DEGs लाल रंग में रंग रहे हैं, और नीचे विनियमित DEGs हरे रंग में रंग रहे हैं ।
14. क्लिक करें ज्वालामुखी की साजिश को बचाने के लिए निर्यात।
  नोट: ज्वालामुखी भूखंडों को विभिन्न प्रारूपों (जैसे, पीडीएफ, झगड़ा, पीएनजी, जेपीईजी प्रारूप) में उत्पन्न और डाउनलोड किया जा सकता है। जीन को उनके log2FC और एडीजे पी मूल्यों के अनुसार विभिन्न पदों पर मैप किया जा सकता है, अप-विनियमित डीईजी (लॉग2एफसी > 2, एडीजे पी < ०.०५) लाल रंग में रंगे हुए हैं, और डाउन-रेगुलेटेड डीईजी (लॉग2एफसी <-2, एडीजे पी < ०.०५) हरे रंग में रंगे हुए हैं, गैर-डीईजी ग्रे रंग में हैं ।

3. "एजर" के माध्यम से अंतर अभिव्यक्ति विश्लेषण

क्लिक करें आर पैकेज "एजर" लोड करने के लिए चलाएं।
पुस्तकालय (एजर)
डिजाइन मैट्रिक्स बनाने के लिए निम्नलिखित आर कोड चलाएं।
समूह <-उपस्ट्रिंग (कोलनाम (सीएनटी), 14,15)
समूह [समूह%% में %"01"] <- "कैंसर"
समूह [समूह%% में "11"] <- "सामान्य"
समूह = कारक (समूह, स्तर = सी ("सामान्य", कैंसर"))
डिजाइन <-model.matrix (~ समूह)
पंक्तियां (डिजाइन) = कोलनाम (सीएनटी)
DGEList ऑब्जेक्ट बनाने के लिए रन पर क्लिक करें।
< डगे- डीजेईलिस्ट (काउंट्स =सीएएनटी)
डेटा को सामान्य करें।
< डजे- कैल्कनॉर्मफैक्टर्स (ge, विधि = "टीएमएम")
जीन अभिव्यक्ति मूल्यों के फैलाव का अनुमान लगाने के लिए रन पर क्लिक करें।
< ge- अनुमानडिस्प (ge, डिजाइन, मजबूत = टी)
डेटा गिनने के लिए रन टू फिट मॉडल पर क्लिक करें.
फिट <- glmQLFit (ge, design)
सांख्यिकीय परीक्षण करें।
फिट <- glmQLFTest (फिट)
परिणाम तालिका निकालें। परिणाम "res_edgeR" में सहेजा जाता है, जिसमें लॉग फोल्ड चेंज वैल्यू, लॉग सीपीएम, एफ, पी वैल्यू और एफडीआर सही पी वैल्यू शामिल है।
res_edgeR=as.data.frame (topTags (फिट, n=Inf))
मुखिया (res_edgeR)
## लॉगएफसी लॉगसीपीएम एफ पीवैल्यू एफडीआर
##GCDH -3.299633 5.802700 458.5991 1.441773e-25 2.979280e-21
##MSMO1 -3.761400 7.521111 407.0416 1.730539e-24 1.787993e-20R
##CL1 -3.829504 5.319641 376.5043 8.652474e-24 5.516791e-20
##ADI1 -3.533664 8.211281 372.6671 1.067904e-23 5.516791e-20
##KCNN2 -5.583794 3.504017 358.6525 2.342106e-23 9.679455e-20
##GLUD1 -3.287447 8.738080 350.0344 3.848408e-23 1.194406e-19
#The परिणाम "res_edgeR" में सहेजा जाता है, जिसमें लॉग फोल्ड चेंज वैल्यू (लॉगएफसी), लॉग सीपीएम, एफ, पी वैल्यू और एफडीआर सही पी वैल्यू शामिल है
डीईजी की पहचान करें।
res_edgeR $ sig = as.factor (
2 > आईएफल्स (res_edgeR$एफडीआर < 0.05 और एबीएस (res_edgeR $लॉगएफसी)
ifelse (res_edgeR $logFC > 2 'अप', 'डाउन'), 'नहीं'))
सारांश (res_edgeR$ sig)
##down नहीं
##1578 15965 3121
परिणाम तालिका को फ़ाइल में आउटपुट करें।
लिखें.csv (res_edgeR, फ़ाइल = 'res_edgeR.csv')
ज्वालामुखी साजिश बनाएं।
ज्वालामुखी (res_edgeR", "एफडीआर", 2,0.05)
क्लिक करें ज्वालामुखी की साजिश को बचाने के लिए निर्यात।

4. "DESeq2" के माध्यम से अंतर अभिव्यक्ति विश्लेषण

आर पैकेज "DESeq2" स्थापित करने के लिए रन पर क्लिक करें।
BiocManager:: स्थापित ("DESeq2")
क्लिक करें आर संकुल "DESeq2" लोड करने के लिए चलाते हैं।
पुस्तकालय (DESeq2)
समूह निर्धारण कारक निर्धारित करने के लिए निम्नलिखित आर कोड चलाएं।
समूह <-उपस्ट्रिंग (कोलनाम (सीएनटी), 14,15)
समूह [समूह%% में %"01"] <- "कैंसर"
समूह [समूह%% में "11"] <- "सामान्य"
समूह = कारक (समूह, स्तर = सी ("सामान्य", कैंसर"))
DESeqDataSet ऑब्जेक्ट बनाएं।
dds <-DESeqDataSetFromMatrix (सीएनटी, डेटाफ्रेम (समूह), डिजाइन = ~ समूह)
डीडीएस
##class: DESeqDataSet
##dim: 20664 45
##metadata (1): संस्करण
##assays (1): मायने रखता है
##rownames (20664): TSPAN6 DPM1 ... RP11-274B21.13 LINC01144
##rowData नाम (0):
##colnames (45): TCGA-3X-AAVA-01A-11R-A41I-07 ...
##colData नाम (1): समूह
विश्लेषण करें।
dds <- DESeq (dds)
रिजल्ट टेबल जेनरेट करें।
res_DESeq2 <- data.frame (परिणाम (dds))

मुखिया (res_DESeq2)
## baseMean log2FoldChange lfcSE स्टेट pvalue padj
##TSPAN6 4704.9243 -0.8204515 0.3371667 -2.433370 1.495899e-02 2.760180e-02
##DPM1 1205.9087 -0.3692497 0.1202418 -3.070894 2.134191e-03 4.838281e-03
##SCYL3 954.9772 0.2652530 0.2476441 1.071106 2.841218e-01 3.629059e-01
##C1orf112 277.7756 0.7536911 0.2518929 2.992109 2.770575e-03 6.101584e-03
##FGR 345.8789 -0.6423198 0.3712729 -1.730047 8.362180e-02 1.266833e-01
##CFH 27982.3546 -3.8761382 0.5473363 -7.081823 1.422708e-12 1.673241e-11
नोट: परिणाम "res_DESeq2" में सहेजा जाता है, जिसमें सामान्यीकृत रीड काउंट (बेसमियन), लॉग फोल्ड चेंज वैल्यू (लॉग2फोल्डचेंज), लॉग फोल्ड चेंज स्टैंडर्ड एरर (एलएफसीई), वाल्ड स्टैकिस्टिक (स्टेट), ओरिजिनल पी वैल्यू (प्ल्यूल्यू) और सही पी वैल्यू (पैडजे) का मतलब शामिल है।
डीईजी की पहचान करें।
res_DESeq2 $sig = as.factor (
2 > ifelse (res_DESeq2$padj < 0.05 और abs (res_DESeq2$log2foldChange)
ifelse (res_DESeq2$log2FoldChange > 2 'अप', 'डाउन'), 'नहीं'))
सारांश (res_DESeq2 $sig)
##down नहीं
##1616 16110 2938
परिणाम तालिका को फ़ाइल में आउटपुट करें।
लिखें.csv (res_DESeq2, फ़ाइल = 'res_DESeq2.csv')
ज्वालामुखी साजिश बनाएं।
ज्वालामुखी (res_DESeq2,"log2foldChange", "padj",2,0.05)
क्लिक करें ज्वालामुखी की साजिश को बचाने के लिए निर्यात।

5. वेन आरेख

क्लिक करें आर पैकेज "VennDiagram" स्थापित करने के लिए चलाते हैं।
इंस्टॉल.पैकेज ("वेनडियाग्राम")
क्लिक करें आर पैकेज "VennDiagram" लोड करने के लिए चलाते हैं।
पुस्तकालय (वेनडियाग्राम)
यूपी विनियमित डीईजी का वेन आरेख बनाएं।
ग्रिड.न्यूपेज ()
grid.draw (venn.आरेख (सूची (Limma= rownames (res_
लिम्मा [res_limma $sig ==="अप",]),
edgeR=rownames (res_edgeR [res_edgeR$sig =="अप",]),
DESeq2= rownames (res_DESeq2 [res_DESeq2$sig==
"ऊपर",]),
नल, ऊंचाई = 3,चौड़ाई = 3,इकाइयों = "में",
कर्नल = "ब्लैक", lwd=0.3, भरें =सी ("#FF6666"," #FFFF00",
"#993366"),
अल्फा =c (0.5, 0.5, 0.5), मुख्य = "अप-विनियमित डीईजी"))
वेन आरेख को बचाने के लिए निर्यात पर क्लिक करें।
नीचे विनियमित DEGs का एक वेन आरेख बनाओ ।
ग्रिड.न्यूपेज ()
grid.draw (venn.आरेख (सूची (Limma= rownames (res_
लिम्मा [res_limma $sig ==="नीचे",]),
edgeR=rownames (res_edgeR [res_edgeR $sig==
"नीचे",]),
DESeq2= rownames (res_DESeq2 [res_DESeq2$sig =="नीचे",]),
नल, ऊंचाई = 3,चौड़ाई = 3,इकाइयों = "में",
कर्नल = "ब्लैक", lwd=0.3, भरें =सी ("#FF6666"," #FFFF00",
"#993366"),
अल्फा =c (0.5, 0.5, 0.5), मुख्य = "डाउन-विनियमित डीईजी"))
वेन आरेख को बचाने के लिए निर्यात पर क्लिक करें।

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

अंतर अभिव्यक्ति विश्लेषण के परिणाम की कल्पना करने के लिए विभिन्न दृष्टिकोण हैं, जिनमें से ज्वालामुखी साजिश और वेन आरेख का विशेष रूप से उपयोग किया जाता है। लिम्मा ने |लॉगएफसी|≥2 और एडीजे के साथ चोल और सामान्य ऊतकों के बीच ३३२३ डीईजी की पहचान की । P.Val <०.०५ थ्रेसहोल्ड के रूप में, जिनमें से १८८० को कोल ऊतकों में नीचे विनियमित किया गया था और १४४३ को अप-विनियमित(चित्रा 1a)किया गया था । इस बीच, एजर ने 1578 डाउन-रेगुलेटेड डीईजी और 3121 अप-रेनियमित डीईजी(चित्रा 1बी) कीपहचान की; DESeq2 ने 1616 डाउन-रेगुलेटेड डीईजी और 2938 अप-रेगुएनियमित डीईजी(चित्रा 1c) कीपहचान की। इन तीन तरीकों के परिणामों की तुलना करते हुए, 1431 अप-विनियमित डीईजी और 1531 डाउन-विनियमित डीईजी छा गए(चित्रा 2)।

चित्रा 1। चोल और सामान्य ऊतकों के बीच अंतर व्यक्त जीन (डीईजी) की पहचान। (ए-सी) लिम्मा, एजर और डीईईक्यू2 द्वारा अधिग्रहीत सभी जीनों के ज्वालामुखी भूखंड क्रमशः, एडीजे पी वैल्यू (-log10) गुना परिवर्तन (लॉग2) के खिलाफ साजिश रची जाती है, लाल अंक अप-विनियमित डीईजी (समायोजित पी वैल्यू<0.05 का प्रतिनिधित्व करते हैं और लॉग | एफसी|> 2) और हरे अंक डाउन-रेगुलेटेड डीईजी (समायोजित पी वैल्यू< 0.05 का प्रतिनिधित्व करते हैं और लॉग | एफसी|< 2) । कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें ।

चित्रा 2। वेन आरेख लिम्मा, एजर और डीसेक्यू 2 से प्राप्त परिणामों के बीच ओवरलैप दिखाते हैं। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें ।

अनुपूरक फाइलें। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहां क्लिक करें ।

Subscription Required. Please recommend JoVE to your librarian.

Discussion

कैंसर में प्रचुर मात्रा में एबररेट ट्रांसक्रिप्ट को आरएनए-सेक्यू अंतर विश्लेषण⁵द्वारा आसानी से पहचाना जा सकता है। हालांकि, आरएनए-एसईक्यू अंतर अभिव्यक्ति विश्लेषण का आवेदन अक्सर प्रतिबंधित होता है क्योंकि इसके लिए आर भाषा के साथ कुछ कौशल और उचित तरीकों को चुनने की क्षमता की आवश्यकता होती है। इस समस्या को हल करने के लिए, हम आरएनए-सेक्यू अंतर अभिव्यक्ति विश्लेषण लागू करने के लिए तीन सबसे ज्ञात तरीकों (लिम्मा, एजर और डीसेक्यू2) और ट्यूटोरियल का विस्तृत परिचय प्रदान करते हैं। इससे तीनों तरीकों में समानताओं और मतभेदों को समझने में मदद मिलेगी, व्यक्तिगत डेटा के लिए उपयुक्त विधि का चयन किया जा सकेगा और हम जटिल गतिशील जैविक प्रक्रियाओं को समझने में सक्षम होंगे ।

यहां, हम क्रमशः पांच चरणों में लिम्मा, एजर और डीसेक्यू 2 के माध्यम से आरएनए-सेक्यू अंतर अभिव्यक्ति विश्लेषण के लिए एक विस्तृत प्रोटोकॉल प्रस्तुत करते हैं: (i) डेटा का डाउनलोड और पूर्व-प्रसंस्करण, (ii-iv) क्रमशः लिम्मा, एजर और डीईईक्यू 2 के माध्यम से अंतर अभिव्यक्ति विश्लेषण, (v) एक वेन डायग्राम के माध्यम से इन तीन विधियों के परिणामों की तुलना।

अंतर अभिव्यक्ति विश्लेषण की प्रक्रियाओं के बीच तीन तरीकों में समान और अलग-अलग कदम हैं। लिम्मा में आंकड़ों के लिए एक रैखिक मॉडल का उपयोग किया जाता है, जो माइक्रोएरे, आरएनए-सेक्यूऔर मात्रात्मक पीसीआर^8,¹³सहित सभी जीन अभिव्यक्ति प्रौद्योगिकियों के लिए लागू होता है, जबकि एजर और डीसेक्यू2 नकारात्मक बिनोमियल वितरण^9,¹⁰^केआधार पर सांख्यिकीय पद्धतियों की एक श्रृंखला को लागू करते हैं, और एजर और डीसेक्यू 2 आरएनए-सेक्यू डेटा के लिए उपयुक्त हैं। इसके अलावा, एडगर और लिम्मा के लिए सामान्यीकृत आरएनए-सेक्यू काउंट डेटा आवश्यक है, जबकि DESeq2 सामान्यीकरण के बजाय डेटा को सही करने के लिए अपनी लाइब्रेरी विसंगतियों का उपयोग करता है और DESeq2 में डेटा एक पूर्णांक मैट्रिक्स होना चाहिए। सामान्यीकरण विधियों में टीएमएम (एम-वैल्यूज का छंटनी का मतलब), टीएमएमडब्ल्यूएसपी, आर एलई (सापेक्ष लॉग एक्सप्रेशन) और अपरक्वार्टाइल शामिल हैं, जिनमें से टीएमएम आरएनए-सेक्यू डेटा के लिए सबसे अधिक उपयोग की जाने वाली सामान्यीकरण विधि है। तीन तरीकों के परिणामों से पता चला है कि DESeq2 और EdgeR लिम्मा की तुलना में अधिक DEGs प्राप्त करते हैं । इस अंतर का कारण यह है कि एजर और डीसेक्यू 2 नकारात्मक बिनोमियल मॉडल पर आधारित हैं, जो बड़ी संख्या में झूठे सकारात्मक में योगदान देता है। इसके विपरीत, लिम्मा-वोम केवल विचरण समारोह का उपयोग करता है और अत्यधिक झूठी सकारात्मकता नहीं दिखाता है, जैसा कि लिम्मा^14,^{15, 16}के साथ रैखिक मॉडल विश्लेषण के बाद एक विचरण स्थिर परिवर्तन के मामले में है।

सभी तीन तरीकों के अपने फायदे हैं, और विकल्प सिर्फ डेटा के प्रकार पर निर्भर है। उदाहरण के लिए, यदि माइक्रोरे डेटा है, तो लिम्मा को प्राथमिकता के साथ दिया जाना चाहिए, लेकिन जब यह अगली पीढ़ी के अनुक्रमण डेटा है, तो DESeq2 और EdgeR^{को 9,}^10,¹⁷पसंद किया जाता है। संक्षेप में, हम यहां आर संकुल लिम्मा, एजर और डीसेक्यू 2 के साथ आरएनए-एसईक्यू अंतर अभिव्यक्ति विश्लेषण के लिए क्रमशः एक विस्तृत प्रोटोकॉल प्रदान करते हैं। तीन तरीकों से आउटपुट परिणाम आंशिक रूप से ओवरलैपिंग कर रहे हैं, और इन अंतर विधियों के अपने संबंधित फायदे हैं। दुर्भाग्य से, यह प्रोटोकॉल अन्य डेटा प्रकारों (जैसे, माइक्रोएरी डेटा) और विधियों (जैसे, ईबीएसईक्यू)¹⁸के लिए तकनीकी विवरणों को कवर नहीं करता है।

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

पांडुलिपि पहले प्रकाशित नहीं की गई है और कहीं प्रकाशन के लिए विचार नहीं किया जा रहा है । सभी लेखकों ने महत्वपूर्ण बौद्धिक सामग्री के लिए इस पांडुलिपि के निर्माण में योगदान दिया है और अंतिम पांडुलिपि को पढ़ा और अनुमोदित किया है। हम घोषणा करते हैं कि हितों का कोई टकराव नहीं है ।

Acknowledgments

इस काम को नेशनल नेचुरल साइंस फाउंडेशन ऑफ चाइना (ग्रांट नंबर 81860276) और नेशनल की आरएंडडी प्रोग्राम (ग्रांट नंबर 2018YFC1003200) की प्रमुख स्पेशल फंड प्रोजेक्ट्स ने सपोर्ट किया ।