Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Cancer Research

आरएनए अनुक्रमण के लिए तीन अंतर अभिव्यक्ति विश्लेषण विधियां: लिम्मा, एजर, डीसेक्यू2

Published: September 18, 2021 doi: 10.3791/62528
* These authors contributed equally

Summary

आरएनए अनुक्रमण के लिए अंतर अभिव्यक्ति विश्लेषण विधियों का एक विस्तृत प्रोटोकॉल प्रदान किया गया था: लिम्मा, एजर, डीसेक्यू 2।

Abstract

आरएनए अनुक्रमण (आरएनए-एसईक्यू) ट्रांसक्रिप्टोमिक्स में सबसे व्यापक रूप से उपयोग की जाने वाली प्रौद्योगिकियों में से एक है क्योंकि यह आनुवंशिक परिवर्तन और जटिल जैविक प्रक्रियाओं के बीच संबंध प्रकट कर सकता है और ट्यूमर के निदान, शकुन और चिकित्सीय में महान मूल्य है। आरएनए-एसईक्यू डेटा का अंतर विश्लेषण गुमराह प्रतिलेखन की पहचान करने के लिए महत्वपूर्ण है, और लिम्मा, एजर और डीसेक्यू 2 अंतर विश्लेषण के लिए कुशल उपकरण हैं। हालांकि, आरएनए-एसईक्यू अंतर विश्लेषण के लिए आर भाषा के साथ कुछ कौशल और एक उपयुक्त विधि चुनने की क्षमता की आवश्यकता होती है, जो चिकित्सा शिक्षा के पाठ्यक्रम में कमी है।

इसके साथ ही, हम क्रमशः लिम्मा, डीसेक्यू2 और एजर के माध्यम से कोलंगियोकार्सिनोमा (चोल) और सामान्य ऊतकों के बीच अंतर व्यक्त जीन (डीईजी) की पहचान करने के लिए विस्तृत प्रोटोकॉल प्रदान करते हैं, और परिणाम ज्वालामुखी भूखंडों और वेन आरेखों में दिखाए जाते हैं। लिम्मा, DESeq2 और EdgeR के तीन प्रोटोकॉल समान हैं, लेकिन विश्लेषण की प्रक्रियाओं के बीच अलग-अलग कदम हैं। उदाहरण के लिए, लिम्मा में आंकड़ों के लिए एक रैखिक मॉडल का उपयोग किया जाता है, जबकि नकारात्मक बिनोमियल वितरण का उपयोग एजर और डीसेक्यू 2 में किया जाता है। इसके अतिरिक्त, एडजर और लिम्मा के लिए सामान्यीकृत आरएनए-सेक्यू काउंट डेटा आवश्यक है लेकिन डीसेक्यू2 के लिए आवश्यक नहीं है।

यहां, हम तीन अंतर विश्लेषण विधियों के लिए एक विस्तृत प्रोटोकॉल प्रदान करते हैं: लिम्मा, एजर और डीसेक्यू 2। तीन तरीकों के परिणाम आंशिक रूप से ओवरलैपिंग हैं। सभी तीन तरीकों के अपने फायदे हैं, और विधि का चुनाव केवल डेटा पर निर्भर करता है।

Introduction

आरएनए-अनुक्रमण (आरएनए-एसईक्यू) कई फायदों (जैसे, उच्च डेटा प्रजनन क्षमता) के साथ ट्रांसक्रिप्टोमिक्स में सबसे व्यापक रूप से उपयोग की जाने वाली प्रौद्योगिकियों में से एक है, और नाटकीय रूप से जटिल जैविक प्रक्रियाओं की कार्यों और गतिशीलता के बारे में हमारी समझ में वृद्धि हुई है1,2। विभिन्न जैविक संदर्भ के तहत एबररेट ट्रांसक्रिप्ट की पहचान, जिसे अंतर रूप से व्यक्त जीन (डीईजी) के रूप में भी जाना जाता है, आरएनए-एसईक्यू विश्लेषण में एक महत्वपूर्ण कदम है। आरएनए-एसईक्यू रोगजनन से संबंधित आणविक तंत्र और जैविक कार्यों की गहरी समझ प्राप्त करना संभव बनाता है। इसलिए, अंतर विश्लेषण को ट्यूमर3,4,5के निदान, शकुन और चिकित्सीय के लिए मूल्यवान माना गया है। वर्तमान में, आरएनए-सेक्यू अंतर अभिव्यक्ति विश्लेषण, विशेष रूप से लिम्मा, डीसेक्यू2 और एजआर1,6,7के लिए अधिक ओपन-सोर्स आर/बायोकंडक्टर पैकेज विकसित किए गए हैं। हालांकि, अंतर विश्लेषण आर भाषा और उचित विधि है, जो चिकित्सा शिक्षा के पाठ्यक्रम में कमी है चुनने की क्षमता के साथ कुछ कौशल की आवश्यकता है ।

इस प्रोटोकॉल में, कैंसर जीनोम एटलस (टीसीजीए) से निकाले गए कोलंगियोकार्सिनोमा (चोल) आरएनए-सेक्यू काउंट डेटा के आधार पर, तीन सबसे ज्ञात तरीकों (लिम्मा8,एजर9 और डीईईक्यू10)क्रमशः आर प्रोग्राम11 द्वारा कोल और सामान्य ऊतकों के बीच डीईजी की पहचान करने के लिए किए गए थे। लिम्मा, एजर और डीसेक्यू2 के तीन प्रोटोकॉल समान हैं लेकिन विश्लेषण की प्रक्रियाओं के बीच अलग-अलग कदम हैं। उदाहरण के लिए, एडगर और लिम्मा8,9के लिए सामान्यीकृत आरएनए-सेक्यू काउंट डेटा आवश्यक है, जबकि डीईईक्यू2सामान्यीकरण 10के बजाय डेटा को सही करने के लिए अपनी लाइब्रेरी विसंगतियों का उपयोग करता है। इसके अलावा, एजर आरएनए-सेक्यू डेटा के लिए विशेष रूप से उपयुक्त है, जबकि लिम्मा का उपयोग माइक्रोएरास और आरएनए-सेक्यू के लिए किया जाता है। डीईजी12का आकलन करने के लिए लिम्मा द्वारा एक रैखिक मॉडल अपनाया जाता है, जबकि एजर में आंकड़े नकारात्मक द्विमौमिक वितरण पर आधारित होते हैं, जिसमें अनुभवजन्य बायस अनुमान, सटीक परीक्षण, सामान्यीकृत रैखिक मॉडल और अर्ध-संभावना परीक्षण9शामिल हैं।

संक्षेप में, हम क्रमशः लिम्मा, डीसेक्यू2 और एजर का उपयोग करके आरएनए-सेक्यू अंतर अभिव्यक्ति विश्लेषण के विस्तृत प्रोटोकॉल प्रदान करते हैं। इस लेख का हवाला देकर, उपयोगकर्ता आसानी से आरएनए-सेक्यू अंतर विश्लेषण कर सकते हैं और अपने डेटा के लिए उपयुक्त अंतर विश्लेषण विधियों का चयन कर सकते हैं।

Subscription Required. Please recommend JoVE to your librarian.

Protocol

नोट: आर स्टूडियो कार्यक्रम खोलें और आर फ़ाइल "DEGs.R" लोड, फ़ाइल अनुपूरक फ़ाइलों से प्राप्त किया जा सकता है/

1. डेटा को डाउनलोड करना और प्री-प्रोसेसिंग करना

  1. कैंसर जीनोम एटलस (टीसीजीए) से कोलंगियोकार्सिनोमा (चोल) के उच्च-थ्रूपुट अनुक्रमण (एचटीसेक्यू) गिनती डेटा डाउनलोड करें। इस चरण को निम्नलिखित आर कोड द्वारा आसानी से प्राप्त किया जा सकता है।
    1. आर पैकेज स्थापित करने के लिए रन पर क्लिक करें।
    2. आर पैकेज लोड करने के लिए रन पर क्लिक करें।
      यदि (!आवश्यकतानाम स्थान ("BiocManager", चुपचाप = सच))
      + इंस्टॉल.पैकेज ("BiocManager")
      BiocManager:: स्थापित (c ("TCGAbiolinks", "सारांशएक्सपीयरमेंट"))
    3. कार्य निर्देशिका निर्धारित करें।
      पुस्तकालय (टीसीजीआयलिंक्स)
      पुस्तकालय (सारांशितएक्सपीरिटी)
      setwd ("C:/उपयोगकर्ताओं/LIUSHIYI/डेस्कटॉप")
    4. कैंसर के प्रकार का चयन करें।
      कैंसर <- "टीसीजीए-चोल"
    5. डेटा डाउनलोड करने के लिए "GDCquery.R" फ़ाइल से आर कोड चलाएं। फ़ाइल "GDCquery.R" अनुपूरक फ़ाइलों/लिपियों से प्राप्त किया जा सकता है:
      स्रोत ("अनुपूरक फाइलें/लिपियां/GDCquery.R")
      प्रमुख (सीएनटी)
      ##TCGA-3X-AAVA-01A-11R-A41I-07
      ##ENSG00000000003 4262
      ##ENSG00000000005 1
      ##ENSG00000000419 1254
      ##ENSG00000000457 699
      ##ENSG00000000460 239
      ##ENSG00000000938 334
      नोट: निष्पादन के बाद, CHOLHTSeq गिनती डेटा डाउनलोड किया जाएगा और नाम "सीएनटी", जहां पंक्तियों कलाकारों की टुकड़ी जीन टीडीएस का प्रतिनिधित्व करते है और कॉलम नमूना टीडीएस का प्रतिनिधित्व करते हैं । कृपया नमूना टीडीएस में 14-15 पदों पर संख्या नोटिस; 01 से 09 तक की संख्या ट्यूमर को इंगित करती है और 10 से 19 तक की संख्या सामान्य ऊतकों को इंगित करती है।
  2. पहनावा जीन की विज्ञापनों को जीन प्रतीकों में परिवर्तित करें।
    1. अपने भंडारण पथ के अनुसार एनोटेशन फाइल को आर में आयात करें। एनोटेशन फाइल (gencode.v22.annotation.gtf) पूरक फाइलों से प्राप्त किया जा सकता है।
      gtf_v22 <-rtracklayer:: आयात ('अनुपूरक फ़ाइलें/gencode.v22.annotation.gtf')
    2. "gtf_v22 से आर कोड चलाएं। आर "फ़ाइल, जो अनुपूरक फ़ाइलों/लिपियों से प्राप्त किया जा सकता है:
      स्रोत ("अनुपूरक फाइलें/स्क्रिप्ट/gtf_v22 । R")
    3. कलाकारों की टुकड़ी जीन टीडीएस को जीन प्रतीकों में परिवर्तित करने के लिए फ़ंक्शन "ऐन" लागू करें।
      सीएनटी= ऐन (सीएनटी, gtf_v22)
  3. कम व्यक्त जीन फ़िल्टर करना
    1. क्लिक करें आर पैकेज "एजर" स्थापित करने के लिए रन करें।
      BiocManager:: स्थापित ("edgeR")
    2. क्लिक करें आर पैकेज "एजर" लोड करने के लिए चलाएं।
      पुस्तकालय (एजर)
    3. निम्नलिखित आर कोड चलाने के लिए प्रति मिलियन गिनती के साथ जीन रखने के लिए (सीपीएम) मूल्यों को कम से दो नमूनों में एक से अधिक है ।
      < रखें- पंक्तियां (सीपीएम (सीएनटी) >1) > = 2
      सीएनटी <- as.मैट्रिक्स (सीएनटी [रखो,])
      नोट: विभिन्न अनुक्रमण गहराई के कारण विचलन को खत्म करने के लिए पढ़े गए गिनती के बजाय प्रति मिलियन (सीपीएम) मूल्य की गिनती का उपयोग किया जाता है।

2. "लिम्मा" के माध्यम से अंतर अभिव्यक्ति विश्लेषण

  1. क्लिक करें आर पैकेज "लिम्मा" स्थापित करने के लिए चलाएं।
    BiocManager:: स्थापित ("लिम्मा")
  2. क्लिक करें आर संकुल "लिम्मा", "edgeR" लोड करने के लिए चलाते हैं।
    पुस्तकालय (लिम्मा)
    पुस्तकालय (एजर)
  3. डिजाइन मैट्रिक्स बनाने के लिए निम्नलिखित आर कोड चलाएं।
    समूह <- substring(colnames(cnt),14,15) # Extract group information
    समूह [समूह%% %%%"01"] <- "Cancer" # set '01' as tumor tissue
    समूह [समूह%% %%%"11"] <- "Normal" # set '11' as normal tissue
    समूह <- factor (group, levels = c("Normal","Cancer"))
    1. डिजाइन मैट्रिक्स बनाएं।
      डिजाइन <- मॉडल.मैट्रिक्स (~ समूह)
      पंक्तियां (डिजाइन) <- कोलनाम (सीएनटी)
    2. DGEList ऑब्जेक्ट बनाएं।
      < डगे- डीजेईलिस्ट (मायने रखता है = सीएएनटी, समूह = समूह)
    3. डेटा को सामान्य करें।
      < डजे- कैल्कनॉर्मफैक्टर्स (ge, विधि = "टीएमएम")
    4. लिम्मा-ट्रेंड विधि आधारित अंतर अभिव्यक्ति विश्लेषण करने के लिए निम्नलिखित आर कोड चलाएं।
      डग
      ##An वर्ग का उद्देश्य "DGEList"
      ##$counts
      ##TCGA-3X-AAVA-01A-11R-A41I-07
      ##TSPAN6 4262
      ##DPM1 1254
      ##SCYL3 699
      ##C1orf112 239
      ##FGR 334
    5. सीपीएम मूल्य की गणना करें।
      लॉगडेज <- सीपीएम (ड्ज, लॉग =ट्रू, पूर्व.काउंट = 3)
    6. डेटा की भविष्यवाणी करने या चर के बीच संबंधों का अनुमान लगाने के लिए एक रैखिक मॉडल फिट करने के लिए रन पर क्लिक करें।
      फिट <- एलएमफिट (लॉगेज, डिजाइन)
    7. बायसियन के आधार पर टी वैल्यू, एफ वैल्यू और लॉग-ऑड्स की गणना करें।
      फिट <- ईबेनेस (फिट, ट्रेंड = ट्रू)
    8. परिणाम तालिका निकालें।
      res_limma<- as.data.frame (टॉपटेबल (फिट,एन=आईएनएफ))

      मुखिया (res_limma)
      ## लॉगएफसी AveExpr t P.Value adj । पी वैल बी
      ##RP11-252E2.2 -4.899493 -2.488589 -20.88052 2.386656e-25 4.931786e-21 47.28823
      ##BX842568.1 -4.347930 -2.595205 -20.14532 1.082759e-24 1.118706e-20 45.83656
      ##CTC-537E7.3 -5.154894 -2.143292 -19.59571 3.452354e-24 2.216114e-20 44.72001
      ##RP11-468N14.3 -6.532259 -2.029714 -19.49409 4.289807e-24 2.216114e-20 44.51056
      ##AP006216.5 -4.507051 -2.670915 -19.25649 7.153356e-24 2.956339e-20 44.01704
      ##RP11-669E14.4 -4.107204 -2.828311 -18.93246 1.448209e-23 4.987633e-20 43.33543
      अंतर अभिव्यक्ति विश्लेषण के परिणाम #The "res_limma" में सहेजा जाता है, जिसमें जीन आईडी, लॉग2 गुना परिवर्तन मूल्य (लॉगएफसी), प्रयोग में जीन का औसत लॉग2 अभिव्यक्ति स्तर (AveExpr), संशोधित टी आंकड़ा (टी), रेलावेंट पी वैल्यू (पी.वैल्यू), झूठी खोज दर (एफडीआर) सही पी वैल्यू (एडीजे) शामिल है। P.Val) और लॉग-बाधाओं के अंतर व्यक्त जीन (बी)
      नोट: नमूना तैयारी या पुस्तकालय निर्माण और अनुक्रमण के कारण प्रभाव को खत्म करने के लिए डेटा को सामान्य बनाने के लिए "एजर" के "calcNormFactors ()" समारोह का उपयोग किया गया था। डिजाइन मैट्रिक्स के निर्माण में, मैट्रिक्स की टीडीएस का नमूना करने के लिए प्रयोगात्मक डिजाइन (उदाहरण के लिए, ऊतक प्रकार: सामान्य या ट्यूमर ऊतक) से मेल करना आवश्यक है। लिम्मा-प्रवृत्ति डेटा के लिए उपयुक्त है जिसकी अनुक्रमण गहराई समान है, जबकि लिम्मा-वोम उपयुक्त है: (i) जब नमूना पुस्तकालय का आकार अलग होता है; (ii) टीएमएम द्वारा डेटा सामान्य नहीं किया गया है; (iii) आंकड़ों में बहुत अधिक शोर है। एक सकारात्मक लॉगएफसी का मतलब है कि जीन प्रयोग में ऊपर विनियमित है, जबकि नकारात्मक संख्या का मतलब है कि जीन नीचे विनियमित है ।
    9. डीईजी की पहचान करें।
      res_limma $sig <-as.factor
      ifelse (res_limma $adj । 2 > 0.वैल < 0.05 और एबीएस (res_limma $लॉगएफसी)
      ifelse (res_limma $logFC > 2 'अप', 'नीचे'), 'नहीं') # adj.p मूल्य < 0.05 और |log2FC| > = 2 DEGs की पहचान करने के लिए थ्रेसहोल्ड हैं
      सारांश (res_limma $ sig)
      ##down नहीं
      ##1880 ​17341 1443
    10. परिणाम तालिका को फ़ाइल में आउटपुट करें।
      लिखें.csv (res_limma, फ़ाइल = 'result_limma.csv')
    11. क्लिक करें आर पैकेज "ggplot2" स्थापित करने के लिए चलाते हैं।
      इंस्टॉल.पैकेज ("ggplot2")
    12. क्लिक करें आर पैकेज "ggplot2" लोड करने के लिए चलाते हैं।
      पुस्तकालय (ggplot2)
    13. "ज्वालामुखी" से आर कोड चलाएं। आर "ज्वालामुखी साजिश बनाने के लिए । फ़ाइल "ज्वालामुखी। आर "अनुपूरक फाइलों से प्राप्त किया जा सकता है।
      स्रोत ("अनुपूरक फाइलें/स्क्रिप्ट/ज्वालामुखी। R")
      ज्वालामुखी (res_limma", "लॉगएफसी", "एडीजे। पी वैल", 2,0.05)
      नोट: जीन उनके log2FC और adj-पी मूल्यों के अनुसार विभिन्न पदों के लिए मैप किया जा सकता है, ऊपर विनियमित DEGs लाल रंग में रंग रहे हैं, और नीचे विनियमित DEGs हरे रंग में रंग रहे हैं ।
    14. क्लिक करें ज्वालामुखी की साजिश को बचाने के लिए निर्यात।
      नोट: ज्वालामुखी भूखंडों को विभिन्न प्रारूपों (जैसे, पीडीएफ, झगड़ा, पीएनजी, जेपीईजी प्रारूप) में उत्पन्न और डाउनलोड किया जा सकता है। जीन को उनके log2FC और एडीजे पी मूल्यों के अनुसार विभिन्न पदों पर मैप किया जा सकता है, अप-विनियमित डीईजी (लॉग2एफसी > 2, एडीजे पी < ०.०५) लाल रंग में रंगे हुए हैं, और डाउन-रेगुलेटेड डीईजी (लॉग2एफसी <-2, एडीजे पी < ०.०५) हरे रंग में रंगे हुए हैं, गैर-डीईजी ग्रे रंग में हैं ।

3. "एजर" के माध्यम से अंतर अभिव्यक्ति विश्लेषण

  1. क्लिक करें आर पैकेज "एजर" लोड करने के लिए चलाएं।
    पुस्तकालय (एजर)
  2. डिजाइन मैट्रिक्स बनाने के लिए निम्नलिखित आर कोड चलाएं।
    समूह <-उपस्ट्रिंग (कोलनाम (सीएनटी), 14,15)
    समूह [समूह%% में %"01"] <- "कैंसर"
    समूह [समूह%% में "11"] <- "सामान्य"
    समूह = कारक (समूह, स्तर = सी ("सामान्य", कैंसर"))
    डिजाइन <-model.matrix (~ समूह)
    पंक्तियां (डिजाइन) = कोलनाम (सीएनटी)
  3. DGEList ऑब्जेक्ट बनाने के लिए रन पर क्लिक करें।
    < डगे- डीजेईलिस्ट (काउंट्स =सीएएनटी)
  4. डेटा को सामान्य करें।
    < डजे- कैल्कनॉर्मफैक्टर्स (ge, विधि = "टीएमएम")
  5. जीन अभिव्यक्ति मूल्यों के फैलाव का अनुमान लगाने के लिए रन पर क्लिक करें।
    < ge- अनुमानडिस्प (ge, डिजाइन, मजबूत = टी)
  6. डेटा गिनने के लिए रन टू फिट मॉडल पर क्लिक करें.
    फिट <- glmQLFit (ge, design)
  7. सांख्यिकीय परीक्षण करें।
    फिट <- glmQLFTest (फिट)
  8. परिणाम तालिका निकालें। परिणाम "res_edgeR" में सहेजा जाता है, जिसमें लॉग फोल्ड चेंज वैल्यू, लॉग सीपीएम, एफ, पी वैल्यू और एफडीआर सही पी वैल्यू शामिल है।
    res_edgeR=as.data.frame (topTags (फिट, n=Inf))
    मुखिया (res_edgeR)
    ## लॉगएफसी लॉगसीपीएम एफ पीवैल्यू एफडीआर
    ##GCDH -3.299633 5.802700 458.5991 1.441773e-25 2.979280e-21
    ##MSMO1 -3.761400 7.521111 407.0416 1.730539e-24 1.787993e-20R
    ##CL1 -3.829504 5.319641 376.5043 8.652474e-24 5.516791e-20
    ##ADI1 -3.533664 8.211281 372.6671 1.067904e-23 5.516791e-20
    ##KCNN2 -5.583794 3.504017 358.6525 2.342106e-23 9.679455e-20
    ##GLUD1 -3.287447 8.738080 350.0344 3.848408e-23 1.194406e-19
    #The परिणाम "res_edgeR" में सहेजा जाता है, जिसमें लॉग फोल्ड चेंज वैल्यू (लॉगएफसी), लॉग सीपीएम, एफ, पी वैल्यू और एफडीआर सही पी वैल्यू शामिल है
  9. डीईजी की पहचान करें।
    res_edgeR $ sig = as.factor (
    2 > आईएफल्स (res_edgeR$एफडीआर < 0.05 और एबीएस (res_edgeR $लॉगएफसी)
    ifelse (res_edgeR $logFC > 2 'अप', 'डाउन'), 'नहीं'))
    सारांश (res_edgeR$ sig)
    ##down नहीं
    ##1578 15965 3121
  10. परिणाम तालिका को फ़ाइल में आउटपुट करें।
    लिखें.csv (res_edgeR, फ़ाइल = 'res_edgeR.csv')
  11. ज्वालामुखी साजिश बनाएं।
    ज्वालामुखी (res_edgeR", "एफडीआर", 2,0.05)
  12. क्लिक करें ज्वालामुखी की साजिश को बचाने के लिए निर्यात।

4. "DESeq2" के माध्यम से अंतर अभिव्यक्ति विश्लेषण

  1. आर पैकेज "DESeq2" स्थापित करने के लिए रन पर क्लिक करें।
    BiocManager:: स्थापित ("DESeq2")
  2. क्लिक करें आर संकुल "DESeq2" लोड करने के लिए चलाते हैं।
    पुस्तकालय (DESeq2)
  3. समूह निर्धारण कारक निर्धारित करने के लिए निम्नलिखित आर कोड चलाएं।
    समूह <-उपस्ट्रिंग (कोलनाम (सीएनटी), 14,15)
    समूह [समूह%% में %"01"] <- "कैंसर"
    समूह [समूह%% में "11"] <- "सामान्य"
    समूह = कारक (समूह, स्तर = सी ("सामान्य", कैंसर"))
  4. DESeqDataSet ऑब्जेक्ट बनाएं।
    dds <-DESeqDataSetFromMatrix (सीएनटी, डेटाफ्रेम (समूह), डिजाइन = ~ समूह)
    डीडीएस
    ##class: DESeqDataSet
    ##dim: 20664 45
    ##metadata (1): संस्करण
    ##assays (1): मायने रखता है
    ##rownames (20664): TSPAN6 DPM1 ... RP11-274B21.13 LINC01144
    ##rowData नाम (0):
    ##colnames (45): TCGA-3X-AAVA-01A-11R-A41I-07 ...
    ##colData नाम (1): समूह
  5. विश्लेषण करें।
    dds <- DESeq (dds)
  6. रिजल्ट टेबल जेनरेट करें।
    res_DESeq2 <- data.frame (परिणाम (dds))

    मुखिया (res_DESeq2)
    ## baseMean log2FoldChange lfcSE स्टेट pvalue padj
    ##TSPAN6 4704.9243 -0.8204515 0.3371667 -2.433370 1.495899e-02 2.760180e-02
    ##DPM1 1205.9087 -0.3692497 0.1202418 -3.070894 2.134191e-03 4.838281e-03
    ##SCYL3 954.9772 0.2652530 0.2476441 1.071106 2.841218e-01 3.629059e-01
    ##C1orf112 277.7756 0.7536911 0.2518929 2.992109 2.770575e-03 6.101584e-03
    ##FGR 345.8789 -0.6423198 0.3712729 -1.730047 8.362180e-02 1.266833e-01
    ##CFH 27982.3546 -3.8761382 0.5473363 -7.081823 1.422708e-12 1.673241e-11
    नोट: परिणाम "res_DESeq2" में सहेजा जाता है, जिसमें सामान्यीकृत रीड काउंट (बेसमियन), लॉग फोल्ड चेंज वैल्यू (लॉग2फोल्डचेंज), लॉग फोल्ड चेंज स्टैंडर्ड एरर (एलएफसीई), वाल्ड स्टैकिस्टिक (स्टेट), ओरिजिनल पी वैल्यू (प्ल्यूल्यू) और सही पी वैल्यू (पैडजे) का मतलब शामिल है।
  7. डीईजी की पहचान करें।
    res_DESeq2 $sig = as.factor (
    2 > ifelse (res_DESeq2$padj < 0.05 और abs (res_DESeq2$log2foldChange)
    ifelse (res_DESeq2$log2FoldChange > 2 'अप', 'डाउन'), 'नहीं'))
    सारांश (res_DESeq2 $sig)
    ##down नहीं
    ##1616 16110 2938
  8. परिणाम तालिका को फ़ाइल में आउटपुट करें।
    लिखें.csv (res_DESeq2, फ़ाइल = 'res_DESeq2.csv')
  9. ज्वालामुखी साजिश बनाएं।
    ज्वालामुखी (res_DESeq2,"log2foldChange", "padj",2,0.05)
  10. क्लिक करें ज्वालामुखी की साजिश को बचाने के लिए निर्यात।

5. वेन आरेख

  1. क्लिक करें आर पैकेज "VennDiagram" स्थापित करने के लिए चलाते हैं।
    इंस्टॉल.पैकेज ("वेनडियाग्राम")
  2. क्लिक करें आर पैकेज "VennDiagram" लोड करने के लिए चलाते हैं।
    पुस्तकालय (वेनडियाग्राम)
  3. यूपी विनियमित डीईजी का वेन आरेख बनाएं।
    ग्रिड.न्यूपेज ()
    grid.draw (venn.आरेख (सूची (Limma= rownames (res_
    लिम्मा [res_limma $sig ==="अप",]),
    edgeR=rownames (res_edgeR [res_edgeR$sig =="अप",]),
    DESeq2= rownames (res_DESeq2 [res_DESeq2$sig==
    "ऊपर",]),
    नल, ऊंचाई = 3,चौड़ाई = 3,इकाइयों = "में",
    कर्नल = "ब्लैक", lwd=0.3, भरें =सी ("#FF6666"," #FFFF00",
    "#993366"),
    अल्फा =c (0.5, 0.5, 0.5), मुख्य = "अप-विनियमित डीईजी"))
  4. वेन आरेख को बचाने के लिए निर्यात पर क्लिक करें।
  5. नीचे विनियमित DEGs का एक वेन आरेख बनाओ ।
    ग्रिड.न्यूपेज ()
    grid.draw (venn.आरेख (सूची (Limma= rownames (res_
    लिम्मा [res_limma $sig ==="नीचे",]),
    edgeR=rownames (res_edgeR [res_edgeR $sig==
    "नीचे",]),
    DESeq2= rownames (res_DESeq2 [res_DESeq2$sig =="नीचे",]),
    नल, ऊंचाई = 3,चौड़ाई = 3,इकाइयों = "में",
    कर्नल = "ब्लैक", lwd=0.3, भरें =सी ("#FF6666"," #FFFF00",
    "#993366"),
    अल्फा =c (0.5, 0.5, 0.5), मुख्य = "डाउन-विनियमित डीईजी"))
  6. वेन आरेख को बचाने के लिए निर्यात पर क्लिक करें।

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

अंतर अभिव्यक्ति विश्लेषण के परिणाम की कल्पना करने के लिए विभिन्न दृष्टिकोण हैं, जिनमें से ज्वालामुखी साजिश और वेन आरेख का विशेष रूप से उपयोग किया जाता है। लिम्मा ने |लॉगएफसी|≥2 और एडीजे के साथ चोल और सामान्य ऊतकों के बीच ३३२३ डीईजी की पहचान की । P.Val <०.०५ थ्रेसहोल्ड के रूप में, जिनमें से १८८० को कोल ऊतकों में नीचे विनियमित किया गया था और १४४३ को अप-विनियमित(चित्रा 1a)किया गया था । इस बीच, एजर ने 1578 डाउन-रेगुलेटेड डीईजी और 3121 अप-रेनियमित डीईजी(चित्रा 1बी) कीपहचान की; DESeq2 ने 1616 डाउन-रेगुलेटेड डीईजी और 2938 अप-रेगुएनियमित डीईजी(चित्रा 1c) कीपहचान की। इन तीन तरीकों के परिणामों की तुलना करते हुए, 1431 अप-विनियमित डीईजी और 1531 डाउन-विनियमित डीईजी छा गए(चित्रा 2)।

Figure 1
चित्रा 1। चोल और सामान्य ऊतकों के बीच अंतर व्यक्त जीन (डीईजी) की पहचान। (ए-सी) लिम्मा, एजर और डीईईक्यू2 द्वारा अधिग्रहीत सभी जीनों के ज्वालामुखी भूखंड क्रमशः, एडीजे पी वैल्यू (-log10) गुना परिवर्तन (लॉग2) के खिलाफ साजिश रची जाती है, लाल अंक अप-विनियमित डीईजी (समायोजित पी वैल्यू<0.05 का प्रतिनिधित्व करते हैं और लॉग | एफसी|> 2) और हरे अंक डाउन-रेगुलेटेड डीईजी (समायोजित पी वैल्यू< 0.05 का प्रतिनिधित्व करते हैं और लॉग | एफसी|< 2) । कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें ।

Figure 2
चित्रा 2। वेन आरेख लिम्मा, एजर और डीसेक्यू 2 से प्राप्त परिणामों के बीच ओवरलैप दिखाते हैं। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें ।

अनुपूरक फाइलें। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहां क्लिक करें ।

Subscription Required. Please recommend JoVE to your librarian.

Discussion

कैंसर में प्रचुर मात्रा में एबररेट ट्रांसक्रिप्ट को आरएनए-सेक्यू अंतर विश्लेषण5द्वारा आसानी से पहचाना जा सकता है। हालांकि, आरएनए-एसईक्यू अंतर अभिव्यक्ति विश्लेषण का आवेदन अक्सर प्रतिबंधित होता है क्योंकि इसके लिए आर भाषा के साथ कुछ कौशल और उचित तरीकों को चुनने की क्षमता की आवश्यकता होती है। इस समस्या को हल करने के लिए, हम आरएनए-सेक्यू अंतर अभिव्यक्ति विश्लेषण लागू करने के लिए तीन सबसे ज्ञात तरीकों (लिम्मा, एजर और डीसेक्यू2) और ट्यूटोरियल का विस्तृत परिचय प्रदान करते हैं। इससे तीनों तरीकों में समानताओं और मतभेदों को समझने में मदद मिलेगी, व्यक्तिगत डेटा के लिए उपयुक्त विधि का चयन किया जा सकेगा और हम जटिल गतिशील जैविक प्रक्रियाओं को समझने में सक्षम होंगे ।

यहां, हम क्रमशः पांच चरणों में लिम्मा, एजर और डीसेक्यू 2 के माध्यम से आरएनए-सेक्यू अंतर अभिव्यक्ति विश्लेषण के लिए एक विस्तृत प्रोटोकॉल प्रस्तुत करते हैं: (i) डेटा का डाउनलोड और पूर्व-प्रसंस्करण, (ii-iv) क्रमशः लिम्मा, एजर और डीईईक्यू 2 के माध्यम से अंतर अभिव्यक्ति विश्लेषण, (v) एक वेन डायग्राम के माध्यम से इन तीन विधियों के परिणामों की तुलना।

अंतर अभिव्यक्ति विश्लेषण की प्रक्रियाओं के बीच तीन तरीकों में समान और अलग-अलग कदम हैं। लिम्मा में आंकड़ों के लिए एक रैखिक मॉडल का उपयोग किया जाता है, जो माइक्रोएरे, आरएनए-सेक्यूऔर मात्रात्मक पीसीआर8,13सहित सभी जीन अभिव्यक्ति प्रौद्योगिकियों के लिए लागू होता है, जबकि एजर और डीसेक्यू2 नकारात्मक बिनोमियल वितरण9,10केआधार पर सांख्यिकीय पद्धतियों की एक श्रृंखला को लागू करते हैं, और एजर और डीसेक्यू 2 आरएनए-सेक्यू डेटा के लिए उपयुक्त हैं। इसके अलावा, एडगर और लिम्मा के लिए सामान्यीकृत आरएनए-सेक्यू काउंट डेटा आवश्यक है, जबकि DESeq2 सामान्यीकरण के बजाय डेटा को सही करने के लिए अपनी लाइब्रेरी विसंगतियों का उपयोग करता है और DESeq2 में डेटा एक पूर्णांक मैट्रिक्स होना चाहिए। सामान्यीकरण विधियों में टीएमएम (एम-वैल्यूज का छंटनी का मतलब), टीएमएमडब्ल्यूएसपी, आर एलई (सापेक्ष लॉग एक्सप्रेशन) और अपरक्वार्टाइल शामिल हैं, जिनमें से टीएमएम आरएनए-सेक्यू डेटा के लिए सबसे अधिक उपयोग की जाने वाली सामान्यीकरण विधि है। तीन तरीकों के परिणामों से पता चला है कि DESeq2 और EdgeR लिम्मा की तुलना में अधिक DEGs प्राप्त करते हैं । इस अंतर का कारण यह है कि एजर और डीसेक्यू 2 नकारात्मक बिनोमियल मॉडल पर आधारित हैं, जो बड़ी संख्या में झूठे सकारात्मक में योगदान देता है। इसके विपरीत, लिम्मा-वोम केवल विचरण समारोह का उपयोग करता है और अत्यधिक झूठी सकारात्मकता नहीं दिखाता है, जैसा कि लिम्मा14,15, 16के साथ रैखिक मॉडल विश्लेषण के बाद एक विचरण स्थिर परिवर्तन के मामले में है।

सभी तीन तरीकों के अपने फायदे हैं, और विकल्प सिर्फ डेटा के प्रकार पर निर्भर है। उदाहरण के लिए, यदि माइक्रोरे डेटा है, तो लिम्मा को प्राथमिकता के साथ दिया जाना चाहिए, लेकिन जब यह अगली पीढ़ी के अनुक्रमण डेटा है, तो DESeq2 और EdgeRको 9,10,17पसंद किया जाता है। संक्षेप में, हम यहां आर संकुल लिम्मा, एजर और डीसेक्यू 2 के साथ आरएनए-एसईक्यू अंतर अभिव्यक्ति विश्लेषण के लिए क्रमशः एक विस्तृत प्रोटोकॉल प्रदान करते हैं। तीन तरीकों से आउटपुट परिणाम आंशिक रूप से ओवरलैपिंग कर रहे हैं, और इन अंतर विधियों के अपने संबंधित फायदे हैं। दुर्भाग्य से, यह प्रोटोकॉल अन्य डेटा प्रकारों (जैसे, माइक्रोएरी डेटा) और विधियों (जैसे, ईबीएसईक्यू)18के लिए तकनीकी विवरणों को कवर नहीं करता है।

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

पांडुलिपि पहले प्रकाशित नहीं की गई है और कहीं प्रकाशन के लिए विचार नहीं किया जा रहा है । सभी लेखकों ने महत्वपूर्ण बौद्धिक सामग्री के लिए इस पांडुलिपि के निर्माण में योगदान दिया है और अंतिम पांडुलिपि को पढ़ा और अनुमोदित किया है। हम घोषणा करते हैं कि हितों का कोई टकराव नहीं है ।

Acknowledgments

इस काम को नेशनल नेचुरल साइंस फाउंडेशन ऑफ चाइना (ग्रांट नंबर 81860276) और नेशनल की आरएंडडी प्रोग्राम (ग्रांट नंबर 2018YFC1003200) की प्रमुख स्पेशल फंड प्रोजेक्ट्स ने सपोर्ट किया ।

Materials

Name Company Catalog Number Comments
R version 3.6.2 free software
Rstudio free software

DOWNLOAD MATERIALS LIST

References

  1. Tambonis, T., Boareto, M., Leite, V. B. P. Differential Expression Analysis in RNA-seq Data Using a Geometric Approach. Journal of Computational Biology. 25, 1257-1265 (2018).
  2. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews. Genetics. 10, 57-63 (2009).
  3. Anders, S., et al. Count-based differential expression analysis of RNA sequencing data using R and Bioconductor. Nature Protocols. 8, 1765-1786 (2013).
  4. McDermaid, A., Monier, B., Zhao, J., Liu, B., Ma, Q. Interpretation of differential gene expression results of RNA-seq data: review and integration. Briefings in Bioinformatics. 20, 2044-2054 (2019).
  5. Costa-Silva, J., Domingues, D., Lopes, F. M. RNA-Seq differential expression analysis: An extended review and a software tool. PloS One. 12, 0190152 (2017).
  6. Law, C. W., et al. RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR. F1000Research. 5, (2016).
  7. Varet, H., Brillet-Guéguen, L., Coppée, J. Y., Dillies, M. A. SARTools: A DESeq2- and EdgeR-Based R Pipeline for Comprehensive Differential Analysis of RNA-Seq Data. PloS One. 11, 0157022 (2016).
  8. Ritchie, M. E., et al. limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic Acids Research. 43, 47 (2015).
  9. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26, Oxford, England. 139-140 (2010).
  10. Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology. 15, 550 (2014).
  11. Gentleman, R. C., et al. Bioconductor: open software development for computational biology and bioinformatics. Genome Biology. 5, 80 (2004).
  12. Law, C. W., Chen, Y., Shi, W., Smyth, G. K. voom: Precision weights unlock linear model analysis tools for RNA-seq read counts. Genome Biology. 15, 29 (2014).
  13. Smyth, G. K. Linear models and empirical bayes methods for assessing differential expression in microarray experiments. Statistical Applications in Genetics and Molecular Biology. 3, (2004).
  14. Lund, S. P., Nettleton, D., McCarthy, D. J., Smyth, G. K. Detecting differential expression in RNA-sequence data using quasi-likelihood with shrunken dispersion estimates. Statistical Applications in Genetics and Molecular Biology. 11, (2012).
  15. Reeb, P. D., Steibel, J. P. Evaluating statistical analysis models for RNA sequencing experiments. Frontiers in Genetics. 4, 178 (2013).
  16. Rocke, D. M., et al. Excess False Positive Rates in Methods for Differential Gene Expression Analysis using RNA-Seq Data. bioRxiv. , (2015).
  17. Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC genomics. 11, 383 (2010).
  18. Leng, N., et al. EBSeq: an empirical Bayes hierarchical model for inference in RNA-seq experiments. Bioinformatics. 29, Oxford, England. 1035-1043 (2013).

Tags

कैंसर अनुसंधान अंक 175
आरएनए अनुक्रमण के लिए तीन अंतर अभिव्यक्ति विश्लेषण विधियां: लिम्मा, एजर, डीसेक्यू2
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Liu, S., Wang, Z., Zhu, R., Wang,More

Liu, S., Wang, Z., Zhu, R., Wang, F., Cheng, Y., Liu, Y. Three Differential Expression Analysis Methods for RNA Sequencing: limma, EdgeR, DESeq2. J. Vis. Exp. (175), e62528, doi:10.3791/62528 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter