Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Engineering

डिकोएक्सप्रेस के साथ मल्टीफैक्टोरियल आरएनए-सेक प्रयोगों का विश्लेषण करना

Published: July 29, 2022 doi: 10.3791/62566

Summary

डिकोएक्सप्रेस गुणवत्ता नियंत्रण से सह-अभिव्यक्ति तक आरएनए-सेक विश्लेषण करने के लिए आर में कार्यान्वित एक स्क्रिप्ट-आधारित उपकरण है। डिकोएक्सप्रेस 2 जैविक कारकों तक पूर्ण और असंतुलित डिजाइन को संभालता है। यह वीडियो ट्यूटोरियल डिकोएक्सप्रेस की विभिन्न विशेषताओं के माध्यम से उपयोगकर्ता का मार्गदर्शन करता है।

Abstract

एनजीएस डेटा विश्लेषण में सांख्यिकीय मॉडलिंग के उचित उपयोग के लिए उन्नत स्तर की विशेषज्ञता की आवश्यकता होती है। हाल ही में आरएनए-सेक डेटा के अंतर विश्लेषण के लिए सामान्यीकृत रैखिक मॉडल का उपयोग करने और सह-अभिव्यक्ति विश्लेषण करने के लिए मिश्रण मॉडल के लाभ पर बढ़ती सहमति रही है। इन मॉडलिंग दृष्टिकोणों का उपयोग करने के लिए एक प्रबंधित सेटिंग प्रदान करने के लिए, हमने डिकोएक्सप्रेस विकसित किया जो आरएनए-सेक विश्लेषण करने के लिए एक मानकीकृत आर पाइपलाइन प्रदान करता है। सांख्यिकी या आर प्रोग्रामिंग में किसी विशेष ज्ञान के बिना, शुरुआती एक सामान्यीकृत रैखिक मॉडल के अंदर विरोधाभासों के आधार पर अंतर विश्लेषण के माध्यम से गुणवत्ता नियंत्रण से सह-अभिव्यक्ति तक एक पूर्ण आरएनए-सेक विश्लेषण कर सकते हैं। एक संवर्धन विश्लेषण अलग-अलग व्यक्त जीन की सूचियों और सह-व्यक्त जीन समूहों दोनों पर प्रस्तावित है। इस वीडियो ट्यूटोरियल को एक चरण-दर-चरण प्रोटोकॉल के रूप में कल्पना की गई है ताकि उपयोगकर्ताओं को डीआईसीओएक्सप्रेस का पूरा लाभ उठाने और आरएनए-सेक प्रयोग की जैविक व्याख्या को सशक्त बनाने में इसकी क्षमता का पूरा लाभ उठाने में मदद मिल सके।

Introduction

अगली पीढ़ी के आरएनए अनुक्रमण (आरएनए-सेक) तकनीक अब ट्रांसक्रिप्टोम विश्लेषण का स्वर्ण मानक है1. प्रौद्योगिकी के शुरुआती दिनों से, जैव सूचना विज्ञानियों और जैव सांख्यिकीविदों के संयुक्त प्रयासों के परिणामस्वरूप मैपिंग से ट्रांसक्रिप्ट परिमाणीकरण2 तक ट्रांसक्रिप्टोमिक विश्लेषण के सभी आवश्यक चरणों से निपटने के लिए कई तरीकों का विकास हुआ है। जीवविज्ञानी के लिए आज उपलब्ध अधिकांश उपकरण सांख्यिकीय कंप्यूटिंग और रेखांकन 3 के लिए आर सॉफ्टवेयर वातावरण के भीतर विकसितकिए गए हैं, और जैविक डेटा विश्लेषण के लिए कई पैकेज बायोकंडक्टर रिपॉजिटरी4 में उपलब्ध हैं। ये पैकेज विश्लेषण के कुल नियंत्रण और अनुकूलन की पेशकश करते हैं, लेकिन वे कमांड-लाइन इंटरफ़ेस के व्यापक उपयोग की कीमत पर आते हैं। क्योंकि कई जीवविज्ञानी "बिंदु और क्लिक" दृष्टिकोण5 के साथ अधिक सहज हैं, आरएनए-सेक विश्लेषण के लोकतंत्रीकरण के लिए अधिक उपयोगकर्ता के अनुकूल इंटरफेस या प्रोटोकॉल6 के विकास की आवश्यकता होती है। उदाहरण के लिए, चमकदार7 का उपयोग करके आर पैकेज के वेब इंटरफेस का निर्माण करना संभव है, और कमांड-लाइन डेटा विश्लेषण को आर-स्टूडियो8 इंटरफ़ेस के साथ अधिक सहज ज्ञान युक्त बनाया जाता है। समर्पित, चरण-दर-चरण ट्यूटोरियल का विकास भी उपन्यास उपयोगकर्ता की मदद कर सकता है। विशेष रूप से, एक वीडियो ट्यूटोरियल एक क्लासिक पाठ की खुराक देता है, जिससे सभी प्रक्रिया चरणों की गहरी समझ होती है।

हमने हाल ही में डिकोएक्सप्रेस9 विकसित किया है, जो तटस्थ तुलना अध्ययन10,11,12 के आधार पर सबसे अच्छे माने जाने वाले तरीकों का उपयोग करके आर में बहुआयामी आरएनए-सेक प्रयोगों का विश्लेषण करने के लिए एक उपकरण है। एक गिनती तालिका से शुरू करते हुए, डिकोएक्सप्रेस एक डेटा गुणवत्ता नियंत्रण चरण का प्रस्ताव करता है जिसके बाद एक सामान्यीकृत रैखिक मॉडल (जीएलएम) का उपयोग करके एक अंतर जीन अभिव्यक्ति विश्लेषण (एजआर पैकेज13) और गाऊसी मिश्रण मॉडल (कोसेक पैकेज12) का उपयोग करके सह-अभिव्यक्ति समूहों की पीढ़ी होती है। डिकोएक्सप्रेस 2 जैविक कारकों (यानी, जीनोटाइप और उपचार) और एक तकनीकी कारक (यानी, दोहराने) तक पूर्ण और असंतुलित डिजाइन को संभालता है। डिकोएक्सप्रेस की मौलिकता इसकी निर्देशिका वास्तुकला में डेटा, स्क्रिप्ट और परिणामों को संग्रहीत और व्यवस्थित करने और विरोधाभासों के लेखन के स्वचालन में निहित है जो उपयोगकर्ता को एक ही सांख्यिकीय मॉडल के भीतर कई प्रश्नों की जांच करने की अनुमति देती है। सांख्यिकीय परिणामों को दर्शाने वाले ग्राफिकल आउटपुट प्रदान करने का भी प्रयास किया गया था।

डिकोएक्सप्रेस कार्यक्षेत्र https://forgemia.inra.fr/GNet/dicoexpress पर उपलब्ध है। इसमें चार निर्देशिकाएं, दो पीडीएफ और दो टेक्स्ट फाइलें हैं। निर्देशिका में इनपुट डेटासेट होते हैं; इस प्रोटोकॉल के लिए, हम "ट्यूटोरियल" डेटासेट का उपयोग करेंगे। निर्देशिका में विश्लेषण करने के लिए आवश्यक सात आर फ़ंक्शन होते हैं, और उपयोगकर्ता द्वारा संशोधित नहीं किया जाना चाहिए। निर्देशिका Template_scripts में संग्रहीत स्क्रिप्ट का उपयोग करके विश्लेषण चलाया जाता है। इस प्रोटोकॉल में उपयोग किए जाने वाले को DiCoExpress_Tutorial_JoVE कहा जाता है और इसे आसानी से किसी भी ट्रांसक्रिप्टोमिक प्रोजेक्ट के लिए अनुकूलित किया जा सकता है। निर्देशिका में लिखे गए हैं और परियोजना के अनुसार नामित एक उपनिर्देशिका में संग्रहीत किए गए हैं। README.md फ़ाइल में उपयोगी स्थापना जानकारी होती है, और विधि और इसके उपयोग से संबंधित कोई भी विशिष्ट विवरण DiCoExpress_Reference_Manual.pdf फ़ाइल में पाया जा सकता है।

यह वीडियो ट्यूटोरियल कमांड-लाइन-आधारित टूल का उपयोग करके जीवविज्ञानियों द्वारा महसूस की गई अनिच्छा को दूर करने के उद्देश्य से डिकोएक्सप्रेस की विभिन्न विशेषताओं के माध्यम से उपयोगकर्ता का मार्गदर्शन करता है। हम यहां एक कृत्रिम आरएनए-सेक डेटासेट का विश्लेषण प्रस्तुत करते हैं जो उपचार के साथ या बिना चार जीनोटाइप के तीन जैविक प्रतिकृतियों में जीन अभिव्यक्ति का वर्णन करता है। अब हम चित्र 1 में सचित्र डिकोएक्सप्रेस वर्कफ़्लो के विभिन्न चरणों के माध्यम से जाएंगे। प्रोटोकॉल अनुभाग में वर्णित स्क्रिप्ट और इनपुट फ़ाइलें साइट पर उपलब्ध हैं: https://forgemia.inra.fr/GNet/dicoexpress

डेटा फ़ाइलें तैयार करें
निर्देशिका में संग्रहीत चार सीएसवी फ़ाइलों को परियोजना के नाम के अनुसार नामित किया जाना चाहिए। हमारे उदाहरण में, सभी नाम, इसलिए, "ट्यूटोरियल" से शुरू होते हैं, और हम प्रोटोकॉल के चरण 4 में Project_Name = "ट्यूटोरियल" सेट करेंगे। सीएसवी फ़ाइलों में उपयोग किए जाने वाले विभाजक को चरण 4 में सितंबर चर में इंगित किया जाना चाहिए। हमारे "ट्यूटोरियल" डेटासेट में, विभाजक एक सारणीकरण है। उन्नत उपयोगकर्ताओं के लिए पूर्ण डेटासेट को फ़िल्टर चर के माध्यम से निर्देशों की एक सूची और एक नया Project_Name प्रदान करके सबसेट में कम किया जा सकता है। यह विकल्प इनपुट फ़ाइलों की अनावश्यक प्रतियों से बचा जाता है और फेयर सिद्धांतों14 को सत्यापित करता है।

चार सीएसवी फाइलों में से, केवल काउंट्स और टारगेट फाइलें अनिवार्य हैं। उनमें प्रत्येक जीन (यहां Tutorial_COUNTS.csv) और प्रयोगात्मक डिजाइन विवरण (यहां Tutorial_TARGET.csv) के लिए कच्ची गिनती होती है। लक्ष्य.csv फ़ाइल प्रत्येक जैविक या तकनीकी कारक (स्तंभों में) के लिए एक साधन के साथ प्रत्येक नमूना (प्रति पंक्ति एक नमूना) का वर्णन करती है। हम दृढ़ता से अनुशंसा करते हैं कि तौर-तरीकों के लिए चुने गए नाम एक अक्षर से शुरू होते हैं, न कि एक संख्या से। अंतिम स्तंभ का नाम ("प्रतिकृति") परिवर्तित नहीं किया जा सकता. अंत में, नमूना नाम (पहला कॉलम) काउंट्स.csv फ़ाइल (हमारे उदाहरण में Genotype1_control_rep1) के शीर्षकों में नामों से मेल खाना चाहिए। संवर्धन.csv फ़ाइल जिसमें प्रत्येक पंक्ति में एक Gene_ID होता है और एक एनोटेशन शब्द केवल तभी आवश्यक होता है जब उपयोगकर्ता संवर्धन विश्लेषण चलाने की योजना बनाता है। यदि एक जीन में कई एनोटेशन हैं, तो उन्हें अलग-अलग लाइनों पर लिखना होगा। एनोटेशन.csv फ़ाइल वैकल्पिक है और आउटपुट फ़ाइलों में प्रत्येक जीन का संक्षिप्त विवरण जोड़ने के लिए उपयोग किया जाता है। एनोटेशन फ़ाइल प्राप्त करने का सबसे अच्छा तरीका समर्पित डेटाबेस से जानकारी प्राप्त करना है (उदाहरण के लिए, थेलेमीन: अरबिडोप्सिस के लिए https://bar.utoronto.ca/thalemine/begin.do)।

डाइकोएक्सप्रेस की स्थापना
डिकोएक्सप्रेस को विशिष्ट आर पैकेज की आवश्यकता होती है। कमांड लाइन स्रोत का उपयोग करें(".. /स्रोत/Install_Packages.R") आवश्यक पैकेज स्थापना स्थिति की जाँच करने के लिए R कंसोल में। लिनक्स पर उपयोगकर्ताओं के लिए, एक और समाधान डिकोएक्सप्रेस को समर्पित कंटेनर स्थापित करना है और https://forgemia.inra.fr/GNet/dicoexpress/container_registry पर उपलब्ध है। परिभाषा के अनुसार, इस कंटेनर में आवश्यक सभी भागों, जैसे पुस्तकालयों और अन्य निर्भरताओं के साथ डिकोएक्सप्रेस होता है।

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. डिकोएक्सप्रेस

  1. एक आर स्टूडियो सत्र खोलें और निर्देशिका को Template_scripts पर सेट करें।
  2. आर स्टूडियो में DiCoExpress_Tutorial स्क्रिप्ट खोलें।
  3. निम्न आदेशों के साथ आर सत्र में डिकोएक्सप्रेस फ़ंक्शन लोड करें:
    > स्रोत (".. / स्रोत / Load_Functions.आर")
    > Load_Functions ()
    > Data_Directory = ".. /डेटा"
    > Results_Directory = ".. /परिणाम/"
  4. निम्न आदेशों के साथ R सत्र में डेटा फ़ाइलें लोड करें:
    > Project_Name = "ट्यूटोरियल"
    > फ़िल्टर = नल
    > सितम्बर ="\t"
    > Data_Files = Load_Data_Files(Data_Directory, Project_Name, फ़िल्टर, सितम्बर)
  5. ऑब्जेक्ट Data_Files को कई ऑब्जेक्ट्स में आसानी से हेरफेर करने के लिए विभाजित करें:
    > Project_Name = Data_Files$Project_Name
    > लक्ष्य = Data_Files $लक्ष्य
    > Raw_Counts = Data_Files $Raw_Counts
    > एनोटेशन = Data_Files $एनोटेशन
    > Reference_Enrichment = Data_Files $Reference_Enrichment
  6. "एनबीकंडीशन", "एनबीआरप्लेट्स" या "फिल्टरबायएक्सप्र" के बीच एक रणनीति चुनें और कम व्यक्त जीन को फ़िल्टर करने के लिए एक सीमा चुनें। यहाँ हम चुनते हैं
    > Filter_Strategy = "एनबीरेप्लिकेट्स"
    > CPM_Cutoff = 1
  7. आदेश के साथ समूह रंग निर्दिष्ट करें
    > Color_Group = शून्य
    नोट: जब यह नल पर सेट किया जाता है, तो आर स्वचालित रूप से जैविक स्थितियों के लिए रंगों को विशेषता देता है। अन्यथा जैविक समूह प्रति रंग का संकेत देने वाला एक वेक्टर दर्ज करें।
  8. एजआर के फ़ंक्शन कैल्कनॉर्मफैक्टर्स द्वारा स्वीकार किए गए लोगों में से एक सामान्यीकरण विधि चुनें। उदाहरण के लिए
    > Normalization_Method = "टीएमएम"
  9. निम्न फ़ंक्शन निष्पादित करके गुणवत्ता नियंत्रण निष्पादित करें
    > Quality_Control (Data_Directory, Results_Directory, Project_Name, लक्ष्य, Raw_Counts, Filter_Strategy, Color_Group, CPM_Cutoff, Normalization_Method)
  10. राज्य प्रतिकृति = सच है अगर डेटा प्रतिकृति कारक के अनुसार युग्मित कर रहे हैं, गलत अन्यथा.
  11. दो जैविक कारकों के बीच बातचीत पर विचार करने के लिए इंटरैक्शन = ट्रू असाइन करें, अन्यथा गलत।
  12. निम्न आदेशों के साथ सांख्यिकीय मॉडल निर्दिष्ट करें
    > मॉडल = GLM_Contrasts (Results_Directory, Project_Name, लक्ष्य, प्रतिकृति, इंटरैक्शन)
    > GLM_Model = मॉडल $ GLM_Model
    > विरोधाभास = मॉडल $ विरोधाभास
  13. झूठी डिस्कवरी दर की थ्रेशोल्ड परिभाषित करें, यहाँ 0.05
    > Alpha_DiffAnalysis =0.05
  14. निम्न आदेशों के साथ विभेदक विश्लेषण निष्पादित करें
    > Index_Contrast = 1: नॉर (विरोधाभास)
    > NbGenes_Profiles = 20
    > NbGenes_Clustering = 50
    > डिफएनालिसिस.एजआर (Data_Directory, Results_Directory, Project_Name, लक्ष्य, Raw_Counts, GLM_Model, कंट्रास्ट, Index_Contrast, Filter_Strategy, Alpha_DiffAnalysis, NbGenes_Profiles, NbGenes_Clustering, CPM_Cutoff, Normalization_Method)
  15. संवर्धन विश्लेषण के लिए एक सीमा तय करें, यहां 0.01
    > Alpha_Enrichment = 0.01
  16. विभेदक रूप से व्यक्त जीन (डीईजी) सूचियों का संवर्धन विश्लेषण करें
    > शीर्षक = शून्य
    > संवर्धन (Results_Directory, Project_Name, शीर्षक, Reference_Enrichment, Alpha_Enrichment)
  17. तुलना करने के लिए डीईजी सूचियों का चयन करें। उदाहरण के लिए,
    > समूह = विरोधाभास $ विरोधाभास[24:28]
  18. सूची तुलना के लिए कोई नाम प्रदान करें. इस नाम का उपयोग निर्देशिका के लिए किया जाता है जहाँ आउटपुट फ़ाइलें सहेजी जाएँगी
    > शीर्षक = "Interaction_with_Genotypes_1_and_2"
  19. यूनियन या प्रतिच्छेदन करने के लिए पैरामीटर कार्रवाई सेट करके DEG सूचियों पर किया जा करने के लिए क्रिया निर्दिष्ट करें। हम चुनते हैं
    > ऑपरेशन = "संघ"
  20. डीईजी सूचियों की तुलना करें
    > Venn_IntersectUnion (Data_Directory, Results_Directory, Project_Name, शीर्षक, समूह, ऑपरेशन)
  21. फ़ंक्शन के साथ एक सह-अभिव्यक्ति विश्लेषण करें
    > Coexpression_coseq (Data_Directory, Results_Directory, Project_Name, शीर्षक, लक्ष्य, Raw_Counts, Color_Group)
  22. सह-अभिव्यक्ति समूहों का संवर्धन विश्लेषण करें
    > संवर्धन (Results_Directory, Project_Name, शीर्षक, Reference_Enrichment, Alpha_Enrichment)
  23. विश्लेषण को पुन: उत्पन्न करने के लिए सभी आवश्यक जानकारी युक्त दो लॉग फ़ाइलें जनरेट करें
    > Save_Parameters ()
    नोट: इस प्रोटोकॉल में उपयोग की जाने वाली कमांड लाइनें चित्रा 2 में दिखाई गई हैं। किसी अन्य डेटासेट का विश्लेषण करने के लिए संशोधित की जाने वाली रेखाएँ हाइलाइट की जाती हैं।

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

सभी डिकोएक्सप्रेस आउटपुट ट्यूटोरियल / निर्देशिका में सहेजे जाते हैं, जो स्वयं परिणाम / निर्देशिका के भीतर रखे जाते हैं। हम विश्लेषण की समग्र गुणवत्ता का आकलन करने के लिए यहां कुछ मार्गदर्शन प्रदान करते हैं।

गुणवत्ता नियंत्रण
निर्देशिका में स्थित गुणवत्ता नियंत्रण आउटपुट, यह सत्यापित करने Quality_Control के लिए आवश्यक है कि आरएनए-सेक विश्लेषण परिणाम विश्वसनीय हैं। Data_Quality_Control.pdf फ़ाइल में कच्चे और सामान्यीकृत डेटा के साथ प्राप्त कई भूखंड होते हैं जिनका उपयोग डेटा के साथ किसी भी संभावित समस्या की पहचान करने के लिए किया जा सकता है। इंट्रा- और इंटर-कंडीशन दोनों की तुलना करते समय प्रति नमूना कुल सामान्यीकृत गिनती समान होनी चाहिए। इसके अलावा, सामान्यीकृत जीन अभिव्यक्ति मायने रखता है दोनों इंट्रा- और अंतर शर्तों (चित्रा 3 ए) में समान औसत और विचरण प्रदर्शित करने की उम्मीद कर रहे हैं। अन्यथा, यह शर्तों के बीच गैर-समान विचरण का संकेत हो सकता है, एक मुद्दा जो मॉडल फिटिंग के लिए समस्याग्रस्त हो सकता है।

अंत में, डिकोएक्सप्रेस में उत्पादित सामान्यीकृत गिनती पर पीसीए भूखंड संभावित अंतर्निहित डेटा संरचनाओं (चित्रा 3 बी) की पहचान करने में सहायक होते हैं। हमारे उदाहरण में, प्रतिकृतियों के अनुसार कोई क्लस्टरिंग नहीं है, जिसका अर्थ है कि यह कारक भेदभावपूर्ण नहीं है। इसी समय, उपचार के बीच एक स्पष्ट अंतर की पहचान की जा सकती है। ये परिणाम एक अच्छी गुणवत्ता वाले डेटासेट का संकेत देते हैं क्योंकि जैविक प्रभाव हमेशा दोहराने वाले से अधिक मजबूत होने की उम्मीद है। अंत में, यहां देखी गई समग्र गुणवत्ता पूरे डेटासेट के किसी भी बाद के विश्लेषण को नहीं रोकती है।

सांख्यिकीय मॉडलिंग
डिकोएक्सप्रेस दो चर प्रतिकृति और इंटरैक्शन से माध्य अभिव्यक्ति के लघुगणक के सांख्यिकीय मॉडलिंग के लेखन की सुविधा प्रदान करता है। एक प्रतिकृति प्रभाव बोधगम्य है यदि सभी जैविक स्थितियों के नमूने एक ही समय में एकत्र किए जाते हैं और जैविक परिवर्तनशीलता को मापने के लिए इस प्रयोग को अलग-अलग दिनों में दोहराया जाता है। एक विशिष्ट पौधे विज्ञान प्रयोग में, उदाहरण के लिए, अध्ययन के तहत जैविक स्थिति की परवाह किए बिना नमूने एक ही विकास कक्ष में उगाए जाते हैं और जैविक प्रतिकृतियां अलग-अलग दिनों में शुरू किए गए प्रयोगों के अनुरूप होती हैं। इस स्थिति में, एक ही प्रतिकृति के नमूने युग्मित होते हैं, और आप TRUE करने के लिए प्रतिकृति सेट करना चाहिए। अन्यथा, प्रतिकृति FALSE करने के लिए सेट किया जाना चाहिए। इस प्रतिकृति प्रभाव को बैच प्रभाव के रूप में भी जाना जाता है।

यदि प्रयोगात्मक डिजाइन को बातचीत करने की उम्मीद वाले दो जैविक कारकों द्वारा वर्णित किया गया है, तो इंटरैक्शन पर विचार करने के लिए चर इंटरैक्शन को ट्रू पर सेट करें। ध्यान दें कि केवल एक जैविक कारक वाली परियोजना के लिए, चर इंटरैक्शन स्वचालित रूप से FALSE पर सेट होता है।

विभेदक विश्लेषण
सभी परीक्षण विरोधाभासों के लिए पहचाने गए डीईजी डिफएनालिसिस / निर्देशिका के भीतर अपने संबंधित उपनिर्देशिकाओं में स्थित पाठ फ़ाइलों में उपलब्ध हैं। डिफ़ॉल्ट रूप से, सभी विरोधाभासों का परीक्षण किया जाता है। प्रयोगात्मक डिजाइन के आधार पर, कुछ विरोधाभास सीमित जैविक रुचि के हो सकते हैं (उदाहरण के लिए, कई जीनोटाइप पर औसत)। ध्यान दें कि झूठी सकारात्मक नियंत्रण प्रति कंट्रास्ट किया जाता है ताकि यह सुनिश्चित किया जा सके कि संभावित अप्रासंगिक विरोधाभास विश्लेषण को प्रभावित न करें। हालांकि Index_Contrast चर पर अभिनय करके केवल हितों के विपरीत भूखंडों का उत्पादन करना संभव है। विवरण ऑनलाइन संदर्भ पुस्तिका में उपलब्ध हैं।

यह ध्यान रखना आवश्यक है कि डिफएनालिसिस / इसमें कच्चे पी-वैल्यू हिस्टोग्राम भी शामिल हैं जिन्हें हाल ही में मॉडलिंग11 की गुणवत्ता का आकलन करने का सबसे अच्छा तरीका दिखाया गया है। कच्चे पी-मानों का अपेक्षित वितरण एक समान माना जाता है, संभवतः वितरण के बाईं ओर एक चोटी के साथ। 1 के कच्चे पी-मान के लिए एक उच्च चोटी मॉडल फिटिंग मुद्दों का संकेत है। इस मामले में, समस्या को अक्सर सेट CPM_Cutoff मान को बढ़ाकर हल किया जा सकता है, उदाहरण के लिए, 1 से 5 तक। कच्चे हिस्टोग्राम के उदाहरण चित्रा 4 ए में और https://forgemia.inra.fr/GNet/dicoexpress/-/blob/master/DiCoExpress_Tutorial.pdf में उपलब्ध हैं। प्रत्येक परीक्षण किए गए कंट्रास्ट के लिए, पहचाने गए शीर्ष डीईजी (डिफ़ॉल्ट रूप से शीर्ष 20) की अभिव्यक्ति प्रोफाइल को विपरीत की निर्देशिका में स्थित फ़ाइल Top20_Profile.pdf में प्लॉट किया जाता है। एक विपरीत में अलग-अलग व्यक्त के रूप में पहचाने जाने वाले एक जीन के लिए एक उदाहरण चित्रा 4 बी में दिखाया गया है। ऊपर और नीचे डीईजी की संख्या प्रत्येक परीक्षण किए गए विपरीत के लिए प्लॉट की जाती है और फ़ाइल Down_Up_DEG.pdf ( चित्रा 4 सी में उदाहरण) में पाई जाती है।

सह-अभिव्यक्ति विश्लेषण
हमारे उदाहरण में, सह-अभिव्यक्ति विश्लेषण 5 डीईजी सूचियों के संघ पर किया जाता है, जो दूसरों के खिलाफ जीनोटाइप 1 या 2 के बीच उपचार प्रतिक्रिया भिन्नता की तलाश में इसके विपरीत पहचाना जाता है। डीईजी का वेन आरेख चित्रा 5 ए में दिखाया गया है। प्रत्येक पहचाने गए क्लस्टर के लिए सह-व्यक्त जीन अलग-अलग पाठ फ़ाइलों (प्रति क्लस्टर एक फ़ाइल) में मुद्रित होते हैं। विभिन्न समूहों की अभिव्यक्ति प्रोफाइल एक साथ Boxplot_profiles_Coseq.pdf फ़ाइल में उपलब्ध हैं ( चित्रा 5 बी में उदाहरण देखें)। यद्यपि अनुकूलन विकल्प उपलब्ध हैं, लेकिन उनका उपयोग केवल उन्नत उपयोगकर्ताओं द्वारा किया जाना चाहिए। विभिन्न मापदंडों की पूरी व्याख्या के लिए कृपया संदर्भ मैनुअल देखें।

संवर्धन विश्लेषण
कंट्रास्ट और क्लस्टर संवर्धन विश्लेषण के अनुरूप सूचियां उनकी संबंधित निर्देशिकाओं में स्थित हैं। इस विश्लेषण में महत्वपूर्ण के रूप में पाया जाने वाला एक एनोटेशन शब्द Gene_ID सूची में या तो अधिक या कम प्रतिनिधित्व किया जा सकता है। यह जानकारी आउटपुट फ़ाइल में शामिल है।

ध्यान दें कि परीक्षण निर्णय कच्चे पी-मानों से किया जाता है। यदि उपयोगकर्ता कच्चे पी-मानों को एक पीछे समायोजित करना चाहता है, तो वे प्रत्यय All_Enrichment_Results.txt वाली फ़ाइलों में उपलब्ध हैं।

डिकोएक्सप्रेस की वैधता
यद्यपि डिकोएक्सप्रेस को बहुआयामी आरएनए-सेक प्रयोगों के विश्लेषण की सुविधा के लिए विकसित किया गया है, इसके परिणामों की वैधता काफी हद तक डेटासेट की विशेषताओं पर निर्भर करती है। परिणामों की किसी भी वैध व्याख्या से पहले कई आउटपुट की सावधानीपूर्वक जांच की जानी चाहिए। सबसे पहले, गुणवत्ता नियंत्रण चरण में, सामान्यीकृत पुस्तकालय का आकार समान होना चाहिए और सामान्यीकृत जीन अभिव्यक्ति गिनती को इंट्रा- और इंटर-स्थितियों दोनों में समान औसत और विचरण प्रदर्शित करना चाहिए। फिर, कच्चे पी-वैल्यू हिस्टोग्राम के आकार पर विशेष ध्यान दिया जाना चाहिए। अंत में, सह-अभिव्यक्ति विश्लेषण करते समय, आईसीएल के लिए एक स्पष्ट रूप से परिभाषित न्यूनतम मूल्य एक अच्छी गुणवत्ता का संकेत है। यह इन शर्तों को पूरा नहीं किया जाता है, परिणामों की कोई भी व्याख्या गलत होने की संभावना है।

Figure 1
चित्र 1. डिकोएक्सप्रेस विश्लेषण पाइपलाइन।  डिकोएक्सप्रेस का उपयोग करके एक पूर्ण आरएनए-सेक विश्लेषण के सात चरणों को इंगित किया जाता है कि नीले बक्से उन चरणों का प्रतिनिधित्व करते हैं जहां सांख्यिकीय विधियां की जाती हैं। चरण 7 (संवर्धन) चरण 4 (विभेदक विश्लेषण और चित्रा 2 में 7.1 नाम दिया गया है) और / या चरण 6 (सह-अभिव्यक्ति विश्लेषण और चित्रा 2 में 7.2 नाम दिया गया है) के बाद किया जा सकता है। लाल संख्याप्रोटोकॉल में चरण संख्याओं के अनुरूप है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें।

Figure 2
चित्र 2. डिकोएक्सप्रेस कमांड लाइनों के स्क्रीनशॉट।  ट्यूटोरियल डेटासेट का विश्लेषण करने के लिए उपयोग की जाने वाली कमांड लाइनों को इंगित किया जाता है। काले वृत्तों में संख्या चित्र 1 के समान है। लाल आयत उन रेखाओं को हाइलाइट करते हैं जिन्हें उपयोगकर्ता द्वारा अनुकूलित किया जा सकता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें।

Figure 3
चित्रा 3: गुणवत्ता नियंत्रण चरण के प्रतिनिधि परिणाम।  "ट्यूटोरियल" डेटासेट सामान्यीकृत मायने रखता है के साथ प्राप्त चित्रा। ) सामान्यीकृत गिनती का बॉक्सप्लॉट। बी) सामान्यीकृत गिनती पर पीसीए। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें।

Figure 4
चित्रा 4: विभेदक अभिव्यक्ति विश्लेषण के प्रतिनिधि परिणाम "ट्यूटोरियल" डेटासेट के साथ प्राप्त चित्रा। ए) [control_Genotype2 - control_Genotype3] कंट्रास्ट का कच्चा पी-वैल्यू हिस्टोग्राम। बी) प्रत्येक जीनोटाइप और स्थिति में सी 1 जी 62301.1 जीन अभिव्यक्ति प्रोफाइल, [control_Genotype2 - control_Genotype3] विपरीत में शीर्ष 20 विभेदक रूप से व्यक्त जीन में से एक। सी) प्रत्येक परीक्षण किए गए विपरीत में ऊपर और नीचे विभेदक रूप से व्यक्त जीन की संख्या। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें।

Figure 5
चित्रा 5: सह-अभिव्यक्ति विश्लेषण के प्रतिनिधि परिणाम।  "ट्यूटोरियल" डेटासेट के साथ प्राप्त चित्रा। ) 5 "जीनोटाइप 1 और 2 के साथ बातचीत" विरोधाभासों से डीईजी का वेन आरेख। जीनोटाइप 1 और 2, 1 और 3, 1 और 4, 2 और 3, 2 और 4 के बीच उपचार प्रतिक्रिया भिन्नता से डीईजी क्रमशः सर्कल ए, बी, सी, डी, ई में हैं। नीचे दाईं ओर लिखी गई संख्या ("14877") जीन की संख्या है जो किसी भी सूची में डीई नहीं हैं। बी) सह-अभिव्यक्ति क्लस्टर से जीन की अभिव्यक्ति प्रोफ़ाइल 3. चित्रा Tutorial_Interaction_with_Genotypes_1_and_2_Boxplot_profiles_Coseq.pdf से निकाला जाता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें।

पूरक फ़ाइल। कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

चूंकि आरएनए-सेक जैविक अध्ययन में एक सर्वव्यापी विधि बन गया है, इसलिए बहुमुखी और उपयोगकर्ता के अनुकूल विश्लेषणात्मक उपकरण विकसित करने की निरंतर आवश्यकता है। अधिकांश विश्लेषणात्मक वर्कफ़्लो के भीतर एक महत्वपूर्ण कदम अक्सर जैविक स्थितियों और / या उपचार15 के बीच अलग-अलग व्यक्त जीन को आत्मविश्वास के साथ पहचानना है। विश्वसनीय परिणामों के उत्पादन के लिए उचित सांख्यिकीय मॉडलिंग की आवश्यकता होती है, जो डिकोएक्सप्रेस के विकास के लिए प्रेरणा रही है।

डिकोएक्सप्रेस आर में कार्यान्वित एक स्क्रिप्ट-आधारित उपकरण है जिसका उद्देश्य जीवविज्ञानियों को डीईजी की तलाश करते समय तटस्थ तुलना अध्ययन की संभावनाओं का पूरा लाभ उठाने में मदद करना है डिकोएक्सप्रेस एक मानकीकृत पाइपलाइन प्रदान करता है जो डेटा संरचना और गुणवत्ता का मूल्यांकन करने का अवसर प्रदान करता है, इसलिए यह सुनिश्चित करना कि सर्वोत्तम मॉडलिंग दृष्टिकोण चुना जाता है। सांख्यिकी या आर प्रोग्रामिंग में किसी विशेष ज्ञान के बिना, यह शुरुआती लोगों को सामान्यीकृत रैखिक मॉडल के अंदर विरोधाभासों के आधार पर अंतर विश्लेषण के माध्यम से गुणवत्ता नियंत्रण से सह-अभिव्यक्ति तक एक पूर्ण आरएनए-सेक विश्लेषण करने की अनुमति देता है। यह ध्यान रखना महत्वपूर्ण है कि डिकोएक्सप्रेस आरएनए-सेक विश्लेषण के सांख्यिकीय भाग पर केंद्रित है और इनपुट के रूप में गिनती तालिका की आवश्यकता है। आरएनए-सेक पढ़ने के संरेखण और गिनती तालिकाओं के निर्माण के लिए समर्पित कई जैव सूचना विज्ञान विधियां उपकरण के दायरे से बाहर हैं। फिर भी अंतिम विश्लेषण की गुणवत्ता पर उनका सीधा प्रभाव पड़ता है और उन्हें सावधानीपूर्वक चुना जाना चाहिए।

यद्यपि डिकोएक्सप्रेस एक "बिंदु और क्लिक" उपकरण नहीं है, इसकी निर्देशिका वास्तुकला और आर-स्टूडियो इंटरफ़ेस में प्रदान की गई और उपयोग की जाने वाली टेम्पलेट स्क्रिप्ट इसे आर के न्यूनतम ज्ञान वाले जीवविज्ञानियों के लिए सुलभ बनाती है। एक बार डिकोएक्सप्रेस स्थापित होने के बाद, उपयोगकर्ताओं को पता होना चाहिए कि आर में फ़ंक्शन का उपयोग कैसे करें और आवश्यक और वैकल्पिक तर्कों की पहचान करें। पहला महत्वपूर्ण कदम सही ढंग से प्रत्येक जीन (काउंट्स फ़ाइल) और प्रयोगात्मक डिजाइन विवरण (लक्ष्य फ़ाइल) के लिए कच्चे गिनती युक्त दो अनिवार्य फ़ाइलों को प्रदान करना है। प्रयुक्त विभाजक प्रत्येक फ़ाइल के लिए समान होना चाहिए और नमूनों का विवरण जैविक कारकों के तौर-तरीकों के अनुसार उचित रूप से किया जाना चाहिए। एक बार जब दो फाइलें डिकोएक्सप्रेस में लोड हो जाती हैं, तो विश्लेषण दूसरे महत्वपूर्ण चरण तक लगभग स्वचालित होता है, अर्थात, सह-अभिव्यक्ति विश्लेषण। यह विश्लेषण वास्तव में समय लेने वाला हो सकता है और इसे बड़े डेटासेट पर चलाने के लिए एक शक्तिशाली गणना सर्वर की आवश्यकता हो सकती है।

क्योंकि विपरीत लेखन का स्वचालन दो से अधिक जैविक कारकों के लिए चुनौतीपूर्ण हो जाता है, इसलिए हमने डिकोएक्सप्रेस को 2 जैविक कारकों तक के पूर्ण और असंतुलित डिजाइन तक सीमित कर दिया। यदि किसी परियोजना में 2 से अधिक जैविक कारक होते हैं, तो एक व्यावहारिक समाधान एक नया बनाने के लिए प्रारंभिक कारकों में से दो को ध्वस्त करना है। फिर भी, किसी को यह ध्यान रखना होगा कि जैविक कारक संख्या बढ़ने पर सार्थक जैविक व्याख्या देने की कठिनाई बढ़ जाती है।

डिकोएक्सप्रेस को एक विकसित उपकरण के रूप में कल्पना की गई है और हम उपयोगकर्ताओं को मेलिंग सूची (https://groupes.renater.fr/sympa/subscribe/dicoexpress) की सदस्यता लेने के लिए दृढ़ता से प्रोत्साहित करते हैं। टूल में किसी भी संशोधन या सुधार की घोषणा सूची में की जाएगी और हम प्रश्नों या सुझावों का स्वागत करते हैं। हम यह भी आशा करते हैं कि एक बड़े समुदाय द्वारा डिकोएक्सप्रेस को अपनाने से किसी विशेष विश्लेषण संदर्भ में होने वाले किसी भी बग को ट्रैक करने और ठीक करने की अनुमति मिलेगी। सभी अपडेट और सुधार गिट निर्देशिका https://forgemia.inra.fr/GNet/dicoexpress पर धकेल दिए जाएंगे।

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

लेखकों के पास खुलासा करने के लिए कुछ भी नहीं है

Acknowledgments

यह काम मुख्य रूप से एएनआर मानस (एएनआर -16-सीई 20-0009) द्वारा समर्थित था। लेखकों ने डिकोएक्सप्रेस के कंटेनर के निर्माण के लिए एफ डेसप्रेज़ को धन्यवाद दिया। केबी काम भविष्य के एएनआर -10-बीटीबीआर-01-01 अमायिंग कार्यक्रम के लिए निवेश द्वारा समर्थित है। जीक्यूई और आईपीएस 2 प्रयोगशालाओं को सैक्ले प्लांट साइंसेज-एसपीएस (एएनआर -17-यूरो -0007) के समर्थन से लाभ होता है।

Materials

Name Company Catalog Number Comments

DOWNLOAD MATERIALS LIST

References

  1. Wang, Z., Gerstein, M., Snyder, M. RNA-Seq: a revolutionary tool for transcriptomics. Nature reviews. Genetics. 10 (1), 57-63 (2009).
  2. Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics & Informatics. 13 (4), 119-125 (2015).
  3. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. https://www.R-project.org/ (2020).
  4. Huber, W., et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature Methods. 12 (2), 115-121 (2015).
  5. Smith, D. R. The battle for user-friendly bioinformatics. Frontiers in Genetics. 4, 187 (2013).
  6. Pavelin, K., Cham, J. A., de Matos, P., Brooksbank, C., Cameron, G., Steinbeck, C. Bioinformatics Meets User-Centred Design: A Perspective. PLoS Computational Biology. 8 (7), 1002554 (2012).
  7. Shiny: web application framework. , Available from: https://rdrr.io/cran/shiny/ (2021).
  8. RStudio Team. RStudio: Integrated Development for R. RStudio, PBC. , Boston, MA. at (n.d (2020).
  9. Lambert, I., Roux, C. P. -L., Colella, S., Martin-Magniette, M. -L. DiCoExpress: a tool to process multifactorial RNAseq experiments from quality controls to co-expression analysis through differential analysis based on contrasts inside GLM models. Plant methods. 16 (1), 68 (2020).
  10. Dillies, M. -A., et al. A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis. Briefings in bioinformatics. 14 (6), 671-683 (2012).
  11. Rigaill, G. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Briefings in Bioinformatics. 19 (1), (2016).
  12. Rau, A., Maugis-Rabusseau, C. Transformation and model choice for RNA-seq co-expression analysis. Briefings in Bioinformatics. 19 (3), (2017).
  13. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  14. Wilkinson, M. D., et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 3 (1), 160018 (2016).
  15. Stark, R., Grzelak, M., Hadfield, J. RNA sequencing: the teenage years. Nature Reviews Genetics. 20 (11), 631-656 (2019).

Tags

इंजीनियरिंग अंक 185
डिकोएक्सप्रेस के साथ मल्टीफैक्टोरियल आरएनए-सेक प्रयोगों का विश्लेषण करना
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Baudry, K., Paysant-Le Roux, C.,More

Baudry, K., Paysant-Le Roux, C., Colella, S., Castandet, B., Martin, M. L. Analyzing Multifactorial RNA-Seq Experiments with DiCoExpress. J. Vis. Exp. (185), e62566, doi:10.3791/62566 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter