Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

आरएनए-एसईक्यू का उपयोग करके आणविक विकास और जीन अभिव्यक्ति की जांच के लिए एक बायोइन्फॉर्मेटिक्स पाइपलाइन

Published: May 28, 2021 doi: 10.3791/61633

Summary

इस प्रोटोकॉल का उद्देश्य आरएनए अनुक्रमण डेटा का उपयोग करके उम्मीदवार जीन के विकास और अभिव्यक्ति की जांच करना है।

Abstract

पूरे जीनोम या ट्रांसक्रिप्टोम डेटा जैसे बड़े डेटासेट को डिस्टिल करना और रिपोर्ट करना अक्सर एक चुनौतीपूर्ण काम होता है। परिणामों को तोड़ने का एक तरीका यह है कि एक या एक से अधिक जीन परिवारों पर ध्यान केंद्रित किया जाए जो जीव और अध्ययन के लिए महत्वपूर्ण हैं। इस प्रोटोकॉल में, हम एक फिलोजेनी उत्पन्न करने और ब्याज के जीन की अभिव्यक्ति की मात्रा निर्धारित करने के लिए जैव सूचनात्मक कदमों की रूपरेखा तैयार करते हैं। फिलोजेनेटिक पेड़ इस बारे में जानकारी दे सकते हैं कि जीन प्रजातियों के भीतर और बीच कैसे विकसित हो रहे हैं और साथ ही ऑर्थोलॉजी का पता चलता है। इन परिणामों को विभिन्न व्यक्तियों या ऊतकों में इन जीनों की अभिव्यक्ति की तुलना करने के लिए आरएनए-एसईक्यू डेटा का उपयोग करके बढ़ाया जा सकता है। आणविक विकास और अभिव्यक्ति के अध्ययन प्रजातियों के बीच विकास और जीन समारोह के संरक्षण के तरीकों को प्रकट कर सकते हैं। एक जीन परिवार के लक्षण वर्णन भविष्य के अध्ययन के लिए एक स्प्रिंगबोर्ड के रूप में सेवा कर सकते है और एक नए जीनोम या ट्रांसक्रिप्टोम कागज में एक महत्वपूर्ण जीन परिवार को उजागर कर सकते हैं ।

Introduction

अनुक्रमण प्रौद्योगिकियों में प्रगति ने जीनोम और गैर-मॉडल जीवों के ट्रांसक्रिप्टोम के अनुक्रमण को सुगम बनाया है । कई जीवों से अनुक्रमण डीएनए और आरएनए की बढ़ी हुई व्यवहार्यता के अलावा, ब्याज के जीन का अध्ययन करने के लिए डेटा की बहुतायत सार्वजनिक रूप से उपलब्ध है । इस प्रोटोकॉल का उद्देश्य आणविक विकास और जीन की अभिव्यक्ति की जांच करने के लिए जैव सूचनाबद्ध कदम प्रदान करना है जो ब्याज के जीव में महत्वपूर्ण भूमिका निभा सकता है।

एक जीन या जीन परिवार के विकास की जांच जैविक प्रणालियों के विकास में अंतर्दृष्टि प्रदान कर सकते हैं । एक जीन परिवार के सदस्यों को आम तौर पर संरक्षित रूपांकनों या अनुरूप जीन दृश्यों की पहचान करके निर्धारित कर रहे हैं । जीन परिवार विकास पहले दूर से संबंधित मॉडल जीवों से जीनोम का उपयोग कर जांच की थी1। इस दृष्टिकोण की एक सीमा यह है कि यह स्पष्ट नहीं है कि कैसे इन जीन परिवारों को बारीकी से संबंधित प्रजातियों में विकसित और विभिंन पर्यावरण चयनात्मक दबावों की भूमिका । इस प्रोटोकॉल में, हम बारीकी से संबंधित प्रजातियों में समरूपता के लिए एक खोज शामिल हैं। एक फिलम स्तर पर एक फिलोजेनी पैदा करके, हम जीन परिवार के विकास में प्रवृत्तियों जैसे संरक्षित जीन या वंश-विशिष्ट दोहराव के रूप में नोट कर सकते हैं । इस स्तर पर हम यह भी जांच कर सकते हैं कि जीन ऑर्थोलोग हैं या पैरालॉग। जबकि कई समरूपता की संभावना एक दूसरे के समान कार्य करते हैं, यह जरूरी नहीं कि मामला2है । इन अध्ययनों में फिलोजेनेटिक पेड़ों को शामिल करना यह हल करना महत्वपूर्ण है कि ये समरूप जीन ऑर्थोलोग हैं या नहीं । यूकेरियोट्स में, कई ऑर्थोलोग कोशिका के भीतर समान कार्यों को बनाए रखते हैं जैसा कि स्तनधारी प्रोटीन की क्षमता से खमीर ऑर्थोलॉग3के कार्य को बहाल करने के लिए है। हालांकि, ऐसे उदाहरण हैं जहां एक गैर-ऑर्थोलोलॉगस जीन एक विशेषता कार्य4को अंजाम देता है।

फिलोजेनेटिक पेड़ जीन और प्रजातियों के बीच संबंधों को चित्रित करना शुरू करते हैं, फिर भी कार्य को पूरी तरह से आनुवंशिक संबंधों के आधार पर नहीं सौंपा जा सकता है। कार्यात्मक एनोटेशन और संवर्धन विश्लेषण के साथ संयुक्त जीन अभिव्यक्ति अध्ययन जीन समारोह के लिए मजबूत समर्थन प्रदान करते हैं। ऐसे मामले जहां जीन अभिव्यक्ति की मात्रा निर्धारित की जा सकती है और व्यक्तियों या ऊतक प्रकारों की तुलना में संभावित कार्य के बारे में अधिक बता सकते हैं। निम्नलिखित प्रोटोकॉल हाइड्रा वल्गैरिस7में ऑप्सिन जीन की जांच में उपयोग किए जाने वाले तरीकों का पालन करता है, लेकिन उन्हें किसी भी प्रजाति और किसी भी जीन परिवार पर लागू किया जा सकता है। इस तरह के अध्ययनों के परिणाम गैर-मॉडल जीवों में जीन समारोह और जीन नेटवर्क की आगे की जांच के लिए एक आधार प्रदान करते हैं । एक उदाहरण के रूप में, ऑप्सिन के फिलोजेनी की जांच, जो प्रोटीन हैं जो फोटोट्रांसडक्शन झरना शुरू करते हैं, आंखों के विकास और प्रकाश का पता लगाने8,9,10, 11के संदर्भ देता है। इस मामले में, गैर-मॉडल जीव विशेष रूप से बेसल पशु प्रजातियां जैसे कि सिनेडियन या सीटीनोफोरस12, 13,14में संरक्षण या फोटोट्रांसडक्शन झरना और दृष्टि में परिवर्तन को स्पष्ट करसकतेहैं। इसी तरह, अन्य जीन परिवारों के फिलोजेनी, अभिव्यक्ति और नेटवर्क का निर्धारण हमें आणविक तंत्र अंतर्निहित रूपांतरों के बारे में सूचित करेगा ।

Subscription Required. Please recommend JoVE to your librarian.

Protocol

यह प्रोटोकॉल यूसी इरविन एनिमल केयर गाइडलाइंस का पालन करता है ।

1. आरएनए-एसईक्यू पुस्तकालय की तैयारी

  1. निम्नलिखित तरीकों का उपयोग करके आरएनए को अलग करें।
    1. नमूने एकत्र करें। यदि आरएनए को बाद में निकाला जाना है, तो आरएनए भंडारण समाधान15 (सामग्रियों की तालिका)में नमूना या जगह को फ्लैश करें।
    2. जीव को रुचि के ऊतकों को अलग करने के लिए इच्छामृत्यु और विच्छेदन करें।
    3. एक निष्कर्षण किट का उपयोग करके कुल आरएनए निकालें और आरएनए शुद्धि किट(सामग्री की तालिका) काउपयोग करके आरएनए को शुद्ध करें
      नोट: प्रोटोकॉल और किट हैं जो विभिन्न प्रजातियों और ऊतक प्रकारों के लिए बेहतर काम कर सकते हैं16,17। हम एक तितली 18 और एक जिलेटिनहाइड्रा 19 के विभिन्न शरीर के ऊतकों से आरएनए निकाला है (चर्चा देखें) ।
    4. प्रत्येक नमूने (सामग्री की तालिका) के आरएनए की एकाग्रता और गुणवत्ताको मापें। 8 से अधिक आरएनए अखंडता संख्या (आरआईआर) के साथ नमूनों का उपयोग करें, आदर्श रूप से सीडीएनए पुस्तकालयों के निर्माण के लिए9 20 के करीब।
  2. सीडीएनए पुस्तकालय और अनुक्रम का निर्माण इस प्रकार है।
    1. पुस्तकालय तैयारी अनुदेश मैनुअल के अनुसार सीडीएनए पुस्तकालयों का निर्माण (चर्चा देखें)।
    2. सीडीएनए एकाग्रता और गुणवत्ता(सामग्री की तालिका) निर्धारित करें।
    3. मल्टीप्लेक्स पुस्तकालयों और उन्हें अनुक्रम।

2. कंप्यूटर क्लस्टर तक पहुंचें

नोट: आरएनए-एसईक्यू विश्लेषण के लिए बड़ी फ़ाइलों में हेरफेर की आवश्यकता होती है और कंप्यूटर क्लस्टर(सामग्री की तालिका)पर सबसे अच्छा किया जाता है।

  1. कमांड एसएसएच का उपयोग करके कंप्यूटर क्लस्टर खाते में लॉगिन करें username@clusterlocation टर्मिनल (मैक) या पुटीवाई (विंडोज) एप्लिकेशन विंडो पर।

3. प्राप्त आरएनए-seq पढ़ता है

  1. आरएनए-एसईक्यू प्राप्त करें अनुक्रमण सुविधा से या, एक प्रकाशन में उत्पन्न डेटा के लिए, डेटा भंडार से जहां इसे जमा किया गया था (3.2 या 3.3)।
  2. ऐसी ओरणीएक्सप्रेस के रूप में भंडार से डेटा डाउनलोड करने के लिए निम्नलिखित करते हैं:
    1. परिग्रहण नंबर का उपयोग करके साइट पर खोजें।
    2. डेटा डाउनलोड करने के लिए लिंक का पता लगाएं, फिर लेफ्ट-क्लिक करें और कॉपी लिंक का चयन करें।
    3. टर्मिनल विंडो पर, विश्लेषण के लिए निर्देशिका में डेटा की प्रतिलिपि बनाने के लिए wget टाइप करें और पेस्ट लिंक का चयन करें।
  3. एनसीबीआई शॉर्ट रीड आर्काइव (एसआरए) डेटा डाउनलोड करने के लिए इन वैकल्पिक चरणों का पालन करें:
    1. टर्मिनल पर Wgetका उपयोग कर SRA टूलकिट v. 2.8.1 डाउनलोड करें।
      नोट: कंप्यूटर क्लस्टर में प्रोग्राम डाउनलोड करने और इंस्टॉल करने के लिए रूट एक्सेस की आवश्यकता हो सकती है, यदि इंस्टॉलेशन विफल हो जाता है तो अपने कंप्यूटर क्लस्टर प्रशासक से संपर्क करें।
    2. तारकोल-xvf $TARGZFILEटाइप करके कार्यक्रम स्थापित करना समाप्त करें।
    3. आप जिन नमूनों को डाउनलोड करना चाहते हैं उनके लिए एसआरए परिग्रहण संख्या के लिए एनसीबीआई खोजें, इसमें प्रारूप SRRXXXXXX होना चाहिए।
    4. टर्मिनल विंडो में [sratoolkit स्थान]/bin/prefetch SRRXXXXXXXX टाइप करके आरएनए-एसईक्यू डेटा प्राप्त करें ।
    5. युग्मित-अंत फ़ाइलों के लिए प्रकार [sratoolkit स्थान]/बिन/fastq-डंप--विभाजन-फ़ाइलें SRRXXXXXXXX दो fastq फ़ाइलों (SRRXXXXXX_1.FASTQ और SRRXXXXXX_2.FASTQ) मिलता है ।
      नोट: एक ट्रिनिटी डी नोवो विधानसभा करने के लिए आदेश [sratoolkit स्थान]/बिन/fastq-डंप का उपयोग करें-defline-seq ' @$sn [_$rn]/$ri'-विभाजन फ़ाइलें SRRXXXXXX

4. ट्रिम एडाप्टर और कम गुणवत्ता पढ़ता है (वैकल्पिक)

  1. कंप्यूटिंग क्लस्टर पर ट्रिमोमैटिक21 वी 0.35 स्थापित या लोड करें।
  2. निर्देशिका में जहां आरएनए-एसईक्यू डेटा फाइलें स्थित हैं, एक कमांड टाइप करें जिसमें ट्रिमोमैटिक जार फाइल का स्थान, इनपुट FASTQ फ़ाइलें, आउटपुट FASTQ फाइलें, और वैकल्पिक पैरामीटर जैसे कि रीड लेंथ और गुणवत्ता शामिल है।
    नोट: आदेश कच्चे और वांछित गुणवत्ता और पढ़ता है की लंबाई के अनुसार भिंन होगा । Illumina ४३ बीपी के लिए Nextera प्राइमर के साथ पढ़ता है, हम इस्तेमाल किया: जावा-जार/डेटा/apps/trimmomatic/0.35/trimmomatic-0.35.jar पीई $READ 1 । FASTQ $READ 2। फास्टक्यू paired_READ1। फास्टक्यू unpaired_READ1। फास्टक्यू paired_READ2। FASTQ unpaired_READ2। FASTQ ILLUMINACLIP:adapters.fa: 2:30:10 अग्रणी: 20 पीछे: 20 फिसलनेविंडो: 4:17 मिंलेन: 30 ।

5. संदर्भ विधानसभा प्राप्त करें

  1. एक संदर्भ जीनोम के लिए गूगल, एनसेम्बलजेनोम, और एनसीबीआई जीनोम और न्यूक्लियोटाइड टीएसए (ट्रांसक्रिप्टोम शॉटगन असेंबली) खोजें या ब्याज की प्रजातियों के लिए ट्रांसक्रिप्टोम इकट्ठा करें(चित्र 1)।
    नोट: यदि कोई संदर्भ जीनोम या ट्रांसक्रिप्टोम उपलब्ध या कम गुणवत्ता वाले नहीं हैं, तो डी नोवो असेंबली उत्पन्न करने के लिए चरण 6 पर आगे बढ़ें।
  2. यदि एक संदर्भ जीनोम या इकट्ठे ट्रांसक्रिप्टोम मौजूद है, तो इसे एक फास्टा फ़ाइल के रूप में डाउनलोड करें जहां नीचे दिए गए चरणों के बाद विश्लेषण किया जाएगा।
    1. जीनोम, लेफ्ट-क्लिक और कॉपी लिंकडाउनलोड करने के लिए लिंक का पता लगाएं ।
    2. टर्मिनल विंडो टाइप wget पर और लिंक पता पेस्ट करें। यदि उपलब्ध है, तो संदर्भ जीनोम के लिए जीटीएफ फ़ाइल और प्रोटीन फास्टा फ़ाइल को भी कॉपी करें।

6. एक डी नोवो असेंबली उत्पन्न करें (चरण 5 के लिए वैकल्पिक)

  1. कैट * READ1 टाइप करके सभी नमूनों के लिए आरएनए-एसईक्यू READ1 और READ2 fastq फ़ाइलों को मिलाएं। FASTQ > $all_READ1 । FASTQ और बिल्ली * READ2। फास्टक्यू > all_READ2। टर्मिनल विंडो पर FASTQ।
  2. कंप्यूटिंग क्लस्टर पर ट्रिनिटी22 v.2.8.5 स्थापित या लोड करें।
  3. टर्मिनल पर टाइप करके उत्पन्न और असेंबली: ट्रिनिटी--seqType fq--max_memory 20G--बाएं $all_READ1 । FASTQ--सही $all_READ2 । FASTQ।

7. नक्शा जीनोम (7.1) या डी नोवो ट्रांसक्रिप्टोम (7.2) को पढ़ता है

  1. नक्शा संदर्भ जीनोम के लिए पढ़ता है स्टार23 v. 2.6.0c और RSEM24 v. 1.3.0 का उपयोग कर ।
    1. स्थापित करें या लोड स्टार v. 2.6.0c। और आरएसईएम वी 1.3.0 कंप्यूटिंग क्लस्टर के लिए।
    2. आरएसईएम-तैयार-संदर्भ--जीटीएफ $GENOME टाइप करके जीनोम को इंडेक्स करें । GTF--स्टार-पी 16 $GENOME । फास्टा $OUTPUT।
    3. नक्शा पढ़ता है और rsem-गणना अभिव्यक्ति-पी 16--स्टार-बनती-अंत $READ 1 टाइप करके प्रत्येक नमूने के लिए अभिव्यक्ति की गणना । FASTQ $READ 2। फास्टक्यू $INDEX $OUTPUT।
    4. mv RSEM.genes.results $sample.genes.results का उपयोग करके कुछ वर्णनात्मक परिणामों फ़ाइल का नाम बदलें।
    5. > $OUTPUT rsem-उत्पन्न-डेटा-मैट्रिक्स * [जीन/isoforms.results]टाइप करके सभी मामलों का मैट्रिक्स उत्पन्न करें ।
  2. आरएसईएम और बोटाई का उपयोग करके ट्रिनिटी डी नोवो असेंबली को मैप आरएनए-एसईक्यू।
    1. स्थापित करें या लोड ट्रिनिटी22 v.2.8.5, बोटाई25 v. 1.0.0, और RSEM v. 1.3.0।
    2. नक्शा पढ़ता है और टाइपिंग द्वारा प्रत्येक नमूने के लिए अभिव्यक्ति की गणना [trinity_location]/align_and_estimate_abundance.pl--प्रस्तुत करने-संदर्भ-टेप $TRINITY । FASTA--seqType fq--बाएं $READ 1 । FASTQ--सही $READ 2 । FASTQ--est_method RSEM--aln_method बोटाई--trinity_mode--output_dir $OUTPUT ।
    3. mv RSEM.genes.results $sample.genes.results का उपयोग करके कुछ वर्णनात्मक परिणामों फ़ाइल का नाम बदलें।
    4. [trinity_location]/abundance_estimates_to_matrix.pl--est_method RSEM * [जीन/आइसोफॉर्म] टाइप करके सभी मामलों का मैट्रिक्स उत्पन्न करें । परिणाम

8. ब्याज के जीन की पहचान करें

नोट: निम्नलिखित चरण न्यूक्लियोटाइड या प्रोटीन फास्टा फ़ाइलों के साथ किए जा सकते हैं लेकिन सबसे अच्छा काम करते हैं और प्रोटीन दृश्यों के साथ अधिक सरल होते हैं। प्रोटीन से प्रोटीन का उपयोग करके ब्लास्ट खोजों में विभिन्न प्रजातियों के बीच खोज करते समय परिणाम देने की अधिक संभावना होती है।

  1. एक संदर्भ जीनोम के लिए, STEP 5.2.2 से प्रोटीन FASTA फ़ाइल का उपयोग करें या एक कस्टम जीन सुविधा GTF उत्पन्न करने के लिए पूरक सामग्री देखें।
  2. डी नोवो ट्रांसक्रिप्टोम के लिए, ट्रांसडेकोडर का उपयोग करके एक प्रोटीन फास्टा उत्पन्न करें।
    1. कंप्यूटर क्लयूजर पर ट्रांसडेकोडर वी 5.5.0 इंस्टॉल या लोड करें।
    2. सबसे लंबे समय तक खुले पढ़ने के फ्रेम का पता लगाएं और टाइपिंग [Transdecoder स्थान]/TransDecoder.LongOrfs-टी $TRINITY द्वारा पेप्टाइड अनुक्रम की भविष्यवाणी की । फास्टा।
  3. बारीकी से संबंधित प्रजातियों में समरूपता के लिए एनसीबीआई जेनबैंक खोजें।
    1. एक इंटरनेट ब्राउज़र विंडो खोलें और https://www.ncbi.nlm.nih.gov/genbank/ पर जाएं।
    2. खोज बार पर ब्याज के जीन का नाम और बारीकी से संबंधित प्रजातियों का नाम टाइप करें जिन्हें अनुक्रमित किया गया है या जीनस या फायलम। सर्च बार के बाईं ओर प्रोटीन का चयन करें तो खोज पर क्लिक करें।
    3. सेंड टू पर क्लिक करके सीक्वेंस निकालें और फिर फ़ाइल का चयन करें। फॉर्मेट के तहत, FASTA का चयन करें फिर क्रिएट फाइल पर क्लिक करें।
    4. एससीपी $FASTA username@clusterlocation टाइप करके कंप्यूटर क्लस्टर में समरूपता की फास्टा फाइल ले जाएं: /$DIR स्थानीय टर्मिनल विंडो पर करें या कंप्यूटर और क्लस्टर से फाइलों को स्थानांतरित करने के लिए FileZilla का उपयोग करें ।
  4. ब्लास्ट +26का उपयोग कर उंमीदवार जीन के लिए खोजें ।
    1. कंप्यूटर क्लस्टर पर ब्लास्ट + v. 2.8.1 इंस्टॉल या लोड करें।
    2. कंप्यूटर क्लस्टर पर, $PEP में [ब्लास्ट + स्थान]/makeblastdb-टाइप करके जीनोम या ट्रांसक्रिप्टोम अनुवादित प्रोटीन फास्टा से एक ब्लास्ट डेटाबेस बनाएं । FASTA -dbtype प्रोट -आउट $OUTPUT
    3. ब्लास्ट एनसीबीआई से अरुचिकर जीन दृश्यों को टाइप करके ब्याज की प्रजातियों के डाटाबेस [ब्लास्ट + स्थान]/ब्लास्ट-डीबी $DATABASE-क्वेरी $FASTA-evalue 1e-10-outfmt 6-max_target_seqs 1-आउट $OUTPUT
    4. कमांड का अधिकउपयोग करके आउटपुट फ़ाइल देखें। ब्याज की प्रजातियों से एक नई पाठ फ़ाइल के लिए अद्वितीय जीन आईडी की प्रतिलिपि।
    5. perl-ne टाइप करके उम्मीदवार जीन के दृश्यों को निकालें (/^> (\S+)/){$c =$i {$1}}}$c?प्रिंट:chomp;$i {$_}=1 अगर @ARGV ' $gene_id.txt $PEP । फास्टा > $OUTPUT।
  5. पारस्परिक विस्फोट का उपयोग कर जीन एनोटेशन की पुष्टि करें।
    1. इंटरनेट ब्राउज़र पर https://blast.ncbi.nlm.nih.gov/Blast.cgi के लिए जाओ।
    2. tblastnका चयन करें, तो उम्मीदवार दृश्यों पेस्ट, गैर बेमानी प्रोटीन अनुक्रम डेटाबेस और क्लिक करें ब्लास्टका चयन करें ।
  6. जीन ऑन्टोलॉजी (जीओ) शब्दों (चर्चा देखें) के साथ जीनोम या ट्रांसक्रिप्टोम में सभी जीन को एनोटेट करके अतिरिक्त जीन की पहचान करें।
    1. प्रोटीन फास्टा को स्थानीय कंप्यूटर में स्थानांतरित करें।
    2. डाउनलोड करें और स्थानीय कंप्यूटर के लिए Blast2GO27,28,29 v. 5.2 स्थापित करें।
    3. ओपन ब्लास्ट2जीओ,क्लिक करें फाइल, लोडपर जाएं, लोड सीक्वेंस परजाएं, लोड फास्टा फाइल (फास्टा)पर क्लिक करें । फास्टा फाइल चुनें और लोडपर क्लिक करें ।
    4. ब्लास्ट पर क्लिक करें, एनसीबीआई ब्लास्टचुनें और आगेक्लिक करें । मापदंडों को संपादित करें या आगेक्लिक करें, मापदंडों को संपादित करें और सबसे समान जीन विवरण खोजने के लिए रन पर क्लिक करें।
    5. मैपिंग पर क्लिक करें फिर इसी तरह के प्रोटीन के लिए जीन ऑन्टोलॉजी एनोटेशन खोजने के लिए रन पर क्लिक करें ।
    6. आगे क्लिक करें इंटरप्रो, ईएमबीएल-ईबीआई इंटरप्रोका चयन करें और आगे क्लिककरें । मापदंडों को संपादित करें या आगेक्लिक करें, और ज्ञात जीन परिवारों और डोमेन के हस्ताक्षर खोजने के लिए रन पर क्लिक करें।
    7. फाइलपर क्लिक करके एनोटेशन एक्सपोर्ट करें, एक्सपोर्टका चयन करें, एक्सपोर्ट टेबलपर क्लिक करें । ब्राउज़ करने परक्लिक करें, फ़ाइल का नाम, सेवपर क्लिक करें, निर्यातपर क्लिक करें।
    8. अतिरिक्त उम्मीदवार जीन की पहचान करने के लिए ब्याज की जीओ शर्तों के लिए एनोटेशन टेबल खोजें। फास्टा फ़ाइल से दृश्यों को निकालें (चरण 8.4.5)

9. फिलोजेनेटिक पेड़

  1. डाउनलोड करें और अपने स्थानीय कंप्यूटर के लिए मेगा30 v. 7.0.26 स्थापित करें।
  2. मेगा खोलें, संरेखित करनेपर क्लिक करें, एडिट/बिल्ड अलाइनमेंटपर क्लिक करें, एक नया अलाइनमेंट क्लिक करें ओके, प्रोटीनका चयन करें।
  3. जब संरेखण खिड़की खुलती है, तो एडिटपर क्लिक करें, फ़ाइल से डालने वाले दृश्यों पर क्लिक करें और उम्मीदवार जीन और संभावित होमोलॉग के प्रोटीन दृश्यों के साथ FASTA का चयन करें।
  4. सभी दृश्यों का चयन करें। हाथ प्रतीक का पता लगाएं और उस पर मंडराना। यह मांसपेशियों31 एल्गोरिथ्म का उपयोग कर दृश्यों संरेखित करना चाहिए। आर्म सिंबल पर क्लिक करें और फिर दृश्यों को संरेखित करने के लिए प्रोटीन को संरेखित करने के लिए क्लिक करें। मापदंडों को संपादित करें या डिफ़ॉल्ट मापदंडों का उपयोग करके संरेखित करने के लिए ओके पर क्लिक करें।
  5. नेत्रहीन निरीक्षण और किसी भी मैनुअल परिवर्तन तो सहेजें और संरेखण खिड़की बंद करते हैं ।
  6. मुख्य मेगा विंडो में, मॉडलपर क्लिक करें, खोजें सर्वश्रेष्ठ डीएनए/प्रोटीन मॉडल (एमएल),संरेखण फ़ाइल का चयन करें और इसी मापदंडों का चयन करें जैसे: विश्लेषण: मॉडल चयन (एमएल), पेड़ का उपयोग करने के लिए: स्वचालित (पड़ोसी में शामिल होने वाले पेड़), सांख्यिकीय विधि: अधिकतम संभावना, प्रतिस्थापन प्रकार: अमीनो एसिड, गैप/लापता डेटा उपचार: सभी साइटों का उपयोग करें, शाखा साइट फिल्टर: कोई नहीं ।
  7. एक बार डेटा के लिए सबसे अच्छा मॉडल निर्धारित किया जाता है, मुख्य मेगा विंडो पर जाएं। फ़िलोगनी पर क्लिक करें और कॉन्ट्रोवर्सी/टेस्ट मैक्सिमम संभावना ट्री पर क्लिक करें और फिर जरूरत पड़ने पर अलाइनमेंट का चयन करें । पेड़ के लिए उपयुक्त मापदंडों का चयन करें: सांख्यिकीय विधि: अधिकतम संभावना, फिलोजेनी का परीक्षण: 100 प्रतिकृति, प्रतिस्थापन प्रकार के साथ बूटस्ट्रैप विधि: अमीनो एसिड, मॉडल: एलजी के साथ Freqs। (+ एफ), साइटों के बीच दरें: गामा वितरित (जी) 5 असतत गामा श्रेणियों के साथ, अंतर/लापता डेटा उपचार: सभी साइटों का उपयोग करें, एमएल heuristic विधि: निकटतम पड़ोसी-इंटरचेंज (NNI) ।

10. टीपीएम का उपयोग करके जीन अभिव्यक्ति की कल्पना करें

  1. ट्रिनिटी के लिए, कंप्यूटर क्लस्टर पर निर्देशिका में जाते हैं जहां abundance_estimates_to_matrix.pl चलाया जाता था और आउटपुट में से एक मैट्रिक्स होना चाहिए। TPM.not_cross_norm। इस फ़ाइल को अपने स्थानीय कंप्यूटर में स्थानांतरित करें।
    नोट: क्रॉस सैंपल सामान्यीकरण के लिए पूरक सामग्री देखें।
  2. जीनोम विश्लेषण से टीपीएम के लिए नीचे दिए गए चरणों का पालन करें।
    1. कंप्यूटर क्लस्टर पर, आरएसईएम इंस्टॉलेशन स्थान पर जाएं। कॉपी आरएसईएम-जेनरेट-डाटा-मैट्रिक्स टाइप करके एसआरपी आरएसईएम-जेनरेट-डाटा-मैट्रिक्स आरएसईएम-जेनरेट-टीपीएम-मैट्रिक्स। नई फ़ाइल को संपादित करने के लिए नैनो का उपयोग करें और टीपीएम के लिए 4 से 5 तक "मेरा $offsite = 4" बदलें, अब इसे "मेरा $offsite = 5" पढ़ना चाहिए।
  3. निर्देशिका में जाएं जहां आरएसईएम आउटपुट फाइलें ।genes.results हैं और अब टीपीएम मैट्रिक्स उत्पन्न करने के लिए आरएसईएम-उत्पन्न-टीपीएम-मैट्रिक्स *[जीन/आइसोफॉर्म.परिणाम] > $OUTPUT का उपयोग करें। परिणामों को स्थानीय कंप्यूटर में स्थानांतरित करें।
  4. ggplot2 में परिणामों की कल्पना करें।
    1. एक स्थानीय कंप्यूटर के लिए आर वी 4.0.0 और RStudio v. 1.2.1335 डाउनलोड करें।
    2. स्क्रीन के दाईं ओर खोलें RStudio संकुल टैब पर जाएं और इंस्टॉल पर क्लिक करें। ggplot2 टाइप करें और इंस्टॉलपर क्लिक करें ।
    3. आर स्क्रिप्ट विंडो पर डेटा टाइप करके टीपीएम टेबल में पढ़ें<-read.table ("$tpm.txt", हेडर = टी)
    4. चित्रा 4 के समान बार रेखांकन के लिए कुछ समान टाइप करें: पी<-ggplot () + geom_bar (एईएस (y=TPM, x=प्रतीक, भरें =ऊतक), डेटा = डेटा, स्टेट = "पहचान")
      भरें<-सी ("#d7191c", "#fdae61", "#ffffbf", "#abd9e9", "#2c7bb6")
      पी<-पी +scale_fill_manual (मान = भरें)
      पी + विषय (axis.text.x = element_text (कोण = 90))

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

उपरोक्त विधियों को चित्र 1 में संक्षेप में प्रस्तुत किया गया है और हाइड्रा वल्गैरिस ऊतकों के डेटा सेट पर लागू किया गया था। एच वल्गरिस एक ताजा पानी अकशेरुकी है जो फिलम सेनिडारिया से संबंधित है जिसमें कोरल, जेलीफ़िश और समुद्री एनीमोन भी शामिल हैं। एच वल्गैरिस नवोदित द्वारा अलैंगिक रूप से पुन: पेश कर सकते हैं और वे अपने सिर और पैर को पुनर्जीवित कर सकते हैं जब bisected । इस अध्ययन में, हम विकास और हाइड्रा7में ऑप्सिन जीन की अभिव्यक्ति की जांच करने के उद्देश्य से । जबकि हाइड्रा आंखों की कमी है, वे प्रकाश पर निर्भर व्यवहार३२प्रदर्शन । ऑप्सिन जीन प्रोटीन को एन्कोड करते हैं जो प्रकाश की विभिन्न तरंगदैर्ध्य का पता लगाने और फोटोट्रान्सेक्शन झरना शुरू करने के लिए दृष्टि में महत्वपूर्ण हैं। एक बेसल प्रजातियों में इस जीन परिवार के आणविक विकास और अभिव्यक्ति की जांच करने से जानवरों में आंखों के विकास और प्रकाश का पता लगाने में अंतर्दृष्टि प्रदान की जा सकती है।

हमने हाइड्रा 2.033 संदर्भ जीनोम और सार्वजनिक रूप से उपलब्ध आरएनए-सेक्यू डेटा (जियो परिग्रहण GSE127279) चित्रा 1का उपयोग करके एक निर्देशित असेंबली उत्पन्न की। यह कदम लगभग 3 दिन लग गए। यद्यपि हमने इस मामले में डी नोवो ट्रांसक्रिप्टोम उत्पन्न नहीं किया था, ट्रिनिटी असेंबली को उत्पन्न करने में 1 सप्ताह तक का समय लग सकता है और प्रत्येक पुस्तकालय मैपर के आधार पर मैपिंग पढ़ने में कुछ घंटे लग सकता है। विलय हाइड्रा असेंबली (~ 50,000 टेप) को Blast2GO का उपयोग करके एनोटेट किया गया था जिसमें लगभग 1-सप्ताह का चित्र 1लिया गया था। ऑप्सिन से संबंधित जीन के लिए दृश्यों को एक फास्टा फाइल में निकाला गया । एनसीबीआई जेनबैंक से अन्य प्रजातियों के ऑप्सिन जीन के लिए दृश्य भी निकाले गए थे । हमने cnidarians Podocoryna कार्निया, क्लैडोनेमा रेडिएटम, ट्रिपेडेलिया सिस्टोफोरा,और नेमाटोस्टेला वेक्टेन्सिससे ऑप्सिन का उपयोग किया और हमने एमनेमियोप्सिस लीद्यी, ट्राइकोप्लाज्स एडेरेन्स, ड्रोसोफिला मेलानोगास्टर और होमो सेपियंसको भी शामिल किया। मेगा7 फिगर 2में ऑप्सिन जीन्स का गठबंधन किया गया था । संरेखण को देखकर, हम हाइड्रा ऑप्सिन की पहचान करने में सक्षम थे जो एक प्रकाश संवेदनशील अणु को बांधने के लिए आवश्यक संरक्षित lysine अमीनो एसिड याद कर रहे थे। दृश्य निरीक्षण के बाद, हमने एक मॉडल चयन विश्लेषण करके सबसे अच्छा मॉडल निर्धारित किया। हमने 100 चित्रा 3के बूटस्ट्रैप मूल्य के साथ मॉडल एलजी + जी + एफ का उपयोग करके एक अधिकतम संभावना पेड़ उत्पन्न किया। 149 ऑप्सिन जीन के लिए, पेड़ लगभग 3 दिनों में समाप्त हो गया था। फिलोजेनी से पता चलता है कि ऑप्सिन जीन cnidarians में वंश-विशिष्ट दोहराव द्वारा विकसित हो रहे हैं और संभावित रूप से एच वल्गरिस7में मिलकर दोहराव द्वारा

हमने एजर में एक अंतर अभिव्यक्ति विश्लेषण किया और ऑप्सिन जीन की पूर्ण अभिव्यक्ति को देखा। हमने परिकल्पना की है कि एक या एक से अधिक ऑप्सिन सिर (हाइपोस्टोम) में उपनियमित किया जाएगा और शरीर कॉलम, नवोदित क्षेत्र, पैर और मूंछ बनाम हाइपोस्टोम की जोड़ी-वार तुलना का प्रदर्शन किया। एक जोड़ी के लिहाज से तुलना का एक उदाहरण के रूप में, १,७७४ टेप अलग हाइपोस्टोम और शरीर कॉलम के बीच व्यक्त किए गए थे । हमने उन जीनों का निर्धारण किया जो कई तुलनाओं में उपनल थे और ब्लास्ट2जीओ तालिका 1में एक कार्यात्मक संवर्धन किया । जी-प्रोटीन युग्मित रिसेप्टर गतिविधि के समूह में ऑप्सिन जीन शामिल थे। अंत में, हमने विभिन्न ऊतकों में ऑप्सिन जीन की पूर्ण अभिव्यक्ति को देखा, नवोदित के दौरान और पुनर्जनन के दौरान ggplot चित्र 4का उपयोग करके उनके टीपीएम मूल्यों की साजिश रचने के द्वारा। यहां उल्लिखित तरीकों का उपयोग करते हुए, हमने 2 ऑप्सिन जीन की पहचान की जो फिलोजेनी में अन्य ऑप्सिन के साथ समूह नहीं था, एक ऑप्सिन पाया गया जो दूसरों की तुलना में लगभग 200 गुना अधिक व्यक्त किया गया था, और हमने पाया कि कुछ ऑससिन जीन फोटोट्रांसडक्शन उत्पत्ति के साथ सह-व्यक्त किए गए हैं जिनका उपयोग प्रकाश का पता लगाने के लिए किया जा सकता है।

Figure 1
चित्रा 1: वर्कफ़्लो योजनाबद्ध। कंप्यूटर क्लस्टर पर डेटा का विश्लेषण करने के लिए उपयोग किए जाने वाले कार्यक्रम नीले रंग में हैं, मजेंटा में वे हैं जिन्हें हम स्थानीय कंप्यूटर पर उपयोग करते हैं और नारंगी रंग में एक वेब-आधारित कार्यक्रम है। (1) ट्रिम आरएनए-एसईक्यू ट्रिमोमैटिक वी 0.35 का उपयोग करके पढ़ता है। यदि एक जीनोम उपलब्ध है, लेकिन जीन मॉडल याद कर रहे हैं, स्टार v. 2.6.0c और स्ट्रिंगटाई v. 1.3.4d का उपयोग कर एक निर्देशित विधानसभा उत्पन्न करते हैं । (वैकल्पिक पूरक सामग्री देखें) (2) एक संदर्भ जीनोम के बिना, ट्रिनिटी वी 2.8.5 का उपयोग करके डी नोवो असेंबली बनाने के लिए छंटनी की गई रीड का उपयोग करें। (3) एक संदर्भ जीनोम का उपयोग कर जीन अभिव्यक्ति की मात्रा निर्धारित करने के लिए, नक्शा स्टार का उपयोग कर पढ़ता है और RSEM v. 1.3.1 का उपयोग कर मात्रा । आरएसईएम का उपयोग करके टीपीएम निकालें और उन्हें आरएफटीयूडियो में कल्पना करें। (4) बोटाई और आरएसईएम का उपयोग ट्रिनिटी ट्रांसक्रिप्टोम के लिए मैप किए गए मानचित्र और मात्रा को मैप करने के लिए किया जा सकता है। एक ट्रिनिटी स्क्रिप्ट का उपयोग RStudio में गिनती की कल्पना करने के लिए टीपीएम मैट्रिक्स उत्पन्न करने के लिए किया जा सकता है। (5) समरूप दृश्यों की खोज करने और पारस्परिक विस्फोट का उपयोग करने की पुष्टि करने के लिए वेब आधारित एनसीबीआई ब्लास्ट और कमांड-लाइन ब्लास्ट + का उपयोग करें । ब्लास्ट2जीओ का उपयोग करके जीन को एनोटेट करें। जीन को संरेखित करने और सबसे अच्छा फिट मॉडल का उपयोग करके एक फिलोजेनेटिक पेड़ उत्पन्न करने के लिए मेगा का उपयोग करें। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें ।

Figure 2
चित्रा 2: गठबंधन जीन का उदाहरण। स्नैपशॉट मांसपेशियों का उपयोग कर गठबंधन हाइड्रा ऑप्सिन जीन का एक हिस्सा दिखाता है । तीर रेटिना-बाइंडिंग संरक्षित lysine के स्थान को इंगित करता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें ।

Figure 3
चित्रा 3: Cnidarian ऑप्सिन फिलोजेनेटिक पेड़। मेगासाइन दृश्यों का उपयोग करके मेगा7 में उत्पन्न अधिकतम संभावना पेड़ हाइड्रा वल्गैरिस, पोडोकोरिना कार्निया, क्लैडोनेमा रेडिएटम, ट्रिपेडेलिया सिस्टोफोरा, नेमाटोस्टेला वेक्टेन्सिस, एमएनएमियोप्सिस लेइडी, ट्राइकोप्लास एडेरेन्स, ड्रोसोफिला मेलेनोटोस्टर और होमो सेपियंससे ऑप्सिन दृश्यों का उपयोग किया जाता है। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें ।

Figure 4
चित्रा 4: हाइड्रा वल्गैरिसमें ऑप्सिन जीन की अभिव्यक्ति । (क) शरीर के कॉलम, नवोदित क्षेत्र, पैर, हाइपोस्टोम और मूंछ में हाइड्रा वल्गेलिस ऑप्सिन जीन के प्रति मिलियन (टीपीएम) प्रति प्रति प्रतिलिपियों में अभिव्यक्ति । (ख) हाइड्रा नवोदित के विभिन्न चरणों के दौरान ऑप्सिन जीन की अभिव्यक्ति। (ग) पुनर्जनन के विभिन्न समय बिंदुओं के दौरान हाइड्रा हाइपोस्टोम के ऑप्सिन जीन की अभिव्यक्ति । कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें ।

गो आईडी गो नाम गो श्रेणी एफडीआर
जाओ: 0004930 जी-प्रोटीन युग्मित रिसेप्टर गतिविधि आणविक समारोह 0.0000000000704
जाओ: 0007186 जी-प्रोटीन युग्मित रिसेप्टर सिग्नलिंग मार्ग जैविक प्रक्रिया 0.00000000103
जाओ: 0016055 WNT सिग्नलिंग मार्ग जैविक प्रक्रिया 0.0000358
जाओ: 0051260 प्रोटीन होमोलिमराइजेशन जैविक प्रक्रिया 0.000376
जाओ: 0004222 मेटललोएंटोपेपिडेस गतिविधि आणविक समारोह 0.000467
जाओ: 0008076 वोल्टेज-गेटेड पोटेशियम चैनल कॉम्प्लेक्स सेलुलर घटक 0.000642
जाओ: 0005249 वोल्टेज-गेटेड पोटेशियम चैनल गतिविधि आणविक समारोह 0.00213495
जाओ: 0007275 बहुकोशिकीय जीव विकास जैविक प्रक्रिया 0.00565048
जाओ: 0006813 पोटेशियम आयन परिवहन जैविक प्रक्रिया 0.01228182
जाओ: 0018108 पेप्टिडिल-टायरोसिन फॉस्फोरिलेशन जैविक प्रक्रिया 0.02679662

तालिका 1: हाइपोस्टोम में उपनियमित जीन का कार्यात्मक संवर्धन

पूरक सामग्री। कृपया इन सामग्रियों को डाउनलोड करने के लिए यहां क्लिक करें ।

Subscription Required. Please recommend JoVE to your librarian.

Discussion

इस प्रोटोकॉल का उद्देश्य आरएनए-एसईक्यू डेटा का उपयोग करके जीन परिवार की विशेषता के लिए चरणों की रूपरेखा प्रदान करना है। ये विधियां विभिन्न प्रजातियों और डेटासेट 4 ,34,35के लिए काम करने के लिए सिद्ध हुई हैं । यहां स्थापित पाइपलाइन को सरल बनाया गया है और बायोइन्फॉर्मेटिक्स में नौसिखिए के बाद काफी आसान होना चाहिए । प्रोटोकॉल का महत्व यह है कि यह एक प्रकाशनीय विश्लेषण को पूरा करने के लिए सभी चरणों और आवश्यक कार्यक्रमों को रेखांकित करता है। प्रोटोकॉल में एक महत्वपूर्ण कदम ठीक से पूर्ण लंबाई टेप इकट्ठा कर रहा है, यह उच्च गुणवत्ता वाले जीनोम या ट्रांसक्रिप्टोम से आता है । उचित टेप प्राप्त करने के लिए, एक उच्च गुणवत्ता वाले आरएनए और/या डीएनए और नीचे चर्चा की अच्छी एनोटेशन की जरूरत है ।

आरएनए-एसईक्यू लाइब्रेरी तैयार करने के लिए, हम सूची किट शामिल करते हैं जो हाइड्रा 19और तितलियों18 (सामग्री की तालिका) केछोटे शरीर के अंगों के लिए काम करते थे। हम ध्यान दें कि कम इनपुट आरएनए के लिए हमने संशोधित प्रोटोकॉल दृष्टिकोण36का उपयोग किया। आरएनए निष्कर्षण के तरीकों की तुलना कई नमूना प्रकारों में की गई है जिनमें खमीर कोशिकाएं17,न्यूरोब्लास्टोमा37,पौधे38और कीट लार्वा16 कुछ नाम हैं। हम पाठक को एक प्रोटोकॉल प्राप्त करने की सलाह देते हैं जो उनकी ब्याज की प्रजातियों के लिए काम करता है, यदि कोई मौजूद है, या आमतौर पर व्यावसायिक रूप से उपलब्ध किट का उपयोग करके समस्या निवारण शुरू करें। उचित जीन मात्राकरण के लिए, हम DNase के साथ आरएनए नमूने के इलाज की सलाह देते हैं। डीएनए की उपस्थिति उचित जीन मात्राकरण को प्रभावित करेगी। हम सीडीएनए लाइब्रेरी प्रेप किट का उपयोग करने की भी सलाहते हैं जिसमें परिपक्व एमआरएनए के लिए चयन करने के लिए पॉलीए पूंछ चयन शामिल है। जबकि आरएनए की कमी के परिणामस्वरूप अधिक गहराई होती है, एक्सोन कवरेज का प्रतिशत पॉलीए + चयन39का उपयोग करके आरएनए के एक्सोन कवरेज की तुलना में बहुत कम है। अंत में, जब संभव हो तो युग्मित-अंत का उपयोग करना सबसे अच्छा है और40, 41तक फंसेहुएहैं। रीड मैपिंग कमांड के ऊपर प्रोटोकॉल में एक अंत पढ़ता है का उपयोग करते समय संशोधित किया जाना होगा।

जैसा कि ऊपर उल्लेख किया गया है कि ब्याज के जीन की पहचान करने में सक्षम होना महत्वपूर्ण है और अनुक्रमण में हाल के जीन दोहराव, वैकल्पिक स्प्लिसिंग और हैप्टोटाइप के बीच अंतर करना भी महत्वपूर्ण है। कुछ उदाहरणों में, एक संदर्भ जीनोम होने का निर्धारण जहां जीन और exons एक दूसरे के सापेक्ष स्थित है द्वारा मदद कर सकते हैं । ध्यान देने वाली बात यह है कि यदि एक ट्रांसक्रिप्टोम सार्वजनिक डेटाबेस से प्राप्त किया जाता है और उच्च गुणवत्ता वाला नहीं है, तो ट्रिनिटी42 का उपयोग करके उत्पन्न करना और ब्याज के ऊतकों से आरएनए-सेक्यू पुस्तकालयों का संयोजन करना सबसे अच्छा हो सकता है। इसी तरह, यदि एक संदर्भ जीनोम में अच्छे जीन मॉडल नहीं हैं, तो आरएनए-सेक्यू पुस्तकालयों का उपयोग स्ट्रिंगटाई43 (पूरक सामग्री देखें) का उपयोग करके नए जीटीएफ उत्पन्न करने के लिए किया जा सकता है। इसके अलावा, ऐसे मामलों में जहां जीन अधूरे होते हैं और जीनोम तक पहुंच होती है, जीन को समरूप दृश्यों का उपयोग करके मैन्युअल रूप से संपादित किया जा सकता है, फिर टीबीब्लास्टन का उपयोग करके जीनोम के अनुरूप होता है। ब्लास्ट आउटपुट का उपयोग वास्तविक अनुक्रम निर्धारित करने के लिए किया जा सकता है, जो समरूपता का उपयोग करके किए गए सुधार से अलग हो सकता है। यदि कोई मैच नहीं है, तो अनुक्रम को छोड़ दें जैसा कि मूल रूप से था। जब जांच उत्पादन जीनोम निर्देशांक पर ध्यान देने के लिए सुनिश्चित करें कि लापता exon वास्तव में जीन का हिस्सा है ।

यद्यपि हम उन सॉफ़्टवेयर और कार्यक्रमों पर ध्यान केंद्रित करते हैं जिनका हमने उपयोग किया था, लेकिन इस प्रोटोकॉल में संशोधन उपलब्ध कई कार्यक्रमों के कारण मौजूद हैं जो विभिन्न डेटासेट के लिए बेहतर काम कर सकते हैं। एक उदाहरण के रूप में, हम बोटाई और आरएसईएम का उपयोग करके ट्रांसक्रिप्टोम को मैपिंग के लिए आदेश दिखाते हैं, लेकिन ट्रिनिटी के पास अब कलिस्टो44 और सामन45जैसे बहुत तेज संरेखकों के लिए विकल्प है। इसी तरह, हम Blast2GO (अब OmicsBox) का उपयोग करके एनोटेशन का वर्णन करते हैं, लेकिन अन्य मैपर उपकरण हैं जिन्हें मुफ्त और ऑनलाइन पाया जा सकता है। कुछ है कि हम कोशिश की है शामिल हैं: जाओ करतब46,एगनोग-mapper47,48,और एक बहुत तेजी से संरेखण PANNZER249. इन वेब-आधारित एनोटेशन टूल का उपयोग करने के लिए बस पेप्टाइड फास्टा अपलोड करें और सबमिट करें। PANNZER और eggNOG-mapper के स्टैंडअलोन संस्करण भी कंप्यूटर क्लस्टर में डाउनलोड करने के लिए उपलब्ध हैं । एक अन्य संशोधन यह है कि हमने एक स्थानीय कंप्यूटर पर मेगा और आर का उपयोग किया और पारस्परिक ब्लेस करने के लिए ऑनलाइन एनसीबीआई ब्लास्ट टूल का उपयोग किया लेकिन इन सभी कार्यक्रमों का उपयोग आवश्यक कार्यक्रमों और डेटाबेस डाउनलोड करके कंप्यूटर क्लस्टर पर किया जा सकता है। इसी तरह, जब तक किसी उपयोगकर्ता के पास पर्याप्त रैम और स्टोरेज होता है, तब तक एक स्थानीय कंप्यूटर पर संरेखितकर्ताओं कालिस्टो और सामन का उपयोग किया जा सकता है। हालांकि, FASTQ और FASTA फ़ाइलें बहुत बड़ी होती हैं और हम अत्यधिक आसानी और गति के लिए कंप्यूटर क्लस्टर का उपयोग करने की सलाहते हैं। इसके अलावा, जब हम अपने डेवलपर्स से कार्यक्रम डाउनलोड करने के निर्देश और लिंक प्रदान करते हैं तो उनमें से कई बायोकोंडा से स्थापित किए जा सकते हैं: https://anaconda.org/bioconda।

बायोइन्फॉर्मेटिक विश्लेषण करते समय एक आम समस्या का सामना करना पड़ रहा है शेल स्क्रिप्ट असफल हो रही है। ऐसा कई कारणों से हो सकता है। यदि कोई त्रुटि फ़ाइल बनाई जाती है, तो समस्या निवारण से पहले इन त्रुटि फ़ाइल की जांच की जानी चाहिए। एक त्रुटि के लिए कुछ आम कारण टाइपो, प्रमुख मापदंडों को याद आ रही है, और सॉफ्टवेयर संस्करणों के बीच अनुकूलता के मुद्दों हैं । इस प्रोटोकॉल में, हम डेटा के लिए पैरामीटर शामिल करते हैं, लेकिन सॉफ्टवेयर मैनुअल व्यक्तिगत मापदंडों के लिए अधिक विस्तृत दिशानिर्देश प्रदान कर सकते हैं। सामान्य तौर पर, सॉफ्टवेयर के सबसे अद्यतित संस्करणों का उपयोग करना और उस संस्करण के अनुरूप मैनुअल से परामर्श करना सबसे अच्छा है।

इस प्रोटोकॉल में संवर्द्धन में ट्रांसक्रिप्टोम-वाइड डिफरेंशियल एक्सप्रेशन एनालिसिस और फंक्शनल एनरिचमेंट एनालिसिस करना शामिल है । हम अंतर अभिव्यक्ति विश्लेषण के लिए एजआर50 की सलाह देते हैं जो बायोकंडक्टर में उपलब्ध पैकेज है। कार्यात्मक संवर्धन विश्लेषण के लिए, हमने ब्लास्ट2जीओ29 और वेब-आधारित डेविड51,52का उपयोग किया है। हम इसे एक नई फ़ाइल के रूप में निकालने और वेब-आधारित आईटीओएल53का उपयोग करके फिलोजेनी को और संपादित करने की भी सलाह देते हैं। इसके अलावा, जबकि यह प्रोटोकॉल जीन के आणविक विकास और अभिव्यक्ति पैटर्न की जांच करेगा, अतिरिक्त प्रयोगों जीन या प्रोटीन स्थानों और कार्यों को मान्य करने के लिए इस्तेमाल किया जा सकता है । एमआरएनए अभिव्यक्ति की पुष्टि आरटी-क्यूपीसीआर या सीटू संकरण में की जा सकती है। इम्यूनोहिस्टोकेमिस्ट्री का उपयोग करके प्रोटीन को स्थानीयकृत किया जा सकता है। प्रजातियों के आधार पर, नॉकआउट प्रयोगों जीन समारोह की पुष्टि करने के लिए इस्तेमाल किया जा सकता है । इस प्रोटोकॉल का उपयोग विभिन्न उद्देश्यों के लिए किया जा सकता है, जैसा कि ऊपर दिखाया गया है, आमतौर पर बेसल प्रजाति7में फोटोरिसेप्शन से जुड़े जीन परिवार का पता लगाने के लिए। इन तरीकों का एक और आवेदन विभिन्न चयनात्मक दबावों के तहत एक संरक्षित मार्ग में परिवर्तन की पहचान करना है। एक उदाहरण के रूप में, इन तरीकों का उपयोग दैनिक तितलियों और रात्रिभोज पतंगों34के बीच दृष्टि क्षणिक रिसेप्टर संभावित चैनलों की अभिव्यक्ति में भिन्नता की खोज करने के लिए किया गया था।

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

लेखकों के पास खुलासा करने के लिए कुछ नहीं है ।

Acknowledgments

हम एड्रियाना ब्रिस्को, गिल स्मिथ, रबी मुराद और एलिन जी रंगेल को हमारे कार्यप्रवाह में इनमें से कुछ चरणों को शामिल करने में सलाह और मार्गदर्शन के लिए धन्यवाद देते हैं । हम पांडुलिपि पर टिप्पणी के लिए कैथरीन विलियम्स, एलिसाबेथ रिब्बोह और नताशा पिक्सियानी के भी आभारी हैं । इस काम को ए.M.M के लिए मेडिकल रिसर्च फेलोशिप के लिए जॉर्ज ई. हेविट फाउंडेशन द्वारा भाग में समर्थित किया गया था।

Materials

Name Company Catalog Number Comments
Bioanalyzer-DNA kit Agilent 5067-4626 wet lab materials
Bioanalyzer-RNA kit Agilent 5067-1513 wet lab materials
BLAST+ v. 2.8.1 On computer cluster*
https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
Blast2GO (on your PC) On local computer
https://www.blast2go.com/b2g-register-basic
boost v. 1.57.0 On computer cluster
Bowtie v. 1.0.0 On computer cluster
https://sourceforge.net/projects/bowtie-bio/files/bowtie/1.3.0/
Computing cluster (highly recommended) NOTE: Analyses of genomic data are best done on a high-performance computing cluster because files are very large.
Cufflinks v. 2.2.1 On computer cluster
edgeR v. 3.26.8 (in R) In Rstudio
https://bioconductor.org/packages/release/bioc/html/edgeR.html
gcc v. 6.4.0 On computer cluster
Java v. 11.0.2 On computer cluster
MEGA7 (on your PC) On local computer
https://www.megasoftware.net
MEGAX v. 0.1 On local computer
https://www.megasoftware.net
NucleoSpin RNA II kit Macherey-Nagel 740955.5 wet lab materials
perl 5.30.3 On computer cluster
python On computer cluster
Qubit 2.0 Fluorometer ThermoFisher Q32866 wet lab materials
R v.4.0.0 On computer cluster
https://cran.r-project.org/src/base/R-4/
RNAlater ThermoFisher AM7021 wet lab materials
RNeasy kit Qiagen 74104 wet lab materials
RSEM v. 1.3.0 Computer software
https://deweylab.github.io/RSEM/
RStudio v. 1.2.1335 On local computer
https://rstudio.com/products/rstudio/download/#download
Samtools v. 1.3 Computer software
SRA Toolkit v. 2.8.1 On computer cluster
https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit
STAR v. 2.6.0c On computer cluster
https://github.com/alexdobin/STAR
StringTie v. 1.3.4d On computer cluster
https://ccb.jhu.edu/software/stringtie/
Transdecoder v. 5.5.0 On computer cluster
https://github.com/TransDecoder/TransDecoder/releases
Trimmomatic v. 0.35 On computer cluster
http://www.usadellab.org/cms/?page=trimmomatic
Trinity v.2.8.5 On computer cluster
https://github.com/trinityrnaseq/trinityrnaseq/releases
TRIzol ThermoFisher 15596018 wet lab materials
TruSeq RNA Library Prep Kit v2 Illumina RS-122-2001 wet lab materials
TURBO DNA-free Kit ThermoFisher AM1907 wet lab materials
*Downloads and installation on the computer cluster may require root access. Contact your network administrator.

DOWNLOAD MATERIALS LIST

References

  1. Lespinet, O., Wolf, Y. I., Koonin, E. V., Aravind, L. The role of lineage-specific gene family expansion in the evolution of eukaryotes. Genome Research. 12 (7), 1048-1059 (2002).
  2. Gabaldón, T., Koonin, E. V. Functional and evolutionary implications of gene orthology. Nature Reviews Genetics. 14 (5), 360-366 (2013).
  3. Dolinski, K., Botstein, D. Orthology and Functional Conservation in Eukaryotes. Annual Review of Genetics. 41 (1), (2007).
  4. Macias-Muñoz, A., McCulloch, K. J., Briscoe, A. D. Copy number variation and expression analysis reveals a non-orthologous pinta gene family member involved in butterfly vision. Genome Biology and Evolution. 9 (12), 3398-3412 (2017).
  5. Cannon, S. B., Mitra, A., Baumgarten, A., Young, N. D., May, G. The roles of segmental and tandem gene duplication in the evolution of large gene families in Arabidopsis thaliana. BMC plant biology. 4, 10 (2004).
  6. Eastman, S. D., Chen, T. H. P., Falk, M. M., Mendelson, T. C., Iovine, M. K. Phylogenetic analysis of three complete gap junction gene families reveals lineage-specific duplications and highly supported gene classes. Genomics. 87 (2), 265-274 (2006).
  7. Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), 1-19 (2019).
  8. Hisatomi, O., Tokunaga, F. Molecular evolution of proteins involved in vertebrate phototransduction. Comparative Biochemistry and Physiology - B Biochemistry and Molecular Biology. 133 (4), 509-522 (2002).
  9. Arendt, D. Evolution of eyes and photoreceptor cell types. International Journal of Developmental Biology. 47, 563-571 (2003).
  10. Shichida, Y., Matsuyama, T. Evolution of opsins and phototransduction. Philosophical Transactions of the Royal Society B: Biological Sciences. 364 (1531), 2881-2895 (2009).
  11. Porter, M. L., et al. Shedding new light on opsin evolution. Proceedings of the Royal Society B: Biological Sciences. 279 (1726), 3-14 (2012).
  12. Plachetzki, D. C., Degnan, B. M., Oakley, T. H. The origins of novel protein interactions during animal opsin evolution. PLoS ONE. 2 (10), 1054 (2007).
  13. Ramirez, M. D., et al. The last common ancestor of most bilaterian animals possessed at least nine opsins. Genome Biology and Evolution. 8 (12), 3640-3652 (2016).
  14. Schnitzler, C. E., et al. Genomic organization, evolution, and expression of photoprotein and opsin genes in Mnemiopsis leidyi: a new view of ctenophore photocytes. BMC Biology. 10, 107 (2012).
  15. Pedersen, K. B., Williams, A., Watt, J., Ronis, M. J. Improved method for isolating high-quality RNA from mouse bone with RNAlater at room temperature. Bone Reports. 11, 100211 (2019).
  16. Ridgeway, J. A., Timm, A. E., Fallon, A. Comparison of RNA isolation methods from insect larvae. Journal of Insect Science. 14 (1), 4-8 (2014).
  17. Scholes, A. N., Lewis, J. A. Comparison of RNA isolation methods on RNA-Seq: Implications for differential expression and meta-Analyses. BMC Genomics. 21 (1), 1-9 (2020).
  18. Briscoe, A. D., et al. Female behaviour drives expression and evolution of gustatory receptors in butterflies. PLoS genetics. 9 (7), 1003620 (2013).
  19. Murad, R., Macias-Muñoz, A., Wong, A., Ma, X., Mortazavi, A. Integrative analysis of Hydra head regeneration reveals activation of distal enhancer-like elements. bioRxiv. , 544049 (2019).
  20. Gallego Romero, I., Pai, A. A., Tung, J., Gilad, Y. Impact of RNA degradation on measurements of gene expression. BMC Biology. 12, 42 (2014).
  21. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  22. Trinity. RNA-Seq De novo Assembly Using Trinity. , 1-7 (2014).
  23. Dobin, A., et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29, 15-21 (2013).
  24. Li, B., Dewey, C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. BMC bioinformatics. 12, 323 (2011).
  25. Langmead, B., Trapnell, C., Pop, M., Salzberg, S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. Genome biology. 10, 25 (2009).
  26. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
  27. Conesa, A., Götz, S. Blast2GO: A comprehensive suite for functional analysis in plant genomics. International Journal of Plant Genomics. 619832, (2008).
  28. Conesa, A., et al. Blast2GO: A universal tool for annotation, visualization and analysis in functional genomics research. Bioinformatics. 21 (18), 3674-3676 (2005).
  29. Götz, S., et al. High-throughput functional annotation and data mining with the Blast2GO suite. Nucleic Acids Research. 36 (10), 3420-3435 (2008).
  30. Kumar, S., Stecher, G., Tamura, K. MEGA7: Molecular Evolutionary Genetics Analysis version 7.0 for bigger datasets. Molecular biology and evolution. 33 (7), 1870-1874 (2016).
  31. Edgar, R. C. MUSCLE: Multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Research. 32 (5), 1792-1797 (2004).
  32. Taddei-Ferretti, C., Musio, C., Santillo, S., Cotugno, A. The photobiology of Hydra's periodic activity. Hydrobiologia. 530, 129-134 (2004).
  33. Chapman, J. A., et al. The dynamic genome of Hydra. Nature. 464 (7288), 592-596 (2010).
  34. Macias-Muñoz, A., Rangel Olguin, A. G., Briscoe, A. D. Evolution of phototransduction genes in Lepidoptera. Genome Biology and Evolution. 11 (8), 2107-2124 (2019).
  35. Macias-Munõz, A., Murad, R., Mortazavi, A. Molecular evolution and expression of opsin genes in Hydra vulgaris. BMC Genomics. 20 (1), (2019).
  36. Picelli, S., et al. Full-length RNA-seq from single cells using Smart-seq2. Nature Protocols. 9 (1), 171-181 (2014).
  37. Tavares, L., Alves, P. M., Ferreira, R. B., Santos, C. N. Comparison of different methods for DNA-free RNA isolation from SK-N-MC neuroblastoma. BMC research notes. 4, 3 (2011).
  38. Johnson, M. T. J., et al. Evaluating Methods for Isolating Total RNA and Predicting the Success of Sequencing Phylogenetically Diverse Plant Transcriptomes. PLoS ONE. 7 (11), (2012).
  39. Zhao, S., Zhang, Y., Gamini, R., Zhang, B., Von Schack, D. Evaluation of two main RNA-seq approaches for gene quantification in clinical RNA sequencing: PolyA+ selection versus rRNA depletion. Scientific Reports. 8 (1), 1-12 (2018).
  40. Zhao, S., et al. Comparison of stranded and non-stranded RNA-seq transcriptome profiling and investigation of gene overlap. BMC Genomics. 16 (1), 1-14 (2015).
  41. Corley, S. M., MacKenzie, K. L., Beverdam, A., Roddam, L. F., Wilkins, M. R. Differentially expressed genes from RNA-Seq and functional enrichment results are affected by the choice of single-end versus paired-end reads and stranded versus non-stranded protocols. BMC Genomics. 18 (1), 1-13 (2017).
  42. Haas, B. J., et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. Nature Protocols. 8 (8), 1494-1512 (2013).
  43. Pertea, M., et al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nature biotechnology. 33 (3), 290-295 (2015).
  44. Bray, N. L., Pimentel, H., Melsted, P., Pachter, L. Near-optimal probabilistic RNA-seq quantification. Nature Biotechnology. 34 (5), 525-527 (2016).
  45. Patro, R., Duggal, G., Love, M. I., Irizarry, R. A., Kingsford, C. Salmon provides fast and bias-aware quantification of transcript expression. Nature Methods. 14 (4), 417-419 (2017).
  46. Araujo, F. A., Barh, D., Silva, A., Guimarães, L., Thiago, R. OPEN GO FEAT a rapid web-based functional annotation tool for genomic and transcriptomic data. , 8-11 (2018).
  47. Huerta-Cepas, J., et al. Fast genome-wide functional annotation through orthology assignment by eggNOG-mapper. Molecular Biology and Evolution. 34 (8), 2115-2122 (2017).
  48. Huerta-Cepas, J., et al. EggNOG 5.0: A hierarchical, functionally and phylogenetically annotated orthology resource based on 5090 organisms and 2502 viruses. Nucleic Acids Research. 47, 309-314 (2019).
  49. Törönen, P., Medlar, A., Holm, L. PANNZER2: A rapid functional annotation web server. Nucleic Acids Research. 46, 84-88 (2018).
  50. Robinson, M., Mccarthy, D., Chen, Y., Smyth, G. K. edgeR differential expression analysis of digital gene expression data User's Guide. , (2013).
  51. Huang, D. W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols. 4 (1), 44-57 (2009).
  52. Huang, D. W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: Paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Research. 37 (1), 1-13 (2009).
  53. Letunic, I., Bork, P. Interactive tree of life (iTOL) v3: an online tool for the display and annotation of phylogenetic and other trees. Nucleic acids research. 44, 242-245 (2016).

Tags

जीव विज्ञान अंक 171 जैव सूचना जीन विस्तार ब्लास्ट ट्रांसक्रिप्टोम जीनोम मेगा
आरएनए-एसईक्यू का उपयोग करके आणविक विकास और जीन अभिव्यक्ति की जांच के लिए एक बायोइन्फॉर्मेटिक्स पाइपलाइन
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Macias-Muñoz, A., Mortazavi, A. More

Macias-Muñoz, A., Mortazavi, A. A Bioinformatics Pipeline for Investigating Molecular Evolution and Gene Expression using RNA-seq. J. Vis. Exp. (171), e61633, doi:10.3791/61633 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter