Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

मीरमशीन: प्लांट मिआरएनए एनोटेशन के लिए एक वन-स्टॉप शॉप

Published: May 1, 2021 doi: 10.3791/62430

Summary

यहां, हम एक नई और पूरी तरह से स्वचालित माइआरएनए पाइपलाइन प्रस्तुत करते हैं, mirMachine कि 1) ज्ञात और उपन्यास MIRNA को अधिक सटीक रूप से पहचान सकता है और 2) पूरी तरह से स्वचालित और स्वतंत्र रूप से उपलब्ध है। उपयोगकर्ता अब पूरी तरह से स्वचालित mirMachine पाइपलाइन चलाने के लिए एक छोटी सबमिशन स्क्रिप्ट निष्पादित कर सकते हैं।

Abstract

विभिन्न प्रकार के नॉनकोडिंग आरएनए में से, माइक्रोआरएनए (एमआईआरएनए) यकीनन पिछले एक दशक में सुर्खियों में रहे हैं। जीन अभिव्यक्ति के पोस्ट-ट्रांसक्रिप्शनल नियामकों के रूप में, एमआईआरएनए विभिन्न सेलुलर मार्गों में महत्वपूर्ण भूमिका निभाते हैं, जिसमें विकास और जैविक तनाव के लिए प्रतिक्रिया दोनों शामिल हैं, जैसे कि सूखा और बीमारियां। उच्च गुणवत्ता वाले संदर्भ जीनोम अनुक्रमों के होने से कई पौधों की प्रजातियों में एमआईआरएनए की पहचान और एनोटेशन सक्षम होता है, जहां एमआईआरएनए अनुक्रम अत्यधिक संरक्षित होते हैं। चूंकि कम्प्यूटेशनल एमआरएनए पहचान और एनोटेशन प्रक्रियाएं ज्यादातर त्रुटि-प्रवण प्रक्रियाएं हैं, होमोलॉजी-आधारित भविष्यवाणियां भविष्यवाणी सटीकता को बढ़ाती हैं। हमने पिछले दशक में एमआईआरएनए एनोटेशन पाइपलाइन, सुमीर को विकसित और बेहतर बनाया है, जिसका उपयोग तब से कई पौधों के जीनोम के लिए किया गया है।

यह अध्ययन एक पूरी तरह से स्वचालित, नई मिआरएनए पाइपलाइन, mirMachine (mirNA मशीन) प्रस्तुत करता है, (i) द्वितीयक संरचना भविष्यवाणियों पर एक अतिरिक्त फ़िल्टरिंग चरण जोड़कर, (ii) इसे पूरी तरह से स्वचालित बनाना, और (iii) पिछली पाइपलाइन का उपयोग करके छोटे आरएनए अनुक्रमण के आधार पर होमोलोगोलॉजी या उपन्यास एमआईआरएनए के आधार पर ज्ञात माइआरएनए की भविष्यवाणी करने के लिए नए विकल्प पेश करना। नई एमआईआरएनए पाइपलाइन, मीरमशीन का परीक्षण एराबिडोप्सिस सूचना संसाधन, टीएआईआर 10, एराबिडोप्सिस जीनोम की रिहाई और अंतर्राष्ट्रीय गेहूं जीनोम अनुक्रमण कंसोर्टियम (आईडब्ल्यूजीएससी) गेहूं संदर्भ जीनोम वी 2 का उपयोग करके किया गया था।

Introduction

अगली पीढ़ी की अनुक्रमण प्रौद्योगिकियों में प्रगति ने आरएनए संरचनाओं और नियामक तत्वों की समझ को व्यापक बनाया है, कार्यात्मक रूप से महत्वपूर्ण गैर-कोडिंग आरएनए (एनसीआरएनए) का खुलासा किया है। विभिन्न प्रकार के एनसीआरएनए में, माइक्रोआरएनए (एमआईआरएनए) पौधों 1,2 में 19 और 24 न्यूक्लियोटाइड के बीच लंबाई के साथ छोटे आरएनए का एक मौलिक नियामक वर्ग बनाते हैं। नेमाटोड केनोरहाब्डिस एलिगेंस3 में पहले माइआरएनए की खोज के बाद से, माइआरएनए की उपस्थिति और कार्यों का जानवरों और पौधों के जीनोम के साथ-साथ 4,5,6 में बड़े पैमाने पर अध्ययन किया गया है। माइआरएनए दरार या ट्रांसलेशनल दमन के लिए एमआरएनए को लक्षित करके कार्यकरते हैं। साक्ष्य जमा करने से यह भी पता चला है कि एमआईआरएनए पौधों में जैविक प्रक्रियाओं की एक विस्तृत श्रृंखला में शामिल हैं जिनमें विकास और विकास8, स्व-बायोजेनेसिस9, और कई जैविक और अजैविक तनाव प्रतिक्रियाएंशामिल हैं।

पौधों में, एमआईआरएनए को शुरू में लंबे प्राथमिक प्रतिलेख से संसाधित किया जाता है जिसे प्री-एमआईआरएनए11 कहा जाता है। नाभिक के अंदर आरएनए पोलीमरेज़ II द्वारा उत्पन्न ये प्री-एमआईआरएनए एक अपूर्ण फोल्ड-बैक संरचना12 बनाने वाले लंबे प्रतिलेख हैं। प्री-एमआईआरएनए बाद में प्री-एमआईआरएनए11 नामक एमआईआरएनए के अंतर्जात एकल-फंसे (एसएस) हेयरपिन अग्रदूतों का उत्पादन करने के लिए एक दरार प्रक्रिया से गुजरते हैं। प्री-माइआरएनए एक हेयरपिन जैसी संरचना बनाता है जिसमें एक एकल स्ट्रैंड एक डबल-स्ट्रैंड संरचना में फोल्ड होता है ताकि एक एमआईआरएनए डुप्लेक्स (एमआईआरएनए / एमआईआरएनए *) 13 का उत्पादन किया जा सके। डाइसर जैसा प्रोटीन एमआईआरएनए / एमआईआरएनए * डुप्लेक्स के दोनों किस्में काटता है, जिससे 2-न्यूक्लियोटाइड 3'-ओवरहैंग14,15 रह जाते हैं। मिआरएनए डुप्लेक्स नाभिक के अंदर मिथाइलेटेड होता है, जो माइआरएनए के 3'-अंत को क्षरण और यूरिनाइलेशन गतिविधि16,17 से बचाता है। एक हेलिकेस निर्यात के बाद मिथाइलेटेड मिआरएनए डुप्लेक्स को खोल देता है और परिपक्व एमआईआरएनए को साइटोसोल18 में आरएनए-प्रेरित साइलेंसिंग कॉम्प्लेक्स (आरआईएससी) में उजागर करता है। डुप्लेक्स का एक स्ट्रैंड परिपक्व मिआरएनए है जिसे आरआईएससी में शामिल किया गया है, जबकि दूसरा स्ट्रैंड, एमआईआरएनए *, अवक्रमित है। MIRNA-RISC कॉम्प्लेक्स लक्ष्य अनुक्रम को बांधता है जिससे पूर्ण पूरकता के मामले में या तो एमआरएनए क्षरण होता है या आंशिक पूरकताके मामले में ट्रांसलेशनल दमन होता है।

अभिव्यक्ति और बायोजेनेसिस विशेषताओं के आधार पर, एमआईआरएनए एनोटेशन के लिए दिशानिर्देश15,19 वर्णित किए गए हैं। परिभाषित दिशानिर्देशों के साथ, लुकास और बुदक ने पौधों 9 में सिलिको मिआरएनए पहचान में होमोलॉजी-आधारित होमोलॉजी करने के लिए सुमीर पाइपलाइन विकसितकी। सुमीर पाइपलाइन दो लिपियों से बनी थी: सुमीरफाइंड और सुमीरफोल्ड। एसयूमिरफाइंड नेशनल सेंटर फॉर बायोटेक्नोलॉजी इंफॉर्मेशन (एनसीबीआई) बेसिक लोकल एलाइनमेंट सर्च टूल (ब्लास्ट) स्क्रीनिंग के माध्यम से ज्ञात एमआईआरएनए डेटासेट के खिलाफ समानता खोज करता है, जिसमें केवल 2 या उससे कम बेमेल वाले हिट शामिल होते हैं और छोटे हिट (ब्लास्टन-शॉर्ट-अनकैप्ड-पेनल्टी -1-रिवॉर्ड 1) के प्रति पूर्वाग्रह से बचने के लिए। एसयूमिरफोल्ड यूएनएफोल्ड21 का उपयोग करके ब्लास्ट20 परिणामों से कथित मिआरएनए अनुक्रमों की द्वितीयक संरचना का मूल्यांकन करता है। एसयूमिरफोल्ड हेयरपिन संरचना की विशेषताओं की पहचान करके छोटे हस्तक्षेप करने वाले आरएनए से एमआईआरएनए को अलग करता है। इसके अलावा, यह मापदंडों द्वारा टीआरएनए और आरआरएनए जैसे अन्य एसएसआरएनए से एमआईआरएनए को अलग करता है, न्यूनतम गुना ऊर्जा सूचकांक > 0.67 और जीसी सामग्री 24-71% है। इस पाइपलाइन को हाल ही में दो अतिरिक्त चरणों को जोड़कर अपडेट किया गया है (i) संवेदनशीलता में वृद्धि, (ii) एनोटेशन सटीकता में वृद्धि, और (iii) अनुमानित MIRNA जीन22 का जीनोमिक वितरण प्रदान करना। प्लांट मिआरएनएअनुक्रम23 के उच्च संरक्षण को देखते हुए, इस पाइपलाइन को मूल रूप से होमोलॉजी-आधारित मिआरएनए भविष्यवाणी के लिए डिज़ाइन किया गया था। हालांकि, इस जैव सूचना विज्ञान विश्लेषण के साथ नोवेल एमआईआरएनए को सटीक रूप से पहचाना नहीं जा सका क्योंकि यह निकटता से संबंधित प्रजातियों के बीच एमआईआरएनए के अनुक्रम संरक्षण पर बहुत अधिक निर्भर था।

यह पेपर एक नई और पूरी तरह से स्वचालित माइआरएनए पाइपलाइन प्रस्तुत करता है, mirMachine कि 1) ज्ञात और उपन्यास MIRNA को अधिक सटीक रूप से पहचान सकता है (उदाहरण के लिए, पाइपलाइन अब sRNA-seq-आधारित उपन्यास MIRNA भविष्यवाणियों के साथ-साथ होमोलॉजी-आधारित MIRNA पहचान का उपयोग करती है) और 2) पूरी तरह से स्वचालित और स्वतंत्र रूप से उपलब्ध है। आउटपुट में अनुमानित एमआईआरएनए के जीनोमिक वितरण भी शामिल हैं। गेहूं और एराबिडोप्सिस जीनोम में होमोलॉजी-आधारित और एसआरएनए-सेक-आधारित भविष्यवाणियों दोनों के लिए मीरमशीन का परीक्षण किया गया था। हालांकि शुरू में मुफ्त सॉफ्टवेयर के रूप में जारी किया गया था, यूएनएफोल्ड पिछले दशक में एक वाणिज्यिक सॉफ्टवेयर बन गया। इस उन्नयन के साथ, द्वितीयक संरचना पूर्वानुमान उपकरण को UNAfold से RNAfold में बदल दिया गया था ताकि mirMachine स्वतंत्र रूप से उपलब्ध हो सके। उपयोगकर्ता अब पूरी तरह से स्वचालित mirMachine पाइपलाइन को चलाने के लिए एक छोटी सबमिशन स्क्रिप्ट निष्पादित कर सकते हैं (उदाहरण https://github.com/hbusra/mirMachine.git पर प्रदान किए जाते हैं)।

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. सॉफ्टवेयर निर्भरता और स्थापना

  1. अपनी होम साइट से या कोंडा का उपयोग करके सॉफ़्टवेयर निर्भरता स्थापित करें।
    1. Perl डाउनलोड और स्थापित करें, यदि यह पहले से स्थापित नहीं है, तो इसकी होम साइट से (https://www.perl.org/get.html).
      नोट: प्रतिनिधित्व किए गए परिणामों की भविष्यवाणी Perl v5.32.0 का उपयोग करके की गई थी।
    2. ब्लास्ट +, एक संरेखण प्रोग्राम, अपनी होम साइट (https://www.ncbi.nlm.nih.gov/books/NBK279671/) से निष्पादन योग्य और स्रोत कोड के रूप में डाउनलोड करें।
      नोट: ब्लास्ट 2.6.0+ का उपयोग करके प्रतिनिधित्व किए गए परिणामों की भविष्यवाणी की गई थी।
    3. https://www.tbi.univie.ac.at/RNA/ से RNAफोल्ड का पूर्व-संकलित पैकेज स्थापित करें।
    4. वैकल्पिक रूप से, निम्नलिखित कोंडा का उपयोग करके इन सॉफ्टवेयरों को स्थापित करें: i) कोंडा इंस्टॉल -सी बायोकोंडा ब्लास्ट; ii) बायोकोंडा विएना को स्थापित करना।

2. mirMachine सेटअप और परीक्षण

  1. GitHub, https://github.com/hbusra/mirMachine.git से mirMachine स्क्रिप्ट और mirMachine सबमिशन स्क्रिप्ट का नवीनतम संस्करण डाउनलोड करें, और फिर स्क्रिप्ट पथ को पथ में सेट करें।
  2. GitHub पर प्रदान किए गए परीक्षण डेटा का उपयोग यह सुनिश्चित करने के लिए करें कि mirMachine अपनी सभी निर्भरताओं के साथ सही ढंग से डाउनलोड किया गया है।
  3. नीचे दिखाए गए परीक्षण डेटा पर mirMachine चलाएँ।
    bash mirMachine_submit.sh -f iwgsc_v2_chr5A.fasta -i mature_high_conf_v22_1.fa.filtered.fasta -n 10
    नोट: -एन विकल्प को 10 पर सेट करें क्योंकि परीक्षण डेटा में गेहूं जीनोम का केवल एक गुणसूत्र होता है। डिफ़ॉल्ट रूप से, -n विकल्प 20 पर सेट है।
  4. अनुमानित परिपक्व एमआईआरएनए, उनके अनुमानित अग्रदूतों और गुणसूत्रों पर उनके स्थानों के लिए हेयरपिन्स.tbl.out.tbl आउटपुट फ़ाइलों को नियंत्रित करें।
  5. प्रोग्राम आउटपुट और चेतावनियों के लिए लॉग फ़ाइलों की जाँच करें।

3. होमोलॉजी-आधारित एमआईआरएनए पहचान

  1. नीचे दिखाए गए बैश स्क्रिप्ट का उपयोग करके mirMachine चलाएँ:
    bash mirMachine_submit.sh -f $genome_file -i $input_file -m $mismatches -n $number_of_hits
  2. अनुमानित एमआईआरएनए की जांच करें। अनुमानित miRNA के लिए $input_file.results.tbl.hairpins.tbl.out.tbl.tbl नाम की आउटपुट फ़ाइल खोजें। पूर्व-miRNA FASTA अनुक्रमों के लिए $input_file.results.tbl.hairpins.fsa नामक आउटपुट फ़ाइल खोजें। हेयरपिन लॉग फ़ाइल के लिए $input_file.results.tbl.hairpins.log नामक आउटपुट फ़ाइल ढूँढें.

4. नोवेल मिआरएनए पहचान

  1. SRNA-seq FASTQ फ़ाइलों को उचित FASTA प्रारूप में प्रीप्रोसेस करें। यदि आवश्यक हो तो एडाप्टर ट्रिम करें। कम गुणवत्ता वाले पढ़ने को ट्रिम न करें; इसके बजाय, उन्हें हटा दें। एन युक्त रीड को हटा दें। FASTQ फ़ाइल को FASTA फ़ाइल ($input_file) में कनवर्ट करें।
  2. नीचे दिखाए गए बैश स्क्रिप्ट का उपयोग करके mirMachine चलाएँ।
    bash mirMachine_submit.sh -f $genome_file -i $input_file -n $number_of_hits -sRNAAseq -lmax $lmax -lmin $lmin -rpm $rpm
    नोट: $mismatches एसआरएनए-सेक आधारित भविष्यवाणियों के लिए 0 पर सेट किया गया था।
  3. अनुमानित एमआईआरएनए की जांच करें। अनुमानित miRNA के लिए $input_file.results.tbl.hairpins.tbl.out.tbl.tbl नाम की आउटपुट फ़ाइल खोजें। पूर्व-miRNA FASTA अनुक्रमों के लिए $input_file.results.tbl.hairpins.fsa नामक आउटपुट फ़ाइल खोजें। हेयरपिन लॉग फ़ाइल के लिए $input_file.results.tbl.hairpins.log नामक आउटपुट फ़ाइल ढूँढें.

5. अग्रिम पैरामीटर

नोट: डिफ़ॉल्ट जीनोम फ़ाइल और इनपुट माइआरएनए फ़ाइल को छोड़कर सभी मापदंडों के लिए परिभाषित किए गए हैं।

  1. पाइपलाइन के भीतर बिल्डिंग संदर्भ डेटाबेस को छोड़ने के लिए ब्लास्ट डेटाबेस में -डीबी विकल्प सेट करें।
  2. अनुमत बेमेल की संख्या के लिए -m विकल्प सेट करें।
    नोट: डिफ़ॉल्ट रूप से, -एम विकल्प होमोलॉजी-आधारित भविष्यवाणियों के लिए 1 और एसआरएनए-सेक-आधारित भविष्यवाणियों के लिए 0 पर सेट किया गया था।
  3. संरेखण के बाद खत्म करने के लिए हिट की संख्या पर -एन सेट करें (डिफ़ॉल्ट रूप से 20)। प्रजातियों के आधार पर इसे बदलें।
  4. संदिग्ध सूची के लिए द्वितीयक संरचनाओं का आकलन करने के लिए -लॉन्ग का उपयोग करें।
  5. एसआरएनए-सेक डेटा के आधार पर उपन्यास मिआरएनए भविष्यवाणी को सक्रिय करने के लिए -एस का उपयोग करें।
  6. स्क्रीनिंग में शामिल करने के लिए एसआरएनए-सेक रीड की अधिकतम लंबाई के लिए -एलमैक्स विकल्प सेट करें।
  7. स्क्रीनिंग में शामिल करने के लिए एसआरएनए-सेक रीड की न्यूनतम लंबाई के लिए -एलमैक्स विकल्प सेट करें।
  8. रीड्स पर मिलियन ( आरपीएम ) सीमा सेट करने के लिए -आरपीएम विकल्प का उपयोग करें।
    नोट: प्री-एमआईआरएनए / प्री-एमआईआरएनए की लंबाई जैसे उन्नत मापदंडों के लिए, अनुभवी उपयोगकर्ताओं को उनकी रुचि के शोध के लिए स्क्रिप्ट को संशोधित करने के लिए प्रोत्साहित किया जाता है। इसके अतिरिक्त, यदि उपयोगकर्ता कुछ चरणों को छोड़ने का इरादा रखते हैं या संशोधित आउटपुट का उपयोग करना पसंद करते हैं, तो सबमिशन स्क्रिप्ट को उन लाइनों को छोड़ने के लिए लाइनों की शुरुआत में # जोड़कर संशोधित किया जा सकता है।

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

ऊपर वर्णित एमआईआरएनए पाइपलाइन, मीरमशीन को पाइपलाइन के प्रदर्शन के तेजी से मूल्यांकन के लिए परीक्षण डेटा पर लागू किया गया था। एमआईआरबेस वी 22.1 पर जमा केवल उच्च आत्मविश्वास वाले पौधे एमआईआरएनए को आईडब्ल्यूजीएससी गेहूं रेफसेक जीनोम वी 224 के गुणसूत्र 5 ए के खिलाफ जांच की गई थी। mirMachine_find 189 उच्च-आत्मविश्वास वाले एमआईआरएनए की गैर-अनावश्यक सूची के लिए 312 हिट दिए, जिसमें अधिकतम 1 बेमेल की अनुमति थी (तालिका 1)। mirMachine_fold माध्यमिक संरचना मूल्यांकन के आधार पर उनमें से 49 को कथित एमआईआरएनए के रूप में वर्गीकृत किया है। एमआईआरएनए का उच्चतम प्रतिनिधित्व समूह एमआईआर 9666 था जिसमें कुल 18 एमआईआरएनए की पहचान की गई थी (चित्रा 1)। कुछ एमआईआरएनए ने एक ही परिपक्व माइआरएनए साझा किया, लेकिन एक अलग पूर्व-मिआरएनए अनुक्रम से संसाधित किया गया। इन एमआईआरएनए का नाम बदलकर एमआईआरएनए परिवार के नाम से रखा गया था, जिसके बाद एक अद्वितीय संख्या, जैसे, एमआईआर 156-5 पी -1 और एमआईआर 156-5 पी -2। 49 कथित एमआईआरएनए में से, 20 गैर-निरर्थक परिपक्व मिआरएनए अनुक्रमों की पहचान की गई थी। कुछ एमआईआरएनए को एक से अधिक स्थानों से स्थानांतरित किया जा सकता है जिसके परिणामस्वरूप अधिक संख्या में एमआईआरएनए का प्रतिनिधित्व किया जाता है। परीक्षण डेटा में, MIR9666-3p-5 को दो बार दर्शाया गया था: एक सेंस स्ट्रैंड (602887137 पर) और दूसरा एंटीसेंस स्ट्रैंड (542053079 पर)। सभी स्थान GitHub में mature_high_conf_v22_1.fa.filtered.fasta.results.tbl. hairpins.tbl.out.tbl नाम की टेस्टडेटा आउटपुट फ़ाइल के तहत प्रदान किए जाते हैं।

पौधों में एमआईआरएनए के संरक्षण को देखते हुए, एक पौधे जीनोम में अभिव्यक्ति साक्ष्य पर्याप्त है; हालांकि, एक उच्च-आत्मविश्वास एमआईआरएनए डेटासेट केवल सीमित मात्रा में डेटा प्रदान करता है। इसलिए, संदर्भ डेटासेट के रूप में उच्च-आत्मविश्वास और / या प्रयोगात्मक रूप से मान्य एमआईआरएनए का उपयोग करना और अभिव्यक्ति सत्यापन चरण को छोड़ना, या संदर्भ डेटासेट के रूप में उपलब्ध सभी प्लांट एमआईआरएनए का उपयोग करना और बाद में अभिव्यक्ति साक्ष्य की तलाश करना उपयोगकर्ता की प्राथमिकता है। यहां, जैसा कि उच्च-आत्मविश्वास वाले एमआईआरएनए को संदर्भ सेट के रूप में उपयोग किया गया था, जिसे पौधे जीनोम में से एक में प्रयोगात्मक रूप से मान्य किया गया था, परीक्षण डेटा के लिए अभिव्यक्ति सत्यापन चरण को छोड़ दिया गया था।

एराबिडोप्सिस थैलियाना (एराबिडोप्सिस, टीएआईआर 10 रिलीज) और ट्रिटिकम एस्टिवम (गेहूं, आईडब्ल्यूजीएससी रेफसेक वी 2) सहित मोनोकोट और डायकोट पौधों का उपयोग करके मीरमशीन को बेंचमार्क किया गया था। होमोलॉजी-आधारित और एसआरएनए-सेक-आधारित भविष्यवाणियों के प्रदर्शन का मूल्यांकन किया गया था, और परिणामों की तुलना एमआईआरडीपी25, एक एनजीएस-आधारित एमआरएनए भविष्यवाणी उपकरण के साथ की गई थी। होमोलॉजी-आधारित भविष्यवाणियों को mirase v2226 पर जमा पौधे परिपक्व MIRNA अनुक्रमों की गैर-निरर्थक सूची का उपयोग करके निष्पादित किया गया था। एसआरएनए-सेक-आधारित भविष्यवाणियों को सार्वजनिक रूप से उपलब्ध डेटासेट का उपयोग करके निष्पादित किया गया था; एराबिडोप्सिस के लिए जीएसएम 2094927 और गेहूं के लिए जीएसएम 1294661। कच्चे परिणामों के अलावा, होमोलॉजी-आधारित भविष्यवाणियों को एक ही एसआरएनए-सेक डेटासेट का उपयोग करके परिपक्व एमआरएनए और एमआईआरएनए स्टार अनुक्रमों के अभिव्यक्ति साक्ष्य के लिए फ़िल्टर किया गया था।

चित्रा 2 प्रत्येक उपकरण के प्रदर्शन और दो प्रजातियों पर मीरमशीन सेटिंग्स को दर्शाता है। संवेदनशीलता की गणना पहचाने गए ज्ञात एमआईआरएनए की कुल संख्या के रूप में की गई थी, जिसे पहचाने गए एमआईआरएनए की कुल संख्या से विभाजित किया गया था। परिणामों से पता चला है कि मिरमशीन ने संवेदनशीलता और एराबिडोप्सिस डेटा में सही सकारात्मक भविष्यवाणियों के मामले में एमआईआरडीपी 2 को पीछे छोड़ दिया। गेहूं के आंकड़ों के लिए, अभिव्यक्ति साक्ष्य द्वारा समर्थित मीरमशीन होमोलॉजी-आधारित भविष्यवाणी ने एमआईआरडीपी 2 की तुलना में बेहतर संवेदनशीलता प्रदान की। दोनों जीनोम के लिए, MIRDP2 ने अभिव्यक्ति साक्ष्य के साथ mirMachine sRNA-seq और होमोलॉजी-आधारित भविष्यवाणियों की तुलना में सच्चे सकारात्मक की अधिक संख्या की भविष्यवाणी की। यह ध्यान दिया जाना चाहिए कि MIRDP2 ज्ञात MIRNA की भविष्यवाणी के लिए अभिव्यक्ति सीमा (RPM, प्रति मिलियन पढ़ता है) को 10 से 1 तक कम करता है, जिसके परिणामस्वरूप उच्च सच्ची सकारात्मक भविष्यवाणियां होती हैं। सामान्य तौर पर, मीरमशीन का उपयोग उपन्यास और ज्ञात एमआईआरएनए दोनों की पहचान के लिए किया जा सकता है। मीरमशीन का एक लाभ विशिष्ट ऊतकों और स्थितियों की सीमा के बिना कथित एमआईआरएनए के जीनोम-व्यापी वितरण की भविष्यवाणी करने की क्षमता है। अंत में, mirMachine उपयोगकर्ता के अनुकूल है और विशिष्ट अनुसंधान उद्देश्यों के लिए हिट की संख्या, बेमेल, MIRNA की लंबाई और RPM जैसे मापदंडों को समायोजित करने के लिए लचीलापन प्रदान करता है। एक साथ लिया गया, मीरमशीन ट्रांसस्क्रिप्टम और पौधों के जीनोम में कथित एमआईआरएनए के लिए सटीक भविष्यवाणियां प्रदान करता है।

Figure 1
चित्रा 1: आईडब्ल्यूजीएससी गेहूं संदर्भ जीनोम वी 2 के गुणसूत्र 5 ए से पहचाने गए एमआईआरएनए परिवारों का वितरण। डेटा लेबल एमआईआरएनए परिवार और प्रत्येक एमआईआरएनए परिवार से संबंधित एमआईआरएनए की संख्या दिखाते हैं। संक्षेप: mirNA = माइक्रोआरएनए; IWGSC = अंतर्राष्ट्रीय गेहूं जीनोम अनुक्रमण कंसोर्टियम। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें।

Figure 2
चित्रा 2: mirMachine का प्रदर्शन मूल्यांकन। संवेदनशीलता और अनुमानित ज्ञात एमआईआरएनए की कुल संख्या (सही सकारात्मक) की तुलना होमोलॉजी-आधारित और एसआरएनए-सेक-आधारित भविष्यवाणियों और एमआईआरडीपी 2 सॉफ्टवेयर के साथ मीरमशीन के लिए दिखाई गई है। संक्षिप्त नाम: mirNA = माइक्रोआरएनए। कृपया इस आंकड़े का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें।

जीनोम जीनोम का आकार संदर्भ miRNA dataset mirMachine_find हिट्स mirMAchine_fold हिट्स # MIRNA परिवारों का #
डेटा का परीक्षण करें ~ 0.7 Gb 189 312 49 9
Chr5A

तालिका 1: मीरमशीन के आंकड़े। परीक्षण डेटा आईडब्ल्यूजीएससी गेहूं संदर्भ जीनोम वी 2 के गुणसूत्र 5 ए से हैं। संक्षेप: mirNA = माइक्रोआरएनए; IWGSC = अंतर्राष्ट्रीय गेहूं जीनोम अनुक्रमण कंसोर्टियम।

Subscription Required. Please recommend JoVE to your librarian.

Discussion

हमारी एमआईआरएनए पाइपलाइन, सुमीर, का उपयोग पिछले दशक से कई संयंत्र एमआईआरएनए की पहचान के लिए किया गया है। यहां, हमने एक नया, पूरी तरह से स्वचालित, और स्वतंत्र रूप से उपलब्ध एमआईआरएनए पहचान और एनोटेशन पाइपलाइन, mirMachine विकसित किया। इसके अलावा, कई एमआईआरएनए पहचान पाइपलाइनें, जिनमें पिछली पाइपलाइन तक सीमित नहीं थीं, यूएनएफोल्ड सॉफ्टवेयर21 पर निर्भर थीं, जो समय के साथ एक वाणिज्यिक सॉफ्टवेयर बन गया, हालांकि एक बार स्वतंत्र रूप से उपलब्ध था। यह नया और पूरी तरह से स्वचालित mirMachine अब UNAfold पर निर्भर नहीं है; इसके बजाय, वियना पैकेज27 से स्वतंत्र रूप से उपलब्ध आरएनएफोल्ड का उपयोग माध्यमिक संरचना की भविष्यवाणी के लिए किया जाता है। इसके अतिरिक्त, mirMachine के लिए सभी स्क्रिप्ट को समायोज्य मापदंडों के साथ एक बैश स्क्रिप्ट में इकट्ठा किया गया था ताकि mirMachine एक पूरी तरह से स्वचालित और स्वतंत्र रूप से उपलब्ध MIRNA भविष्यवाणी और एनोटेशन टूल बन सके।

मीरमशीन को पौधे एमआईआरएनए की विशेषताओं और उनके जैवजनन से लाभ हुआ। पशु पूर्व-एमआईआरएनए के विपरीत, पौधे पूर्व-एमआईआरएनए लंबाई औरसंरचनात्मक विशेषताओं में परिवर्तनशील हैं। नतीजतन, एमआईआरएनए की विशेषताओं और उनके बायोजेनेसिस15 के आधार पर पौधे एमआईआरएनए की पहचान के लिए एक मानदंड निर्धारित किया गया है। प्री-माइआरएनए लंबाई के लिए कोई कट-ऑफ निर्धारित नहीं किया गया था क्योंकि पौधे प्री-एमआईआरएनए की लंबाई उल्लेखनीय रूप से भिन्न हो सकती है और सैकड़ों न्यूक्लियोटाइड ्स लंबी हो सकती है। इसके बजाय, प्री-मिआरएनए संरचना फोल्डिंग, जो लंबाई में ~ 700 बीपी तक सीमित थी, का पहले मूल्यांकन किया गया था। बाद में, प्री-मिआरएनए अनुक्रम को उम्मीदवार प्री-मिआरएनए अनुक्रमों से भविष्यवाणी की गई थी और उचित फोल्डिंग आंकड़ों के लिए मूल्यांकन किया गया था।

कई पौधों के जीनोम, विशेष रूप से गेहूं और जौ जैसे कृषि संबंधी रूप से महत्वपूर्ण अनाज, अत्यधिक दोहराए जाने वाले जीनोम 28,29,30 होते हैं। उच्च-दोहराव सामग्री के अलावा, इनमें से कुछ पौधों में पॉलीप्लोइडी देखी जाती है,जो मिआरएनए संरचनाओं की सिलिको पहचान और लक्षण वर्णन के लिए अतिरिक्त जटिलताओं का परिचय देती है। पुनरावृत्ति एसआईआरएनए31 के उत्पादन के लिए एक प्रमुख स्रोत हैं, जो अपने परिपक्व रूपों में एमआईआरएनए से मिलते जुलते हैं; हालांकि, वे बायोजेनेसिस और फ़ंक्शन32,33 में भिन्न होते हैं। उम्मीदवार एमआईआरएनए सूचियों से एसआईआरएनए को खत्म करना बेहद मुश्किल है। वास्तव में, सबसे व्यापक रूप से इस्तेमाल किए जाने वाले एमआईआरएनए डेटाबेस, एमआईआरबेस26, में बड़ी संख्या में एसआईआरएनए को एमआईआरएनए34,35 के रूप में गलत तरीके से एनोटेट किया गया है। उनके बायोजेनेसिस में अंतर के आधार पर, मीरमशीन छोटे आरएनए को फ़िल्टर करता है जो एसआईआरएनए के रूप में एंटीसेंस स्ट्रैंड के साथ एक आदर्श जोड़ी बनाते हैं और उन अनुक्रमों को संदिग्ध तालिका में रखते हैं। इसके अतिरिक्त, mirMachine में -n विकल्प है, जो उम्मीदवार आरएनए को SIRNA के रूप में फ़िल्टर करने के लिए हिट की अधिकतम संख्या को परिभाषित करता है।

सिलिको में अनुमानित सभी एमआईआरएनए को मान्य करने के लिए अभिव्यक्ति साक्ष्य की आवश्यकता होती है। चूंकि एमआईआरएनए पौधों के जीनोम के बीच अत्यधिक संरक्षित हैं, इसलिए पौधे जीनोम में से एक में अभिव्यक्ति साक्ष्य अनुमानित माइआरएनए की वैधता की पुष्टि करने के लिए पर्याप्त होना चाहिए। प्रारंभिक स्क्रीनिंग प्रक्रिया में उच्च आत्मविश्वास, परिपक्व माइआरएनए अनुक्रमों के उपयोग में सभी अनुमानित एमआईआरएनए के लिए अभिव्यक्ति साक्ष्य प्रदान करने का लाभ है; हालांकि, प्रारंभिक एमआईआरएनए डेटासेट की छोटी सूची एक जीनोम में एमआईआरएनए के व्यापक सेट की भविष्यवाणी को सीमित करती है। वैकल्पिक रूप से, MIRBase डेटाबेस में जमा प्लांट MIRNA का एक पूरा सेट उच्च-आत्मविश्वास वाले MIRNA के लिए फ़िल्टरिंग के बजाय प्रारंभिक डेटासेट के रूप में उपयोग किया जा सकता है। उपयोगकर्ताओं को सलाह दी जाती है कि वे कम से कम एक पौधे जीनोम के लिए व्यक्त अनुक्रम टैग, एमआईआरएनए माइक्रोएरे, या छोटे आरएनए अनुक्रमण डेटा के माध्यम से अभिव्यक्ति साक्ष्य की तलाश करें यदि रुचि की प्रजातियों के लिए कोई अभिव्यक्ति डेटा उपलब्ध नहीं है।

होमोलॉजी-आधारित माइआरएनए भविष्यवाणियां एमआईआरएनए के ज्ञात परिवार के जीनोम-व्यापी वितरण को स्पष्ट करने में मदद कर सकती हैं। इन एमआईआरएनए को कुछ ऊतकों और स्थितियों में व्यक्त किए जाने की संभावना है। होमोलॉजी-आधारित भविष्यवाणियों का एक दोष उपन्यास मिआरएनए परिवारों की पहचान करने की क्षमता की कमी है। इसके विपरीत, एसआरएनए-सेक-आधारित भविष्यवाणियां बड़ी संख्या में झूठी सकारात्मकताओं की लागत के साथ नए एमआईआरएनए की पहचान कर सकती हैं। इसलिए, सर्वोत्तम दृष्टिकोण का विकल्प उपयोगकर्ताओं और रुचि के अनुसंधान पर निर्भर है। यहां प्रस्तुत मीरमशीन ज्ञात एमआईआरएनए या एसआरएनए अनुक्रमण के होमोलॉजी के आधार पर एमआईआरएनए की पहचान करने में मदद कर सकता है।

Subscription Required. Please recommend JoVE to your librarian.

Materials

Name Company Catalog Number Comments
https://www.ncbi.nlm.nih.gov/books/NBK279671/ Blast+
https://github.com/hbusra/mirMachine.git mirMachine submission script
https://www.perl.org/get.html Perl
https://www.tbi.univie.ac.at/RNA/ RNAfold
Arabidopsis TAIR10
Triticum aestivum (wheat, IWGSC RefSeq v2)

DOWNLOAD MATERIALS LIST

References

  1. Voinnet, O. Origin, biogenesis, and activity of plant microRNAs. Cell. 136 (4), 669-687 (2009).
  2. Budak, H., Akpinar, B. A. Plant miRNAs: biogenesis, organization and origins. Functional & Integrative Genomics. 15 (5), 523-531 (2015).
  3. Lee, R. C., Feinbaum, R. L., Ambros, V. The C. elegans heterochronic gene lin-4 encodes small RNAs with antisense complementarity to lin-14. Cell. 75 (5), 843-854 (1993).
  4. Zhang, L., et al. Exogenous plant MIR168a specifically targets mammalian LDLRAP1: evidence of cross-kingdom regulation by microRNA. Cell Research. 22 (1), 107-126 (2012).
  5. Pang, K. C., Frith, M. C., Mattick, J. S. Rapid evolution of noncoding RNAs: Lack of conservation does not mean lack of function. Trends in Genetics. 22 (1), 1-5 (2006).
  6. Guleria, P., Mahajan, M., Bhardwaj, J., Yadav, S. K. Plant small RNAs: biogenesis, mode of action and their roles in abiotic stresses. Genomics, Proteomics and Bioinformatics. 9 (6), 183-199 (2011).
  7. Jones-Rhoades, M. W., Bartel, D. P., Bartel, B. MicroRNAs and their regulatory roles in plants. Annual Review of Plant Biology. 57, 19-53 (2006).
  8. Singh, A., et al. Plant small RNAs: advancement in the understanding of biogenesis and role in plant development. Planta. 248 (3), 545-558 (2018).
  9. Lucas, S. J., Budak, H. Sorting the wheat from the chaff: identifying miRNAs in genomic survey sequences of Triticum aestivum chromosome 1AL. PloS One. 7 (7), 40859 (2012).
  10. Li, S., Castillo-González, C., Yu, B., Zhang, X. The functions of plant small RNAs in development and in stress responses. Plant Journal. 90 (4), 654-670 (2017).
  11. Lee, Y., Jeon, K., Lee, J. T., Kim, S., Kim, V. N. MicroRNA maturation: Stepwise processing and subcellular localization. EMBO Journal. 21 (17), 4663-4670 (2002).
  12. Lee, Y., et al. MicroRNA genes are transcribed by RNA polymerase II. EMBO Journal. 23 (2), 4051-4060 (2004).
  13. Bartel, D. P. MicroRNAs: Genomics, biogenesis, mechanism, and function. Cell. 116 (2), 281-297 (2004).
  14. Lee, Y., et al. The nuclear RNase III Drosha initiates microRNA processing. Nature. 425 (6956), 415-419 (2003).
  15. Meyers, B. C., et al. Criteria for annotation of plant microRNAs. Plant Cell. 20 (12), 3186-3190 (2008).
  16. Sanei, M., Chen, X. Mechanisms of microRNA turnover. Current Opinion in Plant Biology. 27, 199-206 (2015).
  17. Li, J., Yang, Z., Yu, B., Liu, J., Chen, X. Methylation protects miRNAs and siRNAs from a 3′-end uridylation activity in Arabidopsis. Current Biology. 15 (16), 1501-1507 (2005).
  18. Rogers, K., Chen, X. Biogenesis, turnover, and mode of action of plant microRNAs. Plant Cell. 25 (7), 2383-2399 (2013).
  19. Axtell, M. J., Meyers, B. C. Revisiting criteria for plant microRNA annotation in the Era of big data. Plant Cell. 30 (2), 272-284 (2018).
  20. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10 (1), 421 (2009).
  21. Markham, N. R. N., Zuker, M. UNAFold: Software for nucleic acid folding and hybridization. Methods in Molecular Biology. 453, 3-31 (2008).
  22. Alptekin, B., Akpinar, B. A., Budak, H. A comprehensive prescription for plant miRNA identification. Frontiers in Plant Science. 7, 2058 (2017).
  23. Zhang, B., Pan, X., Cannon, C. H., Cobb, G. P., Anderson, T. A. Conservation and divergence of plant microRNA genes. Plant Journal. 46 (2), 243-259 (2006).
  24. Appels, R., et al. Shifting the limits in wheat research and breeding using a fully annotated reference genome. Science. 361 (6403), 7191 (2018).
  25. Wang, Y., Kuang, Z., Li, L., Yang, X. A bioinformatics pipeline to accurately and efficiently analyze the microRNA transcriptomes in plants. Journal of Visualized Experiments: JoVE. (155), e59864 (2020).
  26. Kozomara, A., Griffiths-Jones, S. MiRBase: Annotating high confidence microRNAs using deep sequencing data. Nucleic Acids Research. 42, 68-73 (2014).
  27. Lorenz, R., et al. ViennaRNA Package 2.0. Algorithms for Molecular Biology. 6 (1), 26 (2011).
  28. Wicker, T., et al. Impact of transposable elements on genome structure and evolution in bread wheat. Genome Biology. 19 (1), 103 (2018).
  29. Flavell, R. B., Bennett, M. D., Smith, J. B., Smith, D. B. Genome size and the proportion of repeated nucleotide sequence DNA in plants. Biochemical Genetics. 12 (4), 257-269 (1974).
  30. Wicker, T., et al. The repetitive landscape of the 5100 Mbp barley genome. Mobile DNA. 8, 22 (2017).
  31. Yang, Q., Ye, Q. A., Liu, Y. Mechanism of siRNA production from repetitive DNA. Genes and Development. 29 (5), 526-537 (2015).
  32. Lam, J. K. W., Chow, M. Y. T., Zhang, Y., Leung, S. W. S. siRNA versus miRNA as therapeutics for gene silencing. Molecular Therapy. Nucleic Acids. 4 (9), 252 (2015).
  33. Bartel, B. MicroRNAs directing siRNA biogenesis. Nature Structural and Molecular Biology. 12 (7), 569-571 (2005).
  34. Meng, Y., Shao, C., Wang, H., Chen, M. Are all the miRBase-registered microRNAs true? A structure- and expression-based re-examination in plants. RNA Biology. 9 (3), 249-253 (2012).
  35. Berezikov, E., et al. Evolutionary flux of canonical microRNAs and mirtrons in Drosophila. Nature Genetics. 42 (1), author reply 9-10 6-9 (2010).

Tags

जीव विज्ञान अंक 171
मीरमशीन: प्लांट मिआरएनए एनोटेशन के लिए एक वन-स्टॉप शॉप
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Cagirici, H. B., Sen, T. Z., Budak,More

Cagirici, H. B., Sen, T. Z., Budak, H. mirMachine: A One-Stop Shop for Plant miRNA Annotation. J. Vis. Exp. (171), e62430, doi:10.3791/62430 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter