Summary
यहां, हम विवो आरएनए: आरएनए इंटरैक्शन के अध्ययन में उपयोग किए जाने वाले काइमेरिक आरएनए अनुक्रमण डेटा का विश्लेषण करने के लिए जैव सूचना विज्ञान पाइपलाइन की स्थापना और उपयोग का प्रदर्शन करने वाला एक प्रोटोकॉल प्रस्तुत करते हैं।
Abstract
छोटे नॉनकोडिंग आरएनए (एसएनसीआरएनए) के इन विवो जीन नियामक इंटरैक्शन की समझ, जैसे कि माइक्रोआरएनए (एमआईआरएनए ), उनके लक्ष्य आरएनए के साथ हाल के वर्षों में जैव रासायनिक दृष्टिकोणों द्वारा उन्नत किया गया है जो क्रॉस-लिंकिंग का उपयोग करते हैं स्एनसीआरएनए को पकड़ने के लिए बंधाव के बाद: चिमेरिक आरएनए और बाद में अनुक्रमण पुस्तकालयों के गठन के माध्यम से आरएनए इंटरैक्शन को लक्षित करें। जबकि काइमेरिक आरएनए अनुक्रमण से डेटासेट जीनोम-वाइड और miRNA भविष्यवाणी सॉफ्टवेयर की तुलना में काफी कम अस्पष्ट इनपुट प्रदान करते हैं, इस डेटा को सार्थक और कार्रवाई योग्य जानकारी में आसवित करने के लिए अतिरिक्त विश्लेषण की आवश्यकता होती है और जांचकर्ताओं को कम्प्यूटेशनल पृष्ठभूमि की कमी हो सकती है। यह रिपोर्ट हाल ही में ओपन-सोर्स सॉफ़्टवेयर टूल को स्थापित करने और लागू करने में एंट्री-लेवल कम्प्यूटेशनल जीवविज्ञानी का समर्थन करने के लिए एक ट्यूटोरियल प्रदान करती है: स्मॉल काइमेरिक आरएनए एनालिसिस पाइपलाइन (स्क्रैप)। प्लेटफ़ॉर्म आवश्यकताएँ, अपडेट, और पाइपलाइन चरणों की व्याख्या और प्रमुख उपयोगकर्ता-इनपुट चर में हेरफेर प्रदान किया जाता है। काइमेरिक आरएनए अनुक्रमण दृष्टिकोण से अंतर्दृष्टि प्राप्त करने के लिए जीवविज्ञानी के लिए एक बाधा को कम करने से नियामक एसएनसीआरएनए की खोज-आधारित जांच को स्प्रिंगबोर्ड करने की क्षमता है: कई जैविक संदर्भों में आरएनए इंटरैक्शन को लक्षित करें।
Introduction
छोटे नॉनकोडिंग आरएनए को भेदभाव और विकास, सिग्नल प्रोसेसिंग और रोग 1,2,3 जैसी विभिन्न प्रक्रियाओं में जीन के सूट से अभिव्यक्ति के समन्वय में उनकी पोस्ट-ट्रांसक्रिप्शनल भूमिकाओं के लिए अत्यधिक अध्ययन किया जाता है। माइक्रोआरएनए (miRNAs) सहित जीन-नियामक छोटे नॉनकोडिंग आरएनए (एसएनसीआरएनए) के लक्ष्य टेप को सटीक रूप से निर्धारित करने की क्षमता, बुनियादी और अनुवाद संबंधी दोनों स्तरों पर आरएनए जीव विज्ञान के अध्ययन के लिए महत्वपूर्ण है। miRNA बीज अनुक्रम और उसके संभावित लक्ष्यों के बीच प्रत्याशित पूरकता का फायदा उठाने वाले जैव सूचना संबंधी एल्गोरिदम का उपयोग अक्सर miRNA: लक्ष्य आरएनए इंटरैक्शन की भविष्यवाणी के लिए किया गया है। जबकि ये जैव सूचना एल्गोरिदम सफल रहे हैं, वे झूठे सकारात्मक और झूठे नकारात्मक परिणाम दोनों को भी परेशान कर सकते हैं, जैसा किकहीं और समीक्षा की गई है 4,5,6. हाल ही में, कई जैव रासायनिक दृष्टिकोणों को डिजाइन और कार्यान्वित किया गया है जो विवो sncRNA में स्पष्ट और अर्धमात्रात्मक निर्धारण की अनुमति देते हैं: विवो क्रॉसलिंकिंग द्वारा आरएनए इंटरैक्शन को लक्षित करें और एक एकल काइमेरिक आरएनए 4,5,7,8,9,10 बनाने के लिए एसएनसीआरएनए को अपने लक्ष्य में शारीरिक रूप से संलग्न करने के लिए एक बंधाव चरण को शामिल करने के लिए एक बंधाव चरण को शामिल करें . काइमेरिक आरएनए से अनुक्रमण पुस्तकालयों की बाद की तैयारी एसएनसीआरएनए के आकलन की अनुमति देती है: अनुक्रमण डेटा के कम्प्यूटेशनल प्रसंस्करण द्वारा आरएनए इंटरैक्शन को लक्षित करें। यह वीडियो छोटे काइमेरिक आरएनए विश्लेषण पाइपलाइन (स्क्रैप) नामक एक कम्प्यूटेशनल पाइपलाइन को स्थापित करने और उपयोग करने के लिए एक ट्यूटोरियल प्रदान करता है, जिसे एसएनसीआरएनए के मजबूत और प्रतिलिपि प्रस्तुत करने योग्य विश्लेषण की अनुमति देने के लिए डिज़ाइन किया गया है: चिमेरिक आरएनए अनुक्रमण पुस्तकालयों से आरएनए इंटरैक्शन को लक्षित करें6.
इस ट्यूटोरियल का एक लक्ष्य sncRNA के काइमेरिक आणविक readouts प्रदान जैव रासायनिक दृष्टिकोण के माध्यम से उत्पन्न डेटा के विश्लेषण के लिए बाधाओं को कम करके विशुद्ध रूप से भविष्य कहनेवाला जैव सूचना विज्ञान एल्गोरिदम पर अत्यधिक निर्भरता से बचने में जांचकर्ताओं की सहायता करना है: लक्ष्य आरएनए इंटरैक्शन। यह ट्यूटोरियल एक पाइपलाइन, स्क्रैप के उपयोग के माध्यम से प्रवेश स्तर के कम्प्यूटेशनल वैज्ञानिकों को मार्गदर्शन करने के लिए व्यावहारिक कदम और सुझाव प्रदान करता है, जो कि काइमेरिक आरएनए अनुक्रमण डेटा का विश्लेषण करने के लिए विकसित किया गया है, जिसे कई मौजूदा जैव रासायनिक प्रोटोकॉल द्वारा उत्पन्न किया जा सकता है, जिसमें क्रॉसलिंकिंग, बंधाव और अनुक्रमण शामिल हैं संकर (क्लैश) और अंतर्जात अर्गोनॉट-बाउंड आरएनए के सहसंयोजक बंधाव- क्रॉसलिंकिंग और इम्यूनोप्रिपिटेशन (क्लियर-क्लिप)7,9।
स्क्रैप का उपयोग अन्य कम्प्यूटेशनल पाइपलाइनों की तुलना में काइमेरिक आरएनए अनुक्रमण डेटा के विश्लेषण के लिए कई फायदे प्रदान करता है6. एक मुख्य लाभ इसकी व्यापक व्याख्या और पाइपलाइन के भीतर अच्छी तरह से समर्थित और नियमित रूप से अद्यतन जैव सूचना संबंधी लिपियों के लिए कॉल-आउट का समावेश है, वैकल्पिक पाइपलाइनों की तुलना में जो अक्सर पाइपलाइन में चरणों के लिए कस्टम और / या असमर्थित स्क्रिप्ट पर भरोसा करते हैं। यह सुविधा स्क्रैप को स्थिरता प्रदान करती है, जिससे शोधकर्ताओं के लिए पाइपलाइन से परिचित होना और इसके उपयोग को अपने वर्कफ़्लो में शामिल करना अधिक सार्थक हो जाता है। स्क्रैप को एसएनसीआरएनए की चोटियों को कॉल करने में वैकल्पिक पाइपलाइनों को बेहतर प्रदर्शन करने के लिए भी प्रदर्शित किया गया है: आरएनए इंटरैक्शन को लक्षित करें और क्रॉस-प्लेटफ़ॉर्म कार्यक्षमता के लिए, जैसा कि पूर्व प्रकाशन6 में विस्तृत है।
इस ट्यूटोरियल के अंत तक, उपयोगकर्ता (i) स्क्रैप के लिए प्लेटफ़ॉर्म आवश्यकताओं को जानने और स्क्रैप पाइपलाइनों को स्थापित करने में सक्षम होंगे, (ii) संदर्भ जीनोम स्थापित करें और स्क्रैप के लिए कमांड लाइन पैरामीटर सेट करें, और (iii) पीक कॉलिंग मानदंडों को समझें और पीक कॉलिंग और पीक एनोटेशन करें।
यह वीडियो व्यावहारिक विस्तार से वर्णन करेगा कि आरएनए जीव विज्ञान का अध्ययन करने वाले शोधकर्ता कैसे कम्प्यूटेशनल पाइपलाइन, स्क्रैप को स्थापित कर सकते हैं और बेहतर तरीके से उपयोग कर सकते हैं, ताकि मैसेंजर आरएनए जैसे लक्ष्य आरएनए के साथ एसएनसीआरएनए इंटरैक्शन का विश्लेषण किया जा सके, चिमेरिक आरएनए-अनुक्रमण डेटा में से एक के माध्यम से प्राप्त किया गया जैव रासायनिक दृष्टिकोण अनुक्रमण पुस्तकालय की तैयारी।
स्क्रैप एक कमांड लाइन उपयोगिता है। आम तौर पर, नीचे दिए गए गाइड का पालन करते हुए, उपयोगकर्ता को (i) स्क्रैप (https://github.com/Meffert-Lab/SCRAP) डाउनलोड और इंस्टॉल करना होगा, (ii) संदर्भ जीनोम स्थापित करना और स्क्रैप चलाना, और (iii) पीक कॉलिंग और एनोटेशन करना होगा।
इस प्रक्रिया में कम्प्यूटेशनल चरणों का अधिक विवरण https://github.com/Meffert-Lab/SCRAP पर पाया जा सकता है। यह आलेख प्रवेश स्तर के कम्प्यूटेशनल कौशल के साथ जांचकर्ताओं को चिमेरिक आरएनए अनुक्रमण पुस्तकालय डेटासेट पर स्क्रैप को स्थापित, अनुकूलित और उपयोग करने की अनुमति देने के लिए सेटअप और पृष्ठभूमि की जानकारी प्रदान करेगा।
Subscription Required. Please recommend JoVE to your librarian.
Protocol
नोट: प्रोटोकॉल स्क्रैप का उपयोग करके काइमेरिक आरएनए अनुक्रमण पुस्तकालयों का विश्लेषण करने के लिए आवश्यक सॉफ़्टवेयर डाउनलोड करने और स्थापित करने के साथ शुरू होगा।
1. स्थापना
- स्क्रैप स्थापित करने से पहले, विश्लेषण के लिए उपयोग की जाने वाली मशीन पर निर्भरता गिट और मिनिकोंडा स्थापित करें। गिट संभवतः पहले से ही स्थापित है। मैक ओएसएक्स प्लेटफॉर्म पर, उदाहरण के लिए, यह सत्यापित करें कि किस गिट का उपयोग करके यह देखने के लिए कि "गिट" उपयोगिता मौजूद है और इस निर्देशिका में स्थापित है। जांचें कि क्या मिनिकोंडा किस कोंडा का उपयोग करके स्थापित किया गया है। यदि कुछ भी वापस नहीं किया जाता है, तो मिनिकोंडा स्थापित करें। मिनिकोंडा को स्थापित करने के लिए 400 एमबी डिस्क स्थान की आवश्यकता होती है।
- मिनिकोंडा को स्थापित करने के कुछ तरीके हैं, और वे प्लेटफॉर्म द्वारा भिन्न होते हैं। मेफ़र्ट लैब गिटहब रिपॉजिटरी [https://github.com/Meffert-Lab/SCRAP/blob/main/PLATFORM-SETUP.md] पर PLATFORM-SETUP मार्कडाउन फ़ाइल देखें जहां विंडोज, मैकओएस और उबंटू पर इंस्टॉल करने के लिए और निर्देश हैं। लिनक्स उपयोगकर्ताओं के लिए, लिनक्स का अपना डिफ़ॉल्ट पैकेज मैनेजर (एपीटी) है। इस अध्ययन के लिए विशिष्ट मामले में, मौजूदा पैकेज मैनेजर, ब्रू का उपयोग करके मिनिकोंडा को स्थापित करने के लिए कमांड ब्रू इंस्टॉल मिनिकोंडा का उपयोग करें।
नोट: 'होमब्रू', जिसे 'ब्रू' कहा जाता है, एक ओपन-सोर्स सॉफ्टवेयर पैकेज मैनेजमेंट सिस्टम है जो ऐप्पल के ऑपरेटिंग सिस्टम, मैकओएस पर सॉफ्टवेयर की स्थापना को सरल बनाता है। - यदि कोंडा पहली बार स्थापित किया जा रहा है, तो उपयोग में आने वाले विशेष शेल के लिए conda init चलाएँ। यहां उदाहरण में, उपयोग में आने वाला शेल zsh है। फिर, खोल को बंद करें और फिर से खोलें। यदि कोंडा सफलतापूर्वक स्थापित किया गया था, तो टर्मिनल सत्र के भीतर सक्रिय आधार वातावरण देखा जाएगा।
- मिनिकोंडा को स्थापित करने के कुछ तरीके हैं, और वे प्लेटफॉर्म द्वारा भिन्न होते हैं। मेफ़र्ट लैब गिटहब रिपॉजिटरी [https://github.com/Meffert-Lab/SCRAP/blob/main/PLATFORM-SETUP.md] पर PLATFORM-SETUP मार्कडाउन फ़ाइल देखें जहां विंडोज, मैकओएस और उबंटू पर इंस्टॉल करने के लिए और निर्देश हैं। लिनक्स उपयोगकर्ताओं के लिए, लिनक्स का अपना डिफ़ॉल्ट पैकेज मैनेजर (एपीटी) है। इस अध्ययन के लिए विशिष्ट मामले में, मौजूदा पैकेज मैनेजर, ब्रू का उपयोग करके मिनिकोंडा को स्थापित करने के लिए कमांड ब्रू इंस्टॉल मिनिकोंडा का उपयोग करें।
- स्क्रैप स्रोत डाउनलोड करें और इसकी निर्भरताएं स्थापित करें।
- स्क्रैप स्रोत प्राप्त करने के लिए पसंदीदा तरीका गिट का उपयोग कर रहा है। स्रोत कोड की नवीनतम प्रति प्राप्त करने के लिए गिट क्लोन https://github.com/Meffert-Lab/SCRAP चलाकर इसे एक्सेस करें।
- mamba, conda के लिए एक बेहतर पैकेज सॉल्वर स्थापित करें, और निम्नलिखित कमांड का उपयोग करके SCRAP के लिए सभी निर्भरताओं को SCRAP_environment.yml से अपने स्वयं के conda वातावरण में स्थापित करें:
कोंडा इंस्टॉल -एन बेस कोंडा-फोर्ज :: माम्बा
मॅन्युअल क्रिएट -f SCRAP/SCRAP_environment.yml -n SCRAP
- अगला, स्क्रैप के लिए संदर्भ स्थापना चलाएँ। संदर्भ स्थापना में उपयोग किए जाने वाले तर्क उस जीव के लिए विशिष्ट होंगे जिनके sncRNA-mRNA इंटरैक्शन का विश्लेषण किया जा रहा है।
बैश स्क्रैप/बिन/Reference_Installation.sh -आर पूर्ण/पथ/से/स्क्रैप/ -एम है -जी hg38 -s मानव- संदर्भ स्थापना के लिए स्क्रैप स्रोत फ़ोल्डर की निर्देशिका प्रदान करें। स्थापना चरणों को तब फास्टा और एनोटेशन फ़ोल्डरों के भीतर फ़ाइलों का उपयोग करके किया जाएगा। बिना किसी शॉर्टहैंड के पूरा रास्ता सूचीबद्ध करें। एक स्लैश के साथ समाप्त करें।
- सही miRbase प्रजातियों के संक्षिप्ताक्षरों के लिए README.md में तालिकाओं का संदर्भ लें। अप-टू-डेट संदर्भ जीनोम https://genome.ucsc.edu/ या https://www.ncbi.nlm.nih.gov/data-hub/genome/ पर पाए जा सकते हैं। इस उदाहरण में, hg38 का उपयोग माउस GRCm38 जीनोम के लिए किया जाएगा।
- एनोटेशन के लिए वर्तमान में शामिल प्रजातियां मानव, माउस और कृमि हैं। स्क्रैप स्रोत फ़ोल्डर में एनोटेशन निर्देशिका में संबंधित species.annotation.bed फ़ाइलें देखें। यदि विश्लेषण के लिए एक अलग प्रजाति का उपयोग वांछित है, तो एक annotation.bed फ़ाइल प्रदान करें जो समान नामकरण योजना species.annotation.bed का अनुसरण करती है।
2. रनिंग स्क्रैप
- अब जब निर्भरता और स्क्रैप स्थापित हैं, - स्क्रिप्ट SCRAP.sh चलाएं
बैश स्क्रैप/बिन/SCRAP.sh -डी पूर्ण/पथ/से/CLASH_Human/ -एक पूर्ण/पथ/से/CLASH_Human/CLASH_Human_Adapters.txt -पी नहीं -एफ हाँ -आर पूर्ण/पथ/से/स्क्रैप/ -एम है -जी एचजी38- बिना किसी शॉर्टहैंड के नमूना निर्देशिकाओं के लिए पूरे पथ की सूची बनाएं। नमूना निर्देशिकाओं को नमूना नाम से बिल्कुल मेल खाने वाले फ़ोल्डर नाम के साथ प्रारूपित करें, जैसा कि चित्र 1में दिखाया गया है।
- ध्यान दें कि सूचीबद्ध पथ निर्देशिका का पथ है जिसमें सभी नमूना फ़ोल्डर हैं, न कि किसी व्यक्तिगत नमूना फ़ोल्डर या नमूना फ़ाइल का पथ (चरण 2.1 में आदेश पंक्ति देखें)।
- इसके बाद, एडेप्टर फ़ाइल के पूरे पथ को सूचीबद्ध करें। सुनिश्चित करें कि एडेप्टर फ़ाइल में नमूना नाम पहले उल्लेखित फ़ोल्डर नाम और फ़ाइल नाम (चरण 2.1 में आदेश पंक्ति देखें) से मेल खाते हैं।
- संकेत है कि नमूने युग्मित अंत कर रहे हैं और या नहीं पूर्व miRNAs और / या tRNAs के लिए फ़िल्टरिंग प्रदर्शन किया जाएगा. यदि वांछित हो तो आरआरएनए सफाई के लिए एक फ़िल्टर जोड़ें (चरण 2.1 में कमांड लाइन देखें)।
नोट:: उपयोगकर्ताओं को हो सकता है या नमूना प्रकार और प्रयोगात्मक लक्ष्यों के आधार पर इन फ़िल्टर का उपयोग करने के लिए तय नहीं भी हो सकता है। प्रयोगात्मक डिजाइन के आधार पर, पूर्व miRNAs, tRNAs, और rRNAs वास्तविक sncRNA के लिए उपलब्ध अनुक्रमण गहराई का उपभोग कर सकते हैं: लक्ष्य शाही सेना chimeras और उपयोगकर्ताओं को उन्हें बाहर करने के लिए फिल्टर को रोजगार कर सकते हैं. हालांकि, उपयोगकर्ता कुछ परिस्थितियों में इस तरह के फ़िल्टरिंग से बचना चाह सकते हैं (उदाहरण के लिए, माइटोकॉन्ड्रियल जीनोम के लिए sncRNA लक्ष्यों की मैपिंग करना, जिसमें माइटोकॉन्ड्रियल rRNAs शामिल हैं)। - अगला, संदर्भ निर्देशिका, miRbase संक्षिप्त नाम, और संदर्भ जीनोम संक्षिप्त नाम (चरण 2.1 में कमांड लाइन देखें) के लिए पूरे पथ की सूची.
नोट:: स्क्रिप्ट dataset आकार और उपयोग किया जा रहा कंप्यूटर के CPU के आधार पर पूरा करने के लिए कुछ घंटे लग सकते हैं।
3. पीक कॉलिंग और एनोटेशन
- एक बार स्क्रैप चलना समाप्त हो जाने के बाद, जांचें कि आउटपुट में अन्य फाइलों के बीच, एक SAMPLE.aligned.unique.bam फ़ाइल शामिल है। यह एक बाइनरी फ़ाइल है जिसमें उपयोगकर्ता द्वारा प्रदान किए गए संदर्भ जीनोम पर लक्ष्य आरएनए के संरेखण होते हैं।
- अब Peak_Calling.sh चलाकर पीक कॉलिंग करें।
बैश स्क्रैप/बिन/Peak_Calling.sh -डी CLASH_Human/ -ए CLASH_Human/CLASH_Human_Adapters.txt -सी 3 -एल 2 -एफ नहीं -आर स्क्रैप/ -एम में -जी एचजी 38 है
नोट: पीक कॉलिंग स्क्रैप की एक विशेषता है, जिसे शोधकर्ताओं को सबसे मजबूत और प्रतिलिपि प्रस्तुत करने योग्य छोटे नॉनकोडिंग आरएनए का आसानी से मूल्यांकन करने की अनुमति देने के लिए डिज़ाइन किया गया है: उनके काइमेरिक आरएनए पुस्तकालयों के भीतर आरएनए इंटरैक्शन को लक्षित करें। उदाहरण के लिए, यह सुविधा शोधकर्ताओं को उन इंटरैक्शन की पहचान करने में सहायता कर सकती है जिन्हें वे आगे की जांच के लिए चुनना चाहते हैं। नीचे चरण 3.2.2 वर्णन करता है कि उपयोगकर्ता उस मानदंड को कैसे सेट करता है जिसका उपयोग वे उस कठोरता को परिभाषित करने के लिए करना चाहते हैं जिसके साथ एक चोटी कहा जाता है - इसमें अद्वितीय इंटरैक्शन की संख्या, या अनुक्रमण पढ़ता है, जो शिखर के लिए हुआ होगा बुलाया जाना चाहिए, साथ ही पुस्तकालयों की संख्या जिसमें यह विशेष बातचीत हुई होगी।- फिर से, नमूना फ़ोल्डरों वाली निर्देशिका के पूर्ण पथ और एडेप्टर फ़ाइल को सूचीबद्ध करें (चरण 3.2 में कमांड लाइन देखें)।
- अगला, एक चोटी को कॉल करने के लिए आवश्यक अनुक्रमण पढ़ने की न्यूनतम संख्या निर्धारित करें (चरण 3.2 में कमांड लाइन देखें)।
- अलग-अलग अनुक्रमण पुस्तकालयों की न्यूनतम संख्या निर्धारित करें जिसमें इसे कॉल करने के लिए एक चोटी होनी चाहिए (चरण 3.2 में कमांड लाइन देखें)।
नोट: 3.2.2 और 3.2.3 दोनों के लिए मूल्यों का चुनाव अनुक्रमित नमूनों की प्रकृति और नमूनों या नमूना प्रकारों की संख्या पर निर्भर करेगा। यहां, एक नमूने में कम से कम 3 काइमेरिक अनुक्रमण पढ़ता है एक चोटी को कॉल करने के लिए आवश्यक है, और शिखर को कम से कम 2 नमूनों द्वारा समर्थित होना चाहिए। एक अन्वेषक एक डेटासेट का मूल्यांकन करता है जिसमें किसी दिए गए स्थिति के लिए कई अनुक्रमण लाइब्रेरी प्रतिकृतियां होती हैं, उदाहरण के लिए, नमूना अनुक्रमण पुस्तकालयों की अधिक संख्या में रीड्स की उपस्थिति की आवश्यकता का निर्णय ले सकता है। - इंगित करें कि क्या एक ही परिवार के sncRNAs को एक ही चोटी में योगदान देना चाहिए। उदाहरण के लिए, एक ही परिवार शेयर बीज दृश्यों के miRNAs के बाद से, इन miRNAs जीन लक्ष्य के साझा और अतिव्यापी सेट बाँध सकते हैं; एक उपयोगकर्ता अपने सामूहिक चोटियों का आकलन करके इन लक्ष्यों पर एक परिवार के पूर्ण प्रभाव की पहचान करना चाह सकता है (चरण 3.2 में कमांड लाइन देखें)।
- अगला, संदर्भ निर्देशिका, miRBase संक्षिप्त नाम, और संदर्भ जीनोम संक्षिप्त नाम (चरण 3.2 में कमांड लाइन देखें) के लिए पूर्ण पथ को इंगित करें।
- एक बार पीक कॉलिंग पूरी हो जाने के बाद, पीक एनोटेशन चलाएं।
बैश स्क्रैप/बिन/Peak_Annotation.sh -पी CLASH_Human/चोटियों.बिस्तर -आर स्क्रैप/ -एस मानव- पीक कॉलिंग से परिणामी चोटियों.बेड (या peaks.family.bed) फ़ाइल के लिए पूर्ण पथ की सूची बनाएं, संदर्भ निर्देशिका का पूरा पथ, और एनोटेशन के लिए वांछित प्रजातियां।
4. डेटा को विज़ुअलाइज़ करना
नोट: स्क्रैप का उपयोग कर विश्लेषण के लिए सभी कदम अब पूरा कर रहे हैं. डेटा को विज़ुअलाइज़ करने के लिए, कई दृष्टिकोणों की अनुशंसा की जाती है:
- सभी .bam (बाइनरी SAM फ़ाइल) फ़ाइलों को मर्ज करें जो एक साथ कल्पना करने के लिए वांछित होंगी (samtools मर्ज)।
- परिणामी मर्ज की गई .bam फ़ाइल (samtools सॉर्ट) को सॉर्ट करें। फ़ाइल सामग्री को पंक्ति द्वारा क्रमबद्ध किया जाता है ताकि सैमटूल अनुक्रमित हो सके।
- सॉर्ट की गई .bam फ़ाइल (samtools इंडेक्स) को इंडेक्स करें। एकीकृत जीनोमिक्स व्यूअर (आईजीवी) में विज़ुअलाइज़ेशन की अनुमति देने के लिए एक बीएआई (बाइनरी सैमटूल प्रारूप सूचकांक) फ़ाइल उत्पन्न होती है।
- अंत में, IGV में परिणामी सॉर्ट की गई .bam और अनुक्रमित .bai फ़ाइल खोलें।
नोट: SncRNA: ब्याज की लक्ष्य आरएनए बातचीत जांच विशिष्ट तरीकों की एक संख्या में अनुवर्ती के लिए प्राथमिकता दी जा सकती है. एक सामान्य प्रारंभिक दृष्टिकोण उन इंटरैक्शन का आकलन करना है जिनके लिए चोटियों को सबसे अधिक काइमेरिक अनुक्रमण रीड द्वारा समर्थित किया जाता है। ब्याज की बातचीत भी पता लगाया बातचीत11 से sncRNA और लक्ष्य शाही सेना दोनों के लिए अनुक्रम इनपुट करके RNAstructure पैकेज से DuplexFold वेब सर्वर का उपयोग कल्पना की जा सकती है. प्रत्येक चोटी के लिए, गुणसूत्र (पहला कॉलम) और जीनोमिक निर्देशांक (प्रारंभ: पहला कॉलम एंड: दूसरा कॉलम) पीक एनोटेशन में उत्पन्न peaks.bed.species.annotation.txt फ़ाइल के भीतर पाया जा सकता है। विशेष रूप से miRNAs के लिए, जबकि प्रतिलिपि प्रस्तुत करने योग्य और कार्यात्मक बातचीत व्यापक बीज मिलान बाध्यकारी (जैसे, बातचीत 3 'प्रतिपूरक बाध्यकारी का उपयोग कर सकते हैं) की कमी हो सकती है, लक्ष्य शाही सेना के एक आत्मीय बाध्यकारी आकृति में बीज मिलान साइटों की उपस्थिति फिर भी कार्यात्मक महत्वपूर्ण पता चला बातचीत 4,12 की एक मान्य सुविधा के रूप में मूल्यांकन किया जा सकता है. सहायक डेटा प्रोसेसिंग में अलग-अलग जैविक स्थितियों में चोटियों के बीच अंतर पढ़ने के कवरेज की तुलना और मार्ग विश्लेषण उपकरण का उपयोग करके मार्गों में विनियमित जीन के क्लस्टरिंग का संभावित मूल्यांकन शामिल हो सकता है।
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
sncRNA के लिए परिणाम: SCRAP के संशोधित संस्करण द्वारा पता लगाया गया लक्ष्य RNA (SCRAP रिलीज़ 2.0, जो rRNA फ़िल्टरिंग के लिए संशोधनों को लागू करता है) CLEAR-CLIP9 का उपयोग करके तैयार किए गए पहले प्रकाशित अनुक्रमण डेटासेट पर चित्र 2 और तालिका 1में दिखाया गया है। उपयोगकर्ता इंट्रॉन क्षेत्रों के साथ सापेक्ष अंश miRNA इंटरैक्शन में कमी की सराहना कर सकते हैं जो स्क्रैप में पीक कॉलिंग द्वारा उच्च-आत्मविश्वास इंटरैक्शन के अलगाव के बाद होता है। स्क्रैप का उपयोग करके विश्लेषण से अतिरिक्त डेटा भी इस पाइपलाइन6 के प्रारंभिक प्रकाशन में उपलब्ध हैं। प्रयोगात्मक दृष्टिकोण के आधार पर, तैयार काइमेरिक आरएनए पुस्तकालयों से अनुक्रमण डेटा के फ़िल्टरिंग परिणामों में कलाकृतियों को कम करने के लिए आवश्यक हो सकता है। अनुक्रमण पुस्तकालय की उप-इष्टतम जैव रासायनिक तैयारी और/या अनुक्रमण डेटा के उप-इष्टतम फ़िल्टरिंग में उन रीड्स के गलत समावेश के परिणामस्वरूप होने की क्षमता होती है जो एसएनसीआरएनए के बंधाव से उत्पन्न नहीं हुए थे और आर्गोनॉट द्वारा बाध्य आरएनए को लक्षित करते थे। इन artifactual पढ़ता प्राइमर dimers या एडाप्टर dimers, rRNAs, और पूर्व miRNAs शामिल कर सकते हैं. तालिका 2 संभावित कलाकृतियों का वर्णन करती है जिन्हें परिणामों और संभावित समाधानों में पाया जा सकता है।
चित्रा 1: डेटा निर्देशिकाओं के लिए स्वरूपण। प्रत्येक अनुक्रमण लाइब्रेरी के लिए कच्चे पढ़ने वाली फाइलें .fastq.gz प्रारूप में प्रदान की जानी चाहिए। (ए) यदि पुस्तकालयों को युग्मित-अंत नहीं किया जाता है, तो विश्लेषण में एक एकल .fastq.gz फ़ाइल का उपयोग किया जाएगा। इस फ़ाइल का नाम 'SAMPLE.fastq.gz' होना चाहिए जहाँ SAMPLE एडेप्टर फ़ाइल में उपयोगकर्ता द्वारा प्रदान किया गया सटीक नमूना नाम है। फ़ाइल को नमूना नाम से बिल्कुल मेल खाने वाले फ़ोल्डर में समाहित किया जाना चाहिए। (बी) युग्मित-अंत अनुक्रमण पुस्तकालयों के लिए, दो .fastq.gz फ़ाइलों का उपयोग किया जाएगा। इन फ़ाइलों को 'SAMPLE-R1.fastq.gz' और 'SAMPLE-R2.fastq.gz' नाम दिया जाना चाहिए और नमूना नाम से बिल्कुल मेल खाने वाले फ़ोल्डर के भीतर स्थित होना चाहिए। SAMPLE नाम की ऐसी सभी निर्देशिकाएं उसी मूल निर्देशिका के भीतर स्थित होनी चाहिए, जिसे उपयोगकर्ता SCRAP को "नमूना निर्देशिका" के रूप में प्रदान करेगा। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.
चित्रा 2: miRNA का अनुपात: लक्ष्य प्रकार और पीक कॉलिंग विधियों द्वारा लक्ष्य आरएनए बातचीत। Chimeric sncRNA: CLEAR-CLIP (SRR2413277 - SRR2413295) 9 का उपयोग करके तैयार पुस्तकालयों से प्रकाशित डेटा को लक्षित RNA अनुक्रमण rRNA फ़िल्टरिंग के साथ SCRAP (SCRAP रिलीज़ 2.0) के संशोधित संस्करण का उपयोग करके विश्लेषण किया गया था। पूर्व miRNAs, tRNAs, और rRNAs फ़िल्टर किए गए थे, और अलग शिखर बुला सेटिंग्स उच्च आत्मविश्वास (न्यूनतम 3 पढ़ता है और 2 पुस्तकालयों) और 'सभी बातचीत' (न्यूनतम 1 पढ़ा और 1 पुस्तकालय) के लिए इस्तेमाल किया गया. इंटरैक्शन miRNA परिवार या ungrouped द्वारा समूहीकृत थे. श्रेणियों (सीडीएस, 5 'यूटीआर, इंटरजेनिक, इंट्रॉन, 3'यूटीआर) के लिए काइमेरिक आरएनए के सापेक्ष अंशों की गणना और रेखांकन किया गया था। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.
सभी इंटरैक्शन | उच्च-आत्मविश्वास बातचीत | |||
व्यक्तिगत miRNAs | miRNA परिवार | व्यक्तिगत miRNAs | miRNA परिवार | |
सीडी | 8675 | 8679 | 925 | 1046 |
5' यूटीआर | 338 | 338 | 38 | 43 |
इंटरजेनिक | 2230 | 2230 | 320 | 339 |
इंट्रोन | 9522 | 9519 | 382 | 406 |
3' यूटीआर | 6814 | 6813 | 548 | 644 |
कुल बातचीत: | 31033 | 31034 | 4219 | 4597 |
तालिका 1: miRNA की Chimeric पढ़ें गणना: लक्ष्य प्रकार और पीक कॉलिंग विधि द्वारा लक्ष्य आरएनए इंटरैक्शन। Chimeric sncRNA: CLEAR-CLIP (SRR2413277 - SRR2413295) 9 का उपयोग करके तैयार पुस्तकालयों से प्रकाशित लक्ष्य RNA अनुक्रमण डेटा का विश्लेषण rRNA फ़िल्टरिंग के साथ SCRAP (SCRAP रिलीज़ 2.0) के संशोधित संस्करण का उपयोग करके किया गया था। पूर्व miRNAs, tRNAs, और rRNAs फ़िल्टर किए गए थे, और अलग शिखर कॉलिंग सेटिंग्स उच्च आत्मविश्वास (न्यूनतम 3 पढ़ता है और 2 पुस्तकालयों) और सभी (न्यूनतम 1 पढ़ा और 1 पुस्तकालय) बातचीत, miRNA परिवार या ungrouped द्वारा समूहीकृत के लिए इस्तेमाल किया गया. प्रत्येक हालत के लिए, कुल पता लगाया miRNA की गिनती: लक्ष्य शाही सेना बातचीत जिसमें लक्ष्य शाही सेना बातचीत कोडिंग अनुक्रम (सीडीएस), 5 'untranslated क्षेत्र (5' UTR), intergenic क्षेत्र, इंट्रोन, या 3' untranslated क्षेत्र (3'UTR) की श्रेणी में मैप किया गया था सूचीबद्ध हैं.
संभावित संदूषक | के रूप में पता चला | कारण | संभावित समाधान | |||
प्राइमर डिमर्स | miRNAs जिसका अनुक्रम एक प्रवर्धन प्राइमर और एक लक्ष्य शाही सेना जिसका अनुक्रम प्राइमर के शेष से मेल खाता है के अंत 5 'के बीच का पता चला बातचीत. | प्रवर्धन के बाद पीसीआर उत्पाद का अनुचित आकार पृथक्करण (यानी जेल निष्कर्षण)। | अधिकांश प्राइमर डिमर को उनकी छोटी लंबाई के कारण एडेप्टर हटाने के बाद स्क्रैप द्वारा अवहेलना की जाएगी। यदि वे बने रहते हैं, तो एक फिल्टर में प्राइमर अनुक्रम जोड़ने पर विचार करें। | |||
आरआरएनए | मनमाने ढंग से miRNAs और ज्ञात rRNAs या lncRNAs Gm26917 और Gm42418 के बीच बातचीत | Argonaute परिसरों के अप्रभावी अलगाव (यानी immunoprecipitation और जेल जुदाई)। | आरआरएनए संदूषण प्रचुर मात्रा में होने पर आरआरएनए फ़िल्टरिंग अक्सर आवश्यक होती है। | |||
tRNAs और पूर्व miRNAs | टीआरएनए टुकड़े है कि एक ही tRNA या 5p और 3p miRNAs एक ही पूर्व miRNA से उत्पादित गिरावट उत्पादों रहे हैं के बीच बातचीत. | सच sncRNA की कम बहुतायत: लक्ष्य आरएनए chimeras या कम ऊतक Argonaute अभिव्यक्ति. | tRNA फ़िल्टरिंग और पूर्व miRNA फ़िल्टरिंग. |
तालिका 2: संभावित संदूषक अनुक्रमण पढ़ता है और समाधान।
Subscription Required. Please recommend JoVE to your librarian.
Discussion
sncRNA के विश्लेषण के लिए स्क्रैप पाइपलाइन के उपयोग पर यह प्रोटोकॉल: लक्ष्य आरएनए इंटरैक्शन उन जांचकर्ताओं की सहायता के लिए डिज़ाइन किया गया है जो कम्प्यूटेशनल विश्लेषण में प्रवेश कर रहे हैं। ट्यूटोरियल के पूरा होने से जांचकर्ताओं को इस पाइपलाइन की स्थापना और उपयोग के लिए आवश्यक चरणों के माध्यम से प्रवेश स्तर या अधिक कम्प्यूटेशनल अनुभव के साथ मार्गदर्शन करने की उम्मीद है और इसके आवेदन को काइमेरिक आरएनए अनुक्रमण पुस्तकालयों से प्राप्त डेटा का विश्लेषण करने के लिए। इस प्रोटोकॉल को पूरा करने के लिए महत्वपूर्ण कदमों में सही संदर्भ स्थापना और स्क्रैप का संचालन शामिल है, जो समय गहन हो सकता है और त्रुटियों का स्रोत हो सकता है, खासकर अगर एनाकोंडा का उपयोग करके निर्भरता की स्थापना या कमांड लाइन तर्कों के टाइपिंग के दौरान देखभाल नहीं की गई थी।
यहां, विशेष ध्यान काइमेरिक एसएनसीआरएनए के विश्लेषण के लिए स्क्रैप पाइपलाइन के व्यावहारिक उपयोग के लिए युक्तियों और चरणों पर रहा है: लक्ष्य आरएनए अनुक्रमण पुस्तकालय। स्क्रैप sncRNA का पता लगाने में अन्य काइमेरिक आरएनए विश्लेषण प्लेटफार्मों बेहतर प्रदर्शन करने के लिए पाया गया है: लक्ष्य आरएनए इंटरैक्शन 6,13. यह स्क्रैप की पीक कॉलिंग सुविधा के कारण हो सकता है जिसे विशेष रूप से उन विशेषताओं (जैसे 3 'शोल्डरिंग) का पता लगाने के लिए विकसित किया गया था जो कि काइमेरिक आरएनए के गठन में शामिल जैव रासायनिक चरणों के परिणामस्वरूप देखे जाते हैं। अलग-अलग जैव रासायनिक दृष्टिकोणों के लिए अन्य पीक कॉलिंग विधियों, जैसे क्रोमैटिन इम्यूनोप्रिपिटेशन अनुक्रमण (चिप-सीक्यू) अनुप्रयोगों के डाउनस्ट्रीम, को डेटा में चोटियों का पता लगाने के लिए विकसित किया गया है जो सममित रूप से एक मतलब के आसपास वितरित किए जाते हैं और आमतौर पर काइमेरिक एसएनसीआरएनए की चरम विशेषताओं का पता लगाने में भी प्रदर्शन नहीं करते हैं: लक्ष्य आरएनए पुस्तकालय। हालांकि, उपयोगकर्ता अन्य कम्प्यूटेशनल पाइपलाइनों के उपयोग का परीक्षण करना चाह सकते हैं जो उनकी आवश्यकताओं के लिए बेहतर काम कर सकते हैं, खासकर यदि उनका डेटा इस विवरण में फिट नहीं होता है।
जबकि स्क्रैप में न्यूनतम हार्डवेयर आवश्यकताएं हैं, स्क्रैप रनटाइम डेटासेट आकार के साथ खराब तरीके से स्केल करता है। जांचकर्ता जो नौसिखिए स्तर से परे हैं, या जिनके पास उच्च अनुक्रमण कवरेज के साथ व्यापक संख्या में डेटासेट या डेटासेट हैं, वे स्क्रैप का उपयोग इस तरह से करना चाह सकते हैं जो विश्लेषण चरणों को गति दे सके। चूंकि बड़े डेटासेट (आमतौर पर, > 1 बिलियन पढ़ता है) को बढ़ी हुई फ़ाइल भंडारण क्षमताओं और डेटा के लिए पढ़ने / लिखने की गति की आवश्यकता होती है, बड़े डेटासेट के विश्लेषण के लिए उच्च-प्रदर्शन कंप्यूटिंग (एचपीसी) क्लस्टर पर स्क्रैप चलाना वांछित हो सकता है। एक स्क्रैप अनुकूलन, जो समांतरकरण और बेहतर प्रदर्शन प्रदान करना चाहिए, गिटहब (https://github.com/Meffert-Lab/) पर उपलब्ध कराया जाएगा। स्क्रैप (रिलीज 2.0) के इस अद्यतन संस्करण में आरआरएनए और अन्य दूषित पदार्थों के लिए फिल्टर में भी सुधार हुआ है।
किसी भी इंटरफ़ेस के साथ, कमांड लाइन इंटरफ़ेस का उपयोग करते समय उपयोगकर्ता अनिवार्य रूप से कठिनाइयों का सामना कर सकते हैं। इनमें से सबसे आम में गलत वर्तनी, गलत पथ और पैकेज इंस्टॉलेशन/संस्करण शामिल हैं। जांचकर्ताओं को सलाह दी जाती है कि वे सावधानी बरतें और कमांड लाइन तर्क लिखते समय टाइपो से बचें और फ़ाइलों या फ़ोल्डरों के लिए पथ को पुन: पेश करें ('टैब' स्वत: पूर्णता का उपयोग इसमें मदद कर सकता है)। स्क्रैप के लिए निर्भरता एनाकोंडा के माध्यम से प्रबंधित की जाती है ताकि जांचकर्ताओं को पैकेज स्थापना या संस्करण अद्यतन के साथ मुद्दों का सामना करने की संभावना कम हो।
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
लेखकों के पास खुलासा करने के लिए कुछ भी नहीं है।
Acknowledgments
हम पाइपलाइन की स्थापना और कार्यान्वयन का वर्णन करने पर महत्वपूर्ण प्रतिक्रिया के लिए बीएच पॉवेल और डब्ल्यूटी मिल्स IV सहित उपयोगी चर्चाओं के लिए मेफर्ट प्रयोगशाला के सदस्यों को धन्यवाद देते हैं। इस काम को ब्रूड फाउंडेशन पुरस्कार, मैरीलैंड स्टेम सेल रिसर्च फंड लॉन्च प्रोग्राम, ब्लॉस्टीन एंडोमेंट फॉर पेन रिसर्च एंड एजुकेशन अवार्ड, और एनआईएनडीएस RO1NS103974 और एनआईएमएच RO1MH129292 से एमकेएम द्वारा समर्थित किया गया था।
Materials
Name | Company | Catalog Number | Comments |
Genomes | UCSC Genome browser | N/A | https://genome.ucsc.edu/ or https://www.ncbi.nlm.nih.gov/data-hub/genome/ |
Linux | Linux | Ubuntu 20.04 or 22.04 LTS recommended | |
Mac | Apple | Mac OSX (>11) | |
Platform setup | GitHub | N/A | https://github.com/Meffert-Lab/SCRAP/blob/main/PLATFORM-SETUP.md] |
SCRAP pipeline | GitHub | N/A | https://github.com/Meffert-Lab/SCRAP |
Unix shell | Unix operating system | bash >=5.0 | |
Unix shell | Unix operating system | zsh (5.9 recommended) | |
Windows | Windows | WSL Ubuntu 20.04 or 22.04 LTS |
References
- Morris, K. V., Mattick, J. S.
The rise of regulatory RNA. Nature Reviews Genetics. 15 (6), 423-437 (2014). - Li, X., Jin, D. S., Eadara, S., Caterina, M. J., Meffert, M. K. Regulation by noncoding RNAs of local translation, injury responses, and pain in the peripheral nervous system. Neurobiology of Pain (Cambridge, Mass.). 13, 100119 (2023).
- Shi, J., Zhou, T., Chen, Q. Exploring the expanding universe of small RNAs. Nature Cell Biology. 24 (4), 415-423 (2022).
- Broughton, J. P., Lovci, M. T., Huang, J. L., Yeo, G. W., Pasquinelli, A. E. Pairing beyond the seed supports microRNA targeting specificity. Molecular Cell. 64 (2), 320-333 (2016).
- Grosswendt, S., et al. Unambiguous identification of miRNA:target site interactions by different types of ligation reactions. Molecular Cell. 54 (6), 1042-1054 (2014).
- Mills, W. T., Eadara, S., Jaffe, A. E., Meffert, M. K. SCRAP: a bioinformatic pipeline for the analysis of small chimeric RNA-seq data. RNA. 29 (1), 1-17 (2023).
- Helwak, A., Kudla, G., Dudnakova, T., Tollervey, D. Mapping the human miRNA interactome by CLASH reveals frequent noncanonical binding. Cell. 153 (3), 654-665 (2013).
- Hoefert, J. E., Bjerke, G. A., Wang, D., Yi, R. The microRNA-200 family coordinately regulates cell adhesion and proliferation in hair morphogenesis. Journal of Cell Biology. 217 (6), 2185-2204 (2018).
- Moore, M. J., Zhang, C., Gantman, E. C., Mele, A., Darnell, J. C., Darnell, R. B. Mapping Argonaute and conventional RNA-binding protein interactions with RNA at single-nucleotide resolution using HITS-CLIP and CIMS analysis. Nature Protocols. 9 (2), 263-293 (2014).
- Bjerke, G. A., Yi, R. Integrated analysis of directly captured microRNA targets reveals the impact of microRNAs on mammalian transcriptome. RNA. 26 (3), 306-323 (2020).
- Reuter, J. S., Mathews, D. H. RNAstructure: software for RNA secondary structure prediction and analysis. BMC Bioinformatics. 11 (1), 129 (2010).
- Moore, M. J., et al. miRNA-target chimeras reveal miRNA 3′-end pairing as a major determinant of Argonaute target specificity. Nature Communications. 6 (1), 8864 (2015).
- Travis, A. J., Moody, J., Helwak, A., Tollervey, D., Kudla, G. Hyb: a bioinformatics pipeline for the analysis of CLASH (crosslinking, ligation and sequencing of hybrids) data. Methods (San Diego, Calif.). 65 (3), 263-273 (2014).