Genetics

सीवरर्स संसाधनों का लाभ उठाना Published: May 9, 2017 doi: 10.3791/55009

DOI

Automatic Translation

English (Original)
العربية (Arabic)
中文 (Chinese)
dansk (Danish)
Nederlands (Dutch)
français (French)
Deutsch (German)
עברית (Hebrew)
हिंदी (Hindi)
italiano (Italian)
日本語 (Japanese)
한국어 (Korean)
norsk (Norwegian)
português (Portugese)
русский (Russian)
español (Spanish)
svenska (Swedish)
Türkçe (Turkish)

Blake L. Joyce^1,2, Asher K. Haug-Baltzell³, Jonathan P. Hulvey⁴, Fiona McCarthy⁵, Upendra Kumar Devisetty^1,6, Eric Lyons^1,2,3

¹BIO5 Institute, University of Arizona, ²The School of Plant Sciences, University of Arizona, ³Genetics GIDP, University of Arizona, ⁴Biology Department, University of Massachusetts Amherst, ⁵School of Animal and Comparative Biomedical Sciences, University of Arizona, ⁶CyVerse, University of Arizona

Abstract

यह वर्कफ़्लो नौसिख शोधकर्ताओं को क्वाड कंप्यूटिंग जैसे उन्नत कॉन्टैक्टेशनल संसाधनों का लाभ उठाने की अनुमति देता है जो कि जोड़ीदार तुलनात्मक ट्रांस्क्रिप्टमिक्स को संचालित करता है। यह जीव वैज्ञानिकों के लिए डेटा वैज्ञानिक कम्प्यूटेशनल कौशल विकसित करने के लिए प्राइमर के रूप में भी कार्य करता है, उदाहरण के लिए बड़े डेटा सेटों के बिश कमांड, विज़ुअलाइज़ेशन और प्रबंधन करना। सभी कमांड लाइन कोड और प्रत्येक आदेश या चरण के आगे स्पष्टीकरण विकी ( https://wiki.cyverse.org/wiki/x/dgGtAQ ) पर पाए जा सकते हैं। डिस्कवरी पर्यावरण और वायुमंडल प्लेटफार्मों को एक साथ CyVerse डेटा स्टोर के माध्यम से जुड़ा हुआ है। जैसे, प्रारंभिक कच्चे अनुक्रमण डेटा अपलोड करने के बाद, इंटरनेट कनेक्शन पर बड़ी डेटा फ़ाइलों को स्थानांतरित करने की आवश्यकता नहीं है, विश्लेषण करने के लिए आवश्यक समय की मात्रा को कम करके। यह प्रोटोकॉल केवल दो प्रयोगात्मक उपचार या शर्तों का विश्लेषण करने के लिए डिज़ाइन किया गया है। अंतर जीन अभिव्यक्ति विश्लेषण thr आयोजित किया जाता हैOugh pairwise comparisons, और कई कारकों का परीक्षण करने के लिए उपयुक्त नहीं होगा। यह वर्कफ़्लो स्वचालित रूप से स्वचालित होने के बजाय मैन्युअल रूप से तैयार किया गया है। प्रत्येक चरण को उपयोगकर्ता द्वारा निष्पादित और जांच करनी होगी, डेटा और विश्लेषणात्मक आउटपुट की बेहतर समझ प्राप्त करने और उपयोगकर्ता के लिए बेहतर परिणाम। एक बार पूरा होने पर, यह प्रोटोकॉल पहले से इकट्ठा किए जाने वाले संदर्भ जीनोम (जो आम तौर पर underserved जीव में उपलब्ध नहीं हैं) को नज़र रखने के बिना underserved (गैर-मॉडल) जीवों के लिए नव- इकट्ठे ट्रांसस्क्रिप्टम (एस) का उत्पादन करेगा। इन दो नवप्रत्यक्षोक्तियों का प्रयोग दो प्रयोगात्मक परिस्थितियों के बीच भिन्न-भिन्न जीन की जांच के लिए जोड़ीदार विभेदक जीन अभिव्यक्ति विश्लेषण में किया जाता है। विभेदित व्यक्त किए गए जीन तब आनुवंशिक प्रतिक्रियाओं को समझने के लिए कार्यात्मक रूप से एनोटेट किया जाता है प्रायोगिक स्थितियों के लिए है। कुल मिलाकर, इस प्रोटोकॉल से प्राप्त आंकड़ों का प्रयोग अंडरस्वाइड जीवों के जैविक प्रतिक्रियाओं के बारे में परिकल्पनाओं के परीक्षण के लिए किया जाता है।

Introduction

होमो सेपियंस और ड्रोसोफिला मेलानोगास्टर , मस्सिकुलस और दानियो रेरिओ जैसे कई प्रमुख मॉडल प्रजातियों की प्रजातियां वर्तमान और पिछले कार्यात्मक जीनोमिक्स कामों का प्रतिनिधित्व करती हैं। हालांकि, उच्च-थ्रूपुट अनुक्रमण तकनीक की तेज़ी से कम लागत गैर-मॉडल ( उर्फ "उपेक्षित" या "निहित") पशु प्रजातियों ¹ में कार्यात्मक जीनोमिक्स के लिए अवसर प्रदान कर रही है। जीनोमिक्स में यह एक महत्वपूर्ण बदलाव है क्योंकि गैर-मॉडल जीव अक्सर आर्थिक रूप से प्रासंगिक प्रजातियों ( जैसे कस्तूरी, चिंराट, केकड़े) का प्रतिनिधित्व करते हैं और मॉडल प्रजातियों में पाए गए लोगों के दायरे के बाहर उपन्यास फेनोटाइप और जैविक प्रणालियों की जांच के अवसर प्रदान करते हैं।

हालांकि अन्तर्निर्मित जीव अद्वितीय जैविक प्रणालियों की जांच के लिए एक आकर्षक अवसर प्रदान करते हैं, फिर भी कई चुनौतियों का सामना करने वाले शोधकर्ताओं को विशेष रूप से जैव-सूचनात्मक विश्लेषण के दौरान कुछ केसे चुनौतियां बड़े डेटा सेटों को संसाधित करने के लिए जन्मजात हैं, जबकि अन्य आनुवांशिक संसाधनों की कमी से उत्पन्न होती हैं, जो रेखांकित जीवों में काम करने वाले शोधकर्ताओं के लिए उपलब्ध हैं जैसे संदर्भ जीनोम, जीव विशिष्ट विशिष्टताएं, आदि । न्यूक्लिक एसिड अलगाव की चुनौतियों और अनुक्रमण अक्सर नियमित होते हैं आंकड़ों के विश्लेषण के साथ तुलना में, और जैसा कि जैवइन्फॉर्मेटिक विश्लेषण आमतौर पर अनुक्रमण परियोजनाओं ² की सबसे दुर्लभ लागत साबित होता है। उदाहरण के लिए, एक बुनियादी अगली पीढ़ी के अनुक्रमण में बायोइनफॉर्मेटिक विश्लेषण में निम्न चरणों का समावेश हो सकता है: कच्चे अनुक्रमण की पढ़ाई और छानने की गुणवत्ता, छोटे से विधानसभाएं बड़े निकटवर्ती टुकड़ों में पढ़ती हैं, और जैविक समझ हासिल करने के लिए अन्य प्रणालियों के लिए एनोटेशन और / या तुलना करती हैं। प्रतीत होता है कि सरलता से, इस उदाहरण के वर्कफ़्लो में प्रयोगशाला-बेंच कंप्यूटर के दायरे से परे विशेष ज्ञान और कम्प्यूटेशनल संसाधनों की आवश्यकता होती है, जो इसे गैर वैज्ञानिकों के अध्ययन के कई वैज्ञानिकों की पहुंच से बाहर रखती है,मॉडल जीव

इंटेट चुनौतियां अवसंरचना-या ज्ञान-आधारित हो सकती हैं एक क्लासिक बुनियादी ढांचा चुनौती औपचारिक कम्प्यूटेशनल संसाधनों तक पहुंच है। उदाहरण के लिए, विधानसभा और एनोटेशन कम्प्यूटेशनल गहन एल्गोरिदम पर भरोसा करते हैं जिसके लिए शक्तिशाली कंप्यूटर या कंप्यूटर क्लस्टर की आवश्यकता होती है, जिसमें बड़ी मात्रा में रैम (256 जीबी -1 टीबी) और चलाने के लिए कई प्रोसेसर / कोर होते हैं। दुर्भाग्य से, कई शोधकर्ताओं के पास या तो ऐसे कंप्यूटिंग संसाधनों तक पहुंच नहीं है या इन प्रणालियों के साथ बातचीत करने के लिए आवश्यक ज्ञान नहीं है। अन्य शोधकर्ताओं का अपने विश्वविद्यालयों या संस्थानों के माध्यम से उच्च-प्रदर्शन कंप्यूटिंग समूहों तक पहुंच हो सकती है, लेकिन इन संसाधनों तक पहुंच सीमित हो सकती है और कभी-कभी प्रति घंटे के प्रभार में परिणाम होते हैं, अर्थात वास्तविक समय की घड़ी की संख्या से गुणा सीपीयू प्रोसेसर की संख्या घंटे "जो कि प्रोसेसर चल रहे हैं अमेरिकी राष्ट्रीय विज्ञान फाउंडेशन द्वारा वित्त पोषित एक साइबर इंफ्रास्ट्रक्चर सिस्टम का लाभ उठानासिवर्स ^{3 के} रूप में, जो शोधकर्ताओं के लिए संसाधनों की गणना करने के लिए मुफ्त पहुंच प्रदान करता है, संयुक्त राज्य अमेरिका और दुनिया भर में, बुनियादी ढांचा चुनौतियों को कम करने में मदद कर सकता है, जैसा कि यहां दिखाया जाएगा।

एक विशिष्ट ज्ञान-आधारित चुनौती का एक उदाहरण संपूर्ण विश्लेषण के लिए आवश्यक सॉफ़्टवेयर को समझना है। एक अनुक्रमण-आधारित परियोजना को प्रभावी ढंग से संचालित करने के लिए, शोधकर्ताओं को उन सॉफ़्टवेयर टूल के असंख्य से परिचित होने की आवश्यकता होती है जो कि जैवइन्फॉर्मेटिक विश्लेषण के लिए विकसित किए गए हैं। सीखना प्रत्येक पैकेज अपने दाहिनी ओर मुश्किल होता है, लेकिन तथ्य यह है कि संकुल को लगातार अपग्रेड किया जा रहा है, पुन: प्रसारित किया जाता है, नए वर्कफ़्लो में एक साथ रखा जाता है और कभी-कभी नए लाइसेंस के तहत उपयोग के लिए प्रतिबंधित हो जाता है। इसके अलावा, इन उपकरणों के इनपुट और आउटपुट को जोड़ने से कभी-कभी डेटा प्रकार को बदलने के लिए उन्हें संगठित करने की आवश्यकता होती है, वर्कफ़्लो के लिए एक अन्य उपकरण जोड़ना। अंत में, यह जानना भी मुश्किल है कि कौन सा सॉफ़्टवेयर पैकेज 'वें' हैई सबसे अच्छा 'एक विश्लेषण के लिए, और विशेष रूप से प्रयोगात्मक शर्तों के लिए सबसे अच्छा सॉफ्टवेयर की पहचान अक्सर सूक्ष्म अंतर की बात है कुछ मामलों में, सॉफ्टवेयर की उपयोगी समीक्षा उपलब्ध है, लेकिन नए अपडेट और सॉफ़्टवेयर विकल्पों की निरंतर जारी होने के कारण ये तेजी से समय से बाहर निकले हैं।

शोधकर्ताओं के लिए underserved जीवों की जांच, इन प्राकृतिक चुनौतियों एक उपन्यास जीव में डेटा का विश्लेषण से जुड़े चुनौतियों के अलावा आते हैं। जीन एनोटेशन के दौरान इन अंडरर्ज्ड जीव-विशिष्ट चुनौतियों का सबसे अच्छा उदाहरण दिया गया है। उदाहरण के लिए, underserved जीवों के पास अक्सर निकट से संबंधित मॉडल जीव नहीं होता है जो कि जीन की रचना और कार्य ( जैसे समुद्री समुद्री ग्रहण और ड्रोसोफिला ) की पहचान करने के लिए उचित रूप से उपयोग किया जा सकता है। कई जैवइन्फोर्मेटिक टूल को संरचनात्मक रूपांकनों की पहचान करने के लिए "प्रशिक्षण" की आवश्यकता होती है, जिसका उपयोग जीन फ़ंक्शन की पहचान करने के लिए किया जा सकता है। हालांकि, प्रशिक्षण डेटा आम तौर पर केवल आधुनिक के लिए उपलब्ध हैएल जीवों, और प्रशिक्षण छिपी मार्कव मॉडल (एचएमएम) जीवविज्ञान के दायरे से बाहर है, और यहां तक कि कई जैव-सूचनाकारी भी हैं। अंत में, भले ही एनोटेशन मॉडल जीवों से डेटा का उपयोग कर ले जाया जा सकता है, मॉडल जीवों से संबंधित कुछ जीन ऑटॉजोलिस तब नहीं समझते हैं जब जीवों और प्राकृतिक इतिहास के जीव विज्ञान के बारे में माना जाता है ( उदाहरण के लिए , ड्रोसोफिला से झींगा से सूचना स्थानांतरित )

इन चुनौतियों का सामना करते हुए, जैव-विज्ञान संबंधी संसाधनों को विकसित करने की जरूरत है, जो शोधकर्ताओं द्वारा विशेष रूप से मन में निहित जीवों पर नए विश्लेषण का आयोजन करते हैं। कार्यात्मक जीनोमिक्स अनुक्रमण परियोजनाओं के अगले कई वर्षों से मॉडल और अंडरबाउंड जीवों ( https://genome10k.soe.ucsc.edu/ ) के बीच की खाई को बंद करने में मदद मिलेगी, लेकिन कई उपकरण हैं जिन्हें चुनौतियों का सामना करने के लिए विकसित करने की आवश्यकता होगी ऊपर विचार किया साइवेर्स आई के पारिस्थितिक तंत्र बनाने के लिए समर्पित है Iमौजूदा साइबर इंफ्रास्ट्रक्चर और तीसरे पक्ष के अनुप्रयोगों को डेटा प्रबंधन, जैवइन्फॉर्मेटिक विश्लेषण उपकरण और जीवन वैज्ञानिकों के लिए डेटा विज़ुअलाइज़ेशन देने के लिए लिंक करके नॉर्टरफाइबिलिटी। इंटरऑपरेबिलिटी स्केलेबल कंप्यूटिंग संसाधनों को प्रदान करके जैवइन्फोर्मैटिक अनुप्रयोगों और प्लेटफॉर्म के बीच संक्रमण को आसान बनाने में मदद करता है, और फाइल प्रारूप रूपांतरण को सीमित कर रहा है और प्लेटफॉर्म्स के बीच स्थानांतरित डेटा की मात्रा। साइवरर्स डिस्कवरी एन्वायरनमेंट (डीई ⁴ , एटमॉसमियर ⁵ , और डाटा स्टोर ³⁾ सहित कई प्लेटफार्मों की पेशकश करता है। डीई वेब-आधारित है और इसमें कई आम जैव सूचना विज्ञान विश्लेषणात्मक उपकरण हैं जो उपयोगकर्ता के अनुकूल पॉइंट-एंड-क्लिक स्वरूपों (जिसे "ऐप "), और डाटा स्टोर के लिए ग्राफिकल यूजर इंटरफेस (जीयूआई) है जहां बड़े डेटा सेट ( यानी कच्चे अनुक्रमणों को पढ़ने, इकट्ठे हुए जीनोम) को संग्रहित और प्रबंधित किया जाता है। वातावरण एक क्लाउड कंप्यूटिंग सेवा है जो शोधकर्ताओं के लिए लचीलापन बढ़ाता हैआभासी मशीन कम्प्यूटेशनल संसाधनों का उपयोग करते हुए, जिसमें पूर्व-स्थापित बायोइन्फॉर्मेटिक्स टूल की एक विस्तृत श्रृंखला है इन दोनों प्लेटफार्मों को डेटा स्टोर से लिंक किया गया है, और इन्हें वर्कफ़्लो बनाने के लिए एक साथ उपयोग किया जा सकता है जैसे कि यहां वर्णित है। यह रिपोर्ट डीओवो ट्रांस्क्रिप्टम असेंबली और अंतर जीन अभिव्यक्ति विश्लेषण वर्कफ़्लोज़ पर केंद्रित करती है, और इसके आगे जैवइन्फॉर्मेटिक विश्लेषण के विकास और संचालन के साथ जुड़े कुछ बेहतरीन अभ्यासों को संबोधित करती है। साइवरर्स ( http://www.cyverse.org/about ) के विस्तृत मिशन की विस्तृत व्याख्या और विस्तृत मंच विवरण ( http://www.cyverse.org/learning-center ) सार्वजनिक रूप से उपलब्ध हैं यहां वर्णित सभी विश्लेषण डिस्कवरी पर्यावरण ⁴ (डीई) और वायुमंडल ^{5 का उपयोग करते हैं} , और उन्हें सभी कम्प्यूटेशनल स्तरों के शोधकर्ताओं के लिए सुलभ बनाने के तरीके में प्रस्तुत किया जाता है। डी वर्कफ़्लो और एटॉमोस्पलंबे समय तक उद्भव, पुन: प्रयोज्यता और प्रजननशीलता सुनिश्चित करने के लिए यूआरएल का इस्तेमाल करते हुए पूर्व छवियों को सीधे संदर्भित किया जा सकता है।

Protocol

नोट: कुल प्रोटोकॉल को फ़ोल्डर्स के अनुसार क्रमांकित किया गया है जो कि स्टेप 1.2 ( चित्रा 1 और 2 ) में बनाया जाएगा और नाम दिया जाएगा। यह प्रोटोकॉल एक मानक तुलनात्मक डे नवो ट्रांसक्रिप्टम विश्लेषण का प्रतिनिधित्व करता है, और यहां दिए गए प्रत्येक चरण सभी शोधकर्ताओं के लिए आवश्यक नहीं हो सकते हैं। यह वर्कफ़्लो किसी सहयोगी ट्यूटोरियल विकी पर अच्छी तरह से प्रलेखित है, जिसमें प्रत्येक विश्लेषण पैकेज ( तालिका 1 ) के लिए ब्याज 3 ^डी पार्टी डेवलपर्स के सभी अतिरिक्त फ़ाइलें और लिंक शामिल हैं। इस जानकारी की आसान पहुंच के लिए इस सामग्री के लिंक पूरे प्रोटोकॉल में शामिल किए जाएंगे। सर्वोत्तम प्रथाएं उपयोगकर्ताओं को प्रदान किए गए नोट्स हैं, जो कार्यों को पूरा करने का सबसे अच्छा तरीका है या उपयोगकर्ताओं को विचार करने के लिए है, और प्रोटोकॉल में नोट्स के माध्यम से उन्हें सूचित किया जाएगा। उदाहरण डेटा इनपुट और विश्लेषणात्मक आउटपुट का एक फ़ोल्डर उपयोगकर्ताओं के लिए सार्वजनिक रूप से उपलब्ध है, और प्रोटोकॉल में सुझाव दिया गया है ( डे नोवो

1. प्रोजेक्ट सेट अप करें, Raw Sequencing Reads अपलोड करें, और FastQC का उपयोग करके रीसेट करें का मूल्यांकन करें

वायुमंडल और डिस्कवरी पर्यावरण तक पहुंच प्राप्त करें
1. पंजीकरण पेज ( जैसे person@institution.edu) पर नेविगेट करके एक निःशुल्क साइवर्स अकाउंट का अनुरोध करें।
2. आवश्यक जानकारी भरें और सबमिट करें।
3. मुख्य वेबपृष्ठ पर जाएं (http://www.cyverse.org/), और शीर्ष टूलबार पर "साइन इन" चुनें। "Cyverse लॉगिन" का चयन करें और अपने CyVerse क्रेडेंशियल्स का उपयोग करके साइन इन करें।
4. एप्लिकेशन और सेवाएं टैब पर नेविगेट करें, और वायुमंडल तक पहुंच का अनुरोध करें डिस्कवरी पर्यावरण तक पहुंच स्वचालित रूप से दी जाती है
प्रोजेक्ट सेट अप करें और डेटा स्टोर में डेटा ले जाएं।
1. डिस्कवरी पर्यावरण में लॉग इन करें (https://de.iplantcollaborative.org/de) डेटा स्टोर में सभी फ़ोल्डर्स युक्त एक मेनू लाने के लिए "डेटा" टैब चुनें एक मुख्य प्रोजेक्ट फ़ोल्डर बनाएं जो कि परियोजना के साथ जुड़े सभी डेटा को बनाएगा। डेटा विंडो के शीर्ष पर टूलबार ढूंढें और फ़ाइल चुनें नया फोल्डर। फ़ोल्डर नाम या किसी भी इनपुट / आउटपुट फाइल नामों में रिक्त स्थान या विशेष वर्णों का उपयोग न करें जैसे "! @ # () [] {}:; $% ^ & *।" इसके बजाय, अंडरस्कोर या डैश का प्रयोग करें, अर्थात् "_" या "-" जहां उपयुक्त।
2. विश्लेषण करने के लिए मुख्य प्रोजेक्ट फ़ोल्डर के भीतर पांच फ़ोल्डर्स बनाएं ( चित्रा 1 ) फ़ोल्डर्स को नाम दें, जैसे कि बिना कोई अल्पविराम या उद्धरण चिह्नों के नाम: "1_Raw_Sequence," "2_High_Quality_Sequence," "3_Assembly," "4_Differential_Expression," "5_Annotated_Assembly।" सबफ़ोल्डर्स को इन मुख्य प्रोजेक्ट फ़ोल्डरों में से प्रत्येक में रखा जाएगा ( चित्रा 2 )।

आकृति 1
आकृति1: परियोजना फ़ोल्डर संगठन और डी नोवो ट्रांस्क्रिप्टम असेंबली और विश्लेषण वर्कफ़्लो का सामान्य अवलोकन। उपयोगकर्ता कच्चे अनुक्रमण को डेटा स्टोर पर मुख्य प्रोजेक्ट फ़ोल्डर में पढ़ेंगे, और फिर प्रत्येक चरण से परिणाम अलग फ़ोल्डर्स में रखें। इस आंकड़े के एक बड़े संस्करण को देखने के लिए कृपया यहां क्लिक करें

चित्र 2
चित्रा 2: डी नोवो ट्रांस्क्रिप्टम असेंबली और विश्लेषण वर्कफ़्लो का एक विस्तृत अवलोकन जो कि Cyverse Cyberinfrastructure के भीतर आता है। पूरे विधानसभा और विश्लेषण वर्कफ़्लो को पांच चरणों में पूरा किया जाएगा, जो प्रत्येक को अपने स्वयं के फ़ोल्डर (बोल्ड, गिने फ़ोल्डर आइकन) मिलेंगे। पाँच क्रमांकित वर्कफ़्लो चरण फ़ोल्डरों में से प्रत्येक में बायोइनफॉर्मेटिक विश्लेषण (फ़ोल्डर्स) से आउटपुट डेटा वाले सबफोल्डर्स हैंप्रतीक)। विश्लेषण के लिए इनपुट एक सबफ़ोल्डर से आते हैं और फिर एक विश्लेषण प्रोग्राम (आयताकार बक्से) के आउटपुट के माध्यम से दूसरे फ़ोल्डर में ले जाते हैं। पहले तीन चरणों के अंतिम आंकड़े की तुलना और प्रकाशन के लिए तैयार है। आखिरकार, यह योजना एक मुख्य प्रोजेक्ट फ़ोल्डर उत्पन्न करती है, जो सहयोगियों और / या पांडुलिपि के लिए कदम-विवेक विश्लेषण करती है, वे तुरंत कार्यप्रवाह समझ सकते हैं और आवश्यकतानुसार प्रत्येक फ़ाइल का उपयोग करके इसे दोहरा सकते हैं। इस आंकड़े के एक बड़े संस्करण को देखने के लिए कृपया यहां क्लिक करें

निम्न तीन विधियों में से किसी एक का उपयोग करके "A_Raw_Reads" वाले एक सबफ़ोल्डर फ़ोल्डर में "1_Raw_Sequence" फ़ोल्डर में कच्ची FASTQ अनुक्रम फ़ाइलें अपलोड करें
1. मुख्य डे डेस्कटॉप में डेटा बटन पर क्लिक करके डेटा विंडो टूलबार पर नेविगेट करने के लिए डेटा स्टोर सरल अपलोड सुविधा का उपयोग करें, और अपलोड करें अपलोड करें चुनें। डेस्कटॉप से सरल अपलोड करें ब्राउज बटन चुनेंस्थानीय कंप्यूटर पर कच्ची FASTQ अनुक्रमण फ़ाइलों पर नेविगेट करने के लिए यह विधि केवल 2 जीबी के अंतर्गत फ़ाइलों के लिए उपयुक्त है
2. अपलोड सबमिट करने के लिए स्क्रीन के निचले हिस्से में स्थित अपलोड बटन का चयन करें एक अधिसूचना, घंटी आइकन में अपलोड की गई प्रविष्टि में DE के शीर्ष दाईं ओर पंजीकृत होगी। अपलोड पूर्ण होने पर एक अन्य अधिसूचना पंजीकृत होगी।
3. वैकल्पिक रूप से, बड़ी फ़ाइलों को स्थानांतरित करने के लिए साइबरडैक का उपयोग करें (https://wiki.cyverse.org/wiki/x/pYcVAQ)। साइबरडैक स्थापित करें और फिर स्थानीय कंप्यूटर के डेस्कटॉप पर एक प्रोग्राम के रूप में चलाएं।
4. अंत में, iCommands डाउनलोड करें और निर्देशों के अनुसार स्थानीय कंप्यूटर पर इंस्टॉल करें (https://wiki.cyverse.org/wiki/display/DS/Using+iCommands)।
एडीएस में फास्टक्यूसी ऐप का इस्तेमाल करते हुए अपलोड किए गए कच्चे अनुक्रमण का आकलन करें
1. DE में उपलब्ध सभी विश्लेषण एप्लिकेशन वाले विंडो को खोलने के लिए मुख्य DE डेस्कटॉप पर "ऐप्स" बटन चुनें।
2. खोजें और जीत खोलेंविंडो के शीर्ष पर खोज टूलबार में फास्टक्यूसी उपकरण के लिए डॉव। अगर एक से अधिक FASTQ फ़ाइल है, तो बहु-फ़ाइल संस्करण खोलें। फ़ाइल चुनें | नया फ़ोल्डर "B_FastQC_Raw_Reads" नामक एक फ़ोल्डर बनाने के लिए और आउटपुट फ़ोल्डर के रूप में इस फ़ोल्डर का चयन करें।
3. "इनपुट डेटा चुनें" नामक उपकरण विंडो में FASTQ पठन फ़ाइलों को लोड करें और "लॉन्च विश्लेषण" चुनें।
4. विश्लेषण पूर्ण होने के बाद परिणामों को देखने के लिए .html या .pdf फ़ाइल खोलें। फास्ट क्यू सी कई विश्लेषिकी चलाता है कि पढ़ा जाने वाली फाइलों ( चित्रा 3 ) के विभिन्न पहलुओं का परीक्षण करता है।

2. ट्रिम और क्वालिटी फ़िल्टर रॉ रीड्स टू यील्ड हाई क्वालिटी सीक्वेंस

नोट: या तो त्रिकोणीय ऐप या सिकल ऐप का उपयोग करें

डे में प्रोग्रामेबल ट्रिममैमेटिक ऐप की खोज करें और इसे पहले से खोलें
1. कच्चे FASTQ पठन फ़ाइलों के फ़ोल्डर को "सेटिंग" अनुभाग में अपलोड करें
2. चुनें कि क्याQuencing फ़ाइलों एकल या युग्मित अंत हैं
3. ब्राउज बटन और पेस्टिंग / आईप्लांट / होम / साझा / ट्रिनिटी_ट्रांस्डिकोडर_ट्रिनोटेट_डेटेबेसज़ को "व्यूइंग:" बॉक्स में चुनकर उपलब्ध मानक नियंत्रण फ़ाइल का उपयोग करें। त्रैमामेटिव v3.33_control_file नामक फ़ाइल का चयन करें और विश्लेषण शुरू करें। फ़ाइल को डाउनलोड किया जा सकता है, सेटिंग्स संपादित की जाती हैं, और फिर कस्टम प्रस्तुति स्क्रिप्ट बनाने के लिए दूसरे प्रोजेक्ट फ़ोल्डर में अपलोड किया जाता है।
4. वैकल्पिक: यदि फास्टक्यूसी विश्लेषण एडेप्टर अनुक्रमों को पहचानता है, तो Illumina एडेप्टर ट्रिम करने के लिए ILLUMINACLIP सेटिंग का उपयोग करें। ऊपर के रूप में फ़ोल्डर / iplant / home / shared / trinity_transdecoder_trinotate_databases में उपयुक्त एडाप्टर फ़ाइल का चयन करें।
क्वालिटी ट्रिमिंग अनुक्रम सिकल का उपयोग करके पढ़ता है
1. DE में सिकल ऐप खोजें और खोलें ट्रिम्ड फास्टक्यू का चयन करें जैसे कि इनपुट पढ़ता है, और आउटपुट फाइल नाम बदलें। विकल्पों में गुणवत्ता सेटिंग्स शामिल करें विशिष्ट सेटिंग्स गुणवत्ता प्रारूप हैं: illumina, sanger, solexa; गुणवत्ता टीसीमा: 20; न्यूनतम लंबाई: 50
2. ट्रिम किए गए और फ़िल्टर्ड फ़ोल्डर में सभी आउटपुट को ले जाएं (2_High_Quality_Sequence)।
फास्टक्यूसी का इस्तेमाल करते हुए अंतिम पढ़ता है और पिछली फास्टक्यूसी रिपोर्टों की तुलना करें। सभी परिणामों का वेबपेज लाने के लिए .html फ़ाइल चुनें। छवि फ़ाइलों (। पीएनजी) के फ़ोल्डर का चयन करें जो आउटपुट में प्रदान किए जाते हैं यदि वह नहीं देखा जा सकता है।

3. वायुमंडल में ट्रिनिटी का उपयोग करते हुए डे नोवो ट्रांस्क्रिप्टम असेंबली

विकी पेज (https://wiki.cyverse.org/wiki/x/dgGtAQ) पर नेविगेट करके वायुमंडल के उदाहरण का सबसे वर्तमान संस्करण खोलें। ट्रिनिटी और त्रिलोतीट छवि के नवीनतम संस्करण के लिए लिंक का चयन करें वैकल्पिक रूप से, ट्रिनिटी और त्रिनोटेट छवियों के सभी संस्करणों को लाने के लिए वायुमंडल छवि खोज उपकरण (https://atmo.iplantcollaborative.org/application/images) में "ट्रिनोटेट" खोजें।
1. "लॉन्च इन लॉन्च करें" बटन को चुनें और फिर वायुमंडल I को नाम देंnstance।
2. या तो "मध्यम 3" (सीपीयू: 4, मेम: 32 जीबी) या "बड़ा 3" (सीपीयू: 8, मेम: 64 जीबी) का एक इंस्टेंस आकार चुनें। इस उदाहरण को लॉन्च करें, और इसके निर्माण की प्रतीक्षा करें। कुछ दुर्लभ मामलों में, CyVerse प्लेटफॉर्म को अपडेट करने के लिए रखरखाव करता है। मौजूदा संस्करण इन अपडेट के दौरान उपलब्ध हैं, लेकिन नए उदाहरणों को बनाने में संभव नहीं हो सकता है। किसी भी प्लेटफॉर्म (http://status.cyverse.org/) की वर्तमान स्थिति देखने के लिए Cyverse स्थिति पृष्ठ पर जाएं।
नाम पर क्लिक करके तैयार होने के बाद उदाहरण खोलें और फिर दाईं ओर मेनू के निचले भाग में "रिमोट डेस्कटॉप" का चयन करें। यदि पूछा जाए तो जावा और वीएनसी व्यूअर की अनुमति दें VNC व्यूअर विंडो में "कनेक्ट" बटन चुनें, और फिर "जारी रखें" का चयन करें।
1. एक अलग विंडो खोलने के लिए लॉग इन करें जो कि नए क्लाउड कंप्यूटिंग उदाहरण होगा।
2. चरण 1.3.1 - 1.3.4 में वर्णित तीन विधियों में से एक का उपयोग करते हुए ट्रिम और / या फ़िल्टर्ड फास्टैक फ़ाइलों को ले जाएं। हमेंऔर डीई डाउनलोड करने के लिए इंटरनेट ब्राउज़र को डाउनलोड करें और स्थानीय कंप्यूटर पर पहले ही डाउनलोड करें। या इन छवियों पर स्थापित iCommands का उपयोग बड़े डेटा सेटों को त्वरित रूप से ट्रांसफ़र करने के लिए करें।
ट्रिनिटी चलाने के लिए उच्च गुणवत्ता पढ़ता है इकट्ठा।
1. वायुमंडल के उदाहरण पर विश्लेषण फ़ोल्डर सेट करें DE (/ iplant / home / shared / trinity_transdecoder_trinotate_databases) में उपलब्ध स्क्रिप्ट का उपयोग करें या विकी पृष्ठ (https://wiki.cyverse.org/wiki/x/dgGtAQ) से कमांड कॉपी और पेस्ट करें। सभी आदेशों की व्याख्या विकी पृष्ठ पर मिल सकती है।
2. एक बार विश्लेषिकी फ़ोल्डर और ट्रिनोटेट डाटाबेस स्थापित हो जाने के बाद, ऊपर से दिए गए आदेशों का उपयोग करके ट्रिनिटी एन्बलर चलाएं। कई आउटपुट फाइलें हैं, लेकिन सबसे महत्वपूर्ण फाइनल असेंबली फ़ाइल है जिसका नाम "ट्रिनिटी.फास्टा।" संभाव्य भ्रम को कम करने के लिए डेटा स्टोर (फ़ोल्डर 3_Assembly) में जाने से पहले इकट्ठे पढ़े जाने के जीव और इलाज के लिए इस फास्ट फाइल का नाम बदलें
  नोट: एक फ़ोल्डर (4_Differential_Expression) में अंतर जीन अभिव्यक्ति विश्लेषण के लिए आउटपुट गणना तालिकाओं
RNAQUAST ( चित्रा 4 ) का उपयोग कर विधानसभा का आकलन करें।
1. ट्रिनिटी आउटपुट फ़ाइलों को DE "" में फ़ोल्डर "3_Assembly" में ले जाएं और फ़ोल्डर "A_Trinity_de_novo_assembly" लेबल करें। प्रत्येक ट्रांस्क्रिप्टम्हें दीजिए जो "A_Trinity_de_novo_assembly" फ़ोल्डर के भीतर एक सबफ़ोल्डर को इकट्ठा किया गया था जिसमें अद्वितीय नाम के साथ जीवों के वैज्ञानिक नाम और प्रत्येक ट्रांस्क्रिप्टम से संबंधित उपचार शामिल थे। "3_Assembly फ़ोल्डर" में "B_rnaQUAST_Output" नामक एक अन्य सबफ़ोल्डर बनाएं।
2. "RNAQUAST 1.2.0 (denovo आधारित)" शीर्षक वाला ऐप खोलें और विश्लेषण का नाम दें और आउटपुट फ़ोल्डर के रूप में "B_rnaQUAST_Output" चुनें।
  1. "डेटा इनपुट" अनुभाग में डे नोवो विधानसभा FASTA फ़ाइल जोड़ें। "डेटा आउटपुट" अनुभाग में, डे नोवो के लिए एक अद्वितीय नाम टाइप करें
3. "जेनरमार्क-टी जीन पूर्वानुमान," "बस्को," और "पैरामीटर" अनुभागों में अतिरिक्त विकल्प चुनें।
  1. अगर जीवाश्म यूकेरियोटिक नहीं है तो "जेनरैमार्कएस-टी जीन भविष्यवाणी" खंड में प्रोक्योराइट का चयन करें
  2. ब्राउज़ करें बटन का चयन करने के लिए और "iplant / home / shared / iplantcollaborative" उदाहरण / डेटा / BUSCO.sample.data को "देखने" बॉक्स में कॉपी करें और एन्टर दबाएं। जीव के लिए उपलब्ध सबसे विशिष्ट BUSCO फ़ोल्डर का चयन करें
    नोट: बस्को वंश-विशिष्ट कोर जीनों के लिए विधानसभा का आकलन करेगा, और मूल जीन का प्रतिशत क्या पाया जाता है। सामान्य फ़ोल्डर्स हैं, जैसे यूकेरियोट, और अधिक विशिष्ट वंश, जैसे आर्थ्रोपोडा
"ट्रांसक्रिप्ट डिकोडर" के लिए खोजें और ट्रांस्डेकोडर को डेब पर चलाएंट्रिनिटी विधानसभा आउटपुट डिस्कवरी पर्यावरण में फ़ास्टा फ़ाइल
चरण 5 में उपयोग के लिए डीओवो विधानसभा (3_Assembly) फ़ोल्डर में आउटपुट .पीपी फ़ाइल को ले जाएं।

4. डीईईई 2 में डीईईई 2 का इस्तेमाल करते हुए समान रूप से विभेदकारी अभिव्यक्ति

पूर्व में बताए अनुसार डीईएसई 2 एपी को खोलें। विश्लेषण का नाम दें और आउटपुट फ़ोल्डर को 4_Differential_Expression के रूप में चुनें।
"इनपुट" अनुभाग में, ट्रिनिटी असेंबली रन से उस गणना तालिका फ़ाइल का चयन करें और उस कॉलम में कॉन्टिग नाम मिल सकते हैं जो उस गणना तालिका में मिल सकते हैं।
कौन से कॉलम की तुलना की जाती है यह निर्धारित करने के लिए डेटा तालिका फ़ाइल की गणना से कॉलम हेडर इनपुट करें। प्रत्येक स्थिति के बीच कॉमा को शामिल करें पहले स्तंभ हेडर में शामिल न करें जिसमें contig नाम शामिल हैं।
प्रतिकृति के लिए, उसी नाम को दोहराएं ( जैसे , उपचार 1 प्र 1 1, उपचार 1 प्र 2, उपचार 1 र्रू 1 ट्रीटमेंट 1, ट्रीटमेंट 1, ट्रीटमेंट 1 बन जाएगा)। वें मेंई दूसरी लाइन, तुलना की जाने वाली दो शर्तों के नाम प्रदान करें ( जैसे , उपचार 1, उपचार 2)। प्रथम पंक्ति में प्रदान किए गए कॉलम हेडर नामों से मिलान करें
नोट: ये कॉलम हैडर अल्फ़ान्यूमेरिक होने चाहिए और इसमें कोई विशेष वर्ण नहीं हो सकते।

5. व्याख्यान त्रिनोनेट का उपयोग करना

वायुमंडल क्लाउड कंप्यूटिंग उदाहरण में त्रिनोटेट के प्रत्येक भाग को चलाएं। नोट: डेबिट (/ iplant / home / shared / trinity_transdecoder_trinotate_databases) पर या विकी पृष्ठ (https://wiki.cyverse.org/) पर चलने से पहले, बैकअप कमांड को एक प्रतिलिपि फ़ाइल में कॉपी, चिपकाया और फिर संशोधित किया जाता है। wiki / एक्स / dgGtAQ)। यदि कई विधानसभाओं का एनोटेट करते हैं, तो प्रत्येक एक विधानसभा को एक समय में टिप्पणी दें और फिर पूरी तरह से एनोटेशन फ़ाइलों को वापस "5_Annotation" फोल्डर पर स्थानांतरित करें, जिसमें एक विशिष्ट फ़ोल्डर असेंबली नाम के साथ सम्मिलित होता है।
1. ट्रिनिटी टेप की खोज के लिए बाश कमांड चलाएं। कितने CPUs मिलान करने के लिए धागे की संख्या बदलेंउदाहरण के तौर पर, अर्थात् माध्यम में 4 CPUs हैं और बड़े में 8 CPUs हैं अधिक जानकारी के लिए चरण 3.1.2 को देखें। विधानसभा FASTA फ़ाइल नाम से मेल करने के लिए Trinity.fasta आदेश बदलें।
  नोट: विस्फोट + खोजों को सबसे अधिक समय की आवश्यकता होगी। यह पूरा होने के कुछ दिनों पहले हो सकता है वायुमंडल में VNC व्यूअर को लाने के बिना क्लाउड कंप्यूटर की गतिविधि की जाँच की जा सकती है।
2. Transdecoder-predicted प्रोटीन खोज के लिए bash कमांड चलाएं पहले की तरह, 5.2.1 में स्थितियों से मिलान करने के लिए धागे संख्या और फ़ाइल नाम बदलें।
3. एचएमएमईआर के लिए बैश कमांड चलाएं और ऊपर के रूप में धागे की संख्या में बदलाव करें।
4. यदि आवश्यक हो तो सिग्नल पी और टीएमएचएमएम के लिए बैश कमांड चलाएं सिग्नल पी सिग्नल पेप्टाइड्स का अनुमान लगाएगा और टीएमएचएमएम ट्रांस्मेमेब्रन प्रोटीन मॉडल की भविष्यवाणी करता है।
परिणाम SQLite डेटाबेस में लोड हो रहा है
1. उपरोक्त सभी विश्लेषण पूर्ण होने पर, आउटपुट फाइलों को अंतिम SQLite एनोटेशन डेटाबेस में लोड करने के लिए bash कमांड चलाएं। किसी भी आदेश को निकालेंविश्लेषण करने के लिए कि रन नहीं थे
2. लोकप्रिय तालिका दर्शकों में देखने के लिए एक .xls फ़ाइल में SQLite डेटाबेस को निर्यात करें।

Representative Results

एक बार प्रोजेक्ट संगठन फाइलें ( चित्रा 1 और 2 ) बनाई गई हैं, इस कार्यप्रवाह में पहला कार्य कच्चे अनुक्रमण फ़ाइलों का आकलन करना है, और फिर उन्हें छानना और गुणवत्ता फ़िल्टरिंग से साफ करना है फास्टक्यूसी गुणवत्ता स्कोर और फास्टैक फ़ाइल प्रारूप से श्रृंखला की लंबाई के बारे में मानव-पठनीय सारांश आंकड़े उत्पन्न करेगा। फास्टक्यूसी आंकड़े तब तुलना करने से पहले और बाद में तुलना करते हैं कि अंतिम पढ़ना उच्च गुणवत्ता है और इसलिए इकट्ठा करने के लिए उपयुक्त है या नहीं। "प्रति आधार अनुक्रम गुणवत्ता" से पता चलता है कि प्रत्येक आधार जोड़ी अनुक्रमण में औसत गुणवत्ता पढ़ी जाती है। फास्टक्यूसी आंकड़ों के रंगों से संकेतित 20-28 से ऊपर की गुणवत्ता स्कोर के लिए सबसे अच्छा होना चाहिए। "प्रति अनुक्रम गुणवत्ता स्कोर" यह निर्धारित करता है कि पढ़ने की गुणवत्ता फ़िल्टरिंग आवश्यक हो सकती है या नहीं अगर बहुत से पढ़ा जाता है कि औसत औसत से नीचे 20-25 है तो औसत पढ़ी गई गुणवत्ता के आधार पर फ़िल्टर करना आवश्यक हो सकता है। "प्रति आधार अनुक्रम सामग्री" को सभी चार न्यूक्लियोटाइड अड्डों में एक भी वितरण दिखाना चाहिए। यदि न्यूक्लियोटाइड सामग्री में पूर्वाग्रह दिखाया गया है, तो समाप्त होने की आवश्यकता हो सकती है। "प्रति आधार जीसी सामग्री भी सभी पदों पर भी होनी चाहिए। अगर कोई झूठ बोलता है तो 1.4.4.3 के रूप में छंटनी की आवश्यकता हो सकती है।" प्रति अनुक्रम जीसी सामग्री "एक सामान्य वितरण होना चाहिए। एडेप्टर या पोलीमरेज़ चेन रिएक्शन (पीसीआर ) उत्पाद अनुक्रमण लाइब्रेरी में संदूषण कर सकते हैं और सामान्य वितरण को तिरछा कर सकते हैं.इस मामले में, एडाप्टर ट्रिमिंग आवश्यक हो सकता है। "अनुक्रम लंबाई वितरण" सभी पढ़ने की औसत लंबाई देता है। 35-45 आधार जोड़े से छोटे पढ़े जाते हैं आमतौर पर फ़िल्टर्ड होते हैं। "अनुक्रम दोहराव स्तर" दिखाते हैं कि कितने बार दिए गए पाठ के अनुक्रम को पुस्तकालय में देखा जाता है। अत्यधिक अनुक्रमित पढ़ा अनुक्रम और गिनती "अधिक प्रतिनिधित्वित अनुक्रम" अनुभाग में दी गई हैं। फास्टक्यूसी यह भी पहचानने का प्रयास करता है कि क्या डुप्लिकेट पढ़ता हैएडेप्टर अनुक्रम या अनुक्रमणित प्लेटफॉर्म के साथ जुड़े अन्य ज्ञात अनुक्रम हैं। "ना हिट" का लेबल का मतलब यह है कि अनुक्रम की जांच एनसीबीआई ब्लास्ट ⁶ का उपयोग करके यह निर्धारित करने के लिए किया जाना चाहिए कि यह एक जैविक रूप से प्रासंगिक अनुक्रम है या क्या इसे हटाया जाना चाहिए। डीई में ब्लास्ट के कई संस्करण उपलब्ध हैं। DE BLASTn ऐप यहां उपलब्ध है: https://de.iplantcollaborative.org/de/?type=apps&app-id=6f94cc92-6d28-45c6-aef1-036be697671d

कच्चे अनुक्रमण के बाद उच्च-गुणवत्ता वाले पढ़ने के लिए स्क्रीनिंग की गई है, तो पढ़ता है कि निकटवर्ती अनुक्रम (contigs) बनाने के लिए इकट्ठा किया जाना चाहिए। संक्षेप में, समान अनुक्रमों को खोजने के लिए सभी लघु अनुक्रमों को संरेखित करने के लिए विधानसभाएं बनाई जाती हैं। एक निश्चित लंबाई से अधिक समान अनुक्रम के क्षेत्र सा लगता हैमुझे अनुक्रम क्योंकि एक निश्चित लंबाई की एक यादृच्छिक रूप से इसी क्रम की संभावना लगभग शून्य है। ट्रिनिटी असेंबली प्रक्रिया में प्रत्येक चरण के लिए लॉग फाइल्स, फ़ास्टा फाइल का उत्पादन करेगा। हालांकि, सबसे महत्वपूर्ण आउटपुट फाइनल असेंबली फ़ाइल है जिसमें Contigs शामिल हैं, जिसे "ट्रिनिटी.फास्टा" लेबल किया गया है और मुख्य फ़ोल्डर में पाया गया है। इस फ़ाइल में सभी इकट्ठे contigs शामिल हैं, और अपने आप में व्यावहारिक रूप से "मानव-पठनीय" नहीं है। इसलिए, आरएनएक्वास्ट उपकरण को अधिक गहराई में विधानसभा को समझने के लिए इस्तेमाल किया जा सकता है। आरनाक्वास्ट टूल आउटपुट के आंकड़े बताएगा कि उपयोगकर्ताओं को यह निर्धारित करने के लिए असेंबलियों की तुलना करने की अनुमति होगी जो सबसे अधिक पूर्ण हैं ( चित्रा 4 )। आरकेएक्स्ट से प्रत्येक आंकड़े के बारे में अतिरिक्त जानकारी विकी ( https://wiki.cyverse.org/wiki/x/fwuEAQ ) पर पाई जा सकती है। अगर बूसो ⁷ चलाया गया था, विशेष रुचि का विशिष्टता.टी.टी.टी. फाइल है जो पूर्ण और पी की संख्या दर्शाती हैआर्टिकल बिजोका जीन और जीनमार्क-टी जीन की भविष्यवाणियों में एक विधानसभा की संख्या। BUSCO जीन जीवों के एक समूह के लिए सामान्य जीन के एक क्यूरेटेड सेट हैं। उनका आकलन करने के लिए इसका इस्तेमाल किया जा सकता है कि असेंबली जीन के सेट को कितनी अच्छी तरह से कैप्चर कर रही है, जो कि किसी भी प्रकार के जीव में मौजूद होने की संभावना है, जो कि फिजोजेनिक क्लैड्स पर आधारित है। एक स्वसंपूर्ण BUSCO ऐप DE ( https://de.iplantcollaborative.org/de/?type=apps&amp-id=112b8a52-efd8-11e5-a15c-277125fcb1b1 ) में भी उपलब्ध है।

अंतर जीन अभिव्यक्ति विश्लेषण प्रतिलेखों की पहचान करता है, जिनमें प्रतिसंकेत प्रतिलिपि तालिका में सरल गणना से उपचार में अभिव्यक्ति के विभिन्न पैटर्न होते हैं। सामान्यीकृत अर्थ से भिन्नता निर्धारित करने के लिए DESeq2 एक सामान्यकृत रैखिक मॉडल (जीएलएम) का उपयोग करता है प्रतिकृतियों के साथ प्रयोगों को प्राथमिकता दी जाती है ताकि तकनीकी विविधताएं FR हो सकेंडीईएसई 2 एल्गोरिथम द्वारा ओम सिकेंजिंग सामान्यीकृत किया जा सकता है डीईएसईएक्स 2 डीईजी के विश्लेषण के आंकड़े और एक। एचटीएमएल रिपोर्ट फाइल जिसमें सभी आउटपुट आंकड़े और विवरण शामिल हैं I वैकल्पिक रूप से, एडईआरआर का उपयोग डीईएसईक 2 के स्थान पर किया जा सकता है, और उसी। एचएमएल रिपोर्ट को एजेआरआर विज़ुअलाइज़ेशन के बजाय उत्पन्न किया जाएगा। किसी भी प्रयोग के लिए दोनों एल्गोरिदम द्वारा पहचाने जाने वाले भिन्न व्यक्त व्यक्त जीनों को खोजने के लिए शोधकर्ता DESek2 और EdgeR दोनों को चलाने की इच्छा कर सकते हैं। Trinotate एक आउटपुट .xls फ़ाइल बनाएगा जो किसी भी स्प्रेडशीट सॉफ्टवेयर प्रोग्राम में खोला जा सकता है। डीईजी .टीटीटी फ़ाइलें और एनोटेशन। एक्सएलएस फाइल का विश्लेषण किया जा सकता है और कई डाउनस्ट्रीम अनुप्रयोगों में देखा जा सकता है जो कि साइवरर्स प्लेटफॉर्म के बाहर मौजूद हैं।

चित्र तीन
चित्रा 3: कच्ची अनुक्रमण रीडिंग, ट्रिमीड रीड्स, और फाइनल ट्रिमाइड और फिलेंट रीड्स के फास्टक्यूसी रिपोर्ट। क्रमिक पढ़ने की प्रणालीगत तुलना पढ़ेंप्रत्येक पूर्व प्रसंस्करण कदम के बाद उच्च गुणवत्ता को पढ़ने के लिए आवश्यक हैं एनोवा ट्रांसस्क्रिप्टम इकट्ठा फास्टक्यूसी शोधकर्ताओं को अपने अनुक्रमण आंकड़ों की प्रारंभिक गुणवत्ता को समझने में मदद कर सकता है, और ट्रैक कैसे बेहतर ढंग से पढ़ता है पूर्व-संसाधित किया गया है। फास्टक्यूसी से परिणाम जीवों और नमूने अनुक्रमित होने पर निर्भर करेगा, लेकिन सभी नमूनों में एकरूपता जो डाउनस्ट्रीम से तुलना की जाएगी प्री-प्रसंस्करण पढ़ने का प्राथमिक लक्ष्य है। एक ट्यूटोरियल वीडियो और दस्तावेज़ीकरण फास्टक्यूसी के लेखकों और डेवलपर्स से उपलब्ध है। इस आंकड़े के एक बड़े संस्करण को देखने के लिए कृपया यहां क्लिक करें

चित्रा 4: तीन अलग-अलग विधानसभाओं के आरनाक्वास्ट रिपोर्ट। RNAQUAST को एक ही एन्डेमलर का उपयोग करते हुए एकाधिक रीड असेंबलियों की तुलना करने के लिए इस्तेमाल किया जा सकता है, या एकाधिक ए एक ही आरंभिक पढ़ते हुए ssemblers आरकेएएएएसएटी ने बीएसओसीओ को टैक्सोनोमिक क्लैड्स में मौजूद ज्ञात कोर जीनों के आधार पर विधानसभाओं के बारे में सारांश आंकड़े तैयार किए हैं। प्रति ट्रांस्क्रिप्ट में बेमेल की संख्या और कैनोनिकल जीन से मेल खाए गए कितने टेप, मिलान किए गए अंश, संयोजनकर्ताओं की सटीकता की जानकारी प्रदान करते हैं यहां प्रस्तुत अंतिम चार सबप्लॉट्स contig और isoform की लंबाई और अपेक्षित आईसोफॉर्म के कवरेज के सारांश आंकड़े प्रदान करते हैं। NAx y- अक्ष पर लंबाई (बीपी) से अधिक लंबाई के साथ contigs के प्रतिशत (एक्स) का प्रतिनिधित्व करता है समेकित अंश सबसे लंबी एकल इकट्ठे ट्रांस्क्रिप्ट है, इसकी लंबाई से विभाजित है। बंसो के कोर प्रोकायरेक्टिक या यूकेरियोटिक जीनों की अपेक्षा के अनुसार कवर स्ट्रिपर्स पूर्ण इकट्ठे टेप / आईसोफ्रॉप्स का प्रतिशत है। RnaQUAST द्वारा उत्पन्न सभी आलेखों का विवरण उपलब्ध है ( https://wiki.cyverse.org/wiki/x/fwuEAQ )।09 / 55009fig4large.jpg "target =" _ blank "> कृपया इस आंकड़े के एक बड़े संस्करण को देखने के लिए यहां क्लिक करें।

एप्लिकेशन का नाम	Cyverse प्लेटफार्म	तृतीय-पक्ष प्रलेखन	Cyverse प्रलेखन	नमूना डेटा सेट के लिए अनुमानित रनटाइम	ऐप से लिंक करें
FastQC	डे	http: //www.bioinformatics। Babraham.ac.uk/projects/fastqc/ https://www.youtube.com/watch?v=bz93ReOv87Y	https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=9316768	15 मिनट	https: //de.iplantcollaborative। org / डी /? type = एप्लिकेशन और एप्लिकेशन-आईडी = 112b9aa8-c4a7-11e5-8209- 5f3310948295
त्रिकोणीय v0.33	डे	https://github.com/timflutre/trimmomatic	https://wiki.cyverse.org/wiki/display/DEapps/Trimmomatic-programmable-0.33	30 मिनट	https: //de.iplantcollaborative। org / डी /? type = एप्लिकेशन और एप्लिकेशन-आईडी = 9c2a30dc-028d- 11e6-a915-ab4311791e69
दरांती	डे	https://github.com/najoshi/sickle	https://wiki.cyverse.org/wiki/display/DEapps/Sickle-quality-based-trimming	30 मिनट	https: //de.iplantcollaborative। org / डी /? type = एप्लिकेशन और एप्लिकेशन-आईडी = 68b278f8-d4d6-414d-9a64-b685a7714f7c
ट्रिनिटी	वातावरण	https://github.com/trinityrnaseq/trinityrnaseq/wiki	https: //pods.iplantcollaborative। org / wiki / प्रदर्शन / atmman / ट्रिनिटी + - + Trinotate + वायुमंडल + छवि	1 सप्ताह	https: //atmo.iplantcollaborative। org / आवेदन / images / 1261
	डे		https://wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1	2-5 दिन	https: // wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1
आरनाक्वास्ट v1.2.0	डे, वायुमंडल	http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html	https: //pods.iplantcollaborative। org / wiki / प्रदर्शन / TUT / rnaQUAST + 1.2.0 +% 28denovo + आधारित% 29 + डे का उपयोग कर	30 मिनट	https: //de.iplantcollaborative। org / डी /? type = एप्लिकेशन और एप्लिकेशन-आईडी = 980dd11a-1666- 11e6-9122-930 ba8f23352
Transdecoder	डे	https://transdecoder.github.io	https://wiki.cyverse.org/wiki/display/DEapps/Transcript+decoder+2.0	2-3 घंटे	https: //de.iplantcollaborative। org / डी /? type = एप्लिकेशन और एप्लिकेशन-आईडी = 5a0ba87e-b0fa-4994-92a2- 0d48ee881179
DESeq2	डे	https://bioconductor.org/packages/release/bioc/html/DESeq2.html	https: //pods.iplantcollaborative। org / wiki / पृष्ठों /viewpage.action? pageId = 28115142	2-3 घंटे	https: //de.iplantcollaborative। org / डी /? type = एप्लिकेशन और एप्लिकेशन-आईडी = 9574e87c-4f90- 11e6-a594-008 cfa5ae621
Edger	डे	https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf	https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=28115144	2-3 घंटे	https: //de.iplantcollaborative। org / डी /? type = एप्लिकेशन और एप्लिकेशन-आईडी = 4a08ceda-54fe- 11e6-862f-008 cfa5ae621
Trinotate	वातावरण	https://trinotate.github.io/	https: //pods.iplantcollaborative। org / wiki / प्रदर्शन / atmman / ट्रिनिटी + - + Trinotate + वायुमंडल + छवि	1 सप्ताह	https: //atmo.iplantcollaborative। org / आवेदन / images / 1261

तालिका 1: विश्लेषण कार्यक्रम, प्लेटफॉर्म्स जो वे उपलब्ध हैं, एप्रथम उपलब्धि द्वारा आदेश में कार्यप्रवाह के लिए उपलब्ध अतिरिक्त संसाधन। सभी पैकेज संस्करण अप्रैल 2016 तक वर्तमान हैं

Discussion

प्रोटोकॉल में पांच महत्वपूर्ण कदम हैं जो प्रत्येक मुख्य प्रोजेक्ट फ़ोल्डर ( आंकड़े 1 और 2 ) के अंदर स्वयं के अलग फ़ोल्डर बनाएंगे। सभी प्राथमिक कच्चे अनुक्रमण आंकड़े पवित्र हैं: इसे अपलोड किया जाना चाहिए और "1_Raw_Sequence" नामक पहला फ़ोल्डर में रखा जाना चाहिए और किसी भी तरह से परिवर्तित नहीं किया जाना चाहिए। डेटा को तीन तरीकों से एक में अपलोड किया जा सकता है डे इंटरफ़ेस फ़ाइलों को सीधे अपलोड करने के लिए इस्तेमाल किया जा सकता है यह डेटा अपलोड करने का सबसे आसान तरीका है, लेकिन हस्तांतरण के लिए सबसे लंबा समय लगेगा। साइबरडॉक के पास एक ग्राफिकल इंटरफ़ेस है और उपयोगकर्ताओं को डे से स्थानांतरित करने के लिए फ़ाइलों को खींचने और छोड़ने की अनुमति देता है। ICommands एक कमांड लाइन टूल है जिसे डेटा स्टोर से डेटा में स्थानांतरित करने और डेटा सेट्स प्रबंधित करने के लिए इस्तेमाल किया जा सकता है, और डेटा फ़ाइलों को स्थानांतरित करने का सबसे तेज़ तरीका है डेटा स्टोर में मौजूद सभी डेटा अन्य साइवरर्स उपयोगकर्ताओं (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+Discove) के साथ साझा किए जा सकते हैंRy + पर्यावरण), एक जनरेटेड यूआरएल (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links) के माध्यम से सार्वजनिक किया गया, या सार्वजनिक रूप से और गुमनाम रूप से होस्ट किया जा सकता है ( कोई उपयोगकर्ता आवश्यक नहीं है) उपलब्ध समुदाय डेटा (http://data.iplantcollaborative.org; http://mirrors.cyverse.org)। उस फ़ोल्डर के अंदर, कच्चे अनुक्रम पढ़ा जाता है, फास्टक्यूसी (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) के साथ विश्लेषण किया जाता है ताकि उच्च गुणवत्ता वाले पढ़ने के लिए पढ़ने के लिए कैसे ट्रिम और फ़िल्टर किया जा सके। ट्रिमिंग और गुणवत्ता फ़िल्टरिंग के बाद फास्टक्यूसी आउटपुट की तुलना करने के लिए यह उपयोगी है कि क्या पढ़ने की गुणवत्ता बदल गई है यह निर्धारित करने के लिए कि उसे खोए बिना सूचना ( चित्रा 3 ) प्राप्त हुई है। ध्यान दें कि फास्टक्यूसी के एक्स-एक्स रेखीय नहीं है, बल्कि कई आउटपुट ग्राफों के लिए भी लगाया जाता है, जिससे परिणामों के गलत व्याख्या हो सकती है। ट्रिम और फ़िल्टर्ड पढ़ा जाता है तो वायुमंडल क्लाउड कंप्यूटिंग आवृत्ति का उपयोग करते हुए डे नवो ट्रांसस्क्रिप्टम इकट्ठा करने के लिए उपयोग किया जाता है। इसक्लाउड कंप्यूटर स्थानीय कंप्यूटर स्क्रीन, कुंजीपटल, और माउस का उपयोग करता है, लेकिन इसका स्वयं का सॉफ्टवेयर (ट्रिनिटी एंड टिनोटेट) और हार्डवेयर स्थापित है। क्लाउड कंप्यूटर उदाहरण पर चलने वाले कार्यक्रम किसी भी तरह से स्थानीय कंप्यूटर को प्रभावित नहीं करेंगे। डी न्यू विधानसभा और डाउनस्ट्रीम एनोटेशन इस वर्कफ़्लो में सबसे लंबे समय तक चलने वाले सबसे बड़े चरण होंगे। इसलिए, वे सामान्य प्रयोगशाला से साझा कंप्यूटर की समस्याओं से बचने के लिए वायुमंडल पर पूरा कर लेते हैं जो पावर आउटेज जैसी विश्लेषण में बाधा डालती हैं, रात के बाद स्वत: अपडेट के बाद पुनरारंभ होते हैं, या अन्य उपयोगकर्ताओं द्वारा की गई दुर्घटनाएं त्रिनोटेट एनोटेशन में ब्लेस्ट +8, एचएमएमईआर ⁹ , टीएमएचएमएम ¹⁰ और पीएफएएम ^{11 का इस्तेमाल होता है} । एनोटेशन का अंतिम आउटपुट एक SQLite डेटाबेस और .xls फ़ाइल है। आउटपुट का उपयोग CyVerse के बाहर डाउनस्ट्रीम विश्लेषण प्लेटफार्मों में किया जा सकता है जैसे KEGG ¹² ^, ¹³

यह वर्कफ़्लोडे और वायुमंडल में उपयोग करने के लिए तैयार है यह प्रत्येक विश्लेषण पैकेज को स्थापित करने, कॉन्फ़िगर करने, और समस्या निवारण के लिए समय व्यतीत करने की आवश्यकता को समाप्त करता है और प्रत्येक उपकरण की आवश्यकता होती है सभी निर्भरता। यह शोधकर्ताओं का विश्लेषण करती है, व्यर्थ प्रयास को कम करता है, और कई वैज्ञानिकों के लिए प्रवेश की बाधा को कम करता है। यह वर्कफ़्लो विशेष रूप से एकल या युग्मित-अंत को इलुमिना अनुक्रमण प्लैटफॉर्म से पढ़ता है, लेकिन अन्य प्रकार की अनुक्रमण तकनीकों को संभालने के लिए डे और वायुमंडल में कई उपकरण मौजूद हैं। इस वर्कफ़्लो में उपकरण किसी भी प्रकार की आने वाली अनुक्रमण तकनीक को नियंत्रित करने के लिए इसी वैकल्पिक टूल से आसानी से बदल सकते हैं। यह विश्लेषण उपकरणों या नए उपकरणों के नए संस्करणों के बारे में भी सच है

यह वर्कफ़्लो विशेष रूप से एक समय में केवल कुछ ट्रांसक्रिप्टोम को इकट्ठा करने, उनकी तुलना करने और एनोटेट करने के लिए डिज़ाइन किया गया है। इसलिए, तुलनात्मक जनसंख्या आनुवंशिकी के लिए कई ट्रांस्क्रिप्टमों को इकट्ठा करने के लिए उपयोगकर्ताओं को समय लगता है। विश्लेषणनिकट भविष्य में जनसंख्या आनुवांशिकी उपयोगकर्ताओं के लिए पाइपलाइन उपलब्ध होगी और पाइप लाइन के लिए लिंक विकी पृष्ठ (https://wiki.cyverse.org/wiki/x/dgGtAQ) पर पाए जा सकते हैं। अंतर जीन अभिव्यक्ति विश्लेषण चरण प्रतिकृति को संभाल सकता है, लेकिन यह एक pairwise तुलना है और सटीक रूप से कई कारकों का आकलन नहीं करेगा ( उदाहरण के लिए , समय के साथ भिन्न स्थितियों में, दो से अधिक उपचार) संदर्भ जीनोम के साथ जीवों के लिए स्वचालित वर्कफ़्लोज़ मौजूद हैं ( जैसे , TRAPLINE ¹⁴ )। जबकि स्वचालित वर्कफ़्लोज़ novices के लिए उपयोग करने में सबसे आसान हैं, डे नॉवो असेंबलियों को यहां दिए गए प्रत्येक चरण के मूल्यांकन और विचार की आवश्यकता होती है। इसके अतिरिक्त, उपयोगकर्ताओं को स्वचालित पाइपलाइनों का उपयोग करने की आवश्यकता होती है, क्योंकि वे निर्माण की जाती हैं, और इसलिए उपयोगकर्ताओं की बदलती मांगों को पूरा करने के लिए स्वाभाविक रूप से लचीला नहीं हैं।

इस प्रोटोकॉल के अधिकांश के रूप में इंटरनेट पर किया जाता है, उपयोगकर्ताओं को अपने ब्राउज़र सेटिंग्स के साथ परेशानियों का अनुभव हो सकता है। पहले तो,पॉप-अप ब्लॉकर्स विंडोज़ को बिल्कुल भी खोलने से रोक सकते हैं, या जब तक ब्राउज़र में साइवरर्स को अनुमति नहीं दी जाती है, तब तक विंडोज़ को खोलने से रोकता है। वायुमंडल दूरस्थ डेस्कटॉप तक पहुंचने के लिए VNC का उपयोग करता है, लेकिन अन्य सॉफ़्टवेयर का उपयोग किया जा सकता है यह संपूर्ण प्रोटोकॉल फ़ायरफ़ॉक्स संस्करण 45.0.2 में आयोजित किया गया था और सभी लोकप्रिय इंटरनेट ब्राउज़र के साथ काम करना चाहिए, लेकिन कुछ विसंगतियां दिखाई दे सकती हैं। ट्रिनिटी नए संस्करणों (https://github.com/trinityrnaseq/trinityrnaseq/wiki) के रिलीज के रूप में कार्यप्रवाह को अपडेट किया जाएगा। कार्यप्रवाह के बारे में नवीनतम संस्करण और अप-टू-डेट जानकारी विकी ट्यूटोरियल पृष्ठ पर मिल सकती हैं ( तालिका 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ)। प्रयोक्ता सीधे समर्थन से संपर्क कर सकते हैं या कार्यप्रवाह के साथ किसी भी समस्या का निवारण करने के लिए पूछ CyVerse (ask.cyverse.org/) पर प्रश्न पोस्ट कर सकते हैं।

इस प्रोटोकॉल के प्रत्येक चरण को पूरा करने के लिए DE में कई ऐप्स मौजूद हैं। उदाहरण के लिए, उपयोगकर्ता त्रिशूल के बजाय स्कीथ (https://github.com/najoshi/sickle) को चलाने की इच्छा रख सकते हैं¹⁵ डीईएसईएक ¹⁷ ^, ^{18 के} बजाय एडीआरआर ¹⁶ को ट्रिम करने या चलाने के लिए हालांकि इस पांडुलिपि के दायरे से बाहर, डे ऐप उपयोगकर्ताओं द्वारा कॉपी, संपादित और जारी किए जा सकते हैं (https://wiki.cyverse.org/wiki/display/DEmanual/Creating ,+Copying,+and+Editing+DE+ ऐप्स) या नए ऐप्स उपयोगकर्ताओं द्वारा जोड़ सकते हैं (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+your+Tools+for+the+CyVerse+Discovery+Environment)। वायुमंडल की छवियों को नए या संशोधित वर्कफ़्लोज़ बनाने के लिए संशोधित और संशोधित किया जा सकता है जो उपयोगकर्ताओं की आवश्यकताओं को अधिक विशिष्ट रूप से मेल खाती हैं (https://wiki.cyverse.org/wiki/x/TwHX)। यह काम डेटा को स्थानांतरित करने और विश्लेषकों को निष्पादित करने के लिए कमांड लाइन का उपयोग करने के लिए एक परिचय के रूप में कार्य करता है। उपयोगकर्ता अधिक उन्नत कमांड लाइन संसाधनों जैसे कि Cyverse अनुप्रयोग प्रोग्रामिंग इंटरफेस (एपीआई) (http://www.cyverse.org/science-apis) का उपयोग करने पर विचार कर सकते हैं, या स्वयं के डीई ऐप को डिज़ाइन कर सकते हैं, जिसे ज्ञान की आवश्यकता होती हैकैसे के बारे में विश्लेषण उपकरण कमांड लाइन पर चलाया जाता है (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface)।

Materials

Name	Company	Catalog Number	Comments
Trimmomatic v0.33	USADELLAB.org	https://github.com/timflutre/trimmomatic	https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69
Sickle	Joshi and Fass	https://github.com/najoshi/sickle	https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c
Trinity	Broad Institute and Hebrew University of Jersalem	https://github.com/trinityrnaseq/trinityrnaseq/wiki	https://atmo.iplantcollaborative.org/application/images/1261
rnaQUAST v1.2.0	Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences	http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html	https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352
Transdecoder	Broad Institute and Commonwealth Scientific and Industrial Research Organisation	https://transdecoder.github.io	https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179
EdgeR	Robinson et al. 2010.	https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf	https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499
Trinotate	Broad Institute and Hebrew University of Jersalem	https://trinotate.github.io/	https://atmo.iplantcollaborative.org/application/images/1261