आकाशगंगा और डेविड लोकप्रिय टूल दिए गए जैव सूचना विज्ञान प्रशिक्षण के बिना जांचकर्ताओं का विश्लेषण और आरएनए Seq डेटा व्याख्या करने की अनुमति के रूप में उभरा है। सी.एलेगन्स शोधकर्ताओं आरएनए Seq प्रयोगों, पहुँच प्रदर्शन करने के लिए और आकाशगंगा का उपयोग कर डाटासेट संसाधित करने और डेविड का उपयोग कर जीन सूचियों से सार्थक जैविक जानकारी प्राप्त करने के लिए हम एक प्रोटोकॉल का वर्णन।
अगली पीढ़ी अनुक्रमण (NGS) प्रौद्योगिकियों जैविक जांच की प्रकृति में क्रांति ला दिया है। इनमें से शाही सेना अनुक्रमण (आरएनए Seq) जीन अभिव्यक्ति विश्लेषण और transcriptome मानचित्रण के लिए एक शक्तिशाली उपकरण के रूप में उभरा है। हालांकि, आरएनए Seq डेटासेट से निपटने परिष्कृत कम्प्यूटेशनल विशेषज्ञता की आवश्यकता और जीव विज्ञान शोधकर्ताओं के लिए निहित चुनौतियों बन गया है। इस टोंटी खुली पहुंच आकाशगंगा परियोजना है कि जैव सूचना विज्ञान कौशल के बिना उन आरएनए Seq डेटा का विश्लेषण करने की अनुमति देता है, और एनोटेशन, दृश्य, और एकीकृत डिस्कवरी (डेविड) के लिए डाटाबेस से कम किया गया है, एक जीन आंटलजी (GO) अवधि विश्लेषण सुइट है जो बड़े डेटा सेट से जैविक अर्थ निकाले जाते हैं। हालांकि, पहली बार के उपयोगकर्ताओं और जैव सूचना विज्ञान 'शौकीनों, इन प्लेटफार्मों के साथ स्वयं सीखने और परिचय के लिए समय लेने वाली और कठिनाई आ सकती है। हम कीड़ा शाही सेना को अलग करने के सी.एलेगन्स शोधकर्ताओं में मदद मिलेगी कि एक सीधा कार्यप्रवाह का वर्णन है, एक आरएनए-Seq प्रयोग का संचालनऔर आकाशगंगा और डेविड प्लेटफार्मों का उपयोग कर डेटा का विश्लेषण। यह प्रोटोकॉल हर कदम पर, कच्चे NGS डेटा, गुणवत्ता नियंत्रण की जाँच, संरेखण, और अंतर जीन अभिव्यक्ति विश्लेषण तक पहुँचने मानकों के साथ उपयोगकर्ता मार्गदर्शन के लिए विभिन्न आकाशगंगा मॉड्यूल का उपयोग कर एक जीन की सूची है कि के संवर्धन के लिए जांच की जा सकती है उत्पन्न करने के लिए के लिए चरणबद्ध निर्देश प्रदान करता है जीन वर्गों या जैविक प्रक्रियाओं डेविड का उपयोग कर। कुल मिलाकर, हम आशा करते हैं कि इस लेख के बारे में जानकारी प्रदान करेगा सी पहली बार के लिए शाही सेना Seq प्रयोगों के साथ ही बार-बार उन नमूनों की एक छोटी संख्या में चल रहे उपक्रम शोधकर्ताओं एलिगेंस करने के लिए।
मानव जीनोम की पहली अनुक्रमण,, फ्रेड सेंगर के dideoxynucleotide-अनुक्रमण विधि का उपयोग किया 10 साल लग गए, और एक अनुमान के अनुसार अमेरिका में 3 अरब $ 1, 2 की लागत। हालांकि, अपनी स्थापना के बाद एक दशक से अधिक एक छोटे में, अगली पीढ़ी अनुक्रमण (NGS) प्रौद्योगिकी यह दो सप्ताह के भीतर पूरे मानव जीनोम अनुक्रम और यूएस $ 1,000 के लिए संभव बना दिया है। नई NGS उपकरणों कि की अनुमति लागत में अविश्वसनीय दक्षता के साथ बढ़ती अनुक्रमण-डेटा संग्रह की गति, तेज कटौती के साथ-साथ, अकल्पनीय मायनों में आधुनिक जीव विज्ञान क्रांति कर रहे हैं के रूप में जीनोम अनुक्रमण परियोजनाओं को तेजी से सामान्य हो रहे हैं। इसके अलावा, इन घटनाओं में इस तरह के शाही सेना अनुक्रमण (आरएनए Seq), जीनोम चौड़ा epigenetic संशोधनों के अध्ययन, डीएनए प्रोटीन अन्योन्य क्रिया के माध्यम से जीन अभिव्यक्ति विश्लेषण के रूप में कई अन्य क्षेत्रों में प्रगति जस्ती है, और मानव मेजबान में माइक्रोबियल विविधता के लिए स्क्रीनिंग। NGS आधारित शाही सेना सेविशेष रूप से क्ष यह संभव व्यापक सटीकता और संवेदनशीलता के साथ नक्शा transcriptomes की पहचान करने और करने के लिए बनाया गया है, और अभिव्यक्ति की रूपरेखा के लिए पसंद की विधि के रूप में माइक्रोएरे प्रौद्योगिकी ले लिया है। माइक्रोएरे प्रौद्योगिकी बड़े पैमाने पर इस्तेमाल किया गया है, यह इस तरह के पार संकरण और अभिव्यक्ति में परिवर्तन की प्रतिबंधित सीमा कि मज़बूती से मापा जा सकता है के रूप में अन्य कमियां ज्ञात जीनोमिक जानकारी के साथ पहले से मौजूद सरणियों, और पर अपनी निर्भरता द्वारा सीमित है। शाही सेना seq, दूसरे हाथ पर, अपने स्पष्ट डीएनए मैपिंग प्रकृति के कारण, जबकि कम पृष्ठभूमि शोर उत्पादन दोनों ज्ञात और अज्ञात टेप पता लगाने के लिए इस्तेमाल किया जा सकता। शाही सेना Seq, कई आनुवंशिक ऐसे खमीर के रूप में मॉडल जीवों द्वारा की पेशकश उपकरणों के साथ मिलकर, मक्खियों, कीड़े, मछली और चूहों, कई महत्वपूर्ण हाल के जैव चिकित्सा खोजों के लिए नींव के रूप में सेवा की है। हालांकि, महत्वपूर्ण चुनौतियों रहने कि व्यापक वैज्ञानिक समुदाय के लिए दुर्गम NGS बनाने के भंडारण की सीमाओं, प्रसंस्करण, और सभी के अधिकांश, मीटर सहित, अनुक्रमण डेटा की बड़ी मात्रा का eaningful जैव सूचना विज्ञान विश्लेषण।
अनुक्रमण प्रौद्योगिकियों और घातीय डेटा संचय में तेजी से प्रगति कम्प्यूटेशनल प्लेटफार्मों कि शोधकर्ताओं का उपयोग का विश्लेषण करने और इस जानकारी को समझने के लिए अनुमति देगा की काफी जरूरत पैदा की है। प्रारंभिक सिस्टम भारी कंप्यूटर प्रोग्रामिंग ज्ञान पर निर्भर करती थीं, जबकि इस तरह के एन सी बी आई के रूप में जीनोम ब्राउज़रों कि नान प्रोग्रामर्स पहुँच सकते हैं और डेटा की कल्पना परिष्कृत विश्लेषण की अनुमति नहीं था की अनुमति दी। वेब आधारित, खुले पहुँच मंच, आकाशगंगा ( https://galaxyproject.org/ ), इस शून्य भरा है और एक मूल्यवान पाइपलाइन कि NGS डेटा की प्रक्रिया और एक स्पेक्ट्रम के प्रदर्शन करने के लिए सक्षम बनाता है शोधकर्ताओं साबित हो गया है सरल करने के लिए जटिल जैव सूचना विज्ञान विश्लेषण करती है। गैलेक्सी शुरू में स्थापित किया गया था, और बनाए रखा है, एंटोन Nekrutenko (पेन स्टेट यूनिवर्सिटी) और जेम्स टेलर की प्रयोगशालाओं द्वारा (जॉन्स हॉपकिन्स विश्वविद्यालय)च "> 3। आकाशगंगा यह सब एक आरएनए-Seq अध्ययन में शामिल चरणों सहित असंख्य जैव सूचना विज्ञान की जरूरत है, के लिए एक 'वन-स्टॉप शॉप' बनाने कम्प्यूटेशनल कार्यों की एक विस्तृत श्रृंखला प्रदान करता है। या तो अपने सर्वर पर या डाटा प्रोसेसिंग प्रदर्शन करने के लिए उन Itallows स्थानीय स्तर पर अपने स्वयं मशीनों पर। डाटा और workflows reproduced जा सकता है और साझा की है। ऑनलाइन ट्यूटोरियल, सहायता अनुभाग, और एक विकि-पेज ( https://wiki.galaxyproject.org/Support ) आकाशगंगा परियोजना के लिए समर्पित लगातार समर्थन प्रदान करते हैं। हालांकि, पहली बार के उपयोगकर्ताओं के लिए, विशेष रूप से कोई जैव सूचना विज्ञान प्रशिक्षण के साथ उन लोगों, पाइपलाइन कठिन दिखाई दे सकता है और स्वयं सीखने और परिचय की प्रक्रिया समय लग सकता है। इसके अलावा, जैविक प्रणाली का अध्ययन किया, और प्रयोग और तरीकों की बारीकियों का इस्तेमाल किया, प्रभाव कई कदम पर विश्लेषणात्मक निर्णय है, और इन शिक्षा के बिना नेविगेट करने के लिए मुश्किल हो सकता है।
कुल मिलाकर आर.एन. ए-Seq आकाशगंगा कार्यप्रवाह, डेटा अपलोड और गुणवत्ता टक्सेडो सुइट 4, 5, 6, 7, 8, 9, जो शाही सेना Seq डेटा विश्लेषण 10 के विभिन्न चरणों के लिए आवश्यक विभिन्न उपकरणों का एक सामूहिक है का उपयोग कर विश्लेषण के बाद जांच के होते हैं 11, 12, 13, 14। एक ठेठ आरएनए Seq प्रयोग प्रयोगात्मक हिस्सा (नमूना तैयार करने, mRNA अलगाव और सीडीएनए पुस्तकालय तैयारी) के होते हैं, NGS और जैव सूचना विज्ञान डेटा विश्लेषण। इन वर्गों, और कदम आकाशगंगा पाइपलाइन में शामिल का अवलोकन, चित्र 1 में दिखाया गया है।
3fig1.jpg "/>
चित्र 1: एक आरएनए-Seq कार्यप्रवाह का अवलोकन। दो कीड़ा उपभेदों (ए और बी, नारंगी और हरे रंग लाइनों और तीर, क्रमशः) के जीन अभिव्यक्ति प्रोफाइल की तुलना करने के एक आरएनए-Seq प्रयोग में शामिल प्रयोगात्मक और कम्प्यूटेशनल चरणों का चित्रण। आकाशगंगा का उपयोग के विभिन्न मॉड्यूल हमारे प्रोटोकॉल में इसी कदम लाल रंग में संकेत दिया साथ बक्से में दिखाए जाते हैं। विभिन्न कार्यों के आउटपुट नीले रंग में दिखाया फ़ाइल स्वरूपों के साथ भूरे रंग में लिखे गए हैं। यह आंकड़ा का एक बड़ा संस्करण देखने के लिए यहां क्लिक करें।
टक्सेडो सूट में पहला उपकरण एक संरेखण कार्यक्रम 'Tophat' कहा जाता है। यह टूट जाती है NGS इनपुट छोटे टुकड़ों में पढ़ता है और फिर उन्हें एक संदर्भ जीनोम को मैप करता है। यह दो चरण की प्रक्रिया सुनिश्चित करता है कि intronic क्षेत्रों जिसका संरेखण अन्यथा di हो सकता फैले पढ़ताsrupted या चूक के लिए जिम्मेदार है और मैप की जाती हैं। इस कवरेज बढ़ जाती है और उपन्यास जोड़ जंक्शनों की पहचान की सुविधा। Tophat उत्पादन दो फ़ाइलों, एक बिस्तर फ़ाइल (जोड़ जंक्शनों कि जीनोमिक स्थान शामिल हैं के बारे में जानकारी के साथ) और एक BAM फ़ाइल (प्रत्येक को पढ़ने की मैपिंग विवरण के साथ) के रूप में रिपोर्ट किया गया है। इसके बाद, BAM फ़ाइल 'कफ़लिंक' नामक टक्सेडो सुइट में बाद में उपकरण का उपयोग कर प्रत्येक नमूने के अलग-अलग टेप की बहुतायत अनुमान लगाने के लिए एक संदर्भ के जीनोम के खिलाफ गठबंधन है। पूर्ण लंबाई प्रतिलेख टुकड़े या 'transfrags' है कि हर जीन के लिए इनपुट डेटा में हर संभव जोड़ वेरिएंट अवधि रिपोर्ट करने के लिए संरेखण को स्कैन करके कफ़लिंक कार्य करता है। इस आधार पर, यह एक प्रत्येक नमूने के लिए अनुक्रम किया जा रहा है (सभी हर जीन के लिए जीन प्रति उत्पन्न टेप की विधानसभा) 'transcriptome' उत्पन्न करता है। इन कफ़लिंक विधानसभाओं तो ध्वस्त हो गई या फिर साथ-साथ एक साथ विलय कर रहे हैंसम्मेलन जीनोम नीचे की ओर अंतर विश्लेषण अगले उपकरण, 'Cuffmerge' का उपयोग कर के लिए एक एकल एनोटेशन फ़ाइल का उत्पादन करने के लिए। अंत में, अंतिम Cuffmerge आउटपुट फ़ाइल (चित्रा 1) के नमूने में से प्रत्येक के Tophat आउटपुट की तुलना द्वारा नमूने के बीच 'Cuffdiff' उपकरण उपायों अंतर जीन अभिव्यक्ति। कफ़लिंक का उपयोग करता FPKM / RPKM (टुकड़े / प्रति kilobase लाख मैप की प्रति प्रतिलेख के पढ़ने पढ़ता है) मान प्रतिलेख प्रचुरता रिपोर्ट करने के लिए। ये मान गहराई के लिए कच्चे NGS डेटा को सामान्य प्रतिबिंबित और जीन लंबाई (जीन, अलग-अलग लंबाई है तो मायने रखता स्तर की तुलना करने के लिए एक जीन की लंबाई के लिए सामान्यीकृत किया जाना है (औसत संख्या एक नमूना है कि संदर्भ जीनोम को संरेखित से पढ़ता की) जीन के बीच)। FPKM और RPKM अनिवार्य है, जबकि, FPKM के लिए प्रयोग किया जाता है RPKM के साथ एक ही एकल अंत शाही सेना Seq जहां हर पढ़ा एक भी टुकड़ा से मेल खाती है के लिए इस्तेमाल किया जा रहा हैंबनती अंत शाही सेना Seq, यह तथ्य दो पढ़ता है कि एक ही टुकड़ा के अनुरूप कर सकते हैं के लिए खातों के रूप में। अंत में, इन विश्लेषण के परिणाम जीन भिन्न शर्तों और / या उपभेदों का परीक्षण के बीच व्यक्त की एक सूची है।
एक सफल गैलेक्सी रन पूरा हो गया है और एक 'जीन सूची' उत्पन्न हो जाने के बाद, अगला तार्किक कदम डेटासेट से सार्थक ज्ञान निकालना का विश्लेषण करती है और अधिक जैव सूचना विज्ञान की आवश्यकता है। कई सॉफ्टवेयर संकुल इस जरूरत को पूरा करने के, इस तरह के डेविड 15 (एनोटेशन, दृश्य और एकीकृत खोज के लिए डाटाबेस) के रूप में सार्वजनिक रूप से उपलब्ध वेब आधारित कम्प्यूटेशनल संकुल सहित उभरा है। डेविड अपनी एकीकृत जैविक नॉलेजबेस पर अपलोड जीन सूची की तुलना और जैविक जीन सूची से संबद्ध एनोटेशन खुलासा द्वारा उच्च प्रवाह क्षमता के अध्ययन से बड़े जीन सूची में जैविक अर्थ बताए की सुविधा। इस संवर्धन विश्लेषण, यानी, द्वारा पीछा किया जाता आईडीई के लिए परीक्षणntify यदि कोई जैविक प्रक्रिया या जीन वर्ग सांख्यिकीय रूप से महत्वपूर्ण ढंग से जीन सूची (सूचियों) में overrepresented है। यह एक विस्तृत, एकीकृत ज्ञान आधार और शक्तिशाली विश्लेषणात्मक एल्गोरिदम कि शोधकर्ताओं जैविक भीतर समृद्ध विषयों का पता लगाने के लिए सक्षम का एक संयोजन की वजह से एक लोकप्रिय विकल्प बन गया है जीनोमिक्स व्युत्पन्न 'गुणसूत्र सूचियों' 10, 16। अतिरिक्त लाभ किसी भी अनुक्रमण मंच और एक अत्यंत उपयोगकर्ता के अनुकूल इंटरफेस पर बनाया जीन सूचियों पर कार्रवाई करने की क्षमता शामिल है।
निमेटोड Caenorhabditis एलिगेंस एक आनुवंशिक मॉडल प्रणाली, अच्छी तरह से इस तरह के छोटे आकार, पारदर्शी शरीर, सरल शरीर की योजना, संस्कृति में आसानी और आनुवंशिक और आणविक विच्छेदन के लिए महान ज़िम्मा के रूप में अपनी कई फायदे के लिए जाना जाता है। कीड़े एक, छोटे सरल और अच्छी तरह से एनोटेट जीनोम कि ज्ञात मानव homologs 17 के साथ 40% संरक्षित जीन पर निर्भर शामिल है। दरअसल, सी एलिगेंसपहले metazoan जिसका जीनोम पूरी तरह से 18 अनुक्रम था और पहली प्रजाति जहां शाही सेना Seq एक जीव की transcriptome 19, 20 मैप करने के लिए इस्तेमाल किया गया था से एक था। प्रारंभिक कीड़ा पढ़ाई उच्च throughput शाही सेना पर कब्जा, पुस्तकालय तैयारी और अनुक्रमण के साथ ही जैव सूचना विज्ञान पाइपलाइनों के लिए विभिन्न तरीकों कि प्रौद्योगिकी 21, 22 की उन्नति के लिए योगदान दिया साथ शामिल प्रयोग। हाल के वर्षों में, कीड़े में शाही सेना Seq आधारित प्रयोग आम हो गया है। लेकिन, पारंपरिक वर्म जीव के लिए चुनौतियों आरएनए Seq डेटा के कम्प्यूटेशनल विश्लेषण से उत्पन्न तकनीक का अधिक से अधिक और बेहतर उपयोग के लिए एक प्रमुख बाधा बने हुए हैं।
इस अनुच्छेद में, हम आकाशगंगा प्लेटफॉर्म का इस्तेमाल सी.एलेगन्स से उत्पन्न उच्च throughput आरएनए Seq डेटा का विश्लेषण करने के लिए एक प्रोटोकॉल का वर्णन। कई पहली बार और छोटे एससीए के लिएle उपयोगकर्ताओं, सबसे अधिक लागत प्रभावी और सरल तरीके से एक आरएनए-Seq प्रयोग शुरू करने के लिए प्रयोगशाला में शाही सेना को अलग करने और अनुक्रमण सीडीएनए पुस्तकालयों की तैयारी और NGS खुद के लिए एक वाणिज्यिक (या इन-हाउस) NGS सुविधा का उपयोग करने के लिए है। इसलिए, हम पहले अलगाव में शामिल चरणों विस्तृत, सी की मात्रा और गुणवत्ता मूल्यांकन आरएनए Seq के लिए शाही सेना के नमूने एलिगेंस। इसके बाद, हम NGS डेटा के विश्लेषण के लिए गैलेक्सी इंटरफ़ेस का उपयोग कर, बाद अनुक्रमण गुणवत्ता नियंत्रण संरेखण, विधानसभा, और जीन अभिव्यक्ति के अंतर मात्रा के बाद जांच के लिए परीक्षण के साथ शुरुआत के लिए कदम दर कदम निर्देश प्रदान करते हैं। इसके अलावा, हम डेविड का उपयोग कर जैविक संवर्धन के अध्ययन के लिए आकाशगंगा से उत्पन्न जीन सूचियों की जांच करने के लिए निर्देशों को शामिल किया है। कार्यप्रवाह में एक अंतिम कदम के रूप में, हम इस तरह के अनुक्रम पढ़ें आर्काइव (एसआरए) एन सी बी आई पर (के रूप में सार्वजनिक सर्वर पर शाही सेना Seq डेटा अपलोड करने के लिए निर्देश प्रदान करते हैं http: // www.ncbi.nlm.nih.gov/sra) यह स्वतंत्र रूप से वैज्ञानिक समुदाय के लिए सुलभ बनाने के लिए। कुल मिलाकर, हम आशा करते हैं कि इस लेख के लिए पहली बार शाही सेना Seq प्रयोगों के साथ ही बार-बार उन नमूनों की एक छोटी संख्या में चल रहे उपक्रम कीड़ा जीव के लिए व्यापक और पर्याप्त जानकारी प्रदान करेगा।
आधुनिक जीव विज्ञान में आकाशगंगा अनुक्रमण मंच का महत्व
आकाशगंगा परियोजना की प्रक्रिया और एक तेज और कुशल तरीके से उच्च throughput अनुक्रमण डेटा का विश्लेषण करने जैव सूचना विज्ञान प्रशिक्षण के बिना …
The authors have nothing to disclose.
लेखकों प्रयोगशालाओं, समूहों और व्यक्तियों, जो आकाशगंगा और डेविड का विकास किया है, और इस तरह के वैज्ञानिक समुदाय के लिए NGS व्यापक रूप से सुलभ बना दिया करने के लिए अपने आभार व्यक्त करना चाहते हैं। मदद और सलाह हमारे जैव सूचना विज्ञान प्रशिक्षण के दौरान पिट्सबर्ग विश्वविद्यालय में उनके सहयोगियों द्वारा प्रदान की स्वीकार किया है। इस काम के पुरस्कार (एजी-NS-0879-12) और राष्ट्रीय स्वास्थ्य संस्थान एजी के लिए (R01AG051659) से अनुदान एजिंग में एक एलिसन मेडिकल फाउंडेशन नई विद्वान द्वारा समर्थित किया गया।
RNase spray | Fisher Scientific | 21-402-178 |
Trizol | Ambion | 15596026 |
Sonicator | Sonics Vibra Cell | VCX130 |
Centrifuge | Eppendorf | 5415C |
chloroform | Sigma Aldrich | 288306 |
2-propanol | Fisher Scientific | A416P-4 |
Ethanol | Decon Labs | 2705HC |
RNase-free water | Fisher Scientific | BP561-1 |
Bioanalyzer | Agilent | G2940CA |
Mac/PC |