हम CorExplorer वेब पोर्टल, मशीन सीखने एल्गोरिथ्म CorEx (सहसंबंध स्पष्टीकरण) द्वारा पाया ट्यूमर आरएनए अनुक्रमण कारकों की खोज के लिए एक संसाधन परिचय, और दिखाने के कैसे कारकों अस्तित्व के सापेक्ष विश्लेषण किया जा सकता है, डेटाबेस एनोटेशन, प्रोटीन प्रोटीन बातचीत, और एक दूसरे ट्यूमर जीव विज्ञान और चिकित्सीय हस्तक्षेप में अंतर्दृष्टि हासिल करने के लिए.
विभेदक जीन अभिव्यक्ति विश्लेषण रोग राज्यों को समझने के लिए एक महत्वपूर्ण तकनीक है। मशीन लर्निंग एल्गोरिथ्म CorEx एक तरीका है कि सटीक ऑन्कोलॉजी को आगे बढ़ाने के लिए सहायक हो सकता है में ट्यूमर आरएनए-सेक में जीन के समूहों के अंतर अभिव्यक्ति का विश्लेषण करने में उपयोगिता दिखाया गया है। हालांकि, CorEx कई कारकों है कि विश्लेषण और मौजूदा समझ से कनेक्ट करने के लिए चुनौतीपूर्ण हो सकता है पैदा करता है. ऐसे कनेक्शन की सुविधा के लिए, हमने एक वेबसाइट, CorExplorer का निर्माण किया है, जो उपयोगकर्ताओं को डेटा का पता लगाने और इसके विश्लेषण से संबंधित सामान्य प्रश्नों के उत्तर देने की अनुमति देता है। डिम्बग्रंथि, फेफड़े, मेलेनोमा, और कोलोरेक्टल: हम चार ट्यूमर प्रकार के लिए आरएनए-सेक जीन अभिव्यक्ति डेटा पर CorEx प्रशिक्षित किया। हम तो इसी अस्तित्व, प्रोटीन प्रोटीन बातचीत, जीन आंटलजी (GO) और क्योटो विश्वकोश जीन और जीनोम्स (KEGG) मार्ग संवर्धन, और कारक ग्राफ दृश्य के साथ सहयोग के लिए वेबसाइट में heatmaps शामिल. यहाँ हम उदाहरण प्रोटोकॉल को रोजगार के लिए इस बाहरी डेटा के संदर्भ में सीखा ट्यूमर कारकों के महत्व को समझने के लिए डेटाबेस का उपयोग वर्णन.
बस एक दशक पहले से अधिक अपने परिचय के बाद से, आरएनए-सेक जीन अभिव्यक्ति1को मापने के लिए एक सर्वव्यापी उपकरण बन गया है। यह है क्योंकि यह एक नमूना के पूरे ट्रांस्पोम की तेजी से और सस्ते डी नोवो प्रोफाइलिंग सक्षम बनाता है. हालांकि, आरएनए-सेक ट्यूमर डेटा एक अंतर्निहित जीव विज्ञान को दर्शाता है जो आंतरिक रूप से जटिल है और अक्सर कम नमूना होता है, जबकि डेटा स्वयं उच्च आयामी और शोर होता है। यह विश्वसनीय संकेतों को निकालने के लिए एक महत्वपूर्ण चुनौती प्रस्तुत करता है. CorEx एल्गोरिथ्म ऐसी स्थितियों में सूक्ष्म पैटर्न खोजने के लिए बहुचर आपसी जानकारी का लाभ उठाताहै 2,3 . इस तकनीक को पहले कैंसर जीनोम एटलस (TCGA) से डिम्बग्रंथि ट्यूमर आरएनए-सेक नमूनों का विश्लेषण करने के लिए अनुकूलित किया गया था और इस संदर्भ में यह अधिक सामान्य रूप से इस्तेमाल किया विश्लेषण तरीकों4पर महत्वपूर्ण लाभ है दिखाई दिया।
हालांकि आर.एन.ए.-सेक का उपयोग ऑन्कोलॉजी सहित अनुसंधान अनुप्रयोगों में अत्यधिक व्यापक है, उन प्रयासों से नैदानिक हस्तक्षेपों के प्रयोजनों के लिए व्यापक उपयोग नहीं हुआहै 5। इस के लिए कारण का एक हिस्सा उपयोगकर्ता के अनुकूल एल्गोरिदम और सॉफ्टवेयर इन विशिष्ट समस्याओं के लिए लक्षित की कमी है. इस अंतर को पाटने में मदद करने के लिए, हमने CorExplorer वेब पोर्टल तैयार किया है ताकि CorEx मशीन लर्निंग एल्गोरिथ्म द्वारा पाए गए ट्यूमर आरएनए-सेक नमूनों के जीन अभिव्यक्ति कारकों का अध्ययन करने के लिए विभिन्न पृष्ठभूमि के शोधकर्ताओं को सक्षम किया जा सके। CorExplorer पोर्टल इंटरैक्टिव दृश्य और फेफड़ों, बृहदान्त्र, मेलेनोमा, और डिम्बग्रंथि6,7,8,9 , सहित कई अलग अलग ट्यूमर प्रकार से कारकों की क्वेरी का समर्थन करता है 10, शोधकर्ताओं की मदद करने के इरादे से डेटा सहसंबंध के माध्यम से झारना और चिकित्सकीय प्रयोजनों के लिए रोगियों को स्तरित करने के लिए उम्मीदवार रास्ते की पहचान.
हम CorExplorer पोर्टल उपयोगकर्ताओं के कई प्रकार के लिए उपयोगी हो सकता है की अपेक्षा है। पोर्टल मन में उपयोगकर्ता के साथ डिजाइन किया गया था जो व्यापक कारकों सार्वजनिक डेटाबेस में tumoral जीन अभिव्यक्ति मतभेद ड्राइविंग समझने के लिए और संभवतः भी इसी तरह के साथ ट्यूमर के संदर्भ में व्यक्तिगत जीन अभिव्यक्ति प्रोफाइल जगह चाहता है लक्षण. यहाँ उल्लिखित प्रतिनिधि प्रोटोकॉल के अलावा, CorExplorer जाँच आगे परीक्षण के लिए hypotheses सुझाव देने के लिए एक प्रारंभिक बिंदु के रूप में कार्य कर सकते हैं, CorExplorer के बाहर डेटासेट पर CorEx निष्कर्षों की तुलना करने और इसके विपरीत, और कनेक्ट करने के लिए एक व्यक्ति के ट्यूमर में एक या कुछ जीनों के रोगात्मक अभिव्यक्ति हस्ताक्षर बड़े समूहों के लिए जो समन्वित रूप से प्रभावित हो सकते हैं। अंत में, यह क्षेत्र में शुरू हो रही उन लोगों के लिए आरएनए-सेक के लिए मशीन सीखने के आवेदन के लिए एक उपयोगकर्ता के अनुकूल परिचय के रूप में सेवा कर सकते हैं.
हम CorExplorer साइट प्रस्तुत किया है, अधिक से अधिक सहसंबद्ध जीन अभिव्यक्ति कारकों के इंटरैक्टिव अन्वेषण के लिए एक सार्वजनिक रूप से सुलभ वेब सर्वर CorEx एल्गोरिथ्म द्वारा ट्यूमर आरएनए-सेक से सीखा. हमने दिखाया है कि कैसे वेबसाइट ट्यूमर जीन अभिव्यक्ति के अनुसार रोगियों को स्तरित करने के लिए इस्तेमाल किया जा सकता है, और कैसे इस तरह के स्तरीकरण जैविक समारोह और अस्तित्व से मेल खाती है.
आरएनए-सेक विश्लेषण के लिए अन्य वेबसर्वर का निर्माण किया गया है। ट्यूमर के लिए विभेदऔर और सह-अभिव्यक्ति विश्लेषण की जांच की जा सकती है और cbioPortal19,20में अन्य डेटा प्रकार के साथ एकीकृत किया जा सकता है। सर्वर GenePattern21, Mev22, और Morpheus23, इस तरह के प्रमुख घटक विश्लेषण (पीसीए), kmeans, या स्वयं संगठित नक्शे (SOMs) के रूप में स्थापित क्लस्टरिंग तकनीकों को शामिल. अधिक अभिनव प्रयासों CamurWeb24शामिल हैं, एक स्वचालित नियम पैदा वर्गीकर पर आधारित है, और TACCO25,जो यादृच्छिक वन वर्गीकर और lassos लागू करता है. यहाँ उपयोग किए गए CorEx एल्गोरिथ्म डेटा में प्रतिमानों की व्याख्या करने वाले कारकों के पदानुक्रम को ढूँढने के लिए बहुचर जानकारी ऑप्टिमाइज़ करता है. अरैखिक और पदानुक्रमिक कारक अधिगम पीसीए4के माध्यम से पाए गए रैखिक वैश्विक कारकों के सापेक्ष बेहतर व्याख्यात्मकता प्राप्त करता प्रतीत होता है। इसके अतिरिक्त, नमूना संकेतों की तकनीक के ठीक अनाज पार्सिंग सटीक ट्यूमर तुलना की तुलना में अनुमति देता है-जेड-की तुलना में अधिक सामान्यतः व्यापक उपप्रकारों का इस्तेमाल किया. ओवरलैपिंग और पदानुक्रमिक कारक विश्लेषण का यह संयोजन CorExplorer को अधिकांश अन्य दृष्टिकोणों से अलग करता है और दृश्य और सारांशन के लिए नए उपकरणों की आवश्यकता होती है.
CorExplorer कारक विश्लेषण का एक महत्वपूर्ण हिस्सा न सिर्फ कई का पता लगाने की क्षमता है, लेकिन जानकारीपूर्ण जीन पैटर्न है कि एक ओवरलैपिंग पदानुक्रम के भीतर रखा जाता है के साथ 100 से अधिक कारकों. CorExplorer जैविक और नैदानिक संघों के लिए इन असंख्य कारकों के खनन की सुविधा और व्यक्तिगत ट्यूमर के असाधारण विस्तृत लक्षण के लिए अनुमति देता है. इतनी बड़ी संख्या में कारकों की अनिगरानीित शिक्षा का अर्थ है कि सभी रोग जीव विज्ञान के लिए प्रासंगिक नहीं होंगे। ऐसे मामले में, ब्याज के कारकों को बाहर निकालने या जीवित रहने जैसे नैदानिक डेटा से जुड़े कारकों की खोज करने के लिए एनोटेशन या ज्ञात जीन का उपयोग करना आवश्यक है। इस प्रकार, CorExplorer उपयोगकर्ताओं को यह बहुत महत्वपूर्ण फ़िल्टरिंग चरण को कार्यान्वित करने के लिए अनुमति देता है। एक ट्यूमर में कारक जीन पैटर्न की उपस्थिति भी व्यक्तिगत ऑन्कोलॉजी उपचार के लिए एक दृष्टिकोण का सुझाव दे सकते हैं। इसके अलावा, संभावित उपयोगी चिकित्सीय संयोजन की खोज के लिए अनुमति देता है कि प्रत्येक ट्यूमर के लिए कारक स्कोर की बहुलता.
यह कभी कभी मामला है कि कोई महत्वपूर्ण जाओ एनोटेशन कारकों अत्यधिक अस्तित्व के साथ सहसंबद्ध के लिए दिखाई देते हैं. हालांकि यह शोर के कारण या नमूना डेटा के तहत हो सकता है, वहाँ इस तरह के एक क्लस्टर आकार है कि महत्वपूर्ण संवर्धन स्कोर रजिस्टर करने के लिए बहुत छोटा है या समूह जैविक सुसंगत बिना विविध रास्ते से एकल जीन की एक ‘बास्केट’ होने के रूप में अन्य संभावित कारण हैं संघ. इसके अतिरिक्त, केजीजी और गो जैविक प्रक्रिया से अलग एनोटेशन की एक श्रेणी, जैसे सेलुलर डिब्बे, उपयुक्त हो सकता है। प्रोटोकॉल में प्रदर्शित के रूप में StringDB को बाहर जोड़ने के द्वारा इन पहुँचा जा सकता है. CorExplorer साइट पर जीन आंटलजी संवर्धन विश्लेषण वर्तमान में एक कारक में जीन भार के लिए खाता नहीं है, हालांकि यह संभावना निकट भविष्य में उपाय किया जाएगा. नोट एक जीन सूची विकल्प ‘विंडो जोड़ें’ के अंतर्गत उपलब्ध है जो बाहरी उपकरणों के साथ आगे विश्लेषण के लिए पूर्ण कारक जीन सूची को डाउनलोड करने की अनुमति देता है.
वेबसाइट के उद्देश्यों के लिए, CorEx प्रत्येक डेटासेट पर पाँच बार चलाया गया था और सबसे बड़ी कुल सहसंबंध के परिणामस्वरूप चलाया गया था। कई रन के परिणामों के एक सांख्यिकीय प्रतिनिधित्व होने और अधिक जानकारीपूर्ण हो सकता है और भविष्य के काम के लिए एक लक्ष्य है. इसके अतिरिक्त, सर्वर पर उपलब्ध ट्यूमर प्रकार के सेट बल्कि छोटा है, लेकिन हम इस उपयोगकर्ता हित के अनुसार समय के साथ विस्तार करने की उम्मीद है.
जैसा कि ऊपर उल्लिखित, CorExplorer नैदानिक और डेटाबेस जानकारी के साथ CorEx आरएनए-सेक कारक संबंधों visualizes, इस प्रकार पूछताछ के विभिन्न तरीकों की एक किस्म को सक्षम करने. हमें उम्मीद है कि इस उपकरण को आगे काम करने के लिए खोज और ऑन्कोलॉजी में नैदानिक आवेदन के लिए आरएनए-सेक विश्लेषण की शक्ति का उपयोग करने के लिए नेतृत्व करेंगे।
The authors have nothing to disclose.
जीवी DARPA पुरस्कार W911NF-16-0575 द्वारा समर्थित किया गया था.
Public server for CorExplorer website | USC | http://corex.isi.edu | Intel Xeon E5-2690 4-core 2.6 GHz, 8GB RAM. Backend architecture is LAMP: Linux, Apache, MySQL, PHP. |
Web browser | Google/Apple | Chrome/Safari | Verified web browsers. |