मौजूदा एल्गोरिथ्म एक समाधान एक के लिए एक अचिह्नित खोज dataset जनरेट करें । इस प्रोटोकॉल कई इसी तरह प्रभावी समाधान के अस्तित्व को दर्शाता है और एक उपयोगकर्ता के अनुकूल सॉफ्टवेयर की मदद के लिए जैव चिकित्सा शोधकर्ताओं प्रस्तावित चुनौती के लिए उनके डेटासेट की जांच प्रस्तुत करता है । कंप्यूटर वैज्ञानिक भी इस सुविधा को अपने स्मार्कर डिटेक्शन एल्गोरिदम में उपलब्ध करा सकते हैं ।
एक उच्च-प्रवाह ‘ ओमिक्स ‘ शोधकर्ताओं के लिए अधिक महत्वपूर्ण बायोमेडिकल सवालों में से एक है, और लगभग सभी मौजूदा मार्कर का पता लगाने एल्गोरिदम एक दिए गए डेटासेट के लिए अनुकूलित प्रदर्शन माप के साथ एक जैव-चिह्न सबसेट उत्पन्न . हालांकि, हाल के एक अध्ययन में इसी तरह प्रभावी या यहां तक कि समान वर्गीकरण प्रदर्शन के साथ कई अगोचर सबसेट के अस्तित्व का प्रदर्शन किया । इस प्रोटोकॉल द्विआधारी वर्गीकरण प्रदर्शन, एक प्रयोक्ता परिभाषित कटऑफ से बेहतर के साथ एक अगोचर सबसेट का पता लगाने के लिए एक सरल और सीधी पद्धति प्रस्तुत करता है । प्रोटोकॉल डेटा तैयार करने और लदान, आधारभूत जानकारी सारांश, पैरामीटर ट्यूनिंग, अचिह्नक स्क्रीनिंग, परिणाम दृश्य और व्याख्या, अगोचर जीन एनोटेशन, और परिणाम और दृश्य पर निर्यात के होते है प्रकाशन गुणवत्ता । प्रस्तावित अगोचर स्क्रीनिंग की रणनीति सहज ज्ञान युक्त है और एक आम नियम को दर्शाता है के लिए एक सामांय शासन का पता लगाने एल्गोरिदम । एक प्रयोक्ता के अनुकूल ग्राफिकल यूजर इंटरफेस (जीयूआई) प्रोग्रामिंग भाषा पायथन का उपयोग कर विकसित किया गया था, की अनुमति बायोमेडिकल शोधकर्ताओं को उनके परिणामों के लिए सीधी पहुंच है । kSolutionVis के सोर्स कोड और मैनुअल को http://www.healthinformaticslab.org/supp/resources.php से डाउनलोड किया जा सकता है ।
बाइनरी वर्गीकरण, एक जैव चिकित्सा क्षेत्र में सबसे अधिक जांच की और चुनौतीपूर्ण डेटा खनन समस्याओं में से एक, एक वर्गीकरण सबसे सटीक भेदभाव शक्ति1के साथ नमूनों के दो समूहों पर प्रशिक्षित मॉडल बनाने के लिए प्रयोग किया जाता है, 2 , 3 , 4 , 5 , 6 , 7. हालांकि, बड़े जैव चिकित्सा क्षेत्र में उत्पंन डेटा अंतर्निहित “बड़े पी छोटे n प्रतिमान” है, आमतौर पर बहुत नमूनों की संख्या6,8,9की तुलना में बड़ा के साथ । इसलिए, बायोमेडिकल शोधकर्ताओं के लिए वर्गीकरण एल्गोरिदम का उपयोग करने से पहले सुविधा आयाम को कम करने के लिए है अधिक फिटिंग समस्या8,9से बचने के । निदान के एक सबसेट के रूप में परिभाषित कर रहे है पता चलता है स्वस्थ नियंत्रण नमूने से एक दिया रोग के रोगियों को अलग सुविधाओं के10,11। मरीजों को आम तौर पर सकारात्मक नमूनों के रूप में परिभाषित कर रहे हैं, और स्वस्थ नियंत्रण नकारात्मक नमूने12के रूप में परिभाषित कर रहे हैं ।
हाल के अध्ययनों से सुझाव दिया है कि वहां एक से अधिक समाधान समान या इसी तरह प्रभावी वर्गीकरण प्रदर्शन के लिए एक बायोमेडिकल5डेटासेट के लिए मौजूद है । लगभग सभी सुविधा चयन एल्गोरिथ्म नियतात्मक एल्गोरिथ्म, एक ही dataset के लिए केवल एक समाधान का निर्माण कर रहे हैं । आनुवंशिक एल्गोरिदम एक साथ समान प्रदर्शन के साथ कई समाधान उत्पन्न कर सकते हैं, लेकिन वे अभी भी एक दिया डेटासेट के लिए उत्पादन के रूप में सबसे अच्छा फिटनेस समारोह के साथ एक समाधान का चयन करने के लिए प्रयास करें13,14.
सुविधा चयन एल्गोरिथ्म मोटे तौर पर या तो फ़िल्टर या रैपर12के रूप में समूहीकृत किया जा सकता है । फ़िल्टर एल्गोरिथ्म शीर्ष-k सुविधाओं को बाइनरी क्लास लेबल्स के साथ उनकी महत्वपूर्ण व्यक्तिगत संबद्धता द्वारा क्रमित किया जाता है जो इस धारणा पर आधारित होता है कि सुविधाएँ एक-दूसरे से स्वतंत्र हैं15,16,17 . हालांकि इस धारणा लगभग सभी वास्तविक दुनिया डेटासेट के लिए सच नहीं पकड़ है, अनुमानी फिल्टर नियम कई मामलों में अच्छी तरह से करता है, उदाहरण के लिए, mRMR (न्यूनतम अतिरेक और अधिकतम प्रासंगिकता) एल्गोरिथ्म, Wilcoxon परीक्षण आधारित सुविधा फ़िल्टरिंग (WRank) एल्गोरिथ्म, और ROC (रिसीवर ऑपरेटिंग विशेषता) प्लॉट आधारित फ़िल्टरिंग (ROCRank) एल्गोरिथ्म । mRMR, एक कुशल फिल्टर एल्गोरिथ्म है क्योंकि यह बहुत छोटी समस्याओं की एक श्रृंखला के साथ मिश्रित आकलन समस्या अनुमानित, अधिकतम निर्भरता सुविधा चयन एल्गोरिथ्म, जिनमें से प्रत्येक केवल दो चर शामिल है की तुलना, और इसलिए pairwise संयुक्त संभावनाओं का उपयोग करता है जो और अधिक मजबूत कर रहे है18,19। हालांकि, mRMR कुछ सुविधाओं की उपयोगिता को नजरअंदाज कर सकते है क्योंकि यह सुविधाओं के बीच बातचीत जो प्रासंगिकता को बढ़ा सकते है उपाय नहीं करता है, और इस तरह कुछ सुविधा संयोजन है कि व्यक्तिगत रूप से बेकार है लेकिन केवल जब संयुक्त उपयोगी होते है याद करते हैं । WRank एल्गोरिथ्म नमूने के दो वर्गों के बीच कैसे भेदभाव एक सुविधा का एक गैर पैरामीट्रिक स्कोर की गणना करता है, और20outliers,21के लिए अपनी मजबूती के लिए जाना जाता है । इसके अलावा, ROCRank एल्गोरिथ्म मूल्यांकन कैसे महत्वपूर्ण क्षेत्र ROC वक्र (ईमेज) के तहत एक विशेष सुविधा के लिए है जांच की बाइनरी वर्गीकरण प्रदर्शन22,23।
दूसरी ओर, एक रैपर किसी दिए गए सुविधा सबसेट के पूर्व-निर्धारित वर्गीकारक के प्रदर्शन का मूल्यांकन करता है, एक अनुमानी नियम द्वारा जनरेट किया गया iteratively, और श्रेष्ठ प्रदर्शन माप24के साथ सुविधा सबसेट बनाता है । एक रैपर आम तौर पर एक फ़िल्टर वर्गीकरण प्रदर्शन में प्रदर्शन लेकिन धीमी25चलाता है । उदाहरण के लिए, नियमित रूप से रैंडम फ़ॉरेस्ट (RRF)26,27 एल्गोरिथ्म प्रत्येक रैंडम फ़ॉरेस्ट नोड, जिसका सुविधा महत्व स्कोर ्ीनि अनुक्रमणिका द्वारा मूल्यांकित है पर प्रशिक्षण डेटा का एक सबसेट पर सुविधाओं का मूल्यांकन करके एक लालची नियम का उपयोग करता है . एक नई सुविधा का चुनाव दंडित किया जाएगा अगर इसकी जानकारी हासिल है कि चुना सुविधाओं में सुधार नहीं करता है । इसके अतिरिक्त, Microarrays के लिए पूर्वानुमान विश्लेषण (पाम)28,29 एल्गोरिथ्म, यह भी एक आवरण एल्गोरिथ्म, वर्ग लेबल में से प्रत्येक के लिए एक केन्द्रक की गणना करता है, और फिर सुविधाओं का चयन करने के लिए समग्र की ओर जीन centroids हटना वर्ग केन्द्रक. पाम की सुविधाओं के लिए मजबूत है ।
शीर्ष वर्गीकरण प्रदर्शन के साथ एकाधिक समाधान किसी भी दिए गए dataset के लिए आवश्यक हो सकता है । सबसे पहले, एक नियतात्मक एल्गोरिथ्म के अनुकूलन लक्ष्य एक गणितीय सूत्र द्वारा परिभाषित किया गया है, उदाहरणके लिए, न्यूनतम त्रुटि दर30, जो जैविक नमूनों के लिए जरूरी आदर्श नहीं है. दूसरे, एक dataset एकाधिक, काफी अलग है, समान प्रभावी या भी समान प्रदर्शन के साथ समाधान हो सकता है. लगभग सभी मौजूदा सुविधा चयन एल्गोरिथ्म व्युत्क्रम आउटपुट31के रूप में इन समाधानों में से एक का चयन करेगा ।
यह अध्ययन किसी भी दिया द्विआधारी वर्गीकरण डेटासेट के लिए समान प्रदर्शन के साथ कई सुविधा चयन समाधान पैदा करने के लिए एक सूचना विश्लेषणात्मक प्रोटोकॉल परिचय होगा । यह देखते हुए कि सबसे अधिक चिकित्सा शोधकर्ताओं के साथ परिचित नहीं हैं, क्योंकि एक उपयोगकर्ता के अनुकूल ग्राफिकल यूजर इंटरफेस (GUI) के लिए जैव चिकित्सा द्विआधारी वर्गीकरण डेटासेट के तेजी से विश्लेषण की सुविधा विकसित की है । विश्लेषण प्रोटोकॉल डेटा लोड हो रहा है और सारांश, पैरामीटर ट्यूनिंग, पाइपलाइन निष्पादन, और परिणाम व्याख्या के होते हैं । एक साधारण क्लिक के साथ, शोधकर्ता करने के लिए सक्षम है के लिए-अगोचर उपसमुच्चय और प्रकाशन गुणवत्ता दृश्य भूखंडों । प्रोटोकॉल तीव्र लिम्फोब्लासटिक ल्यूकेमिया (सभी), यानी, ALL1 और ALL212के दो द्विआधारी वर्गीकरण डेटासेट के transcriptomes का उपयोग कर परीक्षण किया गया है । ALL1 और ALL2 के डेटासेट को http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi पर उपलब्ध ब्रॉड इंस्टिट्यूट जीनोम डेटा एनालिसिस सेंटर से डाउनलोड किया गया । ALL1 १२,६२५ सुविधाओं के साथ १२८ नमूने शामिल हैं । इन नमूनों में से ९५ बी-सेल सभी हैं और ३३ टी-सेल सभी हैं । ALL2 १२,६२५ सुविधाओं के साथ के रूप में अच्छी तरह से १०० नमूने शामिल हैं । इन नमूनों में से ६५ रोगियों कि पलटा हुआ और ३५ रोगियों कि नहीं किया सामना कर रहे हैं । ALL1 एक आसान द्विआधारी वर्गीकरण डेटासेट, चार फिल्टर और चार wrappers ९६.७% की जा रही है की एक ंयूनतम सटीकता के साथ था, और 8 सुविधा चयन एल्गोरिदम के 6 १००%12प्राप्त करने । जबकि ALL2 एक और अधिक कठिन डेटासेट था, इसके बाद के संस्करण 8 सुविधा चयन एल्गोरिदम से कोई बेहतर ८३.७% सटीकता प्राप्त12. यह सबसे अच्छा सटीकता ५६ आवरण एल्गोरिथ्म, सहसंबंध आधारित सुविधा चयन (सीएफएस) द्वारा पता लगाया सुविधाओं के साथ हासिल किया गया था ।
यह अध्ययन एक आसान बहु-समाधान का पालन करने के लिए प्रस्तुत करता है एक प्रयोक्ता निर्दिष्ट द्विआधारी वर्गीकरण डेटासेट के लिए मल्टी सॉल्यूशन का पता लगाने और लक्षण वर्णन प्रोटोकॉल । सॉफ्टवेयर उपयोगकर्त?…
The authors have nothing to disclose.
यह काम चीनी अकादमी ऑफ साइंसेज (XDB13040400) और जिलिन विश्वविद्यालय से स्टार्टअप अनुदान के सामरिक प्राथमिकता अनुसंधान कार्यक्रम द्वारा समर्थित किया गया था । अनाम समीक्षक और बायोमेडिकल परीक्षण उपयोगकर्ताओं प्रयोज्य और kSolutionVis की कार्यक्षमता में सुधार पर उनके रचनात्मक टिप्पणियों के लिए सराहना की गई ।
Hardware | |||
laptop | Lenovo | X1 carbon | Any computer works. Recommended minimum configuration: 1GB extra hard disk space, 1 GB memory, 2.0MHz CPU |
Name | Company | Catalog Number | Comments |
Software | |||
Python 3.0 | WingWare | Wing Personal | Any python programming and running environments support Python version 3.0 or above |