Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

छोटे डेटासेट पर भविष्यवाणी कार्य और डार्क बायोमार्कर डिटेक्शन के लिए ट्रांसक्रिप्टोमिक सुविधाओं का ट्रांसक्रिप्शनल विनियमन दृश्य उत्पन्न करना

Published: March 1, 2024 doi: 10.3791/66030

Summary

यहां, हम ट्रांसक्रिप्टोमिक डेटा को mqTrans व्यू में बदलने के लिए एक प्रोटोकॉल पेश करते हैं, जिससे डार्क बायोमार्कर की पहचान सक्षम हो जाती है। जबकि पारंपरिक ट्रांसक्रिप्टोमिक विश्लेषणों में अलग-अलग व्यक्त नहीं किए गए हैं, ये बायोमार्कर mqTrans दृश्य में अंतर अभिव्यक्ति प्रदर्शित करते हैं। दृष्टिकोण पारंपरिक तरीकों के लिए एक पूरक तकनीक के रूप में कार्य करता है, जो पहले अनदेखी बायोमार्कर का अनावरण करता है।

Abstract

ट्रांसक्रिप्टोम एक नमूने में कई जीनों के अभिव्यक्ति स्तर का प्रतिनिधित्व करता है और जैविक अनुसंधान और नैदानिक अभ्यास में व्यापक रूप से उपयोग किया गया है। शोधकर्ताओं ने आमतौर पर एक फेनोटाइप समूह और नमूनों के नियंत्रण समूह के बीच अंतर प्रतिनिधित्व के साथ ट्रांसक्रिप्टोमिक बायोमार्कर पर ध्यान केंद्रित किया। इस अध्ययन ने संदर्भ नमूनों के जटिल अंतर-जेनिक इंटरैक्शन को सीखने के लिए एक मल्टीटास्क ग्राफ-ध्यान नेटवर्क (जीएटी) सीखने की रूपरेखा प्रस्तुत की। एक प्रदर्शनकारी संदर्भ मॉडल को स्वस्थ नमूनों (हेल्थमॉडल) पर पूर्व-प्रशिक्षित किया गया था, जिसका उपयोग सीधे स्वतंत्र परीक्षण ट्रांसक्रिप्टोम के मॉडल-आधारित मात्रात्मक ट्रांसक्रिप्शनल विनियमन (एमक्यूट्रांस) दृश्य उत्पन्न करने के लिए किया जा सकता है। ट्रांसक्रिप्टोम के उत्पन्न mqTrans दृश्य को भविष्यवाणी कार्यों और अंधेरे बायोमार्कर का पता लगाने द्वारा प्रदर्शित किया गया था। गढ़ा गया शब्द "डार्क बायोमार्कर" इसकी परिभाषा से उपजा है कि एक अंधेरे बायोमार्कर ने mqTrans दृश्य में अंतर प्रतिनिधित्व दिखाया लेकिन इसके मूल अभिव्यक्ति स्तर में कोई अंतर अभिव्यक्ति नहीं है। अंतर अभिव्यक्ति की अनुपस्थिति के कारण पारंपरिक बायोमार्कर डिटेक्शन अध्ययनों में एक अंधेरे बायोमार्कर को हमेशा अनदेखा किया गया था। स्रोत कोड और पाइपलाइन HealthModelPipe के मैनुअल को http://www.healthinformaticslab.org/supp/resources.php से डाउनलोड किया जा सकता है।

Introduction

ट्रांसक्रिप्टोम में एक नमूने में सभी जीनों के भाव होते हैं और इसे माइक्रोएरे और आरएनए-सीक्यू1 जैसी उच्च-थ्रूपुट तकनीकों द्वारा प्रोफाइल किया जा सकता है। डेटासेट में एक जीन के अभिव्यक्ति स्तर को ट्रांसक्रिप्टोमिक फीचर कहा जाता है, और फेनोटाइप और नियंत्रण समूहों के बीच एक ट्रांसक्रिप्टोमिक फीचर का अंतर प्रतिनिधित्व इस जीन को इस फेनोटाइप 2,3 के बायोमार्कर के रूप में परिभाषित करता है। ट्रांसक्रिप्टोमिक बायोमार्कर का उपयोग रोग निदान4, जैविक तंत्र5, और उत्तरजीविता विश्लेषण 6,7, आदि की जांच में बड़े पैमाने पर किया गया है।

स्वस्थ ऊतकों में जीन गतिविधि पैटर्न 8,9 जीवन के बारे में महत्वपूर्ण जानकारी ले. ये पैटर्न अमूल्य अंतर्दृष्टि प्रदान करते हैं और सौम्य विकारों 10,11 और घातक रोगों12 के जटिल विकास प्रक्षेपवक्र को समझने के लिए आदर्श संदर्भ के रूप में कार्य करते हैं। जीन एक दूसरे के साथ बातचीत करते हैं, और प्रतिलेख उनकी जटिल बातचीत के बाद अंतिम अभिव्यक्ति स्तरों का प्रतिनिधित्व करते हैं। इस तरह के पैटर्न ट्रांसक्रिप्शनल रेगुलेशन नेटवर्क13 और मेटाबॉलिज्म नेटवर्क14, आदि के रूप में तैयार किए जाते हैं। मैसेंजर आरएनए (एमआरएनए) की अभिव्यक्तियों को ट्रांसक्रिप्शन कारकों (टीएफ) और लंबे इंटरजेनिक गैर-कोडिंग आरएनए (लिंसीआरएनए)15,16,17द्वारा ट्रांसक्रिप्शनल रूप से विनियमित किया जा सकता है। पारंपरिक अंतर अभिव्यक्ति विश्लेषण अंतर-सुविधा स्वतंत्रता18,19 की धारणा के साथ इस तरह के जटिल जीन इंटरैक्शन को नजरअंदाज कर दिया।

ग्राफ तंत्रिका नेटवर्क (जीएनएन) में हाल की प्रगति कैंसर अध्ययन20 के लिए ओएमआईसी आधारित डेटा से महत्वपूर्ण जानकारी निकालने में असाधारण क्षमता का प्रदर्शन, उदाहरण के लिए, सह-अभिव्यक्ति मॉड्यूल21 की पहचान करना. जीएनएन की जन्मजात क्षमता उन्हें जीन22,23 के बीच जटिल संबंधों और निर्भरता मॉडलिंग के लिए आदर्श प्रदान करती है।

बायोमेडिकल अध्ययन अक्सर नियंत्रण समूह के खिलाफ एक फेनोटाइप की सटीक भविष्यवाणी करने पर ध्यान केंद्रित करते हैं। इस तरह के कार्यों को आमतौर पर द्विआधारी वर्गीकरण24,25,26 के रूप में तैयार किया जाता है। यहां, दो वर्ग लेबल आम तौर पर 1 और 0, सही और गलत, या यहां तक कि सकारात्मक और नकारात्मक27 के रूप में एन्कोड किए जाते हैं।

इस अध्ययन का उद्देश्य पूर्व-प्रशिक्षित ग्राफ-ध्यान नेटवर्क (GAT) संदर्भ मॉडल के आधार पर एक ट्रांसक्रिप्शनल डेटासेट के ट्रांसक्रिप्शनल रेगुलेशन (mqTrans) दृश्य को उत्पन्न करने के लिए उपयोग में आसान प्रोटोकॉल प्रदान करना है। पहले प्रकाशित कार्य26 से मल्टीटास्क जीएटी फ्रेमवर्क का उपयोग ट्रांसक्रिप्टोमिक सुविधाओं को mqTrans सुविधाओं में बदलने के लिए किया गया था। कैलिफोर्निया विश्वविद्यालय, सांता क्रूज़ (UCSC) Xena प्लेटफ़ॉर्म28 से स्वस्थ ट्रांसक्रिपटोम का एक बड़ा डेटासेट संदर्भ मॉडल (HealthModel) को पूर्व-प्रशिक्षित करने के लिए उपयोग किया गया था, जिसने मात्रात्मक रूप से नियामक कारकों (TFs और lincRNAs) से प्रतिलेखन नियमों को मापा लक्ष्य mRNAs के लिए। उत्पन्न mqTrans दृश्य का उपयोग भविष्यवाणी मॉडल बनाने और अंधेरे बायोमार्कर का पता लगाने के लिए किया जा सकता है। यह प्रोटोकॉल एक उदाहरण उदाहरण के रूप में कैंसर जीनोम एटलस (टीसीजीए) डेटाबेस29 से कोलन एडेनोकार्सिनोमा (सीओएडी) रोगी डेटासेट का उपयोग करता है। इस संदर्भ में, चरण I या II में रोगियों को नकारात्मक नमूने के रूप में वर्गीकृत किया जाता है, जबकि चरण III या IV में सकारात्मक नमूने माने जाते हैं। 26 टीसीजीए कैंसर प्रकारों में अंधेरे और पारंपरिक बायोमार्कर के वितरण की भी तुलना की जाती है।

HealthModel पाइपलाइन का विवरण
इस प्रोटोकॉल में नियोजित पद्धति पहले प्रकाशित ढांचे26 पर आधारित है, जैसा कि चित्र 1में उल्लिखित है। शुरू करने के लिए, उपयोगकर्ताओं को इनपुट डेटासेट तैयार करने, इसे प्रस्तावित हेल्थमॉडल पाइपलाइन में फीड करने और mqTrans सुविधाएँ प्राप्त करने की आवश्यकता होती है। विस्तृत डेटा तैयार करने के निर्देश प्रोटोकॉल अनुभाग की धारा 2 में प्रदान किए जाते हैं। इसके बाद, उपयोगकर्ताओं के पास mqTrans सुविधाओं को मूल ट्रांसक्रिप्टोमिक सुविधाओं के साथ संयोजित करने या केवल उत्पन्न mqTrans सुविधाओं के साथ आगे बढ़ने का विकल्प होता है। उत्पादित डेटासेट को तब एक सुविधा चयन प्रक्रिया के अधीन किया जाता है, जिसमें उपयोगकर्ताओं को वर्गीकरण के लिए k-fold क्रॉस-सत्यापन में k के लिए अपना पसंदीदा मान चुनने की सुविधा होती है। इस प्रोटोकॉल में उपयोग किया जाने वाला प्राथमिक मूल्यांकन मीट्रिक सटीकता है।

हेल्थमॉडल26 ट्रांसक्रिप्टोमिक विशेषताओं को तीन अलग-अलग समूहों में वर्गीकृत करता है: टीएफ (ट्रांसक्रिप्शन फैक्टर), लिनसीआरएनए (लंबी इंटरजेनिक गैर-कोडिंग आरएनए), और एमआरएनए (मैसेंजर आरएनए)। TF सुविधाओं मानव प्रोटीन एटलस30,31 में उपलब्ध एनोटेशन के आधार पर परिभाषित कर रहे हैं. यह कार्य GTEx डेटासेट32 से lincRNAs के एनोटेशन का उपयोग करता है। KEGG डेटाबेस33 में तीसरे स्तर के रास्ते से संबंधित जीन को mRNA सुविधाओं के रूप में माना जाता है। यह ध्यान देने योग्य है कि यदि एक एमआरएनए सुविधा टीआरआरयूटी डेटाबेस34 में प्रलेखित लक्ष्य जीन के लिए नियामक भूमिकाओं को प्रदर्शित करती है, तो इसे टीएफ वर्ग में पुनर्वर्गीकृत किया जाता है।

यह प्रोटोकॉल मैन्युअल रूप से नियामक कारकों (regulatory_geneIDs.csv) और लक्ष्य एमआरएनए (target_geneIDs.csv) के जीन आईडी के लिए दो उदाहरण फाइलें भी उत्पन्न करता है। नियामक सुविधाओं (TFs और lincRNAs) के बीच जोड़ीदार दूरी मैट्रिक्स की गणना पियर्सन सहसंबंध गुणांक द्वारा की जाती है और लोकप्रिय उपकरण भारित जीन सह-अभिव्यक्ति नेटवर्क विश्लेषण (WGCNA)36 (adjacent_matrix.csv) द्वारा क्लस्टर किया जाता है। उपयोगकर्ता ट्रांसक्रिप्टोमिक डेटासेट के mqTrans दृश्य को उत्पन्न करने के लिए इन उदाहरण कॉन्फ़िगरेशन फ़ाइलों के साथ सीधे HealthModel पाइपलाइन का उपयोग कर सकते हैं।

HealthModel के तकनीकी विवरण
हेल्थमॉडल एक ग्राफ के रूप में टीएफ और लिनसीआरएनए के बीच जटिल संबंधों का प्रतिनिधित्व करता है, जिसमें इनपुट फीचर्स वी द्वारा निरूपित कोने के रूप में कार्य करते हैं और के रूप में नामित एक इंटर-वर्टेक्स एज मैट्रिक्स है। प्रत्येक नमूने को K नियामक विशेषताओं की विशेषता है, जिसे VK×1 के रूप में दर्शाया गया है। विशेष रूप से, डेटासेट में 425 TFs और 375 lincRNAs शामिल थे, जिसके परिणामस्वरूप K = 425 + 375 = 800 की नमूना आयामीता होती है। एज मैट्रिक्स को स्थापित करने के लिए, इस काम ने लोकप्रिय टूल WGCNA35 को नियोजित किया। और , के रूप में Equation 1 Equation 2प्रतिनिधित्व किए गए दो शीर्षों को जोड़ने वाले युग्मित वजन पियर्सन सहसंबंध गुणांक द्वारा निर्धारित किया जाता है। जीन नियामक नेटवर्क एक स्केल-फ्री टोपोलॉजी36 प्रदर्शित करता है, जो निर्णायक कार्यात्मक भूमिकाओं के साथ हब जीन की उपस्थिति की विशेषता है। हम दो विशेषताओं या शीर्षों के बीच सहसंबंध की गणना करते हैं, Equation 1 और Equation 2, टोपोलॉजिकल ओवरलैप माप (टीओएम) का उपयोग निम्नानुसार करते हैं:

Equation 3(1)

Equation 4(2)

सॉफ्ट थ्रेशोल्ड β की गणना WGCNA पैकेज से 'pickSoft थ्रेशोल्ड' फ़ंक्शन का उपयोग करके की जाती है। पावर एक्सपोनेंशियल फ़ंक्शन aij लागू किया जाता है, जहां Equation 5 i और j को छोड़कर एक जीन का प्रतिनिधित्व करता है, और Equation 6 शीर्ष कनेक्टिविटी का प्रतिनिधित्व करता है। डब्ल्यूजीसीएनए आमतौर पर नियोजित असमानता उपाय का उपयोग करके कई मॉड्यूल में ट्रांसक्रिप्टोमिक सुविधाओं की अभिव्यक्ति प्रोफाइल को क्लस्टर करता है (Equation 737.

HealthModel ढांचे मूल रूप से एक multitask सीखने वास्तुकला26 के रूप में डिजाइन किया गया था. यह प्रोटोकॉल केवल ट्रांसक्रिप्टोमिक mqTrans दृश्य के निर्माण के लिए मॉडल पूर्व-प्रशिक्षण कार्य का उपयोग करता है। उपयोगकर्ता अतिरिक्त कार्य-विशिष्ट ट्रांसक्रिप्टोमिक नमूनों के साथ मल्टीटास्क ग्राफ ध्यान नेटवर्क के तहत पूर्व-प्रशिक्षित हेल्थमॉडल को और परिष्कृत करना चुन सकता है।

सुविधा चयन और वर्गीकरण के तकनीकी विवरण
सुविधा चयन पूल ग्यारह सुविधा चयन (एफएस) एल्गोरिदम लागू करता है। उनमें से, तीन फ़िल्टर-आधारित FS एल्गोरिदम हैं: अधिकतम सूचना गुणांक (SK_mic) का उपयोग करके K सर्वोत्तम सुविधाओं का चयन करना, MIC (SK_fpr) के FPR के आधार पर K सुविधाओं का चयन करना, और MIC (SK_fdr) की उच्चतम झूठी खोज दर के साथ K सुविधाओं का चयन करना। इसके अतिरिक्त, तीन पेड़-आधारित एफएस एल्गोरिदम गिनी इंडेक्स (DT_gini), अनुकूली बूस्टेड निर्णय पेड़ (एडाबूस्ट), और यादृच्छिक वन (RF_fs) के साथ एक निर्णय पेड़ का उपयोग करके व्यक्तिगत विशेषताओं का आकलन करते हैं। पूल में दो रैपर विधियां भी शामिल हैं: रैखिक समर्थन वेक्टर क्लासिफायरियर (RFE_SVC) के साथ रिकर्सिव फीचर एलिमिनेशन और लॉजिस्टिक रिग्रेशन क्लासिफायरियर (RFE_LR) के साथ रिकर्सिव फीचर एलिमिनेशन। अंत में, दो एम्बेडिंग एल्गोरिदम शामिल हैं: शीर्ष क्रम के L1 फीचर महत्व मूल्यों (lSVC_L1) के साथ रैखिक SVC क्लासिफायरियर और शीर्ष क्रम के L1 फीचर महत्व मूल्यों (LR_L1) के साथ लॉजिस्टिक रिग्रेशन क्लासिफायरियर।

क्लासिफायरियर पूल वर्गीकरण मॉडल बनाने के लिए सात अलग-अलग क्लासिफायर को नियुक्त करता है। इन क्लासिफायरों में रैखिक समर्थन वेक्टर मशीन (SVC), गाऊसी Naïve Bayes (GNB), लॉजिस्टिक रिग्रेशन क्लासिफायरियर (LR), k-निकटतम पड़ोसी, k डिफ़ॉल्ट रूप से 5 पर सेट (KNN), XGBoost, यादृच्छिक वन (RF), और निर्णय वृक्ष (DT) शामिल हैं।

ट्रेन में डेटासेट का यादृच्छिक विभाजन: परीक्षण सबसेट कमांड लाइन में सेट किया जा सकता है। प्रदर्शित उदाहरण ट्रेन के अनुपात का उपयोग करता है: परीक्षण = 8: 2।

Subscription Required. Please recommend JoVE to your librarian.

Protocol

नोट: निम्नलिखित प्रोटोकॉल प्रमुख मॉड्यूल के सूचना विज्ञान विश्लेषणात्मक प्रक्रिया और पायथन कमांड के विवरण का वर्णन करता है। चित्रा 2 इस प्रोटोकॉल में उपयोग किए गए उदाहरण आदेशों के साथ तीन प्रमुख चरणों को दिखाता है और अधिक तकनीकी विवरण के लिए पहले प्रकाशित कार्यों26,38 को देखें। कंप्यूटर सिस्टम में एक सामान्य उपयोगकर्ता खाते के तहत निम्न प्रोटोकॉल करें और व्यवस्थापक या रूट खाते का उपयोग करने से बचें। यह एक कम्प्यूटेशनल प्रोटोकॉल है और इसमें कोई बायोमेडिकल खतरनाक कारक नहीं हैं।

1. पायथन वातावरण तैयार करें

  1. एक आभासी वातावरण बनाएँ।
    1. इस अध्ययन में पायथन प्रोग्रामिंग भाषा और पायथन 3.7 के साथ एक पायथन वर्चुअल वातावरण (वीई) का उपयोग किया गया था। इन चरणों का पालन करें (चित्रा 3 ए):
      कोंडा क्रिएट -एन हेल्थमॉडल पायथन = 3.7
      conda create
      एक नया VE बनाने का आदेश है। पैरामीटर -n नए वातावरण का नाम निर्दिष्ट करता है, इस मामले में, healthmodel। और python=3.7 स्थापित करने के लिए पायथन संस्करण निर्दिष्ट करता है। उपरोक्त कमांड का समर्थन करने वाला कोई भी पसंदीदा नाम और पायथन संस्करण चुनें।
    2. आदेश चलाने के बाद, आउटपुट चित्र 3B के समान है। y दर्ज करें और प्रक्रिया पूरी होने तक प्रतीक्षा करें।
  2. वर्चुअल वातावरण को सक्रिय करें
    1. ज्यादातर मामलों में, निम्न आदेश (चित्रा 3 सी) के साथ बनाए गए वीई को सक्रिय करें:
      कोंडा सक्रिय HealthModel
    2. वीई सक्रियण के लिए प्लेटफ़ॉर्म-विशिष्ट निर्देशों का पालन करें, यदि कुछ प्लेटफ़ॉर्म को उपयोगकर्ता को सक्रियण के लिए प्लेटफ़ॉर्म-विशिष्ट कॉन्फ़िगरेशन फ़ाइलों को अपलोड करने की आवश्यकता होती है।
  3. PyTorch 1.13.1 स्थापित करें
    1. PyTorch आर्टिफिशियल इंटेलिजेंस (AI) एल्गोरिदम के लिए एक लोकप्रिय पायथन पैकेज है। उदाहरण के तौर पर CUDA 1.13.1 GPU प्रोग्रामिंग प्लेटफॉर्म पर आधारित PyTorch 11.7 का उपयोग करें। https://pytorch.org/get-started/previous-versions/ पर अन्य संस्करण खोजें। निम्न आदेश (चित्रा 3 डी) का प्रयोग करें:
      pip3 स्थापित मशाल मशाल दृष्टि मशालऑडियो
      नोट: PyTorch संस्करण 1.12 या नए का उपयोग करने की पुरजोर अनुशंसा की जाती है। अन्यथा, आवश्यक पैकेज torch_geometric स्थापित करना चुनौतीपूर्ण हो सकता है, जैसा कि आधिकारिक torch_geometric वेबसाइट पर बताया गया है: https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html
  4. मशाल-ज्यामितीय के लिए अतिरिक्त पैकेज स्थापित करें
    1. https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html पर दिशानिर्देशों का पालन करते हुए, निम्नलिखित पैकेज स्थापित करें: torch_scatter, torch_sparse, torch_cluster, और torch_spline_conv कमांड (चित्रा 3ई) का उपयोग करके:
      पाइप स्थापित pyg_lib torch_scatter torch_sparse torch_cluster torch_spline_conv -एफ https://data.pyg.org/whl/torch-1.13.0+cu117.html
  5. मशाल-ज्यामितीय पैकेज स्थापित करें।
    1. इस अध्ययन के लिए मशाल-ज्यामितीय पैकेज के एक विशिष्ट संस्करण, 2.2.0 की आवश्यकता होती है। कमांड चलाएँ (चित्र 3F):
      पाइप स्थापित torch_geometric == 2.2.0
  6. अन्य पैकेज स्थापित करें।
    1. पांडा जैसे पैकेज आमतौर पर डिफ़ॉल्ट रूप से उपलब्ध होते हैं। यदि नहीं, तो पाइप कमांड का उपयोग करके उन्हें स्थापित करें। उदाहरण के लिए, पांडा और xgboost स्थापित करने के लिए, चलाएं:
      पाइप पांडा स्थापित करें
      PIP xgboost स्थापित करें

2. mqTrans सुविधाओं को उत्पन्न करने के लिए पूर्व-प्रशिक्षित HealthModel का उपयोग करना

  1. कोड और पूर्व-प्रशिक्षित मॉडल डाउनलोड करें।
    1. वेबसाइट से कोड और पूर्व-प्रशिक्षित हेल्थमॉडल डाउनलोड करें: http://www.healthinformaticslab.org/supp/resources.php, जिसे HealthModel-mqTrans-v1-00.tar.gz नाम दिया गया है (चित्र 4ए)। डाउनलोड की गई फ़ाइल को उपयोगकर्ता-निर्दिष्ट पथ पर विघटित किया जा सकता है। विस्तृत सूत्रीकरण और कार्यान्वित प्रोटोकॉल के सहायक डेटा26 में पाया जा सकता है.
  2. HealthModel चलाने के लिए मापदंडों का परिचय दें।
    1. सबसे पहले, आदेश पंक्ति में HealthModel-mqTrans फ़ोल्डर के लिए कार्य निर्देशिका परिवर्तित करें। कोड चलाने के लिए निम्न सिंटैक्स का उपयोग करें:
      पायथन main.py <डेटा फ़ोल्डर> <मॉडल फ़ोल्डर> <आउटपुट फ़ोल्डर>
      प्रत्येक पैरामीटर और डेटा, मॉडल और आउटपुट फ़ोल्डर के बारे में विवरण निम्नानुसार हैं:
      डेटा फ़ोल्डर: यह स्रोत डेटा फ़ोल्डर है, और प्रत्येक डेटा फ़ाइल csv प्रारूप में है। इस डेटा फ़ोल्डर में दो फ़ाइलें हैं (चरण 2.3 और 2.4 में विस्तृत विवरण देखें)। इन फ़ाइलों को व्यक्तिगत डेटा से बदलने की आवश्यकता है।
      data.csv: ट्रांसक्रिप्टोमिक मैट्रिक्स फ़ाइल। पहली पंक्ति सुविधा (या जीन) आईडी को सूचीबद्ध करती है, और पहला कॉलम नमूना आईडी देता है। जीन की सूची में नियामक कारक (TFs और lincRNAs), और विनियमित mRNA जीन शामिल हैं।
      label.csv: नमूना लेबल फ़ाइल। पहला कॉलम नमूना आईडी को सूचीबद्ध करता है, और "लेबल" नाम वाला कॉलम नमूना लेबल देता है।
      मॉडल फ़ोल्डर: मॉडल के बारे में जानकारी सहेजने के लिए फ़ोल्डर:
      HealthModel.pth: पूर्व-प्रशिक्षित HealthModel।
      regulatory_geneIDs.csv: इस अध्ययन में प्रयुक्त नियामक जीन आईडी।
      target_geneIDs.csv: इस अध्ययन में प्रयुक्त लक्ष्य जीन।
      adjacent_matrix.csv: नियामक जीन के आसन्न मैट्रिक्स।
      आउटपुट फ़ोल्डर: आउटपुट फ़ाइलें इस फ़ोल्डर में लिखी जाती हैं, जो कोड द्वारा बनाई जाती हैं।
      test_target.csv: जेड-सामान्यीकरण और आरोप के बाद लक्ष्य जीन का जीन अभिव्यक्ति मूल्य।
      pred_target.csv: लक्ष्य जीन का अनुमानित जीन अभिव्यक्ति मूल्य।
      mq_target.csv: लक्ष्य जीन का अनुमानित जीन अभिव्यक्ति मूल्य।
  3. ट्रांसक्रिप्टोमिक मैट्रिक्स फ़ाइल को csv प्रारूप में तैयार करें।
    1. प्रत्येक पंक्ति एक नमूने का प्रतिनिधित्व करती है, और प्रत्येक स्तंभ एक जीन(चित्रा 4बी)का प्रतिनिधित्व करता है। ट्रांसक्रिप्टोमिक डेटा मैट्रिक्स फ़ाइल को डेटा फ़ोल्डर में data.csv के रूप में नाम दें।
      नोट:: यह फ़ाइल मैन्युअल रूप से Microsoft Excel जैसे सॉफ़्टवेयर से .csv स्वरूप में डेटा मैट्रिक्स सहेजकर जनरेट किया जा सकता है। ट्रांसक्रिप्टोमिक मैट्रिक्स कंप्यूटर प्रोग्रामिंग द्वारा भी उत्पन्न किया जा सकता है।
  4. लेबल फ़ाइल को csv प्रारूप में तैयार करें।
    1. ट्रांसक्रिप्टोमिक मैट्रिक्स फ़ाइल के समान, लेबल फ़ाइल को डेटा फ़ोल्डर (चित्रा 4 सी) में label.csv नाम दें।
      नोट: पहला कॉलम नमूना नाम देता है, और प्रत्येक नमूने का वर्ग लेबल लेबल शीर्षक वाले कॉलम में दिया जाता है। लेबल स्तंभ में 0 मान का अर्थ है कि यह नमूना ऋणात्मक है, 1 का अर्थ धनात्मक नमूना है.
  5. mqTrans सुविधाएँ जनरेट करें।
    1. mqTrans सुविधाओं उत्पन्न करने और चित्रा 4D में दिखाए गए आउटपुट प्राप्त करने के लिए निम्न आदेश चलाएँ। mqTrans सुविधाएँ फ़ाइल ./output/mq_targets.csv के रूप में उत्पन्न होती हैं, और लेबल फ़ाइल को फ़ाइल ./output/label.csv के रूप में पुनः सहेजा जाता है। आगे के विश्लेषण की सुविधा के लिए, एमआरएनए जीन के मूल अभिव्यक्ति मूल्यों को फ़ाइल ./output/ test_target.csv के रूप में भी निकाला जाता है।
      पायथन ./Get_mqTrans/कोड/main.py ./डेटा ./Get_mqTrans/मॉडल ./आउटपुट

3. mqTrans सुविधाओं का चयन करें

  1. सुविधा चयन कोड का सिंटैक्स
    1. सबसे पहले, HealthModel-mqTrans फ़ोल्डर में कार्य निर्देशिका परिवर्तित करें। निम्न सिंटैक्स का उपयोग करें:
      python ./FS_classification/testMain.py
      प्रत्येक पैरामीटर का विवरण निम्नानुसार है:
      in-data-file: इनपुट डेटा फ़ाइल
      इन-लेबल-फ़ाइल: इनपुट डेटा फ़ाइल का लेबल
      आउटपुट फ़ोल्डर: इस फ़ोल्डर में दो आउटपुट फ़ाइलें सहेजी जाती हैं, जिनमें Output-score.xlsx (सुविधा चयन विधि और संबंधित क्लासिफायरियर की सटीकता), और Output-SelectedFeatures.xlsx (प्रत्येक सुविधा चयन एल्गोरिथ्म के लिए चयनित फीचर नाम) शामिल हैं।
      1. select_feature_number: सुविधाओं की संख्या का चयन करें, 1 से लेकर डेटा फ़ाइल की सुविधाओं की संख्या तक।
      2. test_size: परीक्षण नमूने के अनुपात को विभाजित करने के लिए सेट करें। उदाहरण के लिए, 0.2 का अर्थ है कि इनपुट डेटासेट को बेतरतीब ढंग से ट्रेन में विभाजित किया गया है: 0.8: 0.2 के अनुपात से सबसेट का परीक्षण करें।
      3. गठबंधन: यदि सही है, तो सुविधा चयन के लिए दो डेटा फ़ाइलों को एक साथ मिलाएं, अर्थात, मूल अभिव्यक्ति मान और mqTrans सुविधाएँ। यदि गलत है, तो सुविधा चयन के लिए केवल एक डेटा फ़ाइल का उपयोग करें, अर्थात, मूल अभिव्यक्ति मान या mqTrans सुविधाएँ।
      4. फ़ाइल को मिलाएं: यदि गठबंधन सही है, तो संयुक्त डेटा मैट्रिक्स को सहेजने के लिए यह फ़ाइल नाम प्रदान करें।
        नोट: इस पाइपलाइन का उद्देश्य यह प्रदर्शित करना है कि कैसे उत्पन्न mqTrans सुविधाएँ वर्गीकरण कार्यों पर प्रदर्शन करती हैं, और यह सीधे निम्न कार्रवाइयों के लिए अनुभाग 2 द्वारा जनरेट की गई फ़ाइल का उपयोग करती है।
  2. mqTrans सुविधा चयन के लिए सुविधा चयन एल्गोरिथ्म चलाएँ।
    1. कंबाइन करें =False को चालू करें यदि उपयोगकर्ता mqTrans सुविधाओं या मूल सुविधाओं का चयन करता है।
    2. सबसे पहले, 800 मूल सुविधाओं का चयन करें और डेटासेट को ट्रेन में विभाजित करें: परीक्षण = 0.8: 0.2:
      अजगर ./FS_classification/testMain.py ./output/test_target.csv ./output/label.csv ./परिणाम 800 0.2 गलत
    3. कंबाइन =True को चालू करें, यदि उपयोगकर्ता सुविधाओं का चयन करने के लिए mqTrans सुविधाओं को मूल अभिव्यक्ति मानों के साथ संयोजित करना चाहता है। यहां, प्रदर्शनकारी उदाहरण 800 सुविधाओं का चयन करना और डेटासेट को ट्रेन में विभाजित करना है: परीक्षण = 0.8: 0.2:
      अजगर ./FS_classification/testMain.py ./output/mq_targets.csv ./output/label.csv ./result_combine 800 0.2 सत्य ./output/test_target.csv
      नोट: चित्रा 5 आउटपुट जानकारी दिखाता है। इस प्रोटोकॉल के लिए आवश्यक पूरक फ़ाइलें HealthModel-mqTrans-v1-00.tar फ़ोल्डर (पूरक कोडिंग फ़ाइल 1) में हैं।

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

ट्रांसक्रिप्टोमिक डेटासेट के mqTrans दृश्य का मूल्यांकन
परीक्षण कोड ग्यारह फीचर चयन (एफएस) एल्गोरिदम और सात क्लासिफायर का उपयोग करता है ताकि यह मूल्यांकन किया जा सके कि ट्रांसक्रिप्टोमिक डेटासेट का उत्पन्न एमक्यूट्रांस दृश्य वर्गीकरण कार्य (चित्रा 6) में कैसे योगदान देता है। परीक्षण डेटासेट में कैंसर जीनोम एटलस (टीसीजीए) डेटाबेस29 से 317 कोलन एडेनोकार्सिनोमा (सीओएडी) शामिल हैं। चरण I या II में COAD रोगियों को नकारात्मक नमूने माना जाता है, जबकि चरण III या IV में सकारात्मक होते हैं।

ग्यारह एफएस एल्गोरिदम परीक्षण कोड में लागू किए गए हैं। तीन फ़िल्टर-आधारित FS एल्गोरिदम हैं, जिनमें शामिल हैं, MIC (SK_mic) द्वारा K सर्वश्रेष्ठ सुविधाओं का चयन करें, MIC (SK_fpr) के FPR द्वारा K सुविधाओं का चयन करें, और MIC (SK_fpr) के उच्चतम FDR द्वारा K सुविधाओं का चयन करें। तीन पेड़-आधारित एफएस एल्गोरिदम क्रमशः गिनी इंडेक्स (DT_gini), अनुकूली बूस्टेड निर्णय पेड़ (एडाबूस्ट) और यादृच्छिक वन (RF_fs) के साथ एक निर्णय पेड़ द्वारा व्यक्तिगत विशेषताओं का मूल्यांकन करते हैं। परीक्षण कोड का FS पूल रैखिक समर्थन वेक्टर क्लासिफायरियर (SVC) (RFE_SVC) और RFE के साथ लॉजिस्टिक रिग्रेशन क्लासिफायरियर (RFE_LR) के साथ दो रैपर रिकर्सिव फीचर एलिमिनेशन (RFE) का भी मूल्यांकन करता है, और दो एम्बेडिंग एल्गोरिदम रैखिक SVC क्लासिफायरियर शीर्ष क्रम के L1 फीचर महत्व मूल्यों (lSVC_L1) और लॉजिस्टिक रिग्रेशन क्लासिफायरियर के साथ शीर्ष-क्रम L1 सुविधा महत्व मूल्यों (LR_L1) के साथ।

परीक्षण कोड सात क्लासिफायर का उपयोग करके वर्गीकरण मॉडल बनाता है, जिसमें रैखिक समर्थन वेक्टर मशीन (SVC), गाऊसी Naïve Bayes (GNB), लॉजिस्टिक रिग्रेशन क्लासिफायरियर (LR), k-निकटतम पड़ोसी, डिफ़ॉल्ट रूप से k-5 (KNN), XGBoost, यादृच्छिक वन (RF) और निर्णय वृक्ष (DT)।

चित्रा 6 mqTrans सुविधाओं, मूल mRNA सुविधाओं, और प्रत्येक FS एल्गोरिथ्म द्वारा अनुशंसित mRNA और mqTrans सुविधाओं के संयुक्त सबसेट की अधिकतम परीक्षण सटीकता से पता चलता है.

संयुक्त फीचर सबसेट (mRNA+mqTrans) ने "SK_fpr" FS पद्धति पर उच्चतम सटीकता 0.7656 हासिल की है, जो व्यक्तिगत फीचर प्रकार mqTrans (0.7188) और मूल mRNA (0.7188) से बेहतर है। अन्य एफएस एल्गोरिदम के लिए समान पैटर्न देखे जा सकते हैं। उपयोगकर्ता आउटपुट फ़ाइल Output-SelectedFeatures.csv में चयनित सुविधाओं की जांच कर सकता है

अंधेरे बायोमार्कर का पता लगाना
पिछले अध्ययनों ने फेनोटाइपिक और नियंत्रण समूहों 26,38,39के बीच काफी अलग-अलग प्रतिनिधित्व वाले mqTrans मूल्यों के साथ उदासीन रूप से व्यक्त जीन के अस्तित्व को दिखाया। इन जीनों को डार्क बायोमार्कर कहा जाता है क्योंकि पारंपरिक बायोमार्कर डिटेक्शन अध्ययन उन्हें उनके उदासीन अभिव्यक्तियों द्वारा अनदेखा करते हैं। Microsoft Excel में सांख्यिकीय विश्लेषण फ़ंक्शन t.test का उपयोग उस सुविधा को परिभाषित करने के लिए किया जा सकता है जो विभेदक रूप से व्यक्त की जाती है यदि उसका सांख्यिकीय p-मान 0.05 से छोटा है।

उत्पन्न mqTrans मूल्यों के साथ 3062 सुविधाओं के बीच, 221 अंधेरे बायोमार्कर (चित्रा 7) का पता चला था। तीसरी रैंक जीन ENSG00000163697 (APBB2, Amyloid बीटा अग्रदूत प्रोटीन बाइंडिंग फैमिली बी सदस्य 2) काफी अलग mqTrans मान (mqTrans.P = 2.03 x 10-4) से पता चलता है, जबकि अपने मूल अभिव्यक्ति स्तर कोई अंतर अभिव्यक्ति (mRNA.P = 3.80 x 10-1) से पता चलता है. कीवर्ड APBB2 ने PubMed डेटाबेस27 में 40 प्रकाशनों को हिट किया, लेकिन कोलन या आंत के साथ कोई कनेक्शन नहीं मिला।

एक अन्य जीन ENSG00000048052 (HDAC9, हिस्टोन डेसेटाइलेस 9) में फेनोटाइपिक और नियंत्रण समूहों (mRNA.P = 9.62 x 10-1) के बीच व्यावहारिक रूप से समान सामान्य वितरण को बनाए रखते हुए अलग-अलग प्रतिनिधित्व वाले mqTrans मान (mqTrans.P = 6.09 x 10-3) हैं। कीवर्ड HDAC9 ने PubMed डेटाबेस में 417 प्रकाशनों को हिट किया। तीन अध्ययनों ने सार41,42,43 में "कोलन" या "आंत" कीवर्ड का भी उल्लेख किया। लेकिन, उनमें से किसी ने भी कोलन कैंसर में एचडीएसी 9 की भूमिकाओं की जांच नहीं की।

डेटा ने अपने पोस्ट-ट्रांसक्रिप्शन गतिविधियों से इन अंधेरे बायोमार्कर के आगे मूल्यांकन की आवश्यकता का सुझाव दिया, उदाहरण के लिए, अनुवादित प्रोटीन स्तर44,45

चयापचय से संबंधित अंधेरे और पारंपरिक बायोमार्कर के पैन-कैंसर वितरण
चयापचय से संबंधित पारंपरिक बायोमार्कर की जांच की गई और टीसीजीए डेटासेट38 में 26 कैंसर प्रकारों में अंधेरे बायोमार्कर के खिलाफ तुलना की गई। बायोमार्कर की दोनों श्रेणियों ने प्रारंभिक (चरण I और II) और देर से (चरण III और IV) कैंसर चरणों में महत्व के स्तर को समझने के लिए सांख्यिकीय मूल्यांकन किया। इस मूल्यांकन ने पी-मानों के लिए छात्र के टी-परीक्षणों को नियोजित किया, बाद में झूठी खोज दरों (एफडीआर) का उपयोग करके कई परीक्षण के लिए सही किया गया। 26 कैंसर प्रकारों में से प्रत्येक के लिए विस्तृत डेटा चित्र 8 में प्रदान किया गया है

0.05 से नीचे एफडीआर-सही पी-मान देने वाले जीन को पारंपरिक बायोमार्कर के रूप में वर्गीकृत किया गया था। इसके विपरीत, अंधेरे बायोमार्कर को एमक्यूट्रांस दृश्य में 0.05 से नीचे एफडीआर-सही पी-मान वाले लोगों के रूप में परिभाषित किया गया था, जबकि समवर्ती रूप से अभिव्यक्ति के स्तर में कोई सांख्यिकीय रूप से महत्वपूर्ण अंतर प्रदर्शित नहीं किया गया था।

चित्रा 9 अधिकांश कैंसर प्रकारों में पारंपरिक बायोमार्कर की तुलना में अंधेरे बायोमार्कर की एक सामान्य कमी का खुलासा करता है। उल्लेखनीय अपवादों में बीआरसीए, एमईएसओ और टीजीसीटी शामिल हैं, जो अंधेरे बायोमार्कर का अधिक प्रसार प्रकट करते हैं। यह पता चला है कि प्रतिलेखन कारक, मिथाइलेशन पैटर्न, जीन उत्परिवर्तन और पर्यावरणीय परिस्थितियों सहित विभिन्न कारक, इन अंधेरे बायोमार्कर के ट्रांसक्रिप्शनल डिसरेग्यूलेशन को संशोधित कर सकते हैं। गैर-कोडिंग आरएनए प्रतिलेखों को ओवरलैप करने के कारण और जटिलता उत्पन्न हो सकती है जो अंधेरे बायोमार्कर के अभिव्यक्ति स्तरों को भ्रमित कर सकती है। कुछ अंधेरे बायोमार्कर के प्रतिलेखन विकृतियों को उनके अंतर प्रोटीन स्तर, 44,45द्वारा समर्थित किया गया था। अंधेरे बायोमार्कर को अक्सर पारंपरिक अध्ययनों में अनदेखा किया जाता है और भविष्य की यंत्रवत जांच के लिए पेचीदा रास्ते पेश करते हैं।

Figure 1
चित्रा 1: इस प्रोटोकॉल में हेल्थमॉडल और फीचर चयन मॉड्यूल का अवलोकन। यदि उपयोगकर्ता पायथन प्रोग्रामिंग से परिचित है, तो सुविधा चयन पूल और क्लासिफायर पूल में विशिष्ट एल्गोरिदम को बदलें। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 2
चित्रा 2: इस प्रोटोकॉल के लिए पूर्ण कोड प्रवाह। () पायथन पर्यावरण तैयार करें। शुरू करने के लिए, एक आभासी वातावरण बनाएं और आवश्यक पैकेज स्थापित करें। व्यापक निर्देशों के लिए, अनुभाग 1 देखें। (b) mqTrans सुविधाएँ जनरेट करें। प्रदान किए गए कोड चरण दर चरण निष्पादित करके mqTrans सुविधाएँ प्राप्त करें। विस्तृत स्पष्टीकरण धारा 2 में पाया जा सकता है। (C) mqTrans सुविधाहरू चयन गर्नुहोस्। यह खंड mqTrans सुविधाओं का आकलन करने पर केंद्रित है। गहराई से विवरण के लिए अनुभाग 3 देखें। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 3
चित्रा 3: पायथन के लिए पर्यावरण तैयार करें। () हेल्थमॉडल बनाने के लिए कमांड। (बी) वीई प्रक्रिया बनाने के दौरान वाई दर्ज करें। (सी) वीई को सक्रिय करने के लिए सबसे आम कमांड। (डी) मशाल स्थापित करने के लिए आदेश 1.13.1. () मशाल-ज्यामितीय पैकेज के लिए अतिरिक्त पुस्तकालय स्थापित करें। (एफ) मशाल-ज्यामितीय पैकेज स्थापित करें। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 4
चित्रा 4: mqTrans सुविधा प्राप्त करने के लिए HealthModel चलाएँ। () कोड डाउनलोड करें। (बी) डेटा फ़ाइल का उदाहरण। प्रत्येक कॉलम में एक नियामक कारक के सभी मूल्य होते हैं, और पहला आइटम जीन आईडी होता है। प्रत्येक पंक्ति किसी दिए गए नमूने के मान देती है, जिसमें पहला आइटम नमूना नाम होता है। (सी) एक लेबल फ़ाइल का उदाहरण। पहला कॉलम नमूना नाम देता है, और प्रत्येक नमूने का वर्ग लेबल लेबल शीर्षक वाले कॉलम में दिया जाता है। लेबल स्तंभ में 0 मान का अर्थ है कि यह नमूना जीवित है, 1 का अर्थ मृत है. (D) mqTrans के आउटपुट। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 5
चित्र 5: mqTrans सुविधा के लिए सुविधा चयन एल्गोरिथ्म चलाएँ। सुविधा चयन एल्गोरिथ्म के परिणाम उपयोगकर्ता को दिखाए जाते हैं। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 6
चित्रा 6: प्रत्येक सुविधा चयन एल्गोरिथ्म की अधिकतम परीक्षण सेट सटीकता। क्षैतिज अक्ष सुविधा चयन एल्गोरिदम को सूचीबद्ध करता है, और ऊर्ध्वाधर अक्ष सटीकता के मान देता है। हिस्टोग्राम तीन सेटिंग्स, यानी mqTrans, mRNA, mRNA + mqTrans के प्रयोगात्मक डेटा दिखाते हैं। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 7
चित्रा 7: mqTrans दृश्य में सबसे छोटे पी-मानों के साथ शीर्ष 50 अंधेरे बायोमार्कर। कॉलम "डार्क बायोमार्कर" डार्क बायोमार्कर नाम देता है। कॉलम "mRNA.P" और "mqTrans.P" फेनोटाइपिक और नियंत्रण समूहों के बीच सांख्यिकीय t-परीक्षण p-मान हैं। p-मानों की पृष्ठभूमि रंग p-मानों 1.00 (नीला) और 0.00 (लाल) के बीच रंगीन होते हैं, और सफेद रंग p-मान = 0.05 का प्रतिनिधित्व करता है। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 8
चित्रा 8: विभिन्न चरणों में कैंसर जीनोम एटलस (टीसीजीए) में 26 कैंसर का विवरण। कॉलम "कोहोर्ट" और "रोग ऊतक" प्रत्येक डेटासेट के लिए रोगी समूह और रोग के साथ ऊतकों का वर्णन करते हैं। अंतिम चार कॉलम क्रमशः विकास चरणों I, II, III, और IV में नमूनों की संख्या देते हैं। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

Figure 9
चित्रा 9: 26 कैंसर में अंधेरे बायोमार्कर और पारंपरिक बायोमार्कर की संख्या। क्षैतिज अक्ष 26 कैंसर प्रकारों को सूचीबद्ध करता है। ऊर्ध्वाधर अक्ष इन कैंसर प्रकारों के लिए अंधेरे बायोमार्कर और पारंपरिक बायोमार्कर की संख्या देता है। कृपया इस चित्र का एक बड़ा संस्करण देखने के लिए यहाँ क्लिक करें.

पूरक कोडिंग फ़ाइल 1: HealthModel-mqTrans-v1-00.tar कृपया इस फ़ाइल को डाउनलोड करने के लिए यहाँ क्लिक करें.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

प्रोटोकॉल की धारा 2 (mqTrans सुविधाओं को उत्पन्न करने के लिए पूर्व-प्रशिक्षित HealthModel का उपयोग करें) इस प्रोटोकॉल के भीतर सबसे महत्वपूर्ण कदम है। अनुभाग 1 में कम्प्यूटेशनल कार्य वातावरण तैयार करने के बाद, अनुभाग 2 पूर्व-प्रशिक्षित बड़े संदर्भ मॉडल के आधार पर एक ट्रांसक्रिप्टोमिक डेटासेट का mqTrans दृश्य उत्पन्न करता है। धारा 3 बायोमार्कर डिटेक्शन और भविष्यवाणी कार्यों के लिए उत्पन्न mqTrans सुविधाओं का चयन करने का एक प्रदर्शनकारी उदाहरण है। उपयोगकर्ता अपने स्वयं के टूल या कोड का उपयोग करके इस mqTrans डेटासेट पर अन्य ट्रांसक्रिप्टोमिक विश्लेषण कर सकते हैं।

मूल हेल्थमॉडल फ्रेमवर्क मल्टीटास्क आर्किटेक्चर का उपयोग करके पूर्व-प्रशिक्षित हेल्थमॉडल को और परिष्कृत कर सकता है, जैसा कि26 में वर्णित है। यह प्रोटोकॉल ट्रांसक्रिप्टोमिक डेटासेट के mqTrans दृश्य उत्पन्न करने के लिए पूर्व-प्रशिक्षित संदर्भ मॉडल के उपयोग पर केंद्रित है।

डिफ़ॉल्ट पूर्व-प्रशिक्षित संदर्भ मॉडल स्वस्थ नमूनों पर स्थापित किया गया था और कुछ विशिष्ट कार्यों के लिए एक अच्छा विकल्प नहीं हो सकता है, उदाहरण के लिए, प्राथमिक और मेटास्टैटिक कैंसर के बीच जांच। एक बड़े ट्रांसक्रिप्टोमिक डेटासेट के लिए कम्प्यूटेशनल गति भी धीमी है।

इस प्रोटोकॉल का महत्व सबसे प्रचुर मात्रा में उपलब्ध OMIC डेटा प्रकार, यानी ट्रांसक्रिप्टोम का एक पूरक mqTrans दृश्य प्रदान करना है। डार्क बायोमार्कर को पारंपरिक ट्रांसक्रिप्टोमिक विश्लेषण द्वारा अनदेखा किए गए उदासीन रूप से व्यक्त जीन से प्रकट किया जा सकता है। एक हालिया अध्ययन में कुल44 नमूनों के 805 नमूनों के तीन स्वतंत्र समूहों के आधार पर मेटास्टैटिक कोलन कैंसर (एमसीसी) के सात अंधेरे बायोमार्कर का पता चला। डार्क बायोमार्कर को उनके उदासीन भावों के कारण सीमित गीले-प्रयोगशाला जांच प्राप्त हुई। हालांकि, पता चला एमसीसी डार्क बायोमार्कर वाईटीएचडीसी 2 में से एक प्रोटीन वाईटीएच डोमेन को एन्कोड करता है जिसमें 2, जिनके प्रोटीन का स्तर मानव गैस्ट्रिक कैंसर कोशिकाओं46 और कोलन कैंसर47 की मेटास्टेसिस स्थिति के साथ सकारात्मक रूप से सहसंबद्ध देखा गया था। डार्क बायोमार्कर की उपन्यास जैविक अंतर्दृष्टि इन विट्रो और विवो प्रौद्योगिकियों के माध्यम से हल की जानी बाकी है।

यह प्रोटोकॉल पूरी तरह से मॉड्यूलर होने के लिए डिज़ाइन किया गया है। प्राथमिक कैंसर जैसे अन्य बड़े डेटासेट पर पूर्व-प्रशिक्षित संदर्भ मॉडल ट्यूमर मेटास्टेसिस की जांच की सुविधा प्रदान करेंगे। इस प्रोटोकॉल को पौधों, कवक और रोगाणुओं सहित अन्य जीवन डोमेन में अनुप्रयोगों के लिए भी खोजा जाएगा।

इस प्रोटोकॉल की कम्प्यूटेशनल दक्षता को समांतरकरण और एल्गोरिथम अनुकूलन के माध्यम से बढ़ाने की योजना है।

यह प्रोटोकॉल एक ट्रांसक्रिप्टोमिक डेटासेट को एक नए mqTrans दृश्य में बदलने की प्रक्रिया का वर्णन करता है, और जीन के रूपांतरित mqTrans मान संदर्भ नमूनों की तुलना में प्रतिलेखन विनियमन परिवर्तनों को मात्रात्मक रूप से मापते हैं। एक डिफ़ॉल्ट मॉडल को स्वस्थ प्रतिलेखों पर पूर्व-प्रशिक्षित किया गया था और संदर्भ हेल्थमॉडल के रूप में जारी किया गया था।

दो बहाव कार्यों के स्रोत कोड जैव चिकित्सा शोधकर्ताओं द्वारा इस प्रोटोकॉल के आसान उपयोग की सुविधा के लिए प्रदान की जाती है. प्रयोगात्मक डेटा से पता चलता है कि रूपांतरित mqTrans सुविधाएँ केवल मूल अभिव्यक्ति स्तरों का उपयोग करके भविष्यवाणी कार्यों में सुधार कर सकती हैं। mqTrans दृश्य मूल ट्रांसक्रिप्टोमिक डेटा में अंतर अभिव्यक्तियों के बिना कुछ अंधेरे बायोमार्कर के अव्यक्त फेनोटाइपिक कनेक्शन का भी अनावरण कर सकता है।

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

लेखकों के पास खुलासा करने के लिए कुछ भी नहीं है।

Acknowledgments

इस काम को सीनियर और जूनियर टेक्नोलॉजिकल इनोवेशन टीम (20210509055RQ), गुइझोउ प्रांतीय विज्ञान और प्रौद्योगिकी परियोजनाओं (ZK2023-297), गुइझोउ प्रांत के स्वास्थ्य आयोग के विज्ञान और प्रौद्योगिकी फाउंडेशन (gzwkj2023-565), जिलिन प्रांत के शिक्षा विभाग की विज्ञान और प्रौद्योगिकी परियोजना (JJKH20220245KJ और JJKH20220226SK), चीन के राष्ट्रीय प्राकृतिक विज्ञान फाउंडेशन (U19A2061), बिग डेटा इंटेलिजेंट कंप्यूटिंग की जिलिन प्रांतीय कुंजी प्रयोगशाला द्वारा समर्थित किया गया था (20180622002JC), और केंद्रीय विश्वविद्यालयों के लिए मौलिक अनुसंधान निधि, JLU। हम समीक्षा संपादक और तीन अनाम समीक्षकों को उनकी रचनात्मक आलोचनाओं के लिए अपनी ईमानदारी से प्रशंसा करते हैं, जो इस प्रोटोकॉल की कठोरता और स्पष्टता को काफी हद तक बढ़ाने में सहायक रहे हैं।

Materials

Name Company Catalog Number Comments
Anaconda Anaconda version 2020.11 Python programming platform
Computer N/A N/A Any general-purpose computers satisfy the requirement
GPU card N/A N/A Any general-purpose GPU cards with the CUDA computing library
pytorch Pytorch version 1.13.1 Software
torch-geometric Pytorch version 2.2.0 Software

DOWNLOAD MATERIALS LIST

References

  1. Mutz, K. -O., Heilkenbrinker, A., Lönne, M., Walter, J. -G., Stahl, F. Transcriptome analysis using next-generation sequencing. Curr Opin in Biotechnol. 24 (1), 22-30 (2013).
  2. Meng, G., Tang, W., Huang, E., Li, Z., Feng, H. A comprehensive assessment of cell type-specific differential expression methods in bulk data. Brief Bioinform. 24 (1), 516 (2023).
  3. Iqbal, N., Kumar, P. Integrated COVID-19 Predictor: Differential expression analysis to reveal potential biomarkers and prediction of coronavirus using RNA-Seq profile data. Comput Biol Med. 147, 105684 (2022).
  4. Ravichandran, S., et al. VB(10), a new blood biomarker for differential diagnosis and recovery monitoring of acute viral and bacterial infections. EBioMedicine. 67, 103352 (2021).
  5. Lv, J., et al. Targeting FABP4 in elderly mice rejuvenates liver metabolism and ameliorates aging-associated metabolic disorders. Metabolism. 142, 155528 (2023).
  6. Cruz, J. A., Wishart, D. S. Applications of machine learning in cancer prediction and prognosis. Cancer Inform. 2, 59-77 (2007).
  7. Cox, D. R. Analysis of Survival Data. , Chapman and Hall/CRC. London. (2018).
  8. Newman, A. M., et al. Robust enumeration of cell subsets from tissue expression profiles. Nat Methods. 12 (5), 453-457 (2015).
  9. Ramilowski, J. A., et al. A draft network of ligand-receptor-mediated multicellular signalling in human. Nat Commun. 6 (1), 7866 (2015).
  10. Xu, Y., et al. MiR-145 detection in urinary extracellular vesicles increase diagnostic efficiency of prostate cancer based on hydrostatic filtration dialysis method. Prostate. 77 (10), 1167-1175 (2017).
  11. Wang, Y., et al. Profiles of differential expression of circulating microRNAs in hepatitis B virus-positive small hepatocellular carcinoma. Cancer Biomark. 15 (2), 171-180 (2015).
  12. Hu, S., et al. Transcriptional response profiles of paired tumor-normal samples offer novel. Oncotarget. 8 (25), 41334-41347 (2017).
  13. Xu, H., Luo, D., Zhang, F. DcWRKY75 promotes ethylene induced petal senescence in carnation (Dianthus caryophyllus L). Plant J. 108 (5), 1473-1492 (2021).
  14. Niu, H., et al. Dynamic role of Scd1 gene during mouse oocyte growth and maturation. Int J Biol Macromol. 247, 125307 (2023).
  15. Aznaourova, M., et al. Single-cell RNA sequencing uncovers the nuclear decoy lincRNA PIRAT as a regulator of systemic monocyte immunity during COVID-19. Proc Natl Acad Sci U S A. 119 (36), 2120680119 (2022).
  16. Prakash, A., Banerjee, M. An interpretable block-attention network for identifying regulatory feature interactions. Brief Bioinform. 24 (4), (2023).
  17. Zhai, Y., et al. Single-cell RNA sequencing integrated with bulk RNA sequencing analysis reveals diagnostic and prognostic signatures and immunoinfiltration in gastric cancer. Comput Biol Med. 163, 107239 (2023).
  18. Duan, L., et al. Dynamic changes in spatiotemporal transcriptome reveal maternal immune dysregulation of autism spectrum disorder. Comput Biol Med. 151, 106334 (2022).
  19. Zolotareva, O., et al. Flimma: a federated and privacy-aware tool for differential gene expression analysis). Genome Biol. 22 (1), 338 (2021).
  20. Su, R., Zhu, Y., Zou, Q., Wei, L. Distant metastasis identification based on optimized graph representation of gene. Brief Bioinform. 23 (1), (2022).
  21. Xing, X., et al. Multi-level attention graph neural network based on co-expression gene modules for disease diagnosis and prognosis. Bioinformatics. 38 (8), 2178-2186 (2022).
  22. Bongini, P., Pancino, N., Scarselli, F., Bianchini, M. BioGNN: How Graph Neural Networks Can Solve Biological Problems. Artificial Intelligence and Machine Learning for Healthcare: Vol. 1: Image and Data Analytics. , Springer. Cham. (2022).
  23. Muzio, G., O'Bray, L., Borgwardt, K. Biological network analysis with deep learning. Brief Bioinform. 22 (2), 1515-1530 (2021).
  24. Luo, H., et al. Multi-omics integration for disease prediction via multi-level graph attention network and adaptive fusion. bioRxiv. , (2023).
  25. Feng, X., et al. Selecting multiple biomarker subsets with similarly effective binary classification performances. J Vis Exp. (140), e57738 (2018).
  26. Duan, M., et al. Orchestrating information across tissues via a novel multitask GAT framework to improve quantitative gene regulation relation modeling for survival analysis. Brief Bioinform. 24 (4), (2023).
  27. Chicco, D., Starovoitov, V., Jurman, G. The benefits of the Matthews correlation Coefficient (MCC) over the diagnostic odds ratio (DOR) in binary classification assessment. IEEE Access. 9, 47112-47124 (2021).
  28. Goldman, M. J., et al. Visualizing and interpreting cancer genomics data via the Xena platform. Nat Biotechnol. 38 (6), 675-678 (2020).
  29. Liu, J., et al. An integrated TCGA pan-cancer clinical data resource to drive high-quality survival outcome analytics. Cell. 173 (2), 400-416 (2018).
  30. Uhlen, M., et al. Towards a knowledge-based human protein atlas. Nat Biotechnol. 28 (12), 1248-1250 (2010).
  31. Hernaez, M., Blatti, C., Gevaert, O. Comparison of single and module-based methods for modeling gene regulatory. Bioinformatics. 36 (2), 558-567 (2020).
  32. Consortium, G. The genotype-tissue expression (GTEx) project. Nat Genet. 45 (6), 580-585 (2013).
  33. Kanehisa, M., et al. KEGG for taxonomy-based analysis of pathways and genomes. Nucleic Acids Res. 51, D587-D592 (2023).
  34. Han, H., et al. TRRUST v2: an expanded reference database of human and mouse transcriptional. Nucleic Acids Res. 46, D380-D386 (2018).
  35. Langfelder, P., Horvath, S. WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics. 9, 559 (2008).
  36. Sulaimanov, N., et al. Inferring gene expression networks with hubs using a degree weighted Lasso. Bioinformatics. 35 (6), 987-994 (2019).
  37. Kogelman, L. J. A., Kadarmideen, H. N. Weighted Interaction SNP Hub (WISH) network method for building genetic networks. BMC Syst Biol. 8, 5 (2014).
  38. Duan, M., et al. Pan-cancer identification of the relationship of metabolism-related differentially expressed transcription regulation with non-differentially expressed target genes via a gated recurrent unit network. Comput Biol Med. 148, 105883 (2022).
  39. Duan, M., et al. Detection and independent validation of model-based quantitative transcriptional regulation relationships altered in lung cancers. Front Bioeng Biotechnol. 8, 582 (2020).
  40. Fiorini, N., Lipman, D. J., Lu, Z. Towards PubMed 2.0. eLife. 6, 28801 (2017).
  41. Liu, J., et al. Maternal microbiome regulation prevents early allergic airway diseases in mouse offspring. Pediatr Allergy Immunol. 31 (8), 962-973 (2020).
  42. Childs, E. J., et al. Association of common susceptibility variants of pancreatic cancer in higher-risk patients: A PACGENE study. Cancer Epidemiol Biomarkers Prev. 25 (7), 1185-1191 (2016).
  43. Wang, C., et al. Thailandepsins: bacterial products with potent histone deacetylase inhibitory activities and broad-spectrum antiproliferative activities. J Nat Prod. 74 (10), 2031-2038 (2011).
  44. Lv, X., et al. Transcriptional dysregulations of seven non-differentially expressed genes as biomarkers of metastatic colon cancer. Genes (Basel). 14 (6), 1138 (2023).
  45. Li, X., et al. Undifferentially expressed CXXC5 as a transcriptionally regulatory biomarker of breast cancer. Advanced Biology. , (2023).
  46. Yuan, W., et al. The N6-methyladenosine reader protein YTHDC2 promotes gastric cancer progression via enhancing YAP mRNA translation. Transl Oncol. 16, 101308 (2022).
  47. Tanabe, A., et al. RNA helicase YTHDC2 promotes cancer metastasis via the enhancement of the efficiency by which HIF-1α mRNA is translated. Cancer Lett. 376 (1), 34-42 (2016).

Tags

तंत्रिका विज्ञान अंक 205
छोटे डेटासेट पर भविष्यवाणी कार्य और डार्क बायोमार्कर डिटेक्शन के लिए ट्रांसक्रिप्टोमिक सुविधाओं का ट्रांसक्रिप्शनल विनियमन दृश्य उत्पन्न करना
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Li, K., Fan, Y., Liu, Y., Liu, H.,More

Li, K., Fan, Y., Liu, Y., Liu, H., Zhang, G., Duan, M., Huang, L., Zhou, F. Generating the Transcriptional Regulation View of Transcriptomic Features for Prediction Task and Dark Biomarker Detection on Small Datasets. J. Vis. Exp. (205), e66030, doi:10.3791/66030 (2024).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter