Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

إنشاء طريقة عرض تنظيم النسخ لميزات النسخ لمهمة التنبؤ واكتشاف العلامات الحيوية المظلمة على مجموعات البيانات الصغيرة

Published: March 1, 2024 doi: 10.3791/66030

Summary

هنا ، نقدم بروتوكولا لتحويل البيانات النسخية إلى عرض mqTrans ، مما يتيح تحديد المؤشرات الحيوية المظلمة. على الرغم من عدم التعبير عنها بشكل تفاضلي في التحليلات النسخية التقليدية ، إلا أن هذه المؤشرات الحيوية تظهر تعبيرا تفاضليا في عرض mqTrans. يعمل هذا النهج كتقنية تكميلية للطرق التقليدية ، حيث يكشف النقاب عن المؤشرات الحيوية التي تم تجاهلها سابقا.

Abstract

يمثل Transcriptome مستويات التعبير للعديد من الجينات في العينة وقد استخدم على نطاق واسع في الأبحاث البيولوجية والممارسة السريرية. ركز الباحثون عادة على المؤشرات الحيوية النسخية ذات التمثيلات التفاضلية بين مجموعة النمط الظاهري ومجموعة التحكم من العينات. قدمت هذه الدراسة إطار عمل تعليمي متعدد المهام لشبكة الانتباه البياني (GAT) لمعرفة التفاعلات المعقدة بين الجينات للعينات المرجعية. تم تدريب نموذج مرجعي توضيحي مسبقا على العينات الصحية (HealthModel) ، والتي يمكن استخدامها مباشرة لتوليد عرض تنظيم النسخ الكمي القائم على النموذج (mqTrans) لنسخ الاختبار المستقلة. تم عرض عرض mqTrans الذي تم إنشاؤه للنسخ من خلال مهام التنبؤ واكتشاف العلامات الحيوية المظلمة. نشأ المصطلح "العلامة الحيوية الداكنة" من تعريفه بأن العلامة الحيوية المظلمة أظهرت تمثيلا تفاضليا في عرض mqTrans ولكن لا يوجد تعبير تفاضلي في مستوى التعبير الأصلي. تم دائما تجاهل العلامات الحيوية الداكنة في دراسات الكشف عن العلامات الحيوية التقليدية بسبب عدم وجود تعبير تفاضلي. يمكن تنزيل الكود المصدري ودليل خط الأنابيب HealthModelPipe من http://www.healthinformaticslab.org/supp/resources.php.

Introduction

يتكون Transcriptome من تعبيرات جميع الجينات في العينة ويمكن توصيفه بواسطة تقنيات عالية الإنتاجية مثل microarray و RNA-seq1. تسمى مستويات التعبير لجين واحد في مجموعة البيانات ميزة النسخ ، والتمثيل التفاضلي لميزة النسخ بين النمط الظاهري والمجموعات الضابطة يعرف هذا الجين كعلامة حيوية لهذا النمط الظاهري 2,3. تم استخدام المؤشرات الحيوية النسخية على نطاق واسع في التحقيقات في تشخيص المرض4 ، والآلية البيولوجية5 ، وتحليل البقاء على قيد الحياة6،7 ، إلخ.

تحمل أنماط نشاط الجينات في الأنسجة السليمة معلومات مهمة عن حياة 8,9. تقدم هذه الأنماط رؤى لا تقدر بثمن وتعمل كمراجع مثالية لفهم المسارات التنموية المعقدة للاضطرابات الحميدة10,11 والأمراض الفتاكة12. تتفاعل الجينات مع بعضها البعض ، وتمثل النسخ مستويات التعبير النهائية بعد تفاعلاتها المعقدة. تتم صياغة هذه الأنماط مثل شبكة تنظيم النسخ13 وشبكة التمثيل الغذائي14 ، إلخ. يمكن تنظيم تعبيرات الحمض النووي الريبي المرسال (mRNAs) نسخيا بواسطة عوامل النسخ (TFs) والحمض النووي الريبي الطويل غير المشفر بين الجينات (lincRNAs)15،16،17. تجاهل تحليل التعبير التفاضلي التقليدي مثل هذه التفاعلات الجينية المعقدة مع افتراض الاستقلال بين الميزات18,19.

تظهر التطورات الحديثة في الشبكات العصبية للرسم البياني (GNNs) إمكانات غير عادية في استخراج المعلومات المهمة من البيانات المستندة إلى OMIC لدراسات السرطان20 ، على سبيل المثال ، تحديد وحدات التعبير المشترك21. القدرة الفطرية ل GNNs تجعلها مثالية لنمذجة العلاقات المعقدة والتبعيات بين الجينات22,23.

غالبا ما تركز الدراسات الطبية الحيوية على التنبؤ بدقة بالنمط الظاهري مقابل المجموعة الضابطة. عادة ما تصاغ هذه المهام كتصنيفات ثنائية24،25،26. هنا ، عادة ما يتم ترميز تسميات الفئتين على أنها 1 و 0 ، صواب وخطأ ، أو حتى موجب وسالب27.

تهدف هذه الدراسة إلى توفير بروتوكول سهل الاستخدام لتوليد عرض تنظيم النسخ (mqTrans) لمجموعة بيانات النسخ بناء على النموذج المرجعي لشبكة انتباه الرسم البياني (GAT) المدرب مسبقا. تم استخدام إطار عمل GAT متعدد المهام من عمل منشور سابقا26 لتحويل ميزات النسخ إلى ميزات mqTrans. تم استخدام مجموعة بيانات كبيرة من النسخ الصحية من جامعة كاليفورنيا ، سانتا كروز (UCSC) منصة Xena28 للتدريب المسبق للنموذج المرجعي (HealthModel) ، والذي يقيس كميا لوائح النسخ من العوامل التنظيمية (TFs و lincRNAs) إلى mRNAs المستهدفة. يمكن استخدام عرض mqTrans الذي تم إنشاؤه لبناء نماذج التنبؤ واكتشاف المؤشرات الحيوية المظلمة. يستخدم هذا البروتوكول مجموعة بيانات مرضى سرطان القولون الغدي (COAD) من قاعدة بيانات أطلس جينوم السرطان (TCGA)29 كمثال توضيحي. في هذا السياق ، يتم تصنيف المرضى في المرحلتين الأولى أو الثانية على أنهم عينات سلبية ، بينما يعتبر المرضى في المرحلتين الثالثة أو الرابعة عينات إيجابية. كما تتم مقارنة توزيعات المؤشرات الحيوية الداكنة والتقليدية عبر 26 نوعا من أنواع السرطان TCGA.

وصف خط أنابيب HealthModel
تستند المنهجية المستخدمة في هذا البروتوكول إلى الإطار26 المنشور سابقا ، كما هو موضح في الشكل 1. للبدء، يطلب من المستخدمين إعداد مجموعة بيانات الإدخال، وإدخالها في خط أنابيب HealthModel المقترح، والحصول على ميزات mqTrans. وترد تعليمات مفصلة لإعداد البيانات في القسم 2 من قسم البروتوكول. بعد ذلك، يتوفر للمستخدمين خيار دمج ميزات mqTrans مع ميزات النسخ الأصلية أو متابعة ميزات mqTrans التي تم إنشاؤها فقط. ثم تخضع مجموعة البيانات المنتجة لعملية اختيار الميزات ، حيث يتمتع المستخدمون بالمرونة في اختيار القيمة المفضلة لديهم ل k في التحقق المتقاطع k-fold للتصنيف. مقياس التقييم الأساسي المستخدم في هذا البروتوكول هو الدقة.

يصنف HealthModel26 ميزات النسخ إلى ثلاث مجموعات متميزة: TF (عامل النسخ) ، lincRNA (الحمض النووي الريبي الطويل غير المشفر بين الجينات) ، و mRNA (الحمض النووي الريبي المرسال). يتم تعريف ميزات TF بناء على التعليقات التوضيحية المتوفرة في أطلس البروتين البشري30,31. يستخدم هذا العمل التعليقات التوضيحية ل lincRNAs من مجموعة بياناتGTEx 32. تعتبر الجينات التي تنتمي إلى مسارات المستوى الثالث في قاعدة بيانات KEGG33 من ميزات mRNA. تجدر الإشارة إلى أنه إذا أظهرت ميزة mRNA أدوارا تنظيمية للجين المستهدف كما هو موثق في قاعدة بيانات TRRUST34 ، إعادة تصنيفها في فئة TF.

يقوم هذا البروتوكول أيضا بإنشاء ملفين نموذجيين يدويا لمعرفات الجينات للعوامل التنظيمية (regulatory_geneIDs.csv) و mRNA المستهدف (target_geneIDs.csv). يتم حساب مصفوفة المسافة الزوجية بين السمات التنظيمية (TFs و lincRNAs) بواسطة معاملات ارتباط بيرسون ويتم تجميعها بواسطة أداة تحليل شبكة التعبير المشترك للجين المرجح (WGCNA) 36 (adjacent_matrix.csv). يمكن للمستخدمين استخدام خط أنابيب HealthModel مباشرة مع ملفات التكوين النموذجية هذه لإنشاء عرض mqTrans لمجموعة بيانات نسخية.

التفاصيل الفنية لنموذج الصحة
يمثل HealthModel العلاقات المعقدة بين TFs و lincRNAs كرسم بياني ، مع ميزات الإدخال التي تعمل كرؤوس يشار إليها بواسطة V ومصفوفة حافة بين الرؤوس تسمى E. تتميز كل عينة بميزات تنظيمية K ، يرمز لها ب VK ×1. على وجه التحديد ، شملت مجموعة البيانات 425 TFs و 375 lincRNAs ، مما أدى إلى أبعاد عينة من K = 425 + 375 = 800. لإنشاء مصفوفة الحافة E ، استخدم هذا العمل الأداة الشعبية WGCNA35. يتم تحديد الوزن الزوجي الذي يربط رأسين ممثلين ك Equation 1 و Equation 2، بواسطة معامل ارتباط بيرسون. تعرض شبكة تنظيم الجينات طوبولوجيا خالية من المقياس36 ، تتميز بوجود جينات محورية ذات أدوار وظيفية محورية. نحسب الارتباط بين ميزتين أو رأسين ، Equation 1 و Equation 2، باستخدام مقياس التداخل الطوبولوجي (TOM) على النحو التالي:

Equation 3(1)

Equation 4(2)

يتم حساب β العتبة اللينة باستخدام وظيفة "عتبة pickSoft" من حزمة WGCNA. يتم تطبيق دالة أس القدرة aij ، حيث Equation 5 تمثل جينا باستثناء i و j ، وتمثل Equation 6 اتصال الرأس. يقوم WGCNA بتجميع ملفات تعريف التعبير لميزات النسخ في وحدات متعددة باستخدام مقياس الاختلاف المستخدم بشكل شائع (Equation 737.

تم تصميم إطار عمل HealthModel في الأصل كبنية تعليمية متعددة المهام26. يستخدم هذا البروتوكول فقط مهمة التدريب المسبق النموذجية لبناء طريقة عرض mqTrans النسخية. يمكن للمستخدم اختيار زيادة تحسين HealthModel المدرب مسبقا ضمن شبكة انتباه الرسم البياني متعدد المهام مع عينات نسخ إضافية خاصة بالمهمة.

التفاصيل الفنية لاختيار الميزة وتصنيفها
ينفذ تجمع تحديد المعالم أحد عشر خوارزمية لتحديد المعالم (FS). من بينها ، ثلاثة خوارزميات FS قائمة على المرشح: اختيار أفضل ميزات K باستخدام معامل المعلومات الأقصى (SK_mic) ، واختيار ميزات K بناء على FPR ل MIC (SK_fpr) ، واختيار ميزات K ذات أعلى معدل اكتشاف خاطئ ل MIC (SK_fdr). بالإضافة إلى ذلك ، تقوم ثلاث خوارزميات FS قائمة على الأشجار بتقييم الميزات الفردية باستخدام شجرة القرار مع مؤشر Gini (DT_gini) ، وأشجار القرار المعززة التكيفية (AdaBoost) ، والغابة العشوائية (RF_fs). يشتمل التجمع أيضا على طريقتين للتغليف: إزالة الميزة العودية باستخدام مصنف متجه الدعم الخطي (RFE_SVC) والتخلص من الميزة العودية باستخدام مصنف الانحدار اللوجستي (RFE_LR). أخيرا ، يتم تضمين خوارزميتين للتضمين: مصنف SVC الخطي مع قيم أهمية ميزة L1 الأعلى مرتبة (lSVC_L1) ومصنف الانحدار اللوجستي مع قيم أهمية ميزة L1 الأعلى مرتبة (LR_L1).

يستخدم تجمع المصنف سبعة مصنفات مختلفة لبناء نماذج تصنيف. تشتمل هذه المصنفات على آلة متجه الدعم الخطي (SVC) ، و Gaussian Naïve Bayes (GNB) ، ومصنف الانحدار اللوجستي (LR) ، وأقرب جار k ، مع تعيين k على 5 افتراضيا (KNN) ، و XGBoost ، والغابة العشوائية (RF) ، وشجرة القرار (DT).

يمكن تعيين التقسيم العشوائي لمجموعة البيانات في القطار: مجموعات فرعية للاختبار في سطر الأوامر. يستخدم المثال الموضح نسبة القطار: اختبار = 8: 2.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

ملاحظة: يصف البروتوكول التالي تفاصيل الإجراء التحليلي المعلوماتي وأوامر Python للوحدات النمطية الرئيسية. يوضح الشكل 2 الخطوات الرئيسية الثلاث مع أمثلة الأوامر المستخدمة في هذا البروتوكول والرجوع إلى الأعمال المنشورة سابقا26،38 لمزيد من التفاصيل الفنية. قم بإجراء البروتوكول التالي ضمن حساب مستخدم عادي في نظام كمبيوتر وتجنب استخدام حساب المسؤول أو الجذر. هذا بروتوكول حسابي وليس له عوامل خطرة طبية حيوية.

1. إعداد بيئة بايثون

  1. إنشاء بيئة افتراضية.
    1. استخدمت هذه الدراسة لغة برمجة Python وبيئة Python الافتراضية (VE) مع Python 3.7. اتبع هذه الخطوات (الشكل 3 أ):
      كوندا إنشاء -n HealthModel بيثون = 3.7
      conda create
      هو الأمر لإنشاء VE جديد. تحدد المعلمة -n اسم البيئة الجديدة ، في هذه الحالة ، healthmodel. و python = 3.7 يحدد إصدار Python المراد تثبيته. اختر أي اسم مفضل وإصدار Python يدعم الأمر أعلاه.
    2. بعد تشغيل الأمر ، يكون الإخراج مشابها للشكل 3B. أدخل y وانتظر حتى تكتمل العملية.
  2. تنشيط البيئة الافتراضية
    1. في معظم الحالات ، قم بتنشيط VE الذي تم إنشاؤه باستخدام الأمر التالي (الشكل 3C):
      كوندا تفعيل نموذج الصحة
    2. اتبع التعليمات الخاصة بالنظام الأساسي لتنشيط VE ، إذا كانت بعض الأنظمة الأساسية تتطلب من المستخدم تحميل ملفات التكوين الخاصة بالنظام الأساسي للتنشيط.
  3. ثبت برنامج PyTorch 1.13.1
    1. PyTorch هي حزمة Python شائعة لخوارزميات الذكاء الاصطناعي (الذكاء الاصطناعي). استخدم PyTorch 1.13.1 ، استنادا إلى منصة برمجة GPU CUDA 11.7 ، كمثال. ابحث عن إصدارات أخرى في https://pytorch.org/get-started/previous-versions/. استخدم الأمر التالي (الشكل 3D):
      PIP3 تثبيت الشعلة الشعلة الشعلة الصوت
      ملاحظة: يوصى بشدة باستخدام الإصدار 1.12 من PyTorch أو أحدث. خلاف ذلك ، قد يكون تثبيت الحزمة المطلوبة torch_geometric أمرا صعبا ، كما هو مذكور على موقع torch_geometric الرسمي: https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html.
  4. تثبيت حزم إضافية للشعلة الهندسية
    1. باتباع الإرشادات الواردة في https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html ، قم بتثبيت الحزم التالية: torch_scatter و torch_sparse و torch_cluster و torch_spline_conv باستخدام الأمر (الشكل 3E):
      تثبيت النقطة pyg_lib torch_scatter torch_sparse torch_cluster torch_spline_conv -F https://data.pyg.org/whl/torch-1.13.0+cu117.html
  5. تثبيت حزمة الشعلة الهندسية .
    1. تتطلب هذه الدراسة إصدارا محددا ، 2.2.0 ، من حزمة الشعلة الهندسية . قم بتشغيل الأمر (الشكل 3F):
      تثبيت النقطة torch_geometric==2.2.0
  6. تثبيت حزم أخرى.
    1. عادة ما تكون الحزم مثل الباندا متاحة افتراضيا. إذا لم يكن كذلك ، فقم بتثبيتها باستخدام الأمر pip. على سبيل المثال ، لتثبيت الباندا و xgboost ، قم بتشغيل:
      نقطة تثبيت الباندا
      نقطة تثبيت xgboost

2. استخدام HealthModel المدرب مسبقا لإنشاء ميزات mqTrans

  1. قم بتنزيل الكود والنموذج الذي تم تدريبه مسبقا.
    1. قم بتنزيل الكود ونموذج الصحة المدرب مسبقا من موقع الويب: http://www.healthinformaticslab.org/supp/resources.php ، والذي يسمى HealthModel-mqTrans-v1-00.tar.gz (الشكل 4 أ). يمكن فك ضغط الملف الذي تم تنزيله إلى مسار محدد من قبل المستخدم. يمكن العثور على الصياغة التفصيلية والبيانات الداعمة للبروتوكول المنفذ في26.
  2. تقديم المعلمات لتشغيل HealthModel.
    1. أولا ، قم بتغيير دليل العمل إلى المجلد HealthModel-mqTrans في سطر الأوامر. استخدم بناء الجملة التالي لتشغيل التعليمات البرمجية:
      Python main.py <مجلد البيانات > <مجلد النموذج > <مجلد الإخراج>
      التفاصيل المتعلقة بكل معلمة ومجلدات البيانات والنموذج والإخراج هي كما يلي:
      مجلد البيانات: هذا هو مجلد البيانات المصدر، وكل ملف بيانات بتنسيق csv. يحتوي مجلد البيانات هذا على ملفين (راجع الأوصاف التفصيلية في الخطوتين 2.3 و 2.4). يجب استبدال هذه الملفات ببيانات شخصية.
      data.csv: ملف مصفوفة النسخ. يسرد الصف الأول معرفات الميزة (أو الجينات)، ويعطي العمود الأول معرفات العينة. تتضمن قائمة الجينات العوامل التنظيمية (TFs و lincRNAs) ، وجينات mRNA المنظمة.
      label.csv: نموذج ملف التسمية. يسرد العمود الأول نماذج المعرفات، ويعطي العمود الذي يحمل الاسم "label" نموذج التسمية.
      مجلد النموذج: المجلد لحفظ معلومات حول النموذج:
      HealthModel.pth: نموذج الصحة المدرب مسبقا.
      regulatory_geneIDs.csv: معرفات الجينات التنظيمية المستخدمة في هذه الدراسة.
      target_geneIDs.csv: الجينات المستهدفة المستخدمة في هذه الدراسة.
      adjacent_matrix.csv: المصفوفة المجاورة للجينات التنظيمية.
      مجلد الإخراج: تتم كتابة ملفات الإخراج إلى هذا المجلد ، والتي تم إنشاؤها بواسطة الكود.
      test_target.csv: قيمة التعبير الجيني للجينات المستهدفة بعد Z-Normalization و impordinaation.
      pred_target.csv: قيمة التعبير الجيني المتوقعة للجينات المستهدفة.
      mq_target.csv: قيمة التعبير الجيني المتوقعة للجينات المستهدفة.
  3. قم بإعداد ملف مصفوفة النسخ بتنسيق csv.
    1. يمثل كل صف عينة ، ويمثل كل عمود جينا (الشكل 4B). قم بتسمية ملف مصفوفة البيانات النسخية كما data.csv في مجلد البيانات .
      ملاحظة: قد يتم إنشاء هذا الملف عن طريق حفظ مصفوفة بيانات يدويا بتنسيق .csv من برامج مثل Microsoft Excel. يمكن أيضا إنشاء مصفوفة النسخ بواسطة برمجة الكمبيوتر.
  4. قم بإعداد ملف التسمية بتنسيق csv.
    1. على غرار ملف مصفوفة النسخ ، قم بتسمية ملف التسمية كما label.csv في مجلد البيانات (الشكل 4C).
      ملاحظة: يعطي العمود الأول أسماء العينات، وترد تسمية الفئة لكل عينة في العمود بعنوان التسمية. تعني القيمة 0 في عمود التسمية أن هذه العينة سالبة ، و 1 تعني عينة موجبة.
  5. قم بإنشاء ميزات mqTrans.
    1. قم بتشغيل الأمر التالي لإنشاء ميزات mqTrans والحصول على المخرجات الموضحة في الشكل 4D. يتم إنشاء ميزات mqTrans كملف ./output/mq_targets.csv، ويتم إعادة حفظ ملف التسمية كملف ./output/label.csv. لتسهيل إجراء مزيد من التحليل ، يتم أيضا استخراج قيم التعبير الأصلية لجينات mRNA كملف ./output/ test_target.csv.
      بيثون ./Get_mqTrans/كود/main.py./البيانات./Get_mqTrans/نموذج./الإخراج

3. حدد ميزات mqTrans

  1. بناء جملة رمز تحديد الميزة
    1. أولا، قم بتغيير دليل العمل إلى المجلد HealthModel-mqTrans . استخدم بناء الجملة التالي:
      بيثون ./FS_classification/testMain.py <مجلد الإخراج> <دمج> <دمج الملف>
      تفاصيل كل معلمة هي كما يلي:
      في ملف البيانات: ملف بيانات الإدخال
      في ملف التسمية: تسمية ملف بيانات الإدخال
      مجلد الإخراج: يتم حفظ ملفي إخراج في هذا المجلد ، بما في ذلك Output-score.xlsx (طريقة تحديد الميزة ودقة المصنف المقابل) ، و Output-SelectedFeatures.xlsx (أسماء الميزات المحددة لكل خوارزمية تحديد ميزة).
      1. select_feature_number: حدد عدد الميزات ، بدءا من 1 إلى عدد ميزات ملف البيانات.
      2. test_size: اضبط نسبة عينة الاختبار المراد تقسيمها. على سبيل المثال ، يعني 0.2 أن مجموعة بيانات الإدخال مقسمة عشوائيا إلى القطار: مجموعات فرعية للاختبار بنسبة 0.8: 0.2.
      3. دمج: إذا كان هذا صحيحا ، فقم بدمج ملفين بيانات معا لتحديد الميزة ، أي قيم التعبير الأصلية وميزات mqTrans. إذا كان خطأ، فما عليك سوى استخدام ملف بيانات واحد لتحديد الميزة، أي قيم التعبير الأصلية أو ميزات mqTrans.
      4. دمج الملف: إذا كان الجمع صحيحا، فقم بتوفير اسم الملف هذا لحفظ مصفوفة البيانات المجمعة.
        ملاحظة: يهدف خط الأنابيب هذا إلى توضيح كيفية أداء ميزات mqTrans التي تم إنشاؤها في مهام التصنيف، ويستخدم مباشرة الملف الذي تم إنشاؤه بواسطة القسم 2 للعمليات التالية.
  2. قم بتشغيل خوارزمية تحديد الميزة لتحديد ميزة mqTrans.
    1. قم بتشغيل combine = False إذا حدد المستخدم ميزات mqTrans أو الميزات الأصلية.
    2. أولا ، حدد 800 ميزة أصلية وقم بتقسيم مجموعة البيانات إلى قطار: test = 0.8: 0.2:
      python ./FS_classification/testMain.py ./output/test_target.csv ./output/label.csv ./result 800 0.2 false
    3. قم بتشغيل combine = True ، إذا أراد المستخدم دمج ميزات mqTrans مع قيم التعبير الأصلية لتحديد الميزات. هنا ، المثال التوضيحي هو تحديد 800 معلم وتقسيم مجموعة البيانات إلى قطار: test = 0.8: 0.2:
      بيثون ./FS_classification/testMain.py ./output/mq_targets.csv ./output/label.csv ./result_combine 800 0.2 صحيح./output/test_target.csv
      ملاحظة: يوضح الشكل 5 معلومات الإخراج. الملفات التكميلية المطلوبة لهذا البروتوكول موجودة في مجلد HealthModel-mqTrans-v1-00.tar (ملف الترميز التكميلي 1).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

تقييم طريقة عرض mqTrans لمجموعة البيانات النسخية
يستخدم رمز الاختبار أحد عشر خوارزمية لاختيار المعالم (FS) وسبعة مصنفات لتقييم كيفية مساهمة عرض mqTrans الذي تم إنشاؤه لمجموعة البيانات النسخية في مهمة التصنيف (الشكل 6). تتكون مجموعة بيانات الاختبار من 317 سرطان القولون الغدي (COAD) من قاعدة بيانات أطلس جينوم السرطان (TCGA)29. يعتبر مرضى COAD في المرحلتين الأولى أو الثانية عينات سلبية ، في حين أن أولئك في المرحلتين الثالثة أو الرابعة هم الإيجابيون.

يتم تنفيذ أحد عشر خوارزمية FS في رمز الاختبار. هناك ثلاث خوارزميات FS قائمة على المرشح ، بما في ذلك ، حدد K أفضل ميزات بواسطة MIC (SK_mic) ، وحدد ميزات K بواسطة FPR ل MIC (SK_fpr) ، وحدد ميزات K بواسطة أعلى FDR ل MIC (SK_fpr). تقوم ثلاث خوارزميات FS قائمة على الأشجار بتقييم الميزات الفردية من خلال شجرة القرار مع مؤشر جيني (DT_gini) ، وأشجار القرار المعززة التكيفية (AdaBoost) والغابة العشوائية (RF_fs) ، على التوالي. يقوم تجمع FS لرمز الاختبار أيضا بتقييم غلافين لإزالة الميزة العودية (RFE) مع مصنف متجه الدعم الخطي (SVC) (RFE_SVC) و RFE مع مصنف الانحدار اللوجستي (RFE_LR) ، واثنين من خوارزميات التضمين المصنف الخطي SVC مع قيم أهمية ميزة L1 الأعلى مرتبة (lSVC_L1) ومصنف الانحدار اللوجستي مع قيم أهمية ميزة L1 الأعلى مرتبة (LR_L1).

يبني رمز الاختبار نماذج التصنيف باستخدام سبعة مصنفات ، بما في ذلك آلة متجه الدعم الخطي (SVC) ، Gaussian Naïve Bayes (GNB) ، مصنف الانحدار اللوجستي (LR) ، k-أقرب جار ، k-5 افتراضيا (KNN) ، XGBoost ، غابة عشوائية (RF) وشجرة القرار (DT).

يوضح الشكل 6 دقة الاختبار القصوى لميزات mqTrans ، وميزات mRNA الأصلية ، والمجموعة الفرعية المدمجة من ميزات mRNA و mqTrans الموصى بها من قبل كل خوارزمية FS.

حققت مجموعات المعالم الفرعية المدمجة (mRNA + mqTrans) أعلى دقة 0.7656 على طريقة FS "SK_fpr" ، أفضل من أنواع الميزات الفردية mqTrans (0.7188) و mRNA الأصلي (0.7188). ويمكن ملاحظة أنماط مماثلة لخوارزميات الخدمات الثابتة الأخرى. يمكن للمستخدم التحقق من الميزات المحددة في ملف الإخراج Output-SelectedFeatures.csv.

الكشف عن المؤشرات الحيوية المظلمة
أظهرت الدراسات السابقة وجود الجينات المعبر عنها بشكل غير تفاضلي مع قيم mqTrans الممثلة تفاضليا بشكل كبير بين مجموعات النمط الظاهري والمجموعة الضابطة26،38،39. تسمى هذه الجينات المؤشرات الحيوية المظلمة لأن دراسات الكشف عن العلامات الحيوية التقليدية تتجاهلها من خلال تعبيراتها غير التفاضلية. يمكن استخدام دالة التحليل الإحصائي t.test في Microsoft Excel لتحديد ميزة يتم التعبير عنها بشكل تفاضلي إذا كانت القيمة p الإحصائية الخاصة بها أصغر من 0.05.

من بين 3062 ميزة مع قيم mqTrans التي تم إنشاؤها ، تم اكتشاف 221 مؤشرا حيويا داكنا (الشكل 7). يظهر ENSG00000163697 الجيني في المرتبة الثالثة (APBB2 ، عائلة ربط بروتين السلائف بيتا الأميلويد B Member 2) قيم mqTrans ممثلة تفاضليا بشكل كبير (mqTrans.P = 2.03 × 10-4) بينما لا يظهر مستوى التعبير الأصلي أي تعبير تفاضلي (mRNA.P = 3.80 × 10-1). وصلت الكلمة الرئيسية APBB2 إلى 27 منشورا في قاعدة بيانات PubMed40 ، ولكن لم يتم اكتشاف أي اتصالات مع القولون أو الأمعاء.

يحتوي ENSG00000048052 جيني آخر (HDAC9 ، Histone Deacetylase 9) على قيم mqTrans الممثلة تفاضليا (mqTrans.P = 6.09 × 10-3) مع الحفاظ عمليا على نفس التوزيعات الطبيعية بين مجموعات النمط الظاهري والمجموعة الضابطة (mRNA.P = 9.62 × 10-1). وصلت الكلمة الرئيسية HDAC9 إلى 417 منشورا في قاعدة بيانات PubMed. ذكرت ثلاث دراسات أيضا الكلمات الرئيسية "القولون" أو "الأمعاء" في الملخصات41،42،43. ولكن ، لم يحقق أي منهم في أدوار HDAC9 في سرطان القولون.

اقترحت البيانات ضرورة إجراء مزيد من التقييمات لهذه المؤشرات الحيوية المظلمة من أنشطة ما بعد النسخ ، على سبيل المثال ، مستويات البروتين المترجمة44,45.

توزيعات شاملة للسرطان للمؤشرات الحيوية الداكنة والتقليدية المرتبطة بالتمثيل الغذائي
تم فحص المؤشرات الحيوية التقليدية المتعلقة بالتمثيل الغذائي ومقارنتها بالمؤشرات الحيوية المظلمة عبر 26 نوعا من السرطان في مجموعة بيانات TCGA38. خضعت كلتا الفئتين من المؤشرات الحيوية لتقييم إحصائي لتمييز مستويات الأهمية عبر مراحل السرطان المبكرة (المرحلتان الأولى والثانية) والمتأخرة (المرحلتان الثالثة والرابعة). استخدم هذا التقييم اختبارات t للطالب للقيم p ، وتم تصحيحها لاحقا لإجراء اختبارات متعددة باستخدام معدلات اكتشاف خاطئة (FDRs). يتم توفير بيانات مفصلة لكل نوع من أنواع السرطان ال 26 في الشكل 8.

تم تصنيف الجينات التي تنتج قيم p المصححة ب FDR أقل من 0.05 على أنها مؤشرات حيوية تقليدية. في المقابل ، تم تعريف المؤشرات الحيوية المظلمة على أنها تلك التي تحتوي على قيم p مصححة من FDR أقل من 0.05 في عرض mqTrans بينما لا تظهر في نفس الوقت أي اختلافات ذات دلالة إحصائية في مستويات التعبير.

يكشف الشكل 9 عن ندرة عامة في المؤشرات الحيوية الداكنة مقارنة بالمؤشرات الحيوية التقليدية في معظم أنواع السرطان. تشمل الاستثناءات الجديرة بالملاحظة BRCA و MESO و TGCT ، والتي تظهر انتشارا أكبر للمؤشرات الحيوية الداكنة. تم الكشف عن أن عوامل مختلفة ، بما في ذلك عوامل النسخ ، وأنماط المثيلة ، والطفرات الجينية ، والظروف البيئية ، يمكن أن تعدل خلل التنظيم النسخي لهذه المؤشرات الحيوية المظلمة. قد ينشأ المزيد من التعقيد بسبب تداخل نسخ الحمض النووي الريبي غير المشفرة التي يمكن أن تربك مستويات التعبير عن المؤشرات الحيوية الداكنة. تم دعم خلل تنظيم النسخ لبعض المؤشرات الحيوية المظلمة من خلال مستويات البروتين التفاضلية44,45. غالبا ما يتم تجاهل المؤشرات الحيوية المظلمة في الدراسات التقليدية وتقدم طرقا مثيرة للاهتمام للتحقيقات الميكانيكية المستقبلية.

Figure 1
الشكل 1: نظرة عامة على HealthModel ووحدات اختيار الميزات في هذا البروتوكول. استبدل الخوارزميات المحددة في تجمع تحديد الميزات وتجمع المصنف إذا كان المستخدم على دراية ببرمجة Python. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

Figure 2
الشكل 2: تدفق التعليمات البرمجية الكامل لهذا البروتوكول. (أ) إعداد بيئة بايثون. للبدء ، قم بإنشاء بيئة افتراضية وتثبيت الحزم الأساسية. للحصول على إرشادات شاملة، راجع القسم 1. (ب) إنشاء ميزات mqTrans. احصل على ميزات mqTrans عن طريق تنفيذ التعليمات البرمجية المقدمة خطوة بخطوة. يمكن العثور على تفسيرات مفصلة في القسم 2. (ج) حدد ميزات mqTrans. يركز هذا القسم على تقييم ميزات mqTrans. ارجع إلى القسم 3 للحصول على تفاصيل متعمقة. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

Figure 3
الشكل 3: إعداد البيئة لبايثون. (أ) الأمر بإنشاء نموذج صحي. (B) أدخل y أثناء عملية إنشاء التطرف العنيف. (ج) الأمر الأكثر شيوعا لتنشيط VE. (د) أمر تركيب الشعلة 1.13.1. (ه) تركيب مكتبات إضافية لحزمة الشعلة الهندسية . (و) تثبيت حزمة الشعلة الهندسية . يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

Figure 4
الشكل 4: قم بتشغيل HealthModel للحصول على ميزة mqTrans. (أ) قم بتنزيل الكود. (ب) مثال ملف البيانات. يحتوي كل عمود على جميع قيم العامل التنظيمي ، والعنصر الأول هو معرف الجين. يعطي كل صف قيم عينة معينة ، مع كون العنصر الأول هو اسم العينة. ج: مثال ملف التسمية. يعطي العمود الأول أسماء العينات ، ويتم إعطاء تسمية الفئة لكل عينة في العمود بعنوان التسمية. تعني القيمة 0 في عمود التسمية أن هذه العينة حية ، و 1 تعني ميتة. د: مخرجات mqTrans. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

Figure 5
الشكل 5: قم بتشغيل خوارزمية اختيار الميزة لميزة mqTrans. يتم عرض نتائج خوارزمية تحديد الميزة للمستخدم. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

Figure 6
الشكل 6: دقة مجموعة الاختبار القصوى لكل خوارزمية اختيار ميزة. يسرد المحور الأفقي خوارزميات تحديد المعالم ، ويعطي المحور الرأسي قيم الدقة. تظهر الرسوم البيانية البيانات التجريبية للإعدادات الثلاثة ، أي mqTrans و mRNA و mRNA + mqTrans. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

Figure 7
الشكل 7: أفضل 50 مؤشرا حيويا داكنا مع أصغر قيم p في عرض mqTrans. يعطي العمود "العلامة الحيوية الداكنة" أسماء العلامات الحيوية الداكنة. العمودين "mRNA.P" و "mqTrans.P" هما قيم p الإحصائية لاختبار t بين مجموعات النمط الظاهري والمجموعة الضابطة. ألوان الخلفية للقيم p ملونة بين القيم p 1.00 (أزرق) و 0.00 (أحمر) ، ويمثل اللون الأبيض قيمة p = 0.05. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

Figure 8
الشكل 8: تفاصيل 26 سرطانا في أطلس جينوم السرطان (TCGA) في مراحل مختلفة. تصف الأعمدة "الفوج" و "أنسجة المرض" مجموعة المرضى والأنسجة المصابة بالمرض لكل مجموعة بيانات. تعطي الأعمدة الأربعة الأخيرة أعداد العينات في مراحل النمو الأول والثاني والثالث والرابع على التوالي. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

Figure 9
الشكل 9: أعداد المؤشرات الحيوية الداكنة والمؤشرات الحيوية التقليدية في 26 سرطانا. يسرد المحور الأفقي 26 نوعا من السرطان. يعطي المحور الرأسي أرقام المؤشرات الحيوية الداكنة والمؤشرات الحيوية التقليدية لهذه الأنواع من السرطان. يرجى النقر هنا لعرض نسخة أكبر من هذا الرقم.

ملف الترميز التكميلي 1: HealthModel-mqTrans-v1-00.tar الرجاء الضغط هنا لتنزيل هذا الملف.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

القسم 2 (استخدم HealthModel المدرب مسبقا لإنشاء ميزات mqTrans) من البروتوكول هو الخطوة الأكثر أهمية في هذا البروتوكول. بعد إعداد بيئة العمل الحسابية في القسم 1 ، يقوم القسم 2 بإنشاء عرض mqTrans لمجموعة بيانات نسخية بناء على النموذج المرجعي الكبير المدرب مسبقا. القسم 3 هو مثال توضيحي لاختيار ميزات mqTrans التي تم إنشاؤها للكشف عن العلامات الحيوية ومهام التنبؤ. يمكن للمستخدمين إجراء تحليلات نسخية أخرى على مجموعة بيانات mqTrans هذه باستخدام أدواتهم أو رموزهم الخاصة.

يمكن لإطار عمل HealthModel الأصلي تحسين HealthModel المدرب مسبقا باستخدام بنية المهام المتعددة ، كما هو موضح في26. يركز هذا البروتوكول على استخدام النموذج المرجعي المدرب مسبقا لإنشاء عرض mqTrans لمجموعة بيانات نسخية.

تم إنشاء النموذج المرجعي الافتراضي المدرب مسبقا على العينات السليمة وقد لا يكون خيارا جيدا لبعض المهام المحددة ، على سبيل المثال ، التحقيق بين السرطانات الأولية والنقيلي. السرعة الحسابية بطيئة أيضا لمجموعة بيانات نسخية كبيرة.

تكمن أهمية هذا البروتوكول في توفير عرض mqTrans تكميلي لنوع بيانات OMIC الأكثر توفرا ، أي transcriptome. يمكن الكشف عن المؤشرات الحيوية المظلمة من الجينات المعبر عنها بشكل غير متمايز والتي تجاهلها التحليل النسخي التقليدي. كشفت دراسة حديثة عن سبعة مؤشرات حيوية داكنة لسرطان القولون النقيلي (mCC) بناء على ثلاث مجموعات مستقلة من 805 عينة في المجموع44. تلقت المؤشرات الحيوية الداكنة تحقيقات محدودة في المختبر الرطب بسبب تعبيراتها غير التفاضلية. ومع ذلك ، فإن أحد العلامات الحيوية المظلمة mCC المكتشفة YTHDC2 يشفر مجال البروتين YTH الذي يحتوي على 2 ، والذي لوحظ أن مستويات البروتين ترتبط ارتباطا إيجابيا بحالة ورم خبيث لخلايا سرطان المعدة البشرية46 وسرطان القولون47. لا يزال يتعين حل الرؤى البيولوجية الجديدة للمؤشرات الحيوية المظلمة من خلال التقنيات المختبرية وفي الجسم الحي.

تم تصميم هذا البروتوكول ليكون معياريا بالكامل. ستسهل النماذج المرجعية المدربة مسبقا على مجموعات البيانات الكبيرة الأخرى مثل السرطانات الأولية التحقيق في ورم خبيث للورم. سيتم استكشاف هذا البروتوكول أيضا للتطبيقات في مجالات الحياة الأخرى ، بما في ذلك النباتات والفطريات والميكروبات.

ومن المقرر تعزيز الكفاءة الحسابية لهذا البروتوكول من خلال التوازي والتحسين الخوارزمي.

يصف هذا البروتوكول الإجراء الخاص بتحويل مجموعة بيانات النسخ إلى عرض mqTrans جديد ، وتقيس قيم mqTrans المحولة للجين كميا تغييرات تنظيم النسخ مقارنة بالعينات المرجعية. تم تدريب نموذج افتراضي مسبقا على النسخ الصحية وتم إصداره كنموذج صحي مرجعي.

يتم توفير الكود المصدري لمهمتين نهائيتين لتسهيل الاستخدام السهل لهذا البروتوكول من قبل الباحثين في الطب الحيوي. تظهر البيانات التجريبية أن ميزات mqTrans المحولة يمكن أن تحسن مهام التنبؤ باستخدام مستويات التعبير الأصلية فقط. يمكن لطريقة عرض mqTrans أيضا الكشف عن الروابط الظاهرية الكامنة لبعض المؤشرات الحيوية المظلمة دون تعبيرات تفاضلية في بيانات النسخ الأصلية.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

ليس لدى المؤلفين ما يكشفون عنه.

Acknowledgments

تم دعم هذا العمل من قبل فريق الابتكار التكنولوجي الأول والصغير (20210509055RQ) ، ومشاريع العلوم والتكنولوجيا بمقاطعة قويتشو (ZK2023-297) ، ومؤسسة العلوم والتكنولوجيا التابعة للجنة الصحة بمقاطعة قويتشو (gzwkj2023-565) ، ومشروع العلوم والتكنولوجيا التابع لإدارة التعليم في مقاطعة جيلين (JJKH20220245KJ و JJKH20220226SK) ، والمؤسسة الوطنية للعلوم الطبيعية في الصين (U19A2061) ، ومختبر مقاطعة جيلين الرئيسي للحوسبة الذكية للبيانات الضخمة (20180622002JC) ، وصناديق البحوث الأساسية للجامعات المركزية ، JLU. نعرب عن خالص تقديرنا لمحرر المراجعة والمراجعين الثلاثة المجهولين على انتقاداتهم البناءة ، والتي كانت مفيدة في تعزيز صرامة ووضوح هذا البروتوكول بشكل كبير.

Materials

Name Company Catalog Number Comments
Anaconda Anaconda version 2020.11 Python programming platform
Computer N/A N/A Any general-purpose computers satisfy the requirement
GPU card N/A N/A Any general-purpose GPU cards with the CUDA computing library
pytorch Pytorch version 1.13.1 Software
torch-geometric Pytorch version 2.2.0 Software

DOWNLOAD MATERIALS LIST

References

  1. Mutz, K. -O., Heilkenbrinker, A., Lönne, M., Walter, J. -G., Stahl, F. Transcriptome analysis using next-generation sequencing. Curr Opin in Biotechnol. 24 (1), 22-30 (2013).
  2. Meng, G., Tang, W., Huang, E., Li, Z., Feng, H. A comprehensive assessment of cell type-specific differential expression methods in bulk data. Brief Bioinform. 24 (1), 516 (2023).
  3. Iqbal, N., Kumar, P. Integrated COVID-19 Predictor: Differential expression analysis to reveal potential biomarkers and prediction of coronavirus using RNA-Seq profile data. Comput Biol Med. 147, 105684 (2022).
  4. Ravichandran, S., et al. VB(10), a new blood biomarker for differential diagnosis and recovery monitoring of acute viral and bacterial infections. EBioMedicine. 67, 103352 (2021).
  5. Lv, J., et al. Targeting FABP4 in elderly mice rejuvenates liver metabolism and ameliorates aging-associated metabolic disorders. Metabolism. 142, 155528 (2023).
  6. Cruz, J. A., Wishart, D. S. Applications of machine learning in cancer prediction and prognosis. Cancer Inform. 2, 59-77 (2007).
  7. Cox, D. R. Analysis of Survival Data. , Chapman and Hall/CRC. London. (2018).
  8. Newman, A. M., et al. Robust enumeration of cell subsets from tissue expression profiles. Nat Methods. 12 (5), 453-457 (2015).
  9. Ramilowski, J. A., et al. A draft network of ligand-receptor-mediated multicellular signalling in human. Nat Commun. 6 (1), 7866 (2015).
  10. Xu, Y., et al. MiR-145 detection in urinary extracellular vesicles increase diagnostic efficiency of prostate cancer based on hydrostatic filtration dialysis method. Prostate. 77 (10), 1167-1175 (2017).
  11. Wang, Y., et al. Profiles of differential expression of circulating microRNAs in hepatitis B virus-positive small hepatocellular carcinoma. Cancer Biomark. 15 (2), 171-180 (2015).
  12. Hu, S., et al. Transcriptional response profiles of paired tumor-normal samples offer novel. Oncotarget. 8 (25), 41334-41347 (2017).
  13. Xu, H., Luo, D., Zhang, F. DcWRKY75 promotes ethylene induced petal senescence in carnation (Dianthus caryophyllus L). Plant J. 108 (5), 1473-1492 (2021).
  14. Niu, H., et al. Dynamic role of Scd1 gene during mouse oocyte growth and maturation. Int J Biol Macromol. 247, 125307 (2023).
  15. Aznaourova, M., et al. Single-cell RNA sequencing uncovers the nuclear decoy lincRNA PIRAT as a regulator of systemic monocyte immunity during COVID-19. Proc Natl Acad Sci U S A. 119 (36), 2120680119 (2022).
  16. Prakash, A., Banerjee, M. An interpretable block-attention network for identifying regulatory feature interactions. Brief Bioinform. 24 (4), (2023).
  17. Zhai, Y., et al. Single-cell RNA sequencing integrated with bulk RNA sequencing analysis reveals diagnostic and prognostic signatures and immunoinfiltration in gastric cancer. Comput Biol Med. 163, 107239 (2023).
  18. Duan, L., et al. Dynamic changes in spatiotemporal transcriptome reveal maternal immune dysregulation of autism spectrum disorder. Comput Biol Med. 151, 106334 (2022).
  19. Zolotareva, O., et al. Flimma: a federated and privacy-aware tool for differential gene expression analysis). Genome Biol. 22 (1), 338 (2021).
  20. Su, R., Zhu, Y., Zou, Q., Wei, L. Distant metastasis identification based on optimized graph representation of gene. Brief Bioinform. 23 (1), (2022).
  21. Xing, X., et al. Multi-level attention graph neural network based on co-expression gene modules for disease diagnosis and prognosis. Bioinformatics. 38 (8), 2178-2186 (2022).
  22. Bongini, P., Pancino, N., Scarselli, F., Bianchini, M. BioGNN: How Graph Neural Networks Can Solve Biological Problems. Artificial Intelligence and Machine Learning for Healthcare: Vol. 1: Image and Data Analytics. , Springer. Cham. (2022).
  23. Muzio, G., O'Bray, L., Borgwardt, K. Biological network analysis with deep learning. Brief Bioinform. 22 (2), 1515-1530 (2021).
  24. Luo, H., et al. Multi-omics integration for disease prediction via multi-level graph attention network and adaptive fusion. bioRxiv. , (2023).
  25. Feng, X., et al. Selecting multiple biomarker subsets with similarly effective binary classification performances. J Vis Exp. (140), e57738 (2018).
  26. Duan, M., et al. Orchestrating information across tissues via a novel multitask GAT framework to improve quantitative gene regulation relation modeling for survival analysis. Brief Bioinform. 24 (4), (2023).
  27. Chicco, D., Starovoitov, V., Jurman, G. The benefits of the Matthews correlation Coefficient (MCC) over the diagnostic odds ratio (DOR) in binary classification assessment. IEEE Access. 9, 47112-47124 (2021).
  28. Goldman, M. J., et al. Visualizing and interpreting cancer genomics data via the Xena platform. Nat Biotechnol. 38 (6), 675-678 (2020).
  29. Liu, J., et al. An integrated TCGA pan-cancer clinical data resource to drive high-quality survival outcome analytics. Cell. 173 (2), 400-416 (2018).
  30. Uhlen, M., et al. Towards a knowledge-based human protein atlas. Nat Biotechnol. 28 (12), 1248-1250 (2010).
  31. Hernaez, M., Blatti, C., Gevaert, O. Comparison of single and module-based methods for modeling gene regulatory. Bioinformatics. 36 (2), 558-567 (2020).
  32. Consortium, G. The genotype-tissue expression (GTEx) project. Nat Genet. 45 (6), 580-585 (2013).
  33. Kanehisa, M., et al. KEGG for taxonomy-based analysis of pathways and genomes. Nucleic Acids Res. 51, D587-D592 (2023).
  34. Han, H., et al. TRRUST v2: an expanded reference database of human and mouse transcriptional. Nucleic Acids Res. 46, D380-D386 (2018).
  35. Langfelder, P., Horvath, S. WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics. 9, 559 (2008).
  36. Sulaimanov, N., et al. Inferring gene expression networks with hubs using a degree weighted Lasso. Bioinformatics. 35 (6), 987-994 (2019).
  37. Kogelman, L. J. A., Kadarmideen, H. N. Weighted Interaction SNP Hub (WISH) network method for building genetic networks. BMC Syst Biol. 8, 5 (2014).
  38. Duan, M., et al. Pan-cancer identification of the relationship of metabolism-related differentially expressed transcription regulation with non-differentially expressed target genes via a gated recurrent unit network. Comput Biol Med. 148, 105883 (2022).
  39. Duan, M., et al. Detection and independent validation of model-based quantitative transcriptional regulation relationships altered in lung cancers. Front Bioeng Biotechnol. 8, 582 (2020).
  40. Fiorini, N., Lipman, D. J., Lu, Z. Towards PubMed 2.0. eLife. 6, 28801 (2017).
  41. Liu, J., et al. Maternal microbiome regulation prevents early allergic airway diseases in mouse offspring. Pediatr Allergy Immunol. 31 (8), 962-973 (2020).
  42. Childs, E. J., et al. Association of common susceptibility variants of pancreatic cancer in higher-risk patients: A PACGENE study. Cancer Epidemiol Biomarkers Prev. 25 (7), 1185-1191 (2016).
  43. Wang, C., et al. Thailandepsins: bacterial products with potent histone deacetylase inhibitory activities and broad-spectrum antiproliferative activities. J Nat Prod. 74 (10), 2031-2038 (2011).
  44. Lv, X., et al. Transcriptional dysregulations of seven non-differentially expressed genes as biomarkers of metastatic colon cancer. Genes (Basel). 14 (6), 1138 (2023).
  45. Li, X., et al. Undifferentially expressed CXXC5 as a transcriptionally regulatory biomarker of breast cancer. Advanced Biology. , (2023).
  46. Yuan, W., et al. The N6-methyladenosine reader protein YTHDC2 promotes gastric cancer progression via enhancing YAP mRNA translation. Transl Oncol. 16, 101308 (2022).
  47. Tanabe, A., et al. RNA helicase YTHDC2 promotes cancer metastasis via the enhancement of the efficiency by which HIF-1α mRNA is translated. Cancer Lett. 376 (1), 34-42 (2016).

Tags

علم الأعصاب ، العدد 205 ،
إنشاء طريقة عرض تنظيم النسخ لميزات النسخ لمهمة التنبؤ واكتشاف العلامات الحيوية المظلمة على مجموعات البيانات الصغيرة
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Li, K., Fan, Y., Liu, Y., Liu, H.,More

Li, K., Fan, Y., Liu, Y., Liu, H., Zhang, G., Duan, M., Huang, L., Zhou, F. Generating the Transcriptional Regulation View of Transcriptomic Features for Prediction Task and Dark Biomarker Detection on Small Datasets. J. Vis. Exp. (205), e66030, doi:10.3791/66030 (2024).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter