Biology

יצירת תצוגת ויסות התמלול של תכונות תמלול למשימת חיזוי וזיהוי סמנים ביולוגיים כהים במערכי נתונים קטנים

Published: March 1, 2024 doi: 10.3791/66030

Kewei Li¹, Yusi Fan¹, Yaqing Liu¹, Hongmei Liu², Gongyou Zhang², Meiyu Duan¹, Lan Huang¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²School of Biology and Engineering, Guizhou Medical University

Summary

כאן, אנו מציגים פרוטוקול להמרת נתוני שעתוק לתצוגת mqTrans, המאפשר זיהוי של סמנים ביולוגיים כהים. בעוד שסמנים ביולוגיים אלה אינם באים לידי ביטוי באופן דיפרנציאלי בניתוחי שעתוק קונבנציונליים, הם מציגים ביטוי דיפרנציאלי בתצוגת mqTrans. הגישה משמשת כטכניקה משלימה לשיטות מסורתיות, וחושפת סמנים ביולוגיים שבעבר התעלמו מהם.

Abstract

שעתוק מייצג את רמות הביטוי של גנים רבים בדגימה ונמצא בשימוש נרחב במחקר ביולוגי ובפרקטיקה קלינית. החוקרים התמקדו בדרך כלל בסמנים ביולוגיים שעתוק עם ייצוגים דיפרנציאליים בין קבוצת פנוטיפ לקבוצת ביקורת של דגימות. מחקר זה הציג מסגרת למידה מרובת משימות של רשת גרף-קשב (GAT) כדי ללמוד את האינטראקציות הבין-גניות המורכבות של דגימות הייחוס. מודל ייחוס מדגים הוכשר מראש על הדגימות הבריאות (HealthModel), אשר ניתן להשתמש בו ישירות כדי ליצור את תצוגת ויסות השעתוק הכמותי מבוסס המודל (mqTrans) של תעתיקי הבדיקה הבלתי תלויים. תצוגת mqTrans שנוצרה של תעתיקים הודגמה על ידי משימות חיזוי וזיהוי סמנים ביולוגיים כהים. המונח שנטבע "סמן ביולוגי כהה" נבע מהגדרתו כי סמן ביולוגי כהה הראה ייצוג דיפרנציאלי בתצוגת mqTrans אך לא ביטוי דיפרנציאלי ברמת הביטוי המקורית שלו. סמן ביולוגי כהה תמיד התעלם במחקרים מסורתיים לזיהוי סמנים ביולוגיים בשל היעדר ביטוי דיפרנציאלי. ניתן להוריד את קוד המקור ואת המדריך של הצינור HealthModelPipe מ http://www.healthinformaticslab.org/supp/resources.php.

Introduction

שעתוק מורכב מהביטויים של כל הגנים בדגימה ועשוי להיות פרופיל על ידי טכנולוגיות תפוקה גבוהה כמו microarray ו- RNA-seq¹. רמות הביטוי של גן אחד במערך נתונים נקראות תכונת שעתוק (transcriptomic feature), והייצוג הדיפרנציאלי של תכונת שעתוק בין קבוצת הפנוטיפ וקבוצת הביקורת מגדיר גן זה כסמן ביולוגי של פנוטיפ^זה ^2,3. סמנים ביולוגיים שעתוק שימשו באופן נרחב בחקירות של אבחון מחלות⁴, מנגנון ביולוגי⁵, וניתוח הישרדות ^6,7 וכו '.

דפוסי הפעילות הגנטית ברקמות הבריאות נושאים מידע חיוני על החיים ^8,9. דפוסים אלה מציעים תובנות שלא יסולא בפז ומשמשים כמקורות אידיאליים להבנת מסלולי ההתפתחות המורכבים של הפרעות שפירות^10,11 ומחלות קטלניות¹². גנים מתקשרים זה עם זה, ותעתיקים מייצגים את רמות הביטוי הסופיות לאחר האינטראקציות המסובכות שלהם. דפוסים אלה מנוסחים כרשת ויסות שעתוק¹³ ורשת מטבוליזם¹⁴ וכו '. הביטויים של רנ"א שליח (mRNAs) ניתנים לשעתוק על ידי גורמי שעתוק (TFs) ורנ"א אינטרגני ארוך שאינו מקודד (lincRNAs)15,16,17. ניתוח ביטוי דיפרנציאלי קונבנציונלי התעלם מאינטראקציות גנים מורכבות כאלה עם ההנחה של עצמאות בין תכונות^18,19.

ההתקדמות האחרונה ברשתות עצביות גרפיות (GNNs) מדגימה פוטנציאל יוצא דופן בחילוץ מידע חשוב מנתונים מבוססי OMIC עבור מחקרי סרטן²⁰, למשל, זיהוי מודולי ביטוי משותף²¹. היכולת המולדת של GNNs הופכת אותם לאידיאליים למידול היחסים המורכבים והתלות בין גנים^22,23.

מחקרים ביו-רפואיים מתמקדים לעתים קרובות בניבוי מדויק של פנוטיפ כנגד קבוצת הביקורת. משימות כאלה מנוסחות בדרך כלל כסיווגים בינאריים 24,25,26. כאן, שתי תוויות המחלקה מקודדות בדרך כלל כ- 1 ו- 0, נכון ולא נכון, או אפילו חיובי ושלילי²⁷.

מחקר זה נועד לספק פרוטוקול קל לשימוש ליצירת תצוגת ויסות התמלול (mqTrans) של ערכת נתוני תמלול המבוססת על מודל הייחוס של רשת תשומת הלב הגרפים (GAT) שהוכשר מראש. מסגרת GAT מרובת המשימות מעבודה²⁶ שפורסמה בעבר שימשה להמרת תכונות תעתיק לתכונות mqTrans. מערך נתונים גדול של תעתיקים בריאים מאוניברסיטת קליפורניה, סנטה קרוז (UCSC) Xena^{פלטפורמה 28} שימש לאימון מראש של מודל הייחוס (HealthModel), אשר מדד כמותית את תקנות השעתוק מהגורמים הרגולטוריים (TFs ו- lincRNAs) ל- mRNA המטרה. תצוגת mqTrans שנוצרה יכולה לשמש לבניית מודלים לחיזוי ולזיהוי סמנים ביולוגיים כהים. פרוטוקול זה משתמש במערך הנתונים של חולי אדנוקרצינומה של המעי הגס (COAD) מתוך מסד הנתונים²⁹ של אטלס גנום הסרטן (TCGA) כדוגמה להמחשה. בהקשר זה, חולים בשלבים I או II מסווגים כדגימות שליליות, ואילו אלה בשלבים III או IV נחשבים לדגימות חיוביות. כמו כן מושווים ההתפלגויות של סמנים ביולוגיים כהים ומסורתיים על פני 26 סוגי סרטן TCGA.

תיאור הצינור של HealthModel
המתודולוגיה המיושמת בפרוטוקול זה מבוססת על מסגרת²⁶ שפורסמה בעבר, כמתואר באיור 1. כדי להתחיל, המשתמשים נדרשים להכין את ערכת נתוני הקלט, להזין אותו לתוך צינור HealthModel המוצע, ולקבל תכונות mqTrans. הוראות מפורטות להכנת נתונים מפורטות מפורטות בסעיף 2 בסעיף הפרוטוקול. לאחר מכן, למשתמשים יש אפשרות לשלב תכונות mqTrans עם תכונות התמליל המקוריות או להמשיך עם תכונות mqTrans שנוצרו בלבד. לאחר מכן, ערכת הנתונים המופקת כפופה לתהליך בחירת תכונות, כאשר למשתמשים יש את הגמישות לבחור את הערך המועדף עליהם עבור k באימות צולב k-fold לסיווג. מדד ההערכה העיקרי המשמש בפרוטוקול זה הוא דיוק.

HealthModel²⁶ מסווג את תכונות השעתוק לשלוש קבוצות נפרדות: TF (גורם שעתוק), lincRNA (RNA אינטרגני ארוך שאינו מקודד) ו- mRNA (רנ"א שליח). תכונות TF מוגדרות בהתבסס על הביאורים הזמינים באטלס החלבונים האנושי^30,31. עבודה זו משתמשת בביאורים של lincRNAs מתוך מערך הנתונים GTEx³². גנים השייכים למסלולים ברמה השלישית במסד הנתונים^{KEGG 33} נחשבים לתכונות mRNA. ראוי לציין כי אם תכונת mRNA מציגה תפקידי בקרה עבור גן מטרה כפי שמתועד במסד הנתונים TRRUST³⁴, הוא מסווג מחדש למחלקת TF.

פרוטוקול זה גם מייצר באופן ידני את שני קבצי הדוגמה עבור מזהי הגנים של גורמים רגולטוריים (regulatory_geneIDs.csv) ו- mRNA מטרה (target_geneIDs.csv). מטריצת המרחק הזוגי בין תכונות הבקרה (TFs ו- lincRNAs) מחושבת על ידי מקדמי המתאם של פירסון ומקובצת על ידי הכלי הפופולרי ניתוח רשת ביטוי משותף של גנים (WGCNA)³⁶ (adjacent_matrix.csv). משתמשים יכולים להשתמש ישירות בצינור HealthModel יחד עם קבצי תצורה לדוגמה אלה כדי ליצור את תצוגת mqTrans של ערכת נתונים תמלולית.

פרטים טכניים של HealthModel
HealthModel מייצג את היחסים המורכבים בין TFs ו- lincRNA כגרף, כאשר תכונות הקלט משמשות כקודקודים המסומנים ב- V ומטריצת קצה בין קודקודים המסומנת כ- E. כל מדגם מאופיין בתכונות רגולטוריות K , המסומלות כ - V^K×1. באופן ספציפי, מערך הנתונים הקיף 425 TFs ו 375 lincRNAs, וכתוצאה מכך ממדיות מדגם של K = 425 + 375 = 800. כדי להקים את מטריצת הקצה E, עבודה זו השתמשה בכלי הפופולרי WGCNA³⁵. המשקל הזוגי המקשר בין שני קודקודים המיוצגים כ Equation 1 - ו Equation 2 - , נקבע על ידי מקדם המתאם של פירסון. רשת הבקרה הגנטית מציגה טופולוגיה³⁶ נטולת קנה מידה, המאופיינת בנוכחות גנים רכזתיים בעלי תפקידים פונקציונליים מרכזיים. אנו מחשבים את המתאם בין שתי תכונות או קודקודים, Equation 1 ו Equation 2 - , באמצעות מדד החפיפה הטופולוגית (TOM) באופן הבא:

Equation 3 (1)

Equation 4 (2)

β הסף הרך מחושב באמצעות הפונקציה 'pickSoft Threshold' מחבילת WGCNA. הפונקציה מעריכית החזקה a_ij מוחלת, כאשר Equation 5 מייצג גן שאינו כולל i ו- j, ומייצג Equation 6 את קישוריות הקודקוד. WGCNA מקבץ את פרופילי הביטוי של תכונות התעתיק למודולים מרובים באמצעות מדד אי-דמיון נפוץ ( Equation 7 ³⁷.

מסגרת HealthModel תוכננה במקור כארכיטקטורת למידה מרובת משימות²⁶. פרוטוקול זה משתמש רק במשימת האימון מראש של המודל לבניית תצוגת mqTrans התעתוק. המשתמש יכול לבחור לחדד עוד יותר את HealthModel שהוכשר מראש תחת רשת הקשב של גרף ריבוי המשימות עם דגימות תמלול ספציפיות למשימה נוספות.

פרטים טכניים של בחירת תכונות וסיווגן
מאגר בחירת התכונות מיישם אחד-עשר אלגוריתמים לבחירת תכונות (FS). ביניהם, שלושה הם אלגוריתמי FS מבוססי מסנן: בחירת התכונות הטובות ביותר של K באמצעות מקדם המידע המרבי (SK_mic), בחירת תכונות K בהתבסס על FPR של מיקרופון (SK_fpr), ובחירת תכונות K עם שיעור גילוי השווא הגבוה ביותר של מיקרופון (SK_fdr). בנוסף, שלושה אלגוריתמי FS מבוססי עצים מעריכים תכונות בודדות באמצעות עץ החלטה עם מדד ג'יני (DT_gini), עצי החלטה מוגברת אדפטיבית (AdaBoost) ויער אקראי (RF_fs). המאגר משלב גם שתי שיטות עטיפה: חיסול תכונות רקורסיבי עם מסווג וקטור תמיכה ליניארי (RFE_SVC) וביטול תכונות רקורסיבי עם מסווג רגרסיה לוגיסטית (RFE_LR). לבסוף, שני אלגוריתמי הטבעה כלולים: מסווג SVC ליניארי עם ערכי חשיבות התכונות L1 המדורגים במקום הראשון (lSVC_L1) ומסווג רגרסיה לוגיסטית עם ערכי חשיבות התכונות L1 המדורגים במקום הראשון (LR_L1).

מאגר המסווגים מעסיק שבעה מסווגים שונים לבניית מודלים לסיווג. מסווגים אלה כוללים מכונת וקטור תמיכה ליניארית (SVC), גאוסיאן נאיבי בייס (GNB), מסווג רגרסיה לוגיסטית (LR), k השכן הקרוב ביותר, כאשר k מוגדר ל- 5 כברירת מחדל (KNN), XGBoost, יער אקראי (RF) ועץ החלטה (DT).

הפיצול האקראי של מערך הנתונים לרכבת: ניתן להגדיר תת-קבוצות בדיקה בשורת הפקודה. הדוגמה המודגמת משתמשת ביחס של רכבת: מבחן = 8: 2.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

הערה: הפרוטוקול הבא מתאר את הפרטים של הפרוצדורה האנליטית של אינפורמטיקה ופקודות Python של המודולים העיקריים. איור 2 ממחיש את שלושת השלבים העיקריים באמצעות פקודות לדוגמה המשמשות בפרוטוקול זה, ומתייחס לעבודות שפורסמו בעבר^26,38 לקבלת פרטים טכניים נוספים. בצע את הפרוטוקול הבא תחת חשבון משתמש רגיל במערכת מחשב והימנע משימוש בחשבון מנהל המערכת או הבסיס. זהו פרוטוקול חישובי ואין בו גורמים מסוכנים ביו-רפואיים.

1. הכינו סביבת Python

צור סביבה וירטואלית.
1. מחקר זה השתמש בשפת התכנות Python ובסביבה וירטואלית של Python (VE) עם Python 3.7. בצע את השלבים הבאים (איור 3A):
  קונדה ליצור -n HealthModel Python=3.7
  conda create היא הפקודה ליצירת VE חדש. הפרמטר -n מציין את שם הסביבה החדשה, במקרה זה, healthmodel. ו - python=3.7 מציין את גרסת Python שתותקן. בחר כל שם מועדף וגרסת Python התומכת בפקודה לעיל.
2. לאחר הפעלת הפקודה, הפלט דומה לאיור 3B. הזן y והמתן להשלמת התהליך.
הפעלת הסביבה הווירטואלית
1. ברוב המקרים, הפעל את VE שנוצר באמצעות הפקודה הבאה (איור 3C):
  Conda Activate HealthModel
2. בצע את ההוראות הספציפיות לפלטפורמה עבור הפעלת VE, אם פלטפורמות מסוימות דורשות מהמשתמש להעלות את קבצי התצורה הספציפיים לפלטפורמה להפעלה.
התקן את PyTorch 1.13.1
1. PyTorch היא חבילת Python פופולרית עבור אלגוריתמים של בינה מלאכותית (AI). השתמש PyTorch 1.13.1, מבוסס על פלטפורמת תכנות CUDA 11.7 GPU, כדוגמה. מצא גירסאות אחרות ב- https://pytorch.org/get-started/previous-versions/. השתמשו בפקודה הבאה (איור 3D):
  PIP3 התקן לפיד TorchVision TorchAudio
  הערה: מומלץ מאוד להשתמש ב-PyTorch גרסה 1.12 ומעלה. אחרת, התקנת torch_geometric החבילה הנדרשת עשויה להיות מאתגרת, כפי שצוין באתר הרשמי torch_geometric: https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html.
התקנת חבילות נוספות עבור לפיד-גיאומטרי
1. בהתאם להנחיות בשלב https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html, התקן את החבילות הבאות: torch_scatter, torch_sparse, torch_cluster ו- torch_spline_conv באמצעות הפקודה (איור 3E):
  התקנת פיפ pyg_lib torch_scatter torch_sparse torch_cluster torch_spline_conv -f https://data.pyg.org/whl/torch-1.13.0+cu117.html
התקן חבילה גיאומטרית של לפיד .
1. מחקר זה דורש גרסה ספציפית, 2.2.0, של חבילת הלפיד-גיאומטרי . הפעל את הפקודה (איור 3F):
  התקנת PIP torch_geometric==2.2.0
התקן חבילות אחרות.
1. חבילות כמו פנדות זמינות בדרך כלל כברירת מחדל. אם לא, התקן אותם באמצעות הפקודה pip. לדוגמה, כדי להתקין פנדות ו- xgboost, הפעל:
  פיפ להתקין פנדות
  התקנת PIP XGBOOST

2. שימוש ב- HealthModel שהוכשר מראש כדי ליצור את תכונות mqTrans

הורד את הקוד ואת המודל שהוכשר מראש.
1. הורידו את הקוד ואת ה-HealthModel שהוכשר מראש מהאתר: http://www.healthinformaticslab.org/supp/resources.php, ששמו HealthModel-mqTrans-v1-00.tar.gz (איור 4A). ניתן לבטל את דחיסת הקובץ שהורדת לנתיב שצוין על-ידי המשתמש. את הניסוח המפורט ואת הנתונים התומכים של הפרוטוקול המיושם ניתן למצוא ב²⁶.
הצג את הפרמטרים להפעלת HealthModel.
1. ראשית, שנה את ספריית העבודה לתיקייה HealthModel-mqTrans בשורת הפקודה. השתמש בתחביר הבא להפעלת הקוד:
  Python main.py <תיקיית נתונים> <תיקיית דגם> <תיקיית פלט>
  הפרטים לגבי כל פרמטר ותיקיות הנתונים, המודל והפלט הם כדלקמן:
  תיקיית נתונים: זוהי תיקיית נתוני המקור וכל קובץ נתונים הוא בתבנית csv. תיקיית נתונים זו כוללת שני קבצים (ראה תיאורים מפורטים בשלבים 2.3 ו- 2.4). יש להחליף קבצים אלה בנתונים אישיים.
  data.csv: קובץ המטריצה התמלול. השורה הראשונה מפרטת את מזהי התכונות (או הגנים), והעמודה הראשונה מציגה את מזהי הדגימה. רשימת הגנים כוללת את הגורמים הרגולטוריים (TFs ו- lincRNAs), ואת הגנים mRNA מוסדרים.
  label.csv: קובץ התוויות לדוגמה. העמודה הראשונה מפרטת את המזהים לדוגמה, והעמודה עם השם "label" מעניקה את התווית לדוגמה.
  תיקיית הדגם: התיקיה לשמירת מידע אודות הדגם:
  HealthModel.pth: HealthModel שהוכשר מראש.
  regulatory_geneIDs.csv: מזהי הגנים הרגולטוריים ששימשו במחקר זה.
  target_geneIDs.csv: גני המטרה המשמשים במחקר זה.
  adjacent_matrix.csv: המטריצה הסמוכה של גנים רגולטוריים.
  תיקיית פלט: קבצי הפלט נכתבים בתיקייה זו, שנוצרו על ידי הקוד.
  test_target.csv: ערך ביטוי הגנים של גני המטרה לאחר Z-נורמליזציה וזקיפה.
  pred_target.csv: ערך ביטוי הגנים החזוי של גני המטרה.
  mq_target.csv: ערך ביטוי הגנים החזוי של גני המטרה.
הכן את קובץ המטריצה התמלול בפורמט csv.
1. כל שורה מייצגת דגימה, וכל עמודה מייצגת גן (איור 4B). תן לקובץ מטריצת הנתונים התמליל את השם data.csv בתיקיית הנתונים .
  הערה: ניתן ליצור קובץ זה על-ידי שמירה ידנית של מטריצת נתונים בתבנית .csv מתוכנות כגון Microsoft Excel. מטריצת התמלול עשויה להיווצר גם על ידי תכנות מחשבים.
הכן את קובץ התווית בתבנית csv.
1. בדומה לקובץ מטריצה תעתיק (transcriptomic metric), תן לקובץ התוויות את השם label.csv בתיקיית הנתונים (איור 4C).
  הערה: העמודה הראשונה מציינת את שמות המדגמים, ותווית המחלקה של כל דוגמה ניתנת בעמודה שכותרתה תווית. הערך 0 בעמודת התווית פירושו שמדגם זה שלילי, 1 פירושו מדגם חיובי.
צור את תכונות mqTrans.
1. הפעל את הפקודה הבאה כדי ליצור את תכונות mqTrans ולקבל את הפלטים המוצגים באיור 4D. תכונות mqTrans נוצרות כקובץ ./output/mq_targets.csv, וקובץ התווית נשמר מחדש כקובץ ./output/label.csv. לנוחות הניתוח הנוסף, ערכי הביטוי המקוריים של הגנים mRNA מופקים גם כקובץ ./output/ test_target.csv.
  Python ./Get_mqTrans/code/main.py ./data ./Get_mqTrans/model ./output

3. בחר תכונות mqTrans

תחביר קוד בחירת התכונות
1. ראשית, שנה את ספריית העבודה לתיקייה HealthModel-mqTrans . השתמש בתחביר הבא:
  Python ./FS_classification/testMain.py <תיקיית פלט> <שילוב> <שילוב קובץ>
  הפרטים של כל פרמטר הם כדלקמן:
  in-data-file: קובץ נתוני הקלט
  in-label-file: התווית של קובץ נתוני הקלט
  תיקיית פלט: שני קובצי פלט נשמרים בתיקייה זו, כולל Output-score.xlsx (שיטת בחירת התכונות והדיוק של המסווג המתאים) ו- Output-SelectedFeatures.xlsx (שמות התכונות שנבחרו עבור כל אלגוריתם לבחירת תכונות).
  1. select_feature_number: בחר את מספר התכונות, החל מ- 1 ועד למספר התכונות של קובץ הנתונים.
  2. test_size: הגדר את היחס בין מדגם הבדיקה לפיצול. לדוגמה, 0.2 פירושו שערכת נתוני הקלט מפוצלת באופן אקראי לרכבת: תת-קבוצות בדיקה ביחס של 0.8:0.2.
  3. שילוב: אם נכון, שלב שני קבצי נתונים יחד לבחירת תכונות, כלומר, ערכי הביטוי המקוריים ותכונות mqTrans. אם false, פשוט השתמש בקובץ נתונים אחד לבחירת תכונות, כלומר, ערכי הביטוי המקוריים או תכונות mqTrans.
  4. שילוב קובץ: אם השילוב נכון, ספק שם קובץ זה כדי לשמור את מטריצת הנתונים המשולבת.
    הערה: צינור זה נועד להדגים כיצד תכונות mqTrans שנוצרו לבצע במשימות סיווג, והוא משתמש ישירות בקובץ שנוצר על ידי סעיף 2 עבור הפעולות הבאות.
הפעל אלגוריתם בחירת תכונות לבחירת תכונות mqTrans.
1. הפוך לשלב = False אם המשתמש בוחר תכונות mqTrans או תכונות מקוריות.
2. ראשית, בחר 800 תכונות מקוריות ופצל את מערך הנתונים לרכבת: test=0.8:0.2:
  python ./FS_classification/testMain.py ./output/test_target.csv ./output/label.csv ./result 800 0.2 false
3. הפוך לשלב =True, אם המשתמש רוצה לשלב את תכונות mqTrans עם ערכי הביטוי המקוריים כדי לבחור תכונות. כאן, הדוגמה המדגימה היא לבחור 800 תכונות ולפצל את מערך הנתונים לרכבת: test=0.8:0.2:
  python ./FS_classification/testMain.py ./output/mq_targets.csv ./output/label.csv ./result_combine 800 0.2 נכון ./פלט/test_target.csv
  הערה: איור 5 מציג את פרטי הפלט. הקבצים המשלימים הדרושים לפרוטוקול זה נמצאים בתיקייה HealthModel-mqTrans-v1-00.tar (קובץ קידוד משלים 1).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

הערכת תצוגת mqTrans של מערך הנתונים התמלול
קוד הבדיקה משתמש באחד עשר אלגוריתמים לבחירת תכונות (FS) ובשבעה מסווגים כדי להעריך כיצד תצוגת mqTrans שנוצרה של מערך הנתונים התעתיק תורמת למשימת הסיווג (איור 6). מערך הנתונים של הבדיקה כולל 317 אדנוקרצינומה של המעי הגס (COAD) מתוך מסד הנתונים אטלס גנום הסרטן (TCGA)²⁹. חולי COAD בשלבים I או II נחשבים לדגימות השליליות, ואילו אלה בשלבים III או IV הם החיוביים.

אחד עשר אלגוריתמים של FS מיושמים בקוד הבדיקה. ישנם שלושה אלגוריתמים מבוססי מסנן FS, כולל, בחר K התכונות הטובות ביותר לפי מיקרופון (SK_mic), בחר תכונות K לפי FPR של מיקרופון (SK_fpr) ובחר K תכונות לפי FDR הגבוה ביותר של מיקרופון (SK_fpr). שלושה אלגוריתמים מבוססי עץ FS מעריכים את התכונות הבודדות על ידי עץ החלטה עם אינדקס ג'יני (DT_gini), עצי ההחלטה המוגברת האדפטיבית (AdaBoost) והיער האקראי (RF_fs), בהתאמה. מאגר FS של קוד הבדיקה מעריך גם שתי עטיפות אלימינציה רקורסיבית של תכונות (RFE) עם מסווג וקטור התמיכה הליניארי (SVC)(RFE_SVC) ו- RFE עם מסווג הרגרסיה הלוגיסטית (RFE_LR), ושני אלגוריתמים להטמעת מסווג SVC ליניארי עם ערכי חשיבות התכונות L1 המדורגים במקום הראשון (lSVC_L1) ומסווג רגרסיה לוגיסטית עם ערכי חשיבות התכונות L1 המדורגים במקום הראשון (LR_L1).

קוד הבדיקה בונה את מודלי הסיווג באמצעות שבעה מסווגים, כולל מכונת וקטור תמיכה ליניארית (SVC), גאוסיאן נאיבי בייס (GNB), מסווג רגרסיה לוגיסטית (LR), k-השכן הקרוב ביותר, k-5 כברירת מחדל (KNN), XGBoost, יער אקראי (RF) ועץ החלטה (DT).

איור 6 מציג את דיוק הבדיקה המרבי של תכונות mqTrans, את תכונות ה-mRNA המקוריות ואת תת-הקבוצה המשולבת של תכונות mRNA ו-mqTrans המומלצות על-ידי כל אלגוריתם FS.

תת-קבוצות התכונות המשולבות (mRNA+mqTrans) השיגו את הדיוק הגבוה ביותר 0.7656 בשיטת FS "SK_fpr", טוב יותר מסוגי התכונות הבודדות mqTrans (0.7188) ו-mRNA המקורי (0.7188). דפוסים דומים ניתן לראות עבור אלגוריתמים FS אחרים. המשתמש יכול לבדוק את התכונות שנבחרו בקובץ הפלט Output-SelectedFeatures.csv.

זיהוי הסמנים הביולוגיים הכהים
מחקרים קודמים הראו את קיומם של גנים המבוטאים באופן לא דיפרנציאלי עם ערכי mqTrans מיוצגים באופן דיפרנציאלי מובהק בין קבוצת הפנוטיפ וקבוצת הביקורת 26,38,39. גנים אלה נקראים סמנים ביולוגיים כהים מכיוון שמחקרים מסורתיים לזיהוי סמנים ביולוגיים מתעלמים מהם על ידי ביטוייהם הבלתי דיפרנציאליים. ניתן להשתמש בפונקציית הניתוח הסטטיסטי t.test ב- Microsoft Excel כדי להגדיר תכונה המבוטאת באופן דיפרנציאלי אם ערך ה- p הסטטיסטי שלה קטן מ- 0.05.

בין 3062 המאפיינים עם ערכי mqTrans שנוצרו, זוהו 221 סמנים ביולוגיים כהים (איור 7). ENSG00000163697 הגן המדורג שלישי (APBB2, Amyloid Beta Precursor Protein Binding Family B Member 2) מראה ייצוג דיפרנציאלי מובהק של ערכי mqTrans (mqTrans.P = 2.03 x ^10-4) בעוד שרמת הביטוי המקורית שלו אינה מראה ביטוי דיפרנציאלי (mRNA.P = 3.80 x ^10-1). מילת המפתח APBB2 הגיעה ל-27 פרסומים במסד הנתונים של PubMed⁴⁰, אך לא נמצאו קשרים עם המעי הגס או המעי.

ENSG00000048052 גן נוסף (HDAC9, Histone Deacetylase 9) הוא בעל ערכי mqTrans המיוצגים באופן דיפרנציאלי (mqTrans.P = 6.09 x ^10-3) תוך שמירה כמעט על אותה התפלגות נורמלית בין קבוצות הפנוטיפיות וקבוצת הביקורת (mRNA.P = 9.62 x ^10-1). מילת המפתח HDAC9 הגיעה ל-417 פרסומים במסד הנתונים של PubMed. שלושה מחקרים הזכירו גם את מילות המפתח "מעי גס" או "מעי" בתקצירים 41,42,43. אבל, אף אחד מהם לא חקר את התפקידים של HDAC9 בסרטן המעי הגס.

הנתונים הצביעו על הצורך בהערכות נוספות של סמנים ביולוגיים כהים אלה מפעילותם לאחר השעתוק, למשל, רמות החלבון המתורגמות^44,45.

התפלגות פאן-סרטנית של סמנים ביולוגיים כהים ומסורתיים הקשורים למטבוליזם
הסמנים הביולוגיים המסורתיים הקשורים למטבוליזם נבדקו והושוו מול סמנים ביולוגיים כהים על פני 26 סוגי סרטן במערך הנתונים של TCGA³⁸. שתי הקטגוריות של סמנים ביולוגיים עברו הערכה סטטיסטית כדי להבחין ברמות מובהקות על פני שלבי סרטן מוקדמים (שלבים I ו- II) ומאוחרים (שלבים III ו- IV). הערכה זו השתמשה במבחני t של סטודנט עבור ערכי p, שתוקנו לאחר מכן לבדיקות מרובות באמצעות שיעורי גילוי שגוי (FDRs). נתונים מפורטים עבור כל אחד מ-26 סוגי הסרטן מופיעים באיור 8.

גנים שהניבו ערכי p מתוקנים של FDR מתחת ל-0.05 סווגו כסמנים ביולוגיים מסורתיים. לעומת זאת, סמנים ביולוגיים כהים הוגדרו כאלו עם ערכי p מתוקנים של FDR מתחת ל-0.05 בתצוגת mqTrans, ובמקביל לא הציגו הבדלים מובהקים סטטיסטית ברמות הביטוי.

איור 9 חושף מחסור כללי בסמנים ביולוגיים כהים בהשוואה לסמנים ביולוגיים מסורתיים ברוב סוגי הסרטן. יוצאים מן הכלל ראויים לציון כוללים BRCA, MESO ו- TGCT, אשר מבטאים שכיחות גבוהה יותר של סמנים ביולוגיים כהים. מתגלה כי גורמים שונים, כולל גורמי שעתוק, דפוסי מתילציה, מוטציות גנטיות ותנאים סביבתיים, יכולים לווסת את חוסר השעתוק של סמנים ביולוגיים כהים אלה. מורכבות נוספת עשויה להתעורר עקב תעתיקי RNA חופפים שאינם מקודדים שעלולים לבלבל את רמות הביטוי של סמנים ביולוגיים כהים. הפרעות שעתוק של כמה סמנים ביולוגיים כהים נתמכו על ידי רמות החלבון הדיפרנציאלי שלהם^44,45. לעתים קרובות מתעלמים מהסמנים הביולוגיים הכהים במחקרים מסורתיים ומציגים אפיקים מסקרנים לחקירות מכניסטיות עתידיות.

איור 1: סקירה כללית של מודולי HealthModel ובחירת תכונות בפרוטוקול זה. החלף את האלגוריתמים הספציפיים במאגר בחירת התכונות ובמאגר המסווגים אם המשתמש מכיר את תכנות Python. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.

איור 2: זרימת קוד מלאה עבור פרוטוקול זה. (A) הכן סביבת Python. כדי להתחיל, צור סביבה וירטואלית והתקן חבילות חיוניות. לקבלת הוראות מקיפות, עיין בסעיף 1. (B) צור תכונות mqTrans. השג תכונות mqTrans על ידי ביצוע הקוד שסופק צעד אחר צעד. הסברים מפורטים ניתן למצוא בסעיף 2. (C) בחר תכונות mqTrans. סעיף זה מתמקד בהערכת תכונות mqTrans. עיין בסעיף 3 לפרטים מעמיקים. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.

איור 3: הכנת סביבה עבור Python. (A) הפקודה ליצירת healthmodel. (B) הזן y במהלך תהליך יצירת VE. (C) הפקודה הנפוצה ביותר להפעלת VE. (ד) הפקודה להתקנת לפיד 1.13.1. (ה) התקן ספריות נוספות לחבילה גיאומטרית של לפיד . (ו) התקן חבילה גיאומטרית של לפיד . אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.

איור 4: הפעל את HealthModel כדי לקבל mqTrans תכונה. (A) הורד את הקוד. (B) הדוגמה של קובץ נתונים. בכל עמודה יש את כל הערכים של גורם רגולטורי, והפריט הראשון הוא מזהה הגן. כל שורה נותנת את הערכים של מדגם נתון, כאשר הפריט הראשון הוא שם המדגם. (C) הדוגמה של קובץ תוויות. העמודה הראשונה נותנת את שמות המדגמים, ותווית המחלקה של כל מדגם ניתנת בעמודה שכותרתה תווית. הערך 0 בעמודת התווית פירושו שדגימה זו חיה, 1 פירושה מת. (D) היציאות של mqTrans. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.

איור 5: הפעל את אלגוריתם בחירת התכונות עבור התכונה mqTrans. התוצאות של אלגוריתם בחירת התכונות מוצגות למשתמש. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.

איור 6: הדיוק המרבי של ערכת הבדיקה של כל אלגוריתם לבחירת תכונות. הציר האופקי מפרט את האלגוריתמים לבחירת תכונות, והציר האנכי נותן את ערכי הדיוקים. ההיסטוגרמות מציגות את נתוני הניסוי של שלוש ההגדרות, כלומר, mqTrans, mRNA, mRNA+mqTrans. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.

איור 7: 50 הסמנים הביולוגיים הכהים המובילים עם ערכי ה-p הקטנים ביותר בתצוגת mqTrans. העמודה "סמן ביולוגי כהה" נותנת לסמן הביולוגי הכהה שמות. העמודות "mRNA.P" ו- "mqTrans.P" הן ערכי p סטטיסטיים של מבחן t בין קבוצות פנוטיפיות וקבוצת ביקורת. צבעי הרקע של ערכי p צבועים בין ערכי p 1.00 (כחול) ו- 0.00 (אדום), והצבע הלבן מייצג ערך p = 0.05. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.

איור 8: הפרטים של 26 סוגי הסרטן באטלס גנום הסרטן (TCGA) בשלבים שונים. העמודות "עוקבה" ו"רקמת מחלה" מתארות את קבוצת החולים ואת הרקמות עם המחלה עבור כל מערך נתונים. ארבע העמודות האחרונות נותנות את מספרי הדגימות בשלבי ההתפתחות I, II, III ו- IV, בהתאמה. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.

איור 9: מספר הסמנים הביולוגיים הכהים והסמנים הביולוגיים המסורתיים ב-26 סוגי סרטן. הציר האופקי מפרט את 26 סוגי הסרטן. הציר האנכי נותן את המספרים של סמנים ביולוגיים כהים וסמנים ביולוגיים מסורתיים עבור סוגי סרטן אלה. אנא לחץ כאן כדי להציג גרסה גדולה יותר של איור זה.

קובץ קידוד משלים 1: HealthModel-mqTrans-v1-00.tar אנא לחץ כאן להורדת קובץ זה.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

סעיף 2 (השתמש ב- HealthModel שהוכשר מראש כדי ליצור את תכונות mqTrans) של הפרוטוקול הוא השלב הקריטי ביותר בפרוטוקול זה. לאחר הכנת סביבת העבודה החישובית בסעיף 1, סעיף 2 יוצר את תצוגת mqTrans של ערכת נתונים תעתיק המבוססת על מודל הייחוס הגדול שהוכשר מראש. סעיף 3 הוא דוגמה מדגימה לבחירת תכונות mqTrans שנוצרו עבור זיהוי סמנים ביולוגיים ומשימות חיזוי. המשתמשים יכולים לבצע ניתוחי תמלול אחרים במערך הנתונים mqTrans זה באמצעות כלים או קודים משלהם.

מסגרת HealthModel המקורית יכולה לחדד עוד יותר את HealthModel שהוכשר מראש באמצעות ארכיטקטורת ריבוי המשימות, כמתואר ב-²⁶. פרוטוקול זה מתמקד בשימוש במודל הייחוס שהוכשר מראש כדי ליצור את תצוגת mqTrans של מערך נתונים תעתיק (transcriptomic).

מודל הייחוס המאומן מראש כברירת מחדל נקבע על הדגימות הבריאות וייתכן שאינו בחירה טובה עבור משימות ספציפיות, למשל, החקירה בין סרטן ראשוני וגרורתי. המהירות החישובית איטית גם עבור מערך נתונים תעתיק גדול.

המשמעות של פרוטוקול זה היא לספק תצוגה משלימה של mqTrans של סוג הנתונים OMIC הזמין ביותר, כלומר, תמלול. ניתן לגלות סמנים ביולוגיים כהים מהגנים המבוטאים באופן לא דיפרנציאלי שהתעלמו מהם בניתוח התעתיק הקונבנציונלי. מחקר שנערך לאחרונה זיהה שבעה סמנים ביולוגיים כהים של סרטן מעי גס גרורתי (mCC) בהתבסס על שלוש קבוצות בלתי תלויות של 805 דגימות בסך הכל⁴⁴. סמנים ביולוגיים כהים זכו לחקירות מעבדה רטובות מוגבלות בשל ביטוייהם הבלתי דיפרנציאליים. עם זאת, אחד הסמן הביולוגי הכהה של mCC שזוהה YTHDC2 מקודד את תחום החלבון YTH המכיל 2, שרמות החלבון שלו נצפו בקורלציה חיובית עם מצב הגרורות של תאי סרטן קיבה אנושיים⁴⁶ וסרטן המעי הגס⁴⁷. תובנות ביולוגיות חדשות של סמנים ביולוגיים אפלים עדיין צריכות להיפתר באמצעות טכנולוגיות in vitro ו-in vivo.

פרוטוקול זה נועד להיות מודולרי לחלוטין. מודלי ייחוס שהוכשרו מראש על מערכי נתונים גדולים אחרים כמו סרטן ראשוני יקלו על חקירת גרורות גידוליות. פרוטוקול זה ייחקר גם עבור יישומים בתחומי חיים אחרים, כולל צמחים, פטריות ומיקרובים.

היעילות החישובית של פרוטוקול זה מתוכננת להשתפר באמצעות מקביליות ואופטימיזציה אלגוריתמית.

פרוטוקול זה מתאר את ההליך להמרת מערך נתונים תעתיק לתצוגת mqTrans חדשה, וערכי mqTrans שעברו טרנספורמציה של גן מודדים כמותית את השינויים בוויסות השעתוק בהשוואה לדגימות הייחוס. מודל ברירת המחדל אומן מראש על התמלול הבריא ושוחרר כמודל הייחוס HealthModel.

קוד המקור של שתי משימות במורד הזרם מסופק כדי להקל על ניצול פרוטוקול זה על ידי חוקרים ביו-רפואיים. נתוני הניסוי מראים כי תכונות mqTrans שהומרו יכולות לשפר את משימות החיזוי באמצעות רמות הביטוי המקוריות בלבד. תצוגת mqTrans יכולה גם לחשוף את הקשרים הפנוטיפיים הסמויים של כמה סמנים ביולוגיים כהים ללא ביטויים דיפרנציאליים בנתוני התעתיק המקוריים.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

למחברים אין מה לחשוף.

Acknowledgments

עבודה זו נתמכה על ידי צוות החדשנות הטכנולוגית הבכיר והזוטר (20210509055RQ), פרויקטי המדע והטכנולוגיה המחוזיים של גוויג'ואו (ZK2023-297), קרן המדע והטכנולוגיה של ועדת הבריאות של מחוז גוויג'ואו (gzwkj2023-565), פרויקט המדע והטכנולוגיה של מחלקת החינוך של מחוז ג'ילין (JJKH20220245KJ ו- JJKH20220226SK), הקרן הלאומית למדעי הטבע של סין (U19A2061), מעבדת המפתח המחוזית של ג'ילין למחשוב חכם של ביג דאטה (20180622002JC), וקרנות המחקר הבסיסיות של האוניברסיטאות המרכזיות, JLU. אנו מביעים את הערכתנו הכנה לעורך הביקורת ולשלושת הסוקרים האנונימיים על ביקורתם הבונה, אשר סייעו בשיפור משמעותי של ההקפדה והבהירות של פרוטוקול זה.

Materials

Name	Company	Catalog Number	Comments
Anaconda	Anaconda	version 2020.11	Python programming platform
Computer	N/A	N/A	Any general-purpose computers satisfy the requirement
GPU card	N/A	N/A	Any general-purpose GPU cards with the CUDA computing library
pytorch	Pytorch	version 1.13.1	Software
torch-geometric	Pytorch	version 2.2.0	Software