July 22nd, 2025
Mime היא מסגרת חישובית גמישה לבניית מודל אינטגרציה מבוסס למידת מכונה עם ביצועים אלגנטיים. כאן, אנו מספקים נוהל מפורט שלב אחר שלב לפיתוח מודלים חיזויים עם דיוק גבוה, תוך מינוף מערכי נתונים מורכבים לזיהוי גנים קריטיים הקשורים להתקדמות המחלה, תוצאות המטופלים והתגובה הטיפולית.
טכנולוגיית ריצוף גבוהה משפיעה באופן משמעותי על הבנתנו את הביולוגיה וההטרוגניות של הסרטן. עם זאת, עם נתוני ריצוף רבים לאורך כל הדרך, קשה לסנן ולזהות במהירות גנים וסמנים ביולוגיים הקשורים למחלה. קיימות מסגרות רבות של למידת מכונה, אך אף אחת מהן אינה מציעה השוואה משולבת לקבלת החלטות מושכלת. כדי להתמודד עם הפער הזה, פיתחנו את Mime, פלטפורמה מאוחדת להערכת מתח וחולשות של מודל.
Mime מציעה ארבע פונקציות, מידול פרוגנוזה אופטימלי, חיזוי תגובה בינארית, זיהוי תכונות פרוגנוסטיות והדמיית ביצועי מודל, תוך מינוף אלגוריתמים של למידת מכונה בהכשרה עצמית לניתוח בין-קריטי משולב.
חוקרים מתקשים לעתים קרובות בבחירת אלגוריתמים לחיזוי וניהול סביבות למידת מכונה. מארז R בקוד פתוח של Mime מפשט את הגדרת המודל, בחירת הפרמטרים והפריסה, ומאפשר למשתמשים לנתח את הנתונים שלהם בקלות.
Mime מסמן אבן דרך ביישום AI לביו-רפואה לשילוב למידת מכונה על פני שכבת ריצוף של תא בודד כדי לחשוף הטרוגניות תוך-גידולית באמצעות מגוון תוך-גידולי.
[קריין] כדי להתחיל, פתח את אתר GitHub במחשב שולחני. התקן את גרסת הפיתוח של Mime מ-GitHub באמצעות חבילת devtools ב-R. הכן קבוצות מרובות המכילות נתוני ריצוף שעתוק עם מידע על הישרדות או תגובה קלינית. השתמש במערכי הנתונים לדוגמה, Example.cohort ו-Example.ici, הנגישים ממאגר Mime GitHub. קבוצת Example.cohort מכילה שני מערכי נתונים של גליומה עם 100 דגימות שנבחרו באופן אקראי ממסד הנתונים TCGA ו-CGGA, בהתאמה. כלול מערכי נתונים מרובים לבניית מודלים חיזויים לפרוגנוזה ב-Example.cohort. ודא שפורמט מערך הנתונים כולל את מזהה המדגם בעמודה הראשונה, זמן הישרדות ומצב בעמודה השנייה והשלישית, ורמות ביטוי גנים שעברו טרנספורמציה בעמודות הנותרות. ודא ש-Dataset1 משמש להדרכה ולערכות נתונים אחרות לאימות. לאחר מכן, טען את מערך הנתונים Example.ici ואשר שהפורמט כולל מזהה מדגם בעמודה הראשונה, תגובה טיפולית בעמודה השנייה ורמות ביטוי גנים שעברו טרנספורמציה בעמודות הנותרות. הכן את רשימת הגנים באמצעות מערך הגנים המשויך לאיתות Wnt/beta-catenin ב-R מקובץ הגנים. השתמש בפונקציה ML.Dev.Prog.Sig ובקודים הנתונים כדי לבנות מודלים חיזויים לפרוגנוזה המבוססים על Example.cohort והגנטיסט. לאחר מכן השתמש בפונקציה cindex_dis_all כדי לשרטט את אינדקס C של כל מודל ולזהות את המודל האופטימלי. חשב את עקומות ההישרדות של חולים באמצעות ציון בהתאם לסיכון באמצעות מודל ספציפי בין מערכי נתונים שונים ועבד זאת ב-MIME באמצעות הקודים הנתונים. חשב AUC תלוי זמן עבור המודלים החיזויים באמצעות הפונקציה cal_AUC_ml_res והקודים הנתונים. כעת, שרטט את ה-AUC התלוי בזמן עבור כל מודל באמצעות הפונקציה auc_dis_all והקודים הנתונים. עבד את עקומת ה-ROC התלויה בזמן של מודל ספציפי בין מערכי נתונים שונים ב-Mime באמצעות הפונקציה roc_vis והקודים הנתונים. כדי לבנות מודלים חיזויים לתגובה טיפולית, השתמש בפונקציה ML.Dev.Pred.Category.Sig המבוססת על מערך הנתונים Example.ici ורשימת הגנים. דמיין AUC עבור כל מודל תגובה באמצעות auc_vis_category_all. לאחר מכן, צור את עקומות ה-ROC עבור כל דגם באמצעות roc_vis_category. לבחירת תכונת הליבה, זהה גנים מרכזיים הקשורים לפרוגנוזה באמצעות ML.Corefeature.Prog.Screen בהתבסס על Example.cohort ו-genelist. שרטט את דירוג הגנים המסוננים בשיטות שונות באמצעות core_feature_rank כדי להדגיש גנים מרכזיים המזוהים לעתים קרובות. מבין 117 המודלים הפרוגנוסטיים שנבנו על ידי Mime, המודל המשולב StepCox[Forward] + plsRcox הראה את מדד ההתאמה הגבוה ביותר בכל הקבוצות. לחולים עם ציוני סיכון גבוהים היו תוצאות גרועות משמעותית בכל הקבוצות. השטח השנתי מתחת לעקומה שחזתה SPCOM דורג במקום הגבוה ביותר מבין כל המודלים עם ערך ה-AUC הממוצע הגבוה ביותר בין קבוצות. מבין שבעת המודלים לחיזוי תגובה טיפולית, מודל svmRadialWeights השיג את הביצועים הגבוהים ביותר עם שטח מתחת לעקומה של 0.81 במערך נתוני האימון ו-0.68 במערך נתוני האימות. בחירת תכונות ליבה זיהתה את PSEN2, WNT5B ו-SKP2 כגנים המדורגים המובילים על סמך הישנות שלהם על פני אלגוריתמים שונים.
View the full transcript and gain access to thousands of scientific videos
Mime הוא מסגרת חישובית שנועדה לבנות מודלים של אינטגרציה מבוססי למידת מכונה לחיזוי גנים הקשורים למחלות. מאמר זה מתאר נוהל שלב אחר שלב לפיתוח מודלים חיזוייים בעלי דיוק גבוה באמצעות מערכי נתונים מורכבים.