אנו מציגים את CorrelationCalculator ו- Filigree, שני כלים לבניית רשת מונחית נתונים וניתוח נתונים של נתונים מטאבולומיים. CorrelationCalculator תומך בבניית רשת אינטראקציה אחת של מטבוליטים המבוססים על נתוני ביטוי, בעוד Filigree מאפשר בניית רשת דיפרנציאלית, ואחריה אשכולות רשת וניתוח העשרה.
אתגר משמעותי בניתוח נתוני אומיקס הוא חילוץ ידע ביולוגי בר ביצוע. מטבולומיקה אינה יוצאת דופן. הבעיה הכללית של קישור שינויים ברמות של מטבוליטים בודדים לתהליכים ביולוגיים ספציפיים מורכבת על ידי מספר גדול של מטבוליטים לא ידועים הנמצאים במחקרי ספקטרומטריית מסה כרומטוגרפיה נוזלית לא ממוקדת (LC-MS). יתר על כן, מטבוליזם משני ומטבוליזם שומנים מיוצגים בצורה גרועה במסדי נתונים קיימים של מסלולים. כדי להתגבר על מגבלות אלה, הקבוצה שלנו פיתחה מספר כלים לבנייה וניתוח של רשתות מונחות נתונים. אלה כוללים CorrelationCalculator ו Filigree. שני הכלים מאפשרים למשתמשים לבנות רשתות מבוססות מתאם חלקי מנתוני מטבולומיקה ניסיונית כאשר מספר המטבוליטים עולה על מספר הדגימות. CorrelationCalculator תומך בבניית רשת אחת, בעוד Filigree מאפשר בניית רשת דיפרנציאלית תוך שימוש בנתונים משתי קבוצות של דגימות, ולאחר מכן אשכולות רשת וניתוח העשרה. נתאר את התועלת והיישום של שני הכלים לניתוח נתונים מטאבולומיים בחיים האמיתיים.
בעשור האחרון, מטבולומיקה התפתחה כמדע אומיקס עקב התקדמות בטכנולוגיות אנליטיות כגון כרומטוגרפיית גז-ספקטרומטריית מסה (GC-MS) וכרומטוגרפיה נוזלית-ספקטרומטריית מסה (LC-MS). טכניקות אלה מאפשרות מדידה בו זמנית של מאות עד אלפי מטבוליטים של מולקולות קטנות, ויוצרות מערכי נתונים רב-ממדיים מורכבים. ניסויים מטבולומיים יכולים להתבצע במצבים ממוקדים או לא ממוקדים. ניסויים מטבולומיים ממוקדים מודדים סוגים ספציפיים של מטבוליטים. הם בדרך כלל מונעים על ידי השערות, בעוד גישות לא ממוקדות מנסות למדוד מטבוליטים רבים ככל האפשר והם מחוללי השערות בטבע. בדיקות ממוקדות כוללות בדרך כלל סטנדרטים פנימיים ובכך מאפשרות כימות מוחלט של מטבוליטים בעלי עניין. לעומת זאת, בדיקות לא ממוקדות מאפשרות כימות יחסי וכוללות מטבוליטים לא ידועים רבים1.
ניתוח נתוני מטבולומיקה הוא תהליך רב-שלבי הממנף כלי תוכנה מיוחדים רבים1. ניתן לחלק אותו לשלושת השלבים העיקריים הבאים: (1) עיבוד נתונים ובקרת איכות, (2) ניתוח סטטיסטי, ו (3) פרשנות נתונים ביולוגיים. הכלים המתוארים כאן נועדו לאפשר את השלב האחרון של הניתוח.
דרך אינטואיטיבית ופופולרית לפרש נתונים מטאבולומיים היא למפות את המדידות הניסיוניות למסלולים מטבוליים. כלים רבים תוכננו כדי להשיג אתזה 2,3,4,5, כולל Metscape, שפותחה על ידי קבוצה6 שלנו. מיפוי מסלולים משולב לעתים קרובות עם ניתוח העשרה, המסייע לזהות את המסלולים המשמעותיים ביותר 7,8. טכניקות אלה זכו לראשונה לבולטות בניתוח נתוני ביטוי גנים ויושמו בהצלחה לניתוח נתוני פרוטאומיקה ואפיגנומיקה 9,10,11,12,13. עם זאת, ניתוח הנתונים המטאבולומיים מציב מספר אתגרים בפני גישות מבוססות ידע. ראשית, בנוסף למטבוליטים האנדוגניים, מבחני מטבולומיקה מודדים תרכובות אקסוגניות, כולל אלה שמקורן בתזונה וממקורות סביבתיים אחרים. תרכובות אלה, כמו גם מטבוליטים המיוצרים על ידי חיידקים, אינם ניתנים למיפוי על מסלולים אנושיים או מטבוליים של אורגניזמים איקריוטים אחרים. יתר על כן, כיסוי מסלולים של מטבוליזם משני ומטבוליזם שומנים כיום אינו מאפשר מיפוי ברזולוציה גבוהה ברמה שתתמוך בקלות בפרשנות הביולוגית של הנתונים14,15.
טכניקות ניתוח רשת מונחות נתונים יכולות לעזור להתגבר על אתגרים אלה. לדוגמה, רשתות מבוססות מתאם יכולות לעזור לגזור קשרים בין מטבוליטים ידועים ולא ידועים ולהקל על ביאור הנעלמים16. בעוד חישוב מקדמי המתאם של פירסון הוא הגישה הפשוטה ביותר לביסוס היחסים הליניאריים בין מטבוליטים, החיסרון הוא שהוא לוכד קשרים ישירים ועקיפים 17,18,19. חלופה היא לחשב מקדמי מתאם חלקיים שיכולים להבחין בין קשרים ישירים ועקיפים. ניתן להשתמש במידול גרפי גאוסיאני (GGM) כדי להעריך רשתות מתאם חלקיות. עם זאת, GGM דורש שגודל המדגם ומספר התכונות יהיו דומים. מצב זה מתקיים לעתים רחוקות בנתוני LC-MS לא ממוקדים המכילים מדידות עבור אלפי תכונות מטבוליות. ניתן להשתמש בטכניקות הסדרה כדי להתגבר על מגבלה זו. לאסו גרפי (Glasso) ורגרסיית צומת הן שיטות פופולריות לאמידה מוסדרת של רשת המתאם החלקי16,20.
הראשון מבין כלי הביואינפורמטיקה המוצגים כאן, CorrelationCalculator16, מבוסס על אלגוריתם המתאם החלקי הדליל (DSPC). DSPC מסתמך על מידול לאסו גרפי נטול חסכים. הנחת היסוד של האלגוריתם היא שמספר הקשרים בין המטבוליטים קטן משמעותית ממספר הדגימות, כלומר רשת המתאם החלקי של המטבוליטים דלילה. הנחה זו מאפשרת ל-DSPC לגלות את הקישוריות בין מספר גדול של מטבוליטים באמצעות פחות דגימות, תוך מינוף טכניקות רגרסיה מוסדרות. יתר על כן, באמצעות שלב debiasing עבור אומדני רגרסיה מוסדרים, הוא משיג התפלגות דגימה עבור פרמטרי הקצה שניתן להשתמש בהם כדי לבנות רווחי סמך ולבדוק השערות של עניין (למשל, נוכחות/היעדר יחיד או קבוצה של קצוות). לפיכך, ניתן לבדוק באופן רשמי את נוכחותו או היעדרו של קצה ברשת המתאם החלקי באמצעות ערכי p מחושבים.
CorrelationCalculator הוכיח להיות שימושי מאוד עבור ניתוח קבוצה אחת16; עם זאת, המטרה של ניסויים מטבולומיים רבים היא ניתוח דיפרנציאלי של שני תנאים או יותר. בעוד שניתן להשתמש ב- CorrelationCalculator בכל אחת מהקבוצות בנפרד כדי ליצור רשתות מתאם חלקיות עבור כל תנאי, גישה זו מגבילה את מספר הדגימות שניתן להשתמש בהן ליצירת רשת. מכיוון שגודל מדגם גדול מספיק הוא אחד השיקולים הגדולים ביותר בניתוח מונחה נתונים, שיטות שיכולות למנף את כל הדגימות הזמינות בנתונים לבניית רשתות רצויות מאוד. גישה זו מיושמת בכלי השני המוצג כאן, הנקרא פיליגרן21. פיליגרן מסתמך על אלגוריתם ניתוח העשרת רשת דיפרנציאלית (DNEA)22 שפורסם בעבר. טבלה 1 מציגה את היישומים ואת זרימת העבודה של שני הכלים.
מספר תנאי הניסוי (k) | k = 1 | k = 2 |
כלי תוכנה | קורלציהמחשבון | פיליגרן |
נתוני קלט | • מטבוליטים x מטריצת נתונים לדוגמה | • מטבוליטים x מטריצת נתונים לדוגמה • קבוצות ניסוי |
זרימת עבודה • טיפול מקדים • הערכת רשת • קיבוץ אשכולות רשת • ניתוח העשרה |
• טרנספורמציית יומן; שינוי קנה מידה אוטומטי • DSPC • באמצעות אפליקציות חיצוניות •לא |
• טרנספורמציית יומן; שינוי קנה מידה אוטומטי • הערכת רשת משותפת • קיבוץ קונצנזוס • NetGSA |
תצוגה חזותית של נתונים | באמצעות אפליקציה חיצונית, למשל, Cytoscape | באמצעות אפליקציה חיצונית, למשל, Cytoscape |
בדיקת מודולים מטבוליים עבור הקשר עם התוצאה של עניין (אופציונלי) | באמצעות אפליקציות חיצוניות | באמצעות אפליקציות חיצוניות |
טבלה 1: היקף היישום וזרימת העבודה של CorrelationCalculator ו- Filigree.
שיטות ניתוח רשת מבוססות מתאם חלקי המיושמות ב- CorrelationCalculator וב- Filigree עוזרות להתגבר על חלק מהמגבלות של ניתוחי מסלולים מטבוליים מבוססי ידע, במיוחד עבור מערכי הנתונים עם שכיחות גבוהה של מטבוליטים לא ידועים וכיסוי מוגבל של מסלולים מטבוליים (למשל, נתוני ליפידומיה). כלים אלה נמצאים בשימוש נרחב על ?…
The authors have nothing to disclose.
עבודה זו נתמכה על ידי מענק NIH 1U01CA235487.
CorrelationCalculator | JAVA | http://metscape.med.umich.edu/calculator.html | |
clusterNet | https://github.com/Karnovsky-Lab/clusterNet | ||
Cytoscape | Cytoscape | https://cytoscape.org/ | |
Filigree | JAVA | http://metscape.med.umich.edu/filigree.html | |
MetScape | Cytoscape | https://apps.cytoscape.org/apps/metscape | Cytoscape application that allows for the creation and exploration of correlation networks. |