Summary

CorrelationCalculator and Filigree: כלים לניתוח רשת מונחה נתונים של נתוני מטבולומיקה

Published: November 10, 2023
doi:

Summary

אנו מציגים את CorrelationCalculator ו- Filigree, שני כלים לבניית רשת מונחית נתונים וניתוח נתונים של נתונים מטאבולומיים. CorrelationCalculator תומך בבניית רשת אינטראקציה אחת של מטבוליטים המבוססים על נתוני ביטוי, בעוד Filigree מאפשר בניית רשת דיפרנציאלית, ואחריה אשכולות רשת וניתוח העשרה.

Abstract

אתגר משמעותי בניתוח נתוני אומיקס הוא חילוץ ידע ביולוגי בר ביצוע. מטבולומיקה אינה יוצאת דופן. הבעיה הכללית של קישור שינויים ברמות של מטבוליטים בודדים לתהליכים ביולוגיים ספציפיים מורכבת על ידי מספר גדול של מטבוליטים לא ידועים הנמצאים במחקרי ספקטרומטריית מסה כרומטוגרפיה נוזלית לא ממוקדת (LC-MS). יתר על כן, מטבוליזם משני ומטבוליזם שומנים מיוצגים בצורה גרועה במסדי נתונים קיימים של מסלולים. כדי להתגבר על מגבלות אלה, הקבוצה שלנו פיתחה מספר כלים לבנייה וניתוח של רשתות מונחות נתונים. אלה כוללים CorrelationCalculator ו Filigree. שני הכלים מאפשרים למשתמשים לבנות רשתות מבוססות מתאם חלקי מנתוני מטבולומיקה ניסיונית כאשר מספר המטבוליטים עולה על מספר הדגימות. CorrelationCalculator תומך בבניית רשת אחת, בעוד Filigree מאפשר בניית רשת דיפרנציאלית תוך שימוש בנתונים משתי קבוצות של דגימות, ולאחר מכן אשכולות רשת וניתוח העשרה. נתאר את התועלת והיישום של שני הכלים לניתוח נתונים מטאבולומיים בחיים האמיתיים.

Introduction

בעשור האחרון, מטבולומיקה התפתחה כמדע אומיקס עקב התקדמות בטכנולוגיות אנליטיות כגון כרומטוגרפיית גז-ספקטרומטריית מסה (GC-MS) וכרומטוגרפיה נוזלית-ספקטרומטריית מסה (LC-MS). טכניקות אלה מאפשרות מדידה בו זמנית של מאות עד אלפי מטבוליטים של מולקולות קטנות, ויוצרות מערכי נתונים רב-ממדיים מורכבים. ניסויים מטבולומיים יכולים להתבצע במצבים ממוקדים או לא ממוקדים. ניסויים מטבולומיים ממוקדים מודדים סוגים ספציפיים של מטבוליטים. הם בדרך כלל מונעים על ידי השערות, בעוד גישות לא ממוקדות מנסות למדוד מטבוליטים רבים ככל האפשר והם מחוללי השערות בטבע. בדיקות ממוקדות כוללות בדרך כלל סטנדרטים פנימיים ובכך מאפשרות כימות מוחלט של מטבוליטים בעלי עניין. לעומת זאת, בדיקות לא ממוקדות מאפשרות כימות יחסי וכוללות מטבוליטים לא ידועים רבים1.

ניתוח נתוני מטבולומיקה הוא תהליך רב-שלבי הממנף כלי תוכנה מיוחדים רבים1. ניתן לחלק אותו לשלושת השלבים העיקריים הבאים: (1) עיבוד נתונים ובקרת איכות, (2) ניתוח סטטיסטי, ו (3) פרשנות נתונים ביולוגיים. הכלים המתוארים כאן נועדו לאפשר את השלב האחרון של הניתוח.

דרך אינטואיטיבית ופופולרית לפרש נתונים מטאבולומיים היא למפות את המדידות הניסיוניות למסלולים מטבוליים. כלים רבים תוכננו כדי להשיג אתזה 2,3,4,5, כולל Metscape, שפותחה על ידי קבוצה6 שלנו. מיפוי מסלולים משולב לעתים קרובות עם ניתוח העשרה, המסייע לזהות את המסלולים המשמעותיים ביותר 7,8. טכניקות אלה זכו לראשונה לבולטות בניתוח נתוני ביטוי גנים ויושמו בהצלחה לניתוח נתוני פרוטאומיקה ואפיגנומיקה 9,10,11,12,13. עם זאת, ניתוח הנתונים המטאבולומיים מציב מספר אתגרים בפני גישות מבוססות ידע. ראשית, בנוסף למטבוליטים האנדוגניים, מבחני מטבולומיקה מודדים תרכובות אקסוגניות, כולל אלה שמקורן בתזונה וממקורות סביבתיים אחרים. תרכובות אלה, כמו גם מטבוליטים המיוצרים על ידי חיידקים, אינם ניתנים למיפוי על מסלולים אנושיים או מטבוליים של אורגניזמים איקריוטים אחרים. יתר על כן, כיסוי מסלולים של מטבוליזם משני ומטבוליזם שומנים כיום אינו מאפשר מיפוי ברזולוציה גבוהה ברמה שתתמוך בקלות בפרשנות הביולוגית של הנתונים14,15.

טכניקות ניתוח רשת מונחות נתונים יכולות לעזור להתגבר על אתגרים אלה. לדוגמה, רשתות מבוססות מתאם יכולות לעזור לגזור קשרים בין מטבוליטים ידועים ולא ידועים ולהקל על ביאור הנעלמים16. בעוד חישוב מקדמי המתאם של פירסון הוא הגישה הפשוטה ביותר לביסוס היחסים הליניאריים בין מטבוליטים, החיסרון הוא שהוא לוכד קשרים ישירים ועקיפים 17,18,19. חלופה היא לחשב מקדמי מתאם חלקיים שיכולים להבחין בין קשרים ישירים ועקיפים. ניתן להשתמש במידול גרפי גאוסיאני (GGM) כדי להעריך רשתות מתאם חלקיות. עם זאת, GGM דורש שגודל המדגם ומספר התכונות יהיו דומים. מצב זה מתקיים לעתים רחוקות בנתוני LC-MS לא ממוקדים המכילים מדידות עבור אלפי תכונות מטבוליות. ניתן להשתמש בטכניקות הסדרה כדי להתגבר על מגבלה זו. לאסו גרפי (Glasso) ורגרסיית צומת הן שיטות פופולריות לאמידה מוסדרת של רשת המתאם החלקי16,20.

הראשון מבין כלי הביואינפורמטיקה המוצגים כאן, CorrelationCalculator16, מבוסס על אלגוריתם המתאם החלקי הדליל (DSPC). DSPC מסתמך על מידול לאסו גרפי נטול חסכים. הנחת היסוד של האלגוריתם היא שמספר הקשרים בין המטבוליטים קטן משמעותית ממספר הדגימות, כלומר רשת המתאם החלקי של המטבוליטים דלילה. הנחה זו מאפשרת ל-DSPC לגלות את הקישוריות בין מספר גדול של מטבוליטים באמצעות פחות דגימות, תוך מינוף טכניקות רגרסיה מוסדרות. יתר על כן, באמצעות שלב debiasing עבור אומדני רגרסיה מוסדרים, הוא משיג התפלגות דגימה עבור פרמטרי הקצה שניתן להשתמש בהם כדי לבנות רווחי סמך ולבדוק השערות של עניין (למשל, נוכחות/היעדר יחיד או קבוצה של קצוות). לפיכך, ניתן לבדוק באופן רשמי את נוכחותו או היעדרו של קצה ברשת המתאם החלקי באמצעות ערכי p מחושבים.

CorrelationCalculator הוכיח להיות שימושי מאוד עבור ניתוח קבוצה אחת16; עם זאת, המטרה של ניסויים מטבולומיים רבים היא ניתוח דיפרנציאלי של שני תנאים או יותר. בעוד שניתן להשתמש ב- CorrelationCalculator בכל אחת מהקבוצות בנפרד כדי ליצור רשתות מתאם חלקיות עבור כל תנאי, גישה זו מגבילה את מספר הדגימות שניתן להשתמש בהן ליצירת רשת. מכיוון שגודל מדגם גדול מספיק הוא אחד השיקולים הגדולים ביותר בניתוח מונחה נתונים, שיטות שיכולות למנף את כל הדגימות הזמינות בנתונים לבניית רשתות רצויות מאוד. גישה זו מיושמת בכלי השני המוצג כאן, הנקרא פיליגרן21. פיליגרן מסתמך על אלגוריתם ניתוח העשרת רשת דיפרנציאלית (DNEA)22 שפורסם בעבר. טבלה 1 מציגה את היישומים ואת זרימת העבודה של שני הכלים.

מספר תנאי הניסוי (k) k = 1 k = 2
כלי תוכנה קורלציהמחשבון פיליגרן
נתוני קלט • מטבוליטים x מטריצת נתונים לדוגמה • מטבוליטים x מטריצת נתונים לדוגמה
• קבוצות ניסוי
זרימת עבודה
• טיפול מקדים
• הערכת רשת
• קיבוץ אשכולות רשת
• ניתוח העשרה

• טרנספורמציית יומן; שינוי קנה מידה אוטומטי
• DSPC
• באמצעות אפליקציות חיצוניות
•לא

• טרנספורמציית יומן; שינוי קנה מידה אוטומטי
• הערכת רשת משותפת
• קיבוץ קונצנזוס
• NetGSA
תצוגה חזותית של נתונים באמצעות אפליקציה חיצונית, למשל, Cytoscape באמצעות אפליקציה חיצונית, למשל, Cytoscape
בדיקת מודולים מטבוליים עבור הקשר עם התוצאה של עניין (אופציונלי) באמצעות אפליקציות חיצוניות באמצעות אפליקציות חיצוניות

טבלה 1: היקף היישום וזרימת העבודה של CorrelationCalculator ו- Filigree.

Protocol

1. קורלציהמחשבון הורד קובץ קלט לדוגמה המופרד באמצעות פסיקים המכיל רשימה של מטבוליטים עם מדידות ניסיוניות ב- http://metscape.med.umich.edu/kora_data_240.csv. לחץ פעמיים על הקובץ לדוגמה שהורדת כדי לפתוח אותו.ודא שהקובץ מכיל תוויות הן עבור הדגימות והן עבור המטבוליטים. מכיוון שהדגימו…

Representative Results

כדי להמחיש את השימוש ב- CorrelationCalculator, בנינו רשת מתאם חלקית באמצעות תת-קבוצה של נתוני מטבולומיקה ממחקר האוכלוסייה KORA המתואר ב- Krumsiek et al.24. מערך הנתונים הכיל 151 מטבוליטים ו-240 דגימות. איור 1 מראה את רשת המתאם החלקי שנוצרה ב-Cytoscape. הרשת מכילה 148 צמתים ו-272 קצוות. צבע …

Discussion

שיטות ניתוח רשת מבוססות מתאם חלקי המיושמות ב- CorrelationCalculator וב- Filigree עוזרות להתגבר על חלק מהמגבלות של ניתוחי מסלולים מטבוליים מבוססי ידע, במיוחד עבור מערכי הנתונים עם שכיחות גבוהה של מטבוליטים לא ידועים וכיסוי מוגבל של מסלולים מטבוליים (למשל, נתוני ליפידומיה). כלים אלה נמצאים בשימוש נרחב על ?…

Disclosures

The authors have nothing to disclose.

Acknowledgements

עבודה זו נתמכה על ידי מענק NIH 1U01CA235487.

Materials

CorrelationCalculator JAVA http://metscape.med.umich.edu/calculator.html
clusterNet https://github.com/Karnovsky-Lab/clusterNet
Cytoscape Cytoscape https://cytoscape.org/
Filigree JAVA http://metscape.med.umich.edu/filigree.html
MetScape Cytoscape https://apps.cytoscape.org/apps/metscape Cytoscape application that allows for the creation and exploration of correlation networks.

References

  1. Sas, K. M., Karnovsky, A., Michailidis, G., Pennathur, S. Metabolomics and diabetes: analytical and computational approaches. Diabetes. 64 (3), 718-732 (2015).
  2. Cottret, L., et al. MetExplore: Collaborative edition and exploration of metabolic networks. Nucleic Acids Research. 46 (W1), W495-W502 (2018).
  3. Garcia-Alcalde, F., Garcia-Lopez, F., Dopazo, J., Conesa, A. Paintomics: A web based tool for the joint visualization of transcriptomics and metabolomics data. Bioinformatics. 27 (1), 137-139 (2011).
  4. Kuo, T. C., Tian, T. F., Tseng, Y. J. 3Omics: A web-based systems biology tool for analysis, integration and visualization of human transcriptomic, proteomic and metabolomic data. BMC Systems Biology. 7, 64 (2013).
  5. Paley, S. M., Karp, P. D. The pathway tools cellular overview diagram and Omics Viewer. Nucleic Acids Research. 34 (13), 3771-3778 (2006).
  6. Karnovsky, A., et al. Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene expression data. Bioinformatics. 28 (3), 373-380 (2012).
  7. Chong, J., Xia, J. Using MetaboAnalyst 4.0 for metabolomics data analysis, interpretation, and integration with other omics data. Methods in Molecular Biology. 2104, 337-360 (2020).
  8. Lopez-Ibanez, J., Pazos, F., Chagoyen, M. MBROLE 2.0-functional enrichment of chemical compounds. Nucleic Acids Research. 44 (W1), W201-W204 (2016).
  9. Cavalcante, R. G., et al. Broad-Enrich: Functional interpretation of large sets of broad genomic regions. Bioinformatics. 30 (17), i393-i400 (2014).
  10. Huang, D. W., et al. DAVID bioinformatics resources: Expanded annotation database and novel algorithms to better extract biology from large gene lists. Nucleic Acids Research. 35 (Web Server issue), W169-W175 (2007).
  11. Lee, P. H., O’Dushlaine, C., Thomas, B., Purcell, S. M. INRICH: interval-based enrichment analysis for genome-wide association studies. Bioinformatics. 28 (13), 1797-1799 (2012).
  12. Segre, A. V., Groop, L., Mootha, V. K., Daly, M. J., Altshuler, D. Common inherited variation in mitochondrial genes is not enriched for associations with type 2 diabetes or related glycemic traits. PLoS Genetics. 6 (8), e1001058 (2010).
  13. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102 (43), 15545-15550 (2005).
  14. Afshinnia, F., et al. Lipidomic signature of progression of chronic kidney disease in the chronic renal insufficiency cohort. Kidney International Reports. 1 (4), 256-268 (2016).
  15. Barupal, D. K., et al. MetaMapp: Mapping and visualizing metabolomic data by integrating information from biochemical pathways and chemical and mass spectral similarity. BMC Bioinformatics. 13, 99 (2012).
  16. Basu, S., et al. Sparse network modeling and Metscape-based visualization methods for the analysis of large-scale metabolomics data. Bioinformatics. 33 (10), 1545-1553 (2017).
  17. Krumsiek, J., Suhre, K., Illig, T., Adamski, J., Theis, F. J. Gaussian graphical modeling reconstructs pathway reactions from high-throughput metabolomics data. BMC Systems Biology. 5, 21 (2011).
  18. Camacho, D., de la Fuente, A., Mendes, P. The origin of correlations in metabolomics data. Metabolomics. 1 (1), 53-63 (2005).
  19. Steuer, R., Kurths, J., Fiehn, O., Weckwerth, W. Observing and interpreting correlations in metabolomic networks. Bioinformatics. 19 (8), 1019-1026 (2003).
  20. Bühlmann, P., Van De Geer, S. . Statistics for High-Dimensional Data: Methods, Theory and Applications. , (2011).
  21. Iyer, G. R., et al. Application of differential network enrichment analysis for deciphering metabolic alterations. Metabolites. 10 (12), 479 (2020).
  22. Ma, J., et al. Differential network enrichment analysis reveals novel lipid pathways in chronic kidney disease. Bioinformatics. 35 (18), 3441-3452 (2019).
  23. Shannon, P., et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Reserach. 13 (11), 2498-2504 (2003).
  24. Krumsiek, J., et al. Mining the unknown: a systems approach to metabolite identification combining genetic and metabolic information. PLoS Genetics. 8 (10), e1003005 (2012).
  25. Fahrmann, J., et al. Systemic alterations in the metabolome of diabetic NOD mice delineate increased oxidative stress accompanied by reduced inflammation and hypertriglyceremia. American Journal of Physiology. Endocrinology and Metabolism. 308 (11), E978-E989 (2015).
  26. Grapov, D., et al. Diabetes associated metabolomic perturbations in NOD mice. Metabolomics. 11 (2), 425-437 (2015).
  27. Jin, Y., Bai, S., Huang, Z., You, L., Zhang, T. Technology characteristics and flavor changes of traditional green wheat product nian zhuan in Northern China. Frontiers in Nutrition. 9, 996337 (2022).
  28. Lin, Y. S., et al. Probing folate-responsive and stage-sensitive metabolomics and transcriptional co-expression network markers to predict prognosis of non-small cell lung cancer patients. Nutrients. 15 (1), 3 (2022).
  29. Pan, C., et al. Metabolomics study identified bile acids as potential biomarkers for gastric cancer: A case control study. Frontiers in Endocrinology (Lausanne). 13, 1039786 (2022).
  30. Pancoro, A., Karima, E., Apriyanto, A., Effendi, Y. (1)H NMR metabolomics analysis of oil palm stem tissue infected by Ganoderma boninense based on field severity Indices. Scientific Reports. 12 (1), 21087 (2022).
  31. Chele, K. H., et al. A global metabolic map defines the effects of a Si-based biostimulant on tomato plants under normal and saline conditions. Metabolites. 11 (12), 820 (2021).
  32. Hubert, J., et al. The effect of residual pesticide application on microbiomes of the storage mite Tyrophagus putrescentiae. Microbial Ecology. 85 (4), 1527-1540 (2023).
  33. Li, K., et al. Metabolomic and exposomic biomarkers of risk of future neurodevelopmental delay in human milk. Pediatric Research. 93 (6), 1710-1720 (2023).
  34. Marino, C., et al. The metabolomic profile in amyotrophic lateral sclerosis changes according to the progression of the disease: An exploratory study. Metabolites. 12 (9), 837 (2022).
  35. Ma, J., Shojaie, A., Michailidis, G. Network-based pathway enrichment analysis with incomplete network information. Bioinformatics. 32 (20), 3165-3174 (2016).
  36. Mahieu, N. G., Patti, G. J. Systems-level annotation of a metabolomics data set reduces 25000 features to fewer than 1000 unique metabolites. Analytical Chemistry. 89 (19), 10397-10406 (2017).
check_url/65512?article_type=t

Play Video

Cite This Article
Iyer, G., Brandenburg, M., Patsalis, C., Michailidis, G., Karnovsky, A. CorrelationCalculator and Filigree: Tools for Data-Driven Network Analysis of Metabolomics Data. J. Vis. Exp. (201), e65512, doi:10.3791/65512 (2023).

View Video