Summary

CorrelationCalculator и филигрань: инструменты для сетевого анализа метаболомных данных на основе данных

Published: November 10, 2023
doi:

Summary

Мы представляем CorrelationCalculator и Filigree, два инструмента для построения сетей на основе данных и анализа данных метаболомики. CorrelationCalculator поддерживает построение единой сети взаимодействия метаболитов на основе данных экспрессии, в то время как Filigree позволяет построить дифференциальную сеть с последующей кластеризацией и обогащением сети.

Abstract

Серьезной проблемой при анализе омиксных данных является извлечение практических биологических знаний. Метаболомика не является исключением. Общая проблема связи изменений уровней отдельных метаболитов с конкретными биологическими процессами осложняется большим количеством неизвестных метаболитов, присутствующих в исследованиях нетаргетной жидкостной хромато-масс-спектрометрии (ЖХ-МС). Кроме того, вторичный метаболизм и липидный обмен слабо представлены в существующих базах данных путей. Чтобы преодолеть эти ограничения, наша группа разработала несколько инструментов для построения и анализа сетей на основе данных. К ним относятся CorrelationCalculator и Filigree. Оба инструмента позволяют создавать сети на основе частичной корреляции на основе данных экспериментальной метаболомики, когда количество метаболитов превышает количество образцов. CorrelationCalculator поддерживает построение единой сети, в то время как Filigree позволяет построить дифференциальную сеть с использованием данных из двух групп выборок с последующей кластеризацией и обогащением сети. Мы опишем полезность и применение обоих инструментов для анализа реальных метаболомических данных.

Introduction

В последнее десятилетие метаболомика превратилась в омиксную науку благодаря достижениям в области аналитических технологий, таких как газовая хромато-масс-спектрометрия (ГХ-МС) и жидкостная хромато-масс-спектрометрия (ЖХ-МС). Эти методы позволяют одновременно измерять сотни и тысячи низкомолекулярных метаболитов, создавая сложные многомерные наборы данных. Эксперименты по метаболомике могут проводиться как в таргетном, так и в нетаргетном режимах. Целевые эксперименты по метаболомике измеряют определенные классы метаболитов. Они, как правило, основаны на гипотезах, в то время как нецелевые подходы пытаются измерить как можно больше метаболитов и по своей природе генерируют гипотезы. Таргетные анализы обычно включают внутренние стандарты и, таким образом, позволяют проводить абсолютное количественное определение интересующих метаболитов. В отличие от этого, нетаргетные анализы позволяют проводить относительную количественную оценку и включают много неизвестных метаболитов1.

Анализ метаболомных данных представляет собой многоступенчатый процесс, в котором используется множество специализированных программных средств1. Его можно разделить на следующие три основных этапа: (1) обработка данных и контроль качества, (2) статистический анализ и (3) интерпретация биологических данных. Описанные здесь инструменты предназначены для обеспечения последнего этапа анализа.

Интуитивно понятный и популярный способ интерпретации данных метаболомики заключается в сопоставлении экспериментальных измерений с метаболическими путями. Длядостижения этой цели было разработано множество инструментов, в том числе Metscape, разработанный нашей группой6. Картирование путей часто сочетается с анализом обогащения, который помогает определить наиболее значимые пути 7,8. Эти методы впервые получили известность при анализе данных экспрессии генов и были успешно применены для анализа данных протеомики и эпигеномики 9,10,11,12,13. Тем не менее, анализ данных метаболомики создает ряд проблем для подходов, основанных на знаниях. Во-первых, в дополнение к эндогенным метаболитам, метаболомные анализы измеряют экзогенные соединения, в том числе те, которые поступают из продуктов питания и других источников окружающей среды. Эти соединения, а также метаболиты, продуцируемые бактериями, не могут быть сопоставлены с человеческими или метаболическими путями других эукариотических организмов. Кроме того, охват путей вторичного метаболизма и липидного обмена в настоящее время не позволяет картировать данные с высоким разрешением на уровне, который легко поддерживал бы биологическую интерпретацию данных14,15.

Методы сетевого анализа на основе данных могут помочь преодолеть эти проблемы. Например, корреляционные сети могут помочь выявить взаимосвязи между как известными, так и неизвестными метаболитами и облегчить аннотирование неизвестных16. В то время как вычисление коэффициентов корреляции Пирсона является наиболее простым подходом к установлению линейных отношений между метаболитами, его недостаток заключается в том, что он охватывает как прямые, так и косвенные связи17,18,19. В качестве альтернативы можно вычислить коэффициенты частичной корреляции, которые могут различать прямые и косвенные связи. Геометрическое графическое моделирование (GGM) может быть использовано для оценки сетей частичной корреляции. Однако GGM требует, чтобы размер выборки и количество признаков были сопоставимы. Это состояние редко встречается в нецелевых данных ЖХ-МС, которые содержат измерения тысяч метаболических особенностей. Для преодоления этого ограничения можно использовать методы регуляризации. Графическое лассо (Глассо) и узловая регрессия являются популярными методами регуляризованного оценивания частичной корреляционной сети 16,20.

Первый из представленных здесь инструментов биоинформатики, CorrelationCalculator16, основан на алгоритме смещенной разреженной частичной корреляции (DSPC). DSPC основан на графическом моделировании лассо. В основе алгоритма лежит предположение, что число связей между метаболитами значительно меньше, чем число образцов, т.е. частичная корреляционная сеть метаболитов разрежена. Это предположение позволяет DSPC обнаружить связь между большим количеством метаболитов с использованием меньшего количества образцов, используя методы регуляризованной регрессии. Кроме того, используя шаг устранения смещения для регуляризованных регрессионных оценок, он получает выборочные распределения для параметров ребер, которые могут быть использованы для построения доверительных интервалов и проверки интересующих гипотез (например, наличие/отсутствие одного или группы ребер). Таким образом, наличие или отсутствие ребра в сети частичной корреляции может быть формально проверено с помощью вычисленных p-значений.

CorrelationCalculator оказался очень полезным для одногруппового анализа16; Однако целью многих экспериментов по метаболомике является дифференциальный анализ двух или более условий. Несмотря на то, что CorrelationCalculator можно использовать для каждой из групп отдельно для создания сетей частичной корреляции для каждого условия, этот подход ограничивает количество выборок, которые могут быть использованы для создания сети. Поскольку достаточно большой размер выборки является одним из самых важных соображений в анализе, основанном на данных, методы, которые могут использовать все доступные выборки данных для построения сетей, крайне желательны. Этот подход реализован во втором представленном здесь инструменте под названием Filigree21. Филигрань опирается на ранее опубликованный алгоритм дифференциального анализа обогащения сети (DNEA)22. В таблице 1 показаны приложения и рабочий процесс обоих инструментов.

Количество условий эксперимента (k) k = 1 k = 2
Программный инструмент CorrelationCalculator (Калькулятор корреляции) Филигрань
Входные данные • Матрица данных метаболитов x Samples • Матрица данных метаболитов x Samples
• Экспериментальные группы
Рабочий процесс
•Предварительная обработка
• Оценка сети
• Кластеризация сети
• Анализ обогащения

• Логарифмическое преобразование; Автомасштабирование
• DSPC
• Через внешние приложения
•Нет

• Логарифмическое преобразование; Автомасштабирование
• Оценка совместной сети
• Кластеризация консенсуса
• НетГСА
Визуализация данных Через внешнее приложение, например, Cytoscape Через внешнее приложение, например, Cytoscape
Тестирование метаболических модулей на связь с интересующим исходом (опционально) Через внешние приложения Через внешние приложения

Таблица 1: Область применения и рабочий процесс CorrelationCalculator и Filigree.

Protocol

1. Калькулятор корреляции Загрузите образец входного файла с разделителями-запятыми, содержащий список метаболитов с экспериментальными измерениями на http://metscape.med.umich.edu/kora_data_240.csv. Дважды щелкните загруженный файл примера, чтобы открыть его.Убедитесь, что файл с?…

Representative Results

Чтобы проиллюстрировать использование CorrelationCalculator, мы построили сеть частичной корреляции, используя подмножество данных метаболомики из популяционного исследования KURA, описанного в Krumsiek et al.24. Набор данных содержал 151 метаболит и 240 образцов. На рисунке 1</…

Discussion

Методы сетевого анализа, основанные на частичной корреляции, реализованные в CorrelationCalculator и Filigree, помогают преодолеть некоторые ограничения анализа метаболических путей, основанных на знаниях, особенно для наборов данных с высокой распространенностью неизвестных метаболитов и ограни…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Работа выполнена при поддержке гранта NIH 1U01CA235487.

Materials

CorrelationCalculator JAVA http://metscape.med.umich.edu/calculator.html
clusterNet https://github.com/Karnovsky-Lab/clusterNet
Cytoscape Cytoscape https://cytoscape.org/
Filigree JAVA http://metscape.med.umich.edu/filigree.html
MetScape Cytoscape https://apps.cytoscape.org/apps/metscape Cytoscape application that allows for the creation and exploration of correlation networks.

References

  1. Sas, K. M., Karnovsky, A., Michailidis, G., Pennathur, S. Metabolomics and diabetes: analytical and computational approaches. Diabetes. 64 (3), 718-732 (2015).
  2. Cottret, L., et al. MetExplore: Collaborative edition and exploration of metabolic networks. Nucleic Acids Research. 46 (W1), W495-W502 (2018).
  3. Garcia-Alcalde, F., Garcia-Lopez, F., Dopazo, J., Conesa, A. Paintomics: A web based tool for the joint visualization of transcriptomics and metabolomics data. Bioinformatics. 27 (1), 137-139 (2011).
  4. Kuo, T. C., Tian, T. F., Tseng, Y. J. 3Omics: A web-based systems biology tool for analysis, integration and visualization of human transcriptomic, proteomic and metabolomic data. BMC Systems Biology. 7, 64 (2013).
  5. Paley, S. M., Karp, P. D. The pathway tools cellular overview diagram and Omics Viewer. Nucleic Acids Research. 34 (13), 3771-3778 (2006).
  6. Karnovsky, A., et al. Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene expression data. Bioinformatics. 28 (3), 373-380 (2012).
  7. Chong, J., Xia, J. Using MetaboAnalyst 4.0 for metabolomics data analysis, interpretation, and integration with other omics data. Methods in Molecular Biology. 2104, 337-360 (2020).
  8. Lopez-Ibanez, J., Pazos, F., Chagoyen, M. MBROLE 2.0-functional enrichment of chemical compounds. Nucleic Acids Research. 44 (W1), W201-W204 (2016).
  9. Cavalcante, R. G., et al. Broad-Enrich: Functional interpretation of large sets of broad genomic regions. Bioinformatics. 30 (17), i393-i400 (2014).
  10. Huang, D. W., et al. DAVID bioinformatics resources: Expanded annotation database and novel algorithms to better extract biology from large gene lists. Nucleic Acids Research. 35 (Web Server issue), W169-W175 (2007).
  11. Lee, P. H., O’Dushlaine, C., Thomas, B., Purcell, S. M. INRICH: interval-based enrichment analysis for genome-wide association studies. Bioinformatics. 28 (13), 1797-1799 (2012).
  12. Segre, A. V., Groop, L., Mootha, V. K., Daly, M. J., Altshuler, D. Common inherited variation in mitochondrial genes is not enriched for associations with type 2 diabetes or related glycemic traits. PLoS Genetics. 6 (8), e1001058 (2010).
  13. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102 (43), 15545-15550 (2005).
  14. Afshinnia, F., et al. Lipidomic signature of progression of chronic kidney disease in the chronic renal insufficiency cohort. Kidney International Reports. 1 (4), 256-268 (2016).
  15. Barupal, D. K., et al. MetaMapp: Mapping and visualizing metabolomic data by integrating information from biochemical pathways and chemical and mass spectral similarity. BMC Bioinformatics. 13, 99 (2012).
  16. Basu, S., et al. Sparse network modeling and Metscape-based visualization methods for the analysis of large-scale metabolomics data. Bioinformatics. 33 (10), 1545-1553 (2017).
  17. Krumsiek, J., Suhre, K., Illig, T., Adamski, J., Theis, F. J. Gaussian graphical modeling reconstructs pathway reactions from high-throughput metabolomics data. BMC Systems Biology. 5, 21 (2011).
  18. Camacho, D., de la Fuente, A., Mendes, P. The origin of correlations in metabolomics data. Metabolomics. 1 (1), 53-63 (2005).
  19. Steuer, R., Kurths, J., Fiehn, O., Weckwerth, W. Observing and interpreting correlations in metabolomic networks. Bioinformatics. 19 (8), 1019-1026 (2003).
  20. Bühlmann, P., Van De Geer, S. . Statistics for High-Dimensional Data: Methods, Theory and Applications. , (2011).
  21. Iyer, G. R., et al. Application of differential network enrichment analysis for deciphering metabolic alterations. Metabolites. 10 (12), 479 (2020).
  22. Ma, J., et al. Differential network enrichment analysis reveals novel lipid pathways in chronic kidney disease. Bioinformatics. 35 (18), 3441-3452 (2019).
  23. Shannon, P., et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Reserach. 13 (11), 2498-2504 (2003).
  24. Krumsiek, J., et al. Mining the unknown: a systems approach to metabolite identification combining genetic and metabolic information. PLoS Genetics. 8 (10), e1003005 (2012).
  25. Fahrmann, J., et al. Systemic alterations in the metabolome of diabetic NOD mice delineate increased oxidative stress accompanied by reduced inflammation and hypertriglyceremia. American Journal of Physiology. Endocrinology and Metabolism. 308 (11), E978-E989 (2015).
  26. Grapov, D., et al. Diabetes associated metabolomic perturbations in NOD mice. Metabolomics. 11 (2), 425-437 (2015).
  27. Jin, Y., Bai, S., Huang, Z., You, L., Zhang, T. Technology characteristics and flavor changes of traditional green wheat product nian zhuan in Northern China. Frontiers in Nutrition. 9, 996337 (2022).
  28. Lin, Y. S., et al. Probing folate-responsive and stage-sensitive metabolomics and transcriptional co-expression network markers to predict prognosis of non-small cell lung cancer patients. Nutrients. 15 (1), 3 (2022).
  29. Pan, C., et al. Metabolomics study identified bile acids as potential biomarkers for gastric cancer: A case control study. Frontiers in Endocrinology (Lausanne). 13, 1039786 (2022).
  30. Pancoro, A., Karima, E., Apriyanto, A., Effendi, Y. (1)H NMR metabolomics analysis of oil palm stem tissue infected by Ganoderma boninense based on field severity Indices. Scientific Reports. 12 (1), 21087 (2022).
  31. Chele, K. H., et al. A global metabolic map defines the effects of a Si-based biostimulant on tomato plants under normal and saline conditions. Metabolites. 11 (12), 820 (2021).
  32. Hubert, J., et al. The effect of residual pesticide application on microbiomes of the storage mite Tyrophagus putrescentiae. Microbial Ecology. 85 (4), 1527-1540 (2023).
  33. Li, K., et al. Metabolomic and exposomic biomarkers of risk of future neurodevelopmental delay in human milk. Pediatric Research. 93 (6), 1710-1720 (2023).
  34. Marino, C., et al. The metabolomic profile in amyotrophic lateral sclerosis changes according to the progression of the disease: An exploratory study. Metabolites. 12 (9), 837 (2022).
  35. Ma, J., Shojaie, A., Michailidis, G. Network-based pathway enrichment analysis with incomplete network information. Bioinformatics. 32 (20), 3165-3174 (2016).
  36. Mahieu, N. G., Patti, G. J. Systems-level annotation of a metabolomics data set reduces 25000 features to fewer than 1000 unique metabolites. Analytical Chemistry. 89 (19), 10397-10406 (2017).
check_url/65512?article_type=t

Play Video

Cite This Article
Iyer, G., Brandenburg, M., Patsalis, C., Michailidis, G., Karnovsky, A. CorrelationCalculator and Filigree: Tools for Data-Driven Network Analysis of Metabolomics Data. J. Vis. Exp. (201), e65512, doi:10.3791/65512 (2023).

View Video