Summary

CorrelationCalculator en Filigree: tools voor datagestuurde netwerkanalyse van metabolomics-gegevens

Published: November 10, 2023
doi:

Summary

We presenteren CorrelationCalculator en Filigree, twee tools voor datagestuurde netwerkconstructie en analyse van metabolomics-gegevens. CorrelationCalculator ondersteunt het bouwen van een enkel interactienetwerk van metabolieten op basis van expressiegegevens, terwijl Filigree het mogelijk maakt om een differentieel netwerk te bouwen, gevolgd door netwerkclustering en verrijkingsanalyse.

Abstract

Een belangrijke uitdaging bij de analyse van omics-gegevens is het extraheren van bruikbare biologische kennis. Metabolomics is geen uitzondering. Het algemene probleem van het relateren van veranderingen in niveaus van individuele metabolieten aan specifieke biologische processen wordt nog verergerd door het grote aantal onbekende metabolieten dat aanwezig is in ongerichte vloeistofchromatografie-massaspectrometrie (LC-MS)-studies. Verder zijn secundair metabolisme en lipidenmetabolisme slecht vertegenwoordigd in bestaande pathway-databases. Om deze beperkingen te overwinnen, heeft onze groep verschillende tools ontwikkeld voor datagestuurde netwerkconstructie en -analyse. Deze omvatten CorrelationCalculator en Filigree. Beide tools stellen gebruikers in staat om op partiële correlatie gebaseerde netwerken op te bouwen op basis van experimentele metabolomics-gegevens wanneer het aantal metabolieten groter is dan het aantal monsters. CorrelationCalculator ondersteunt de bouw van een enkel netwerk, terwijl Filigree het mogelijk maakt om een differentieel netwerk te bouwen met behulp van gegevens van twee groepen monsters, gevolgd door netwerkclustering en verrijkingsanalyse. We zullen het nut en de toepassing van beide tools beschrijven voor de analyse van real-life metabolomics-gegevens.

Introduction

In het afgelopen decennium is metabolomics naar voren gekomen als een omics-wetenschap als gevolg van vooruitgang in analytische technologieën zoals gaschromatografie-massaspectrometrie (GC-MS) en vloeistofchromatografie-massaspectrometrie (LC-MS). Deze technieken maken het mogelijk om honderden tot duizenden metabolieten van kleine moleculen gelijktijdig te meten, waardoor complexe multidimensionale datasets ontstaan. Metabolomics-experimenten kunnen worden uitgevoerd in gerichte of niet-gerichte modi. Gerichte metabolomics-experimenten meten specifieke klassen van metabolieten. Ze zijn meestal hypothese-gedreven, terwijl ongerichte benaderingen proberen zoveel mogelijk metabolieten te meten en hypothese-genererend van aard zijn. Gerichte assays bevatten meestal interne standaarden en maken dus een absolute kwantificering van metabolieten van belang mogelijk. Daarentegen maken ongerichte assays relatieve kwantificering mogelijk en bevatten ze veel onbekendemetabolieten1.

Analyse van metabolomics-gegevens is een proces dat uit meerdere stappen bestaat en dat gebruikmaakt van veel gespecialiseerdesoftwaretools1. Het kan worden onderverdeeld in de volgende drie hoofdstappen: (1) gegevensverwerking en kwaliteitscontrole, (2) statistische analyse en (3) interpretatie van biologische gegevens. De hier beschreven tools zijn ontworpen om de laatste stap van de analyse mogelijk te maken.

Een intuïtieve en populaire manier om metabolomics-gegevens te interpreteren, is door de experimentele metingen in kaart te brengen op metabole routes. Er zijn tal van tools ontworpen om ditte bereiken 2,3,4,5, waaronder Metscape, ontwikkeld door onze groep6. Het in kaart brengen van paden wordt vaak gecombineerd met verrijkingsanalyse, wat helpt bij het identificeren van de belangrijkste routes 7,8. Deze technieken kregen voor het eerst bekendheid in de analyse van genexpressiegegevens en zijn met succes toegepast voor de analyse van proteomics- en epigenomics-gegevens 9,10,11,12,13. De analyse van metabolomics-gegevens brengt echter een aantal uitdagingen met zich mee voor op kennis gebaseerde benaderingen. Ten eerste meten metabolomics-assays naast de endogene metabolieten exogene verbindingen, inclusief verbindingen die afkomstig zijn van voeding en andere milieubronnen. Deze verbindingen, evenals metabolieten die door bacteriën worden geproduceerd, kunnen niet in kaart worden gebracht op menselijke of metabole routes van andere eukaryote organismen. Verder maakt de routedekking van secundair metabolisme en lipidenmetabolisme het momenteel niet mogelijk om met hoge resolutie in kaart te brengen op het niveau dat de biologische interpretatie van de gegevens gemakkelijk zou ondersteunen14,15.

Datagestuurde netwerkanalysetechnieken kunnen helpen deze uitdagingen het hoofd te bieden. Op correlaties gebaseerde netwerken kunnen bijvoorbeeld helpen bij het afleiden van relaties tussen zowel bekende als onbekende metabolieten en het annoteren van de onbekenden vergemakkelijken16. Hoewel het berekenen van de correlatiecoëfficiënten van Pearson de meest eenvoudige benadering is om de lineaire relaties tussen metabolieten vast te stellen, is het nadeel dat het zowel directe als indirecte associaties vastlegt17,18,19. Een alternatief is het berekenen van partiële correlatiecoëfficiënten die onderscheid kunnen maken tussen directe en indirecte associaties. Gaussiaanse grafische modellering (GGM) kan worden gebruikt om partiële correlatienetwerken te schatten. GGM vereist echter dat de steekproefomvang en het aantal kenmerken vergelijkbaar zijn. Aan deze voorwaarde wordt zelden voldaan in ongerichte LC-MS-gegevens die metingen bevatten voor duizenden metabole kenmerken. Regularisatietechnieken kunnen worden gebruikt om deze beperking te overwinnen. Grafische lasso (Glasso) en knoopsgewijze regressie zijn populaire methoden voor geregulariseerde schatting van het partiële correlatienetwerk 16,20.

De eerste van de hier gepresenteerde bio-informaticatools, CorrelationCalculator16, is gebaseerd op het DSPC-algoritme (Debiased Sparse Partiële Correlatie). DSPC vertrouwt op gedesparsificeerde grafische lasso-modellering. De onderliggende aanname van het algoritme is dat het aantal verbindingen tussen de metabolieten aanzienlijk kleiner is dan het aantal monsters, d.w.z. dat het partiële correlatienetwerk van metabolieten schaars is. Deze aanname stelt DSPC in staat om de connectiviteit tussen grote aantallen metabolieten te ontdekken met behulp van minder monsters, gebruikmakend van geregulariseerde regressietechnieken. Verder verkrijgt het, met behulp van een debiasing-stap voor de geregulariseerde regressieschattingen, steekproefverdelingen voor de randparameters die kunnen worden gebruikt om betrouwbaarheidsintervallen te construeren en interessante hypothesen te testen (bijv. aan- of afwezigheid van een enkele of een groep randen). De aan- of afwezigheid van een rand in het partiële correlatienetwerk kan dus formeel worden getest met behulp van de berekende p-waarden.

CorrelationCalculator bleek zeer nuttig te zijn voor analyse van één groep16; Het doel van veel metabolomics-experimenten is echter de differentiële analyse van twee of meer aandoeningen. Hoewel CorrelationCalculator op elk van de groepen afzonderlijk kan worden gebruikt om gedeeltelijke correlatienetwerken voor elke voorwaarde te genereren, beperkt deze benadering het aantal monsters dat kan worden gebruikt voor het genereren van netwerken. Aangezien een voldoende grote steekproefomvang een van de grootste overwegingen is bij datagestuurde analyse, zijn methoden die alle beschikbare steekproeven in de gegevens kunnen benutten om netwerken te bouwen zeer wenselijk. Deze aanpak wordt geïmplementeerd in de tweede tool die hier wordt gepresenteerd, genaamd Filigree21. Filigraan is gebaseerd op het eerder gepubliceerde Differential Network Enrichment Analysis (DNEA)-algoritme22. Tabel 1 toont de toepassingen en de workflow van beide tools.

Aantal experimentele omstandigheden (k) k = 1 k = 2
Software-instrument CorrelatieCalculator Filigraan
Gegevens invoeren • Metabolieten x Monsters datamatrix • Metabolieten x Monsters datamatrix
• Experimentele groepen
Werkwijze
•Voorbehandeling
• Schatting van het netwerk
• Netwerk clustering
• Verrijkingsanalyse

• Log transformatie; Automatisch schalen
• DSPC
• Via externe apps
•Nee

• Log transformatie; Automatisch schalen
• Gezamenlijke netwerkraming
• Clustering van consensus
• NetGSA
Data visualisatie Via externe app, bijv. Cytoscape Via externe app, bijv. Cytoscape
Metabole modules testen op de associatie met de uitkomst van belang (optioneel) Via externe apps Via externe apps

Tabel 1: Het toepassingsgebied en de workflow van CorrelationCalculator en Filigree.

Protocol

1. CorrelatieCalculator Download een voorbeeld van een door komma’s gescheiden invoerbestand met een lijst van metabolieten met experimentele metingen op http://metscape.med.umich.edu/kora_data_240.csv. Dubbelklik op het gedownloade voorbeeldbestand om het te openen.Zorg ervoor dat het bestand labels bevat voor zowel de monsters als de metabolieten. Aangezien de monsters in rijen staan, moet u controleren of de eerste kolom de namen van de monsters bevat en de eerst…

Representative Results

Om het gebruik van CorrelationCalculator te illustreren, hebben we een partieel correlatienetwerk geconstrueerd met behulp van een subset van de metabolomics-gegevens uit de KORA-populatiestudie beschreven in Krumsiek et al.24. De dataset bevatte 151 metabolieten en 240 monsters. Figuur 1 toont het resulterende partiële correlatienetwerk dat werd gevisualiseerd in Cytoscape. Het netwerk bevat 148 nodes en 272 edges. De kleur van de knopen vertegenwoordigt me…

Discussion

Partiële correlatie-gebaseerde netwerkanalysemethoden geïmplementeerd in CorrelationCalculator en Filigree helpen enkele van de beperkingen van op kennis gebaseerde metabole routeanalyses te overwinnen, met name voor de datasets met een hoge prevalentie van onbekende metabolieten en een beperkte dekking van metabole routes (bijv. lipidomics-gegevens). Deze tools zijn op grote schaal gebruikt door de onderzoeksgemeenschap om een breed scala aan metabolomics- en lipidomics-gegevens te analyseren 14,22,27,28,29,30<sup cla…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dit werk werd ondersteund door NIH 1U01CA235487-subsidie.

Materials

CorrelationCalculator JAVA http://metscape.med.umich.edu/calculator.html
clusterNet https://github.com/Karnovsky-Lab/clusterNet
Cytoscape Cytoscape https://cytoscape.org/
Filigree JAVA http://metscape.med.umich.edu/filigree.html
MetScape Cytoscape https://apps.cytoscape.org/apps/metscape Cytoscape application that allows for the creation and exploration of correlation networks.

References

  1. Sas, K. M., Karnovsky, A., Michailidis, G., Pennathur, S. Metabolomics and diabetes: analytical and computational approaches. Diabetes. 64 (3), 718-732 (2015).
  2. Cottret, L., et al. MetExplore: Collaborative edition and exploration of metabolic networks. Nucleic Acids Research. 46 (W1), W495-W502 (2018).
  3. Garcia-Alcalde, F., Garcia-Lopez, F., Dopazo, J., Conesa, A. Paintomics: A web based tool for the joint visualization of transcriptomics and metabolomics data. Bioinformatics. 27 (1), 137-139 (2011).
  4. Kuo, T. C., Tian, T. F., Tseng, Y. J. 3Omics: A web-based systems biology tool for analysis, integration and visualization of human transcriptomic, proteomic and metabolomic data. BMC Systems Biology. 7, 64 (2013).
  5. Paley, S. M., Karp, P. D. The pathway tools cellular overview diagram and Omics Viewer. Nucleic Acids Research. 34 (13), 3771-3778 (2006).
  6. Karnovsky, A., et al. Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene expression data. Bioinformatics. 28 (3), 373-380 (2012).
  7. Chong, J., Xia, J. Using MetaboAnalyst 4.0 for metabolomics data analysis, interpretation, and integration with other omics data. Methods in Molecular Biology. 2104, 337-360 (2020).
  8. Lopez-Ibanez, J., Pazos, F., Chagoyen, M. MBROLE 2.0-functional enrichment of chemical compounds. Nucleic Acids Research. 44 (W1), W201-W204 (2016).
  9. Cavalcante, R. G., et al. Broad-Enrich: Functional interpretation of large sets of broad genomic regions. Bioinformatics. 30 (17), i393-i400 (2014).
  10. Huang, D. W., et al. DAVID bioinformatics resources: Expanded annotation database and novel algorithms to better extract biology from large gene lists. Nucleic Acids Research. 35 (Web Server issue), W169-W175 (2007).
  11. Lee, P. H., O’Dushlaine, C., Thomas, B., Purcell, S. M. INRICH: interval-based enrichment analysis for genome-wide association studies. Bioinformatics. 28 (13), 1797-1799 (2012).
  12. Segre, A. V., Groop, L., Mootha, V. K., Daly, M. J., Altshuler, D. Common inherited variation in mitochondrial genes is not enriched for associations with type 2 diabetes or related glycemic traits. PLoS Genetics. 6 (8), e1001058 (2010).
  13. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102 (43), 15545-15550 (2005).
  14. Afshinnia, F., et al. Lipidomic signature of progression of chronic kidney disease in the chronic renal insufficiency cohort. Kidney International Reports. 1 (4), 256-268 (2016).
  15. Barupal, D. K., et al. MetaMapp: Mapping and visualizing metabolomic data by integrating information from biochemical pathways and chemical and mass spectral similarity. BMC Bioinformatics. 13, 99 (2012).
  16. Basu, S., et al. Sparse network modeling and Metscape-based visualization methods for the analysis of large-scale metabolomics data. Bioinformatics. 33 (10), 1545-1553 (2017).
  17. Krumsiek, J., Suhre, K., Illig, T., Adamski, J., Theis, F. J. Gaussian graphical modeling reconstructs pathway reactions from high-throughput metabolomics data. BMC Systems Biology. 5, 21 (2011).
  18. Camacho, D., de la Fuente, A., Mendes, P. The origin of correlations in metabolomics data. Metabolomics. 1 (1), 53-63 (2005).
  19. Steuer, R., Kurths, J., Fiehn, O., Weckwerth, W. Observing and interpreting correlations in metabolomic networks. Bioinformatics. 19 (8), 1019-1026 (2003).
  20. Bühlmann, P., Van De Geer, S. . Statistics for High-Dimensional Data: Methods, Theory and Applications. , (2011).
  21. Iyer, G. R., et al. Application of differential network enrichment analysis for deciphering metabolic alterations. Metabolites. 10 (12), 479 (2020).
  22. Ma, J., et al. Differential network enrichment analysis reveals novel lipid pathways in chronic kidney disease. Bioinformatics. 35 (18), 3441-3452 (2019).
  23. Shannon, P., et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Reserach. 13 (11), 2498-2504 (2003).
  24. Krumsiek, J., et al. Mining the unknown: a systems approach to metabolite identification combining genetic and metabolic information. PLoS Genetics. 8 (10), e1003005 (2012).
  25. Fahrmann, J., et al. Systemic alterations in the metabolome of diabetic NOD mice delineate increased oxidative stress accompanied by reduced inflammation and hypertriglyceremia. American Journal of Physiology. Endocrinology and Metabolism. 308 (11), E978-E989 (2015).
  26. Grapov, D., et al. Diabetes associated metabolomic perturbations in NOD mice. Metabolomics. 11 (2), 425-437 (2015).
  27. Jin, Y., Bai, S., Huang, Z., You, L., Zhang, T. Technology characteristics and flavor changes of traditional green wheat product nian zhuan in Northern China. Frontiers in Nutrition. 9, 996337 (2022).
  28. Lin, Y. S., et al. Probing folate-responsive and stage-sensitive metabolomics and transcriptional co-expression network markers to predict prognosis of non-small cell lung cancer patients. Nutrients. 15 (1), 3 (2022).
  29. Pan, C., et al. Metabolomics study identified bile acids as potential biomarkers for gastric cancer: A case control study. Frontiers in Endocrinology (Lausanne). 13, 1039786 (2022).
  30. Pancoro, A., Karima, E., Apriyanto, A., Effendi, Y. (1)H NMR metabolomics analysis of oil palm stem tissue infected by Ganoderma boninense based on field severity Indices. Scientific Reports. 12 (1), 21087 (2022).
  31. Chele, K. H., et al. A global metabolic map defines the effects of a Si-based biostimulant on tomato plants under normal and saline conditions. Metabolites. 11 (12), 820 (2021).
  32. Hubert, J., et al. The effect of residual pesticide application on microbiomes of the storage mite Tyrophagus putrescentiae. Microbial Ecology. 85 (4), 1527-1540 (2023).
  33. Li, K., et al. Metabolomic and exposomic biomarkers of risk of future neurodevelopmental delay in human milk. Pediatric Research. 93 (6), 1710-1720 (2023).
  34. Marino, C., et al. The metabolomic profile in amyotrophic lateral sclerosis changes according to the progression of the disease: An exploratory study. Metabolites. 12 (9), 837 (2022).
  35. Ma, J., Shojaie, A., Michailidis, G. Network-based pathway enrichment analysis with incomplete network information. Bioinformatics. 32 (20), 3165-3174 (2016).
  36. Mahieu, N. G., Patti, G. J. Systems-level annotation of a metabolomics data set reduces 25000 features to fewer than 1000 unique metabolites. Analytical Chemistry. 89 (19), 10397-10406 (2017).
check_url/65512?article_type=t

Play Video

Cite This Article
Iyer, G., Brandenburg, M., Patsalis, C., Michailidis, G., Karnovsky, A. CorrelationCalculator and Filigree: Tools for Data-Driven Network Analysis of Metabolomics Data. J. Vis. Exp. (201), e65512, doi:10.3791/65512 (2023).

View Video