Summary

CorrelationCalculator e filigrana: strumenti per l'analisi di rete basata sui dati di metabolomica

Published: November 10, 2023
doi:

Summary

Presentiamo CorrelationCalculator e Filigree, due strumenti per la costruzione di reti basate sui dati e l’analisi dei dati metabolomici. CorrelationCalculator supporta la creazione di una singola rete di interazione di metaboliti basata sui dati di espressione, mentre Filigree consente di creare una rete differenziale, seguita dal clustering della rete e dall’analisi dell’arricchimento.

Abstract

Una sfida significativa nell’analisi dei dati omici è l’estrazione di conoscenze biologiche utilizzabili. La metabolomica non fa eccezione. Il problema generale di mettere in relazione le variazioni dei livelli dei singoli metaboliti con specifici processi biologici è aggravato dal gran numero di metaboliti sconosciuti presenti negli studi di cromatografia liquida e spettrometria di massa (LC-MS) non mirati. Inoltre, il metabolismo secondario e il metabolismo lipidico sono scarsamente rappresentati nei database di pathway esistenti. Per superare queste limitazioni, il nostro gruppo ha sviluppato diversi strumenti per la costruzione e l’analisi di reti basate sui dati. Questi includono CorrelationCalculator e Filigree. Entrambi gli strumenti consentono agli utenti di costruire reti basate sulla correlazione parziale a partire da dati di metabolomica sperimentale quando il numero di metaboliti supera il numero di campioni. CorrelationCalculator supporta la costruzione di una singola rete, mentre Filigree consente di creare una rete differenziale utilizzando i dati di due gruppi di campioni, seguiti dal clustering della rete e dall’analisi dell’arricchimento. Descriveremo l’utilità e l’applicazione di entrambi gli strumenti per l’analisi di dati metabolomici reali.

Introduction

Nell’ultimo decennio, la metabolomica è emersa come scienza omica grazie ai progressi nelle tecnologie analitiche come la gascromatografia-spettrometria di massa (GC-MS) e la cromatografia liquida-spettrometria di massa (LC-MS). Queste tecniche consentono la misurazione simultanea di centinaia o migliaia di metaboliti di piccole molecole, creando complessi set di dati multidimensionali. Gli esperimenti di metabolomica possono essere eseguiti in modalità mirata o non mirata. Esperimenti mirati di metabolomica misurano classi specifiche di metaboliti. Di solito sono guidati da ipotesi, mentre gli approcci non mirati tentano di misurare il maggior numero possibile di metaboliti e sono di natura generatrice di ipotesi. I saggi mirati di solito includono standard interni e consentono quindi una quantificazione assoluta dei metaboliti di interesse. Al contrario, i saggi non mirati consentono una quantificazione relativa e includono molti metaboliti sconosciuti1.

L’analisi dei dati metabolomici è un processo in più fasi che sfrutta molti strumenti software specializzati1. Può essere suddiviso nelle seguenti tre fasi principali: (1) elaborazione dei dati e controllo di qualità, (2) analisi statistica e (3) interpretazione dei dati biologici. Gli strumenti qui descritti sono progettati per consentire l’ultima fase dell’analisi.

Un modo intuitivo e popolare per interpretare i dati metabolomici è quello di mappare le misurazioni sperimentali sulle vie metaboliche. Per raggiungere questo obiettivo sono stati progettati numerosi strumenti 2,3,4,5, tra cui Metscape, sviluppato dal nostro gruppo6. La mappatura dei percorsi è spesso combinata con l’analisi dell’arricchimento, che aiuta a identificare i percorsi più significativi 7,8. Queste tecniche hanno acquisito importanza nell’analisi dei dati di espressione genica e sono state applicate con successo per l’analisi dei dati di proteomica ed epigenomica 9,10,11,12,13. Tuttavia, l’analisi dei dati metabolomici presenta una serie di sfide per gli approcci basati sulla conoscenza. In primo luogo, oltre ai metaboliti endogeni, i saggi metabolomici misurano i composti esogeni, compresi quelli che provengono dalla nutrizione e da altre fonti ambientali. Questi composti, così come i metaboliti prodotti dai batteri, non possono essere mappati sulle vie umane o metaboliche di altri organismi eucarioti. Inoltre, la copertura del pathway del metabolismo secondario e del metabolismo lipidico attualmente non consente una mappatura ad alta risoluzione al livello che supporterebbe facilmente l’interpretazione biologica dei dati14,15.

Le tecniche di analisi di rete basate sui dati possono aiutare a superare queste sfide. Ad esempio, le reti basate sulla correlazione possono aiutare a derivare relazioni tra metaboliti noti e sconosciuti e facilitare l’annotazione delle incognite16. Mentre il calcolo dei coefficienti di correlazione di Pearson è l’approccio più semplice per stabilire le relazioni lineari tra i metaboliti, lo svantaggio è che cattura sia le associazioni dirette che indirette17,18,19. Un’alternativa consiste nel calcolare coefficienti di correlazione parziale in grado di distinguere tra associazioni dirette e indirette. La modellazione grafica gaussiana (GGM) può essere utilizzata per stimare le reti di correlazione parziale. Tuttavia, GGM richiede che la dimensione del campione e il numero di feature siano comparabili. Questa condizione è raramente soddisfatta nei dati LC-MS non mirati che contengono misurazioni per migliaia di caratteristiche metaboliche. Le tecniche di regolarizzazione possono essere utilizzate per superare questa limitazione. Il lazo grafico (Glasso) e la regressione per nodo sono metodi popolari per la stima regolarizzata della rete di correlazione parziale 16,20.

Il primo degli strumenti bioinformatici qui presentati, CorrelationCalculator16, si basa sull’algoritmo di correlazione parziale sparsa distorta (DSPC). DSPC si basa sulla modellazione lazo grafica de-sparsificata. L’ipotesi alla base dell’algoritmo è che il numero di connessioni tra i metaboliti è considerevolmente inferiore al numero di campioni, cioè la rete di correlazione parziale dei metaboliti è scarsa. Questa ipotesi consente al DSPC di scoprire la connettività tra un gran numero di metaboliti utilizzando un minor numero di campioni, sfruttando tecniche di regressione regolarizzata. Inoltre, utilizzando un passaggio di debiasing per le stime di regressione regolarizzate, ottiene distribuzioni di campionamento per i parametri del bordo che possono essere utilizzate per costruire intervalli di confidenza e testare ipotesi di interesse (ad esempio, presenza/assenza di un singolo o di un gruppo di bordi). La presenza o l’assenza di un bordo nella rete di correlazione parziale può quindi essere formalmente verificata utilizzando i valori p calcolati.

CorrelationCalculator si è rivelato molto utile per l’analisi a gruppo singolo16; Tuttavia, l’obiettivo di molti esperimenti di metabolomica è l’analisi differenziale di due o più condizioni. Mentre CorrelationCalculator può essere utilizzato su ciascuno dei gruppi separatamente per generare reti di correlazione parziale per ogni condizione, questo approccio limita il numero di campioni che possono essere usati per la generazione di rete. Poiché una dimensione del campione sufficientemente grande è una delle considerazioni più importanti nell’analisi basata sui dati, i metodi in grado di sfruttare tutti i campioni disponibili nei dati per costruire reti sono altamente desiderabili. Questo approccio è implementato nel secondo strumento qui presentato, chiamato Filigrana21. Filigree si basa sull’algoritmo DNEA (Differential Network Enrichment Analysis) pubblicato in precedenza22. La tabella 1 mostra le applicazioni e il flusso di lavoro di entrambi gli strumenti.

Numero di condizioni sperimentali (k) k = 1 k = 2
Strumento software Calcolatore di correlazione Filigrana
Dati di input • Matrice di dati Metaboliti x Campioni • Matrice di dati Metaboliti x Campioni
• Gruppi sperimentali
Flusso di lavoro
•Pretrattamento
• Stima della rete
• Clustering di rete
• Analisi dell’arricchimento

• Trasformazione dei log; Scalabilità automatica
• DSPC
• Tramite app esterne
•No

• Trasformazione dei log; Scalabilità automatica
• Stima della rete congiunta
• Clustering del consenso
• NetGSA
Visualizzazione dei dati Tramite app esterna, ad es. Cytoscape Tramite app esterna, ad es. Cytoscape
Test dei moduli metabolici per l’associazione con esito di interesse (opzionale) Tramite app esterne Tramite app esterne

Tabella 1: L’ambito di applicazione e il flusso di lavoro di CorrelationCalculator e Filigree.

Protocol

1. Calcolatore di correlazione Scaricare un file di input delimitato da virgole di esempio contenente un elenco di metaboliti con misurazioni sperimentali a http://metscape.med.umich.edu/kora_data_240.csv. Fare doppio clic sul file di esempio scaricato per aprirlo.Assicurarsi che il file contenga etichette sia per i campioni che per i metaboliti. Poiché i campioni sono divisi in righe, verificare che la prima colonna sia costituita dai nomi dei campioni e che la pr…

Representative Results

Per illustrare l’uso di CorrelationCalculator, abbiamo costruito una rete di correlazione parziale utilizzando un sottoinsieme dei dati metabolomici dello studio sulla popolazione KORA descritto in Krumsiek et al.24. Il set di dati conteneva 151 metaboliti e 240 campioni. La Figura 1 mostra la rete di correlazione parziale risultante che è stata visualizzata in Cytoscape. La rete contiene 148 nodi e 272 archi. Il colore dei nodi rappresenta i metaboliti che …

Discussion

I metodi di analisi di rete basati sulla correlazione parziale implementati in CorrelationCalculator e Filigree aiutano a superare alcuni dei limiti delle analisi delle vie metaboliche basate sulla conoscenza, in particolare per i set di dati con un’elevata prevalenza di metaboliti sconosciuti e una copertura limitata delle vie metaboliche (ad esempio, dati lipidomici). Questi strumenti sono stati ampiamente utilizzati dalla comunità di ricerca per analizzare un’ampia gamma di dati metabolomici e lipidomici 14,22,27,28,…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Questo lavoro è stato supportato dalla sovvenzione NIH 1U01CA235487.

Materials

CorrelationCalculator JAVA http://metscape.med.umich.edu/calculator.html
clusterNet https://github.com/Karnovsky-Lab/clusterNet
Cytoscape Cytoscape https://cytoscape.org/
Filigree JAVA http://metscape.med.umich.edu/filigree.html
MetScape Cytoscape https://apps.cytoscape.org/apps/metscape Cytoscape application that allows for the creation and exploration of correlation networks.

References

  1. Sas, K. M., Karnovsky, A., Michailidis, G., Pennathur, S. Metabolomics and diabetes: analytical and computational approaches. Diabetes. 64 (3), 718-732 (2015).
  2. Cottret, L., et al. MetExplore: Collaborative edition and exploration of metabolic networks. Nucleic Acids Research. 46 (W1), W495-W502 (2018).
  3. Garcia-Alcalde, F., Garcia-Lopez, F., Dopazo, J., Conesa, A. Paintomics: A web based tool for the joint visualization of transcriptomics and metabolomics data. Bioinformatics. 27 (1), 137-139 (2011).
  4. Kuo, T. C., Tian, T. F., Tseng, Y. J. 3Omics: A web-based systems biology tool for analysis, integration and visualization of human transcriptomic, proteomic and metabolomic data. BMC Systems Biology. 7, 64 (2013).
  5. Paley, S. M., Karp, P. D. The pathway tools cellular overview diagram and Omics Viewer. Nucleic Acids Research. 34 (13), 3771-3778 (2006).
  6. Karnovsky, A., et al. Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene expression data. Bioinformatics. 28 (3), 373-380 (2012).
  7. Chong, J., Xia, J. Using MetaboAnalyst 4.0 for metabolomics data analysis, interpretation, and integration with other omics data. Methods in Molecular Biology. 2104, 337-360 (2020).
  8. Lopez-Ibanez, J., Pazos, F., Chagoyen, M. MBROLE 2.0-functional enrichment of chemical compounds. Nucleic Acids Research. 44 (W1), W201-W204 (2016).
  9. Cavalcante, R. G., et al. Broad-Enrich: Functional interpretation of large sets of broad genomic regions. Bioinformatics. 30 (17), i393-i400 (2014).
  10. Huang, D. W., et al. DAVID bioinformatics resources: Expanded annotation database and novel algorithms to better extract biology from large gene lists. Nucleic Acids Research. 35 (Web Server issue), W169-W175 (2007).
  11. Lee, P. H., O’Dushlaine, C., Thomas, B., Purcell, S. M. INRICH: interval-based enrichment analysis for genome-wide association studies. Bioinformatics. 28 (13), 1797-1799 (2012).
  12. Segre, A. V., Groop, L., Mootha, V. K., Daly, M. J., Altshuler, D. Common inherited variation in mitochondrial genes is not enriched for associations with type 2 diabetes or related glycemic traits. PLoS Genetics. 6 (8), e1001058 (2010).
  13. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102 (43), 15545-15550 (2005).
  14. Afshinnia, F., et al. Lipidomic signature of progression of chronic kidney disease in the chronic renal insufficiency cohort. Kidney International Reports. 1 (4), 256-268 (2016).
  15. Barupal, D. K., et al. MetaMapp: Mapping and visualizing metabolomic data by integrating information from biochemical pathways and chemical and mass spectral similarity. BMC Bioinformatics. 13, 99 (2012).
  16. Basu, S., et al. Sparse network modeling and Metscape-based visualization methods for the analysis of large-scale metabolomics data. Bioinformatics. 33 (10), 1545-1553 (2017).
  17. Krumsiek, J., Suhre, K., Illig, T., Adamski, J., Theis, F. J. Gaussian graphical modeling reconstructs pathway reactions from high-throughput metabolomics data. BMC Systems Biology. 5, 21 (2011).
  18. Camacho, D., de la Fuente, A., Mendes, P. The origin of correlations in metabolomics data. Metabolomics. 1 (1), 53-63 (2005).
  19. Steuer, R., Kurths, J., Fiehn, O., Weckwerth, W. Observing and interpreting correlations in metabolomic networks. Bioinformatics. 19 (8), 1019-1026 (2003).
  20. Bühlmann, P., Van De Geer, S. . Statistics for High-Dimensional Data: Methods, Theory and Applications. , (2011).
  21. Iyer, G. R., et al. Application of differential network enrichment analysis for deciphering metabolic alterations. Metabolites. 10 (12), 479 (2020).
  22. Ma, J., et al. Differential network enrichment analysis reveals novel lipid pathways in chronic kidney disease. Bioinformatics. 35 (18), 3441-3452 (2019).
  23. Shannon, P., et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Reserach. 13 (11), 2498-2504 (2003).
  24. Krumsiek, J., et al. Mining the unknown: a systems approach to metabolite identification combining genetic and metabolic information. PLoS Genetics. 8 (10), e1003005 (2012).
  25. Fahrmann, J., et al. Systemic alterations in the metabolome of diabetic NOD mice delineate increased oxidative stress accompanied by reduced inflammation and hypertriglyceremia. American Journal of Physiology. Endocrinology and Metabolism. 308 (11), E978-E989 (2015).
  26. Grapov, D., et al. Diabetes associated metabolomic perturbations in NOD mice. Metabolomics. 11 (2), 425-437 (2015).
  27. Jin, Y., Bai, S., Huang, Z., You, L., Zhang, T. Technology characteristics and flavor changes of traditional green wheat product nian zhuan in Northern China. Frontiers in Nutrition. 9, 996337 (2022).
  28. Lin, Y. S., et al. Probing folate-responsive and stage-sensitive metabolomics and transcriptional co-expression network markers to predict prognosis of non-small cell lung cancer patients. Nutrients. 15 (1), 3 (2022).
  29. Pan, C., et al. Metabolomics study identified bile acids as potential biomarkers for gastric cancer: A case control study. Frontiers in Endocrinology (Lausanne). 13, 1039786 (2022).
  30. Pancoro, A., Karima, E., Apriyanto, A., Effendi, Y. (1)H NMR metabolomics analysis of oil palm stem tissue infected by Ganoderma boninense based on field severity Indices. Scientific Reports. 12 (1), 21087 (2022).
  31. Chele, K. H., et al. A global metabolic map defines the effects of a Si-based biostimulant on tomato plants under normal and saline conditions. Metabolites. 11 (12), 820 (2021).
  32. Hubert, J., et al. The effect of residual pesticide application on microbiomes of the storage mite Tyrophagus putrescentiae. Microbial Ecology. 85 (4), 1527-1540 (2023).
  33. Li, K., et al. Metabolomic and exposomic biomarkers of risk of future neurodevelopmental delay in human milk. Pediatric Research. 93 (6), 1710-1720 (2023).
  34. Marino, C., et al. The metabolomic profile in amyotrophic lateral sclerosis changes according to the progression of the disease: An exploratory study. Metabolites. 12 (9), 837 (2022).
  35. Ma, J., Shojaie, A., Michailidis, G. Network-based pathway enrichment analysis with incomplete network information. Bioinformatics. 32 (20), 3165-3174 (2016).
  36. Mahieu, N. G., Patti, G. J. Systems-level annotation of a metabolomics data set reduces 25000 features to fewer than 1000 unique metabolites. Analytical Chemistry. 89 (19), 10397-10406 (2017).
check_url/65512?article_type=t

Play Video

Cite This Article
Iyer, G., Brandenburg, M., Patsalis, C., Michailidis, G., Karnovsky, A. CorrelationCalculator and Filigree: Tools for Data-Driven Network Analysis of Metabolomics Data. J. Vis. Exp. (201), e65512, doi:10.3791/65512 (2023).

View Video