Summary

CorrelationCalculator og Filigree: Verktøy for datadrevet nettverksanalyse av metabolomics-data

Published: November 10, 2023
doi:

Summary

Vi presenterer CorrelationCalculator og Filigree, to verktøy for datadrevet nettverkskonstruksjon og analyse av metabolomics-data. CorrelationCalculator støtter bygging av et enkelt interaksjonsnettverk av metabolitter basert på uttrykksdata, mens Filigree tillater å bygge et differensialnettverk, etterfulgt av nettverksklynger og anrikningsanalyse.

Abstract

En betydelig utfordring i analysen av omics-data er å trekke ut handlingsbar biologisk kunnskap. Metabolomics er ikke noe unntak. Det generelle problemet med å relatere endringer i nivåer av individuelle metabolitter til spesifikke biologiske prosesser forsterkes av det store antallet ukjente metabolitter som er tilstede i ikke-målrettede væskekromatografi-massespektrometri (LC-MS) studier. Videre er sekundær metabolisme og lipidmetabolisme dårlig representert i eksisterende banedatabaser. For å overvinne disse begrensningene har vår gruppe utviklet flere verktøy for datadrevet nettverkskonstruksjon og analyse. Disse inkluderer CorrelationCalculator og Filigree. Begge verktøyene tillater brukere å bygge partielle korrelasjonsbaserte nettverk fra eksperimentelle metabolomics-data når antall metabolitter overstiger antall prøver. CorrelationCalculator støtter bygging av et enkelt nettverk, mens Filigree gjør det mulig å bygge et differensialnettverk ved hjelp av data fra to grupper av prøver, etterfulgt av nettverksklynger og berikelsesanalyse. Vi vil beskrive nytten og anvendelsen av begge verktøyene for analyse av virkelige metabolomics-data.

Introduction

I det siste tiåret har metabolomikk dukket opp som en omics-vitenskap på grunn av fremskritt innen analytiske teknologier som gasskromatografi-massespektrometri (GC-MS) og væskekromatografi-massespektrometri (LC-MS). Disse teknikkene tillater samtidig måling av hundrevis til tusenvis av småmolekylære metabolitter, og skaper komplekse flerdimensjonale datasett. Metabolomics eksperimenter kan utføres i målrettede eller ikke-målrettede moduser. Målrettede metabolomics-eksperimenter måler spesifikke klasser av metabolitter. De er vanligvis hypotesedrevet, mens ikke-målrettede tilnærminger forsøker å måle så mange metabolitter som mulig og er hypotesegenererende i naturen. Målrettede analyser inkluderer vanligvis interne standarder og tillater dermed absolutt kvantifisering av metabolitter av interesse. I motsetning til dette tillater ikke-målrettede analyser relativ kvantifisering og inkluderer mange ukjente metabolitter1.

Analyse av metabolomics data er en multi-trinns prosess som utnytter mange spesialiserte programvareverktøy1. Det kan deles inn i følgende tre hovedtrinn: (1) databehandling og kvalitetskontroll, (2) statistisk analyse og (3) tolkning av biologiske data. Verktøyene beskrevet her er utformet for å muliggjøre det siste trinnet i analysen.

En intuitiv og populær måte å tolke metabolomics-data på er å kartlegge eksperimentelle målinger på metabolske veier. Tallrike verktøy er designet for å oppnå denne 2,3,4,5, inkludert Metscape, utviklet av vår gruppe6. Trasékartlegging kombineres ofte med berikelsesanalyse, som bidrar til å identifisere de viktigste veiene 7,8. Disse teknikkene ble først fremtredende i analysen av genuttrykksdata og har blitt brukt til analyse av proteomikk og epigenomikkdata 9,10,11,12,13. Analysen av metabolomics-data gir imidlertid en rekke utfordringer for kunnskapsbaserte tilnærminger. For det første, i tillegg til de endogene metabolittene, måler metabolomics-analyser eksogene forbindelser, inkludert de som kommer fra ernæring og andre miljøkilder. Disse forbindelsene, så vel som metabolitter produsert av bakterier, kan ikke kartlegges på menneskelige eller metabolske veier til andre eukaryote organismer. Videre tillater trasédekning av sekundær metabolisme og lipidmetabolisme for tiden ikke høyoppløselig kartlegging på det nivået som lett vil støtte den biologiske tolkningen av dataene14,15.

Datadrevne nettverksanalyseteknikker kan bidra til å overvinne disse utfordringene. For eksempel kan korrelasjonsbaserte nettverk bidra til å utlede relasjoner mellom både kjente og ukjente metabolitter og lette annotasjonen av de ukjente16. Mens beregning av Pearsons korrelasjonskoeffisienter er den enkleste tilnærmingen til å etablere de lineære forholdene mellom metabolitter, er ulempen at den fanger opp både direkte og indirekte assosiasjoner17,18,19. Et alternativ er å beregne partielle korrelasjonskoeffisienter som kan skille mellom direkte og indirekte sammenhenger. Gaussisk grafisk modellering (GGM) kan brukes til å estimere partielle korrelasjonsnettverk. GGM krever imidlertid at utvalgsstørrelsen og antall funksjoner er sammenlignbare. Denne tilstanden er sjelden oppfylt i ikke-målrettede LC-MS-data som inneholder målinger for tusenvis av metabolske egenskaper. Regulariseringsteknikker kan benyttes for å overvinne denne begrensningen. Grafisk lasso (Glasso) og nodevis regresjon er populære metoder for regularisert estimering av det partielle korrelasjonsnettverket16,20.

Det første av bioinformatikkverktøyene som presenteres her, CorrelationCalculator16, er basert på den debiased sparse partial correlation (DSPC) algoritmen. DSPC er avhengig av de-sparsifisert grafisk lassomodellering. Den underliggende antagelsen i algoritmen er at antall forbindelser mellom metabolittene er betydelig mindre enn antall prøver, dvs. det partielle korrelasjonsnettverket av metabolitter er sparsomt. Denne antagelsen gjør det mulig for DSPC å oppdage sammenhengen mellom et stort antall metabolitter ved å bruke færre prøver, ved å utnytte regulariserte regresjonsteknikker. Videre, ved å bruke et debiasing-trinn for de regulariserte regresjonsestimatene, oppnår den prøvefordelinger for kantparametrene som kan brukes til å konstruere konfidensintervaller og teste hypoteser av interesse (f.eks. tilstedeværelse / fravær av en enkelt eller en gruppe kanter). Tilstedeværelsen eller fraværet av et fortrinn i det partielle korrelasjonsnettverket kan dermed formelt testes ved hjelp av de beregnede p-verdiene.

CorrelationCalculator viste seg å være svært nyttig for enkeltgruppeanalyse16; Målet med mange metabolomics-eksperimenter er imidlertid differensialanalysen av to eller flere forhold. Mens CorrelationCalculator kan brukes på hver av gruppene separat for å generere delvise korrelasjonsnettverk for hver tilstand, begrenser denne tilnærmingen antall prøver som kan brukes til nettverksgenerering. Siden en tilstrekkelig stor utvalgsstørrelse er en av de største hensynene i datadrevet analyse, er metoder som kan utnytte alle tilgjengelige prøver i dataene for å konstruere nettverk, svært ønskelige. Denne tilnærmingen er implementert i det andre verktøyet som presenteres her, kalt Filigree21. Filigree er avhengig av den tidligere publiserte Differential Network Enrichment Analysis (DNEA) algoritmen22. Tabell 1 viser programmene og arbeidsflyten til begge verktøyene.

Antall eksperimentelle betingelser (k) k = 1 k = 2
Programvare verktøy Korrelasjonskalkulator Filigran
Inndata • Metabolitter x Prøver datamatrise • Metabolitter x Prøver datamatrise
• Eksperimentelle grupper
Arbeidsflyt
• Forbehandling
• Estimering av nettverk
• Nettverksklynger
• Berikelse analyse

• Logg transformasjon; Autoskalering
• DSPC
• Via eksterne apper
•Nei

• Logg transformasjon; Autoskalering
• Estimering av felles nettverk
• Konsensus clustering
• NetGSA
Datavisualisering Via ekstern app, f.eks. Via ekstern app, f.eks.
Testing av metabolske moduler for assosiasjon med utfall av interesse (valgfritt) Via eksterne apper Via eksterne apper

Tabell 1: Anvendelsesområdet og arbeidsflyten til CorrelationCalculator og Filigree.

Protocol

1. Korrelasjonskalkulator Last ned et eksempel på kommadelt inndatafil som inneholder en liste over metabolitter med eksperimentelle målinger på http://metscape.med.umich.edu/kora_data_240.csv. Dobbeltklikk på den nedlastede eksempelfilen for å åpne den.Kontroller at filen inneholder etiketter for både prøvene og metabolittene. Siden prøvene er i rader, må du bekrefte at den første kolonnen er prøvenavnene og den første raden er metabolittnavnene. …

Representative Results

For å illustrere bruken av CorrelationCalculator konstruerte vi et partielt korrelasjonsnettverk ved hjelp av en delmengde av metabolomics-dataene fra KORA-populasjonsstudien beskrevet i Krumsiek et al.24. Datasettet inneholdt 151 metabolitter og 240 prøver. Figur 1 viser det resulterende partielle korrelasjonsnettverket som ble visualisert i Cytoscape. Nettverket inneholder 148 noder og 272 kanter. Fargen på nodene representerer metabolitter som tilhører…

Discussion

Partielle korrelasjonsbaserte nettverksanalysemetoder implementert i CorrelationCalculator og Filigree bidrar til å overvinne noen av begrensningene i kunnskapsbaserte metabolske veianalyser, spesielt for datasettene med høy prevalens av ukjente metabolitter og begrenset dekning av metabolske veier (f.eks. lipidomikkdata). Disse verktøyene har blitt mye brukt av forskningsmiljøet for å analysere et bredt spekter av metabolomics og lipidomics data 14,22,27,28,29,30

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dette arbeidet ble støttet av NIH 1U01CA235487 stipend.

Materials

CorrelationCalculator JAVA http://metscape.med.umich.edu/calculator.html
clusterNet https://github.com/Karnovsky-Lab/clusterNet
Cytoscape Cytoscape https://cytoscape.org/
Filigree JAVA http://metscape.med.umich.edu/filigree.html
MetScape Cytoscape https://apps.cytoscape.org/apps/metscape Cytoscape application that allows for the creation and exploration of correlation networks.

References

  1. Sas, K. M., Karnovsky, A., Michailidis, G., Pennathur, S. Metabolomics and diabetes: analytical and computational approaches. Diabetes. 64 (3), 718-732 (2015).
  2. Cottret, L., et al. MetExplore: Collaborative edition and exploration of metabolic networks. Nucleic Acids Research. 46 (W1), W495-W502 (2018).
  3. Garcia-Alcalde, F., Garcia-Lopez, F., Dopazo, J., Conesa, A. Paintomics: A web based tool for the joint visualization of transcriptomics and metabolomics data. Bioinformatics. 27 (1), 137-139 (2011).
  4. Kuo, T. C., Tian, T. F., Tseng, Y. J. 3Omics: A web-based systems biology tool for analysis, integration and visualization of human transcriptomic, proteomic and metabolomic data. BMC Systems Biology. 7, 64 (2013).
  5. Paley, S. M., Karp, P. D. The pathway tools cellular overview diagram and Omics Viewer. Nucleic Acids Research. 34 (13), 3771-3778 (2006).
  6. Karnovsky, A., et al. Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene expression data. Bioinformatics. 28 (3), 373-380 (2012).
  7. Chong, J., Xia, J. Using MetaboAnalyst 4.0 for metabolomics data analysis, interpretation, and integration with other omics data. Methods in Molecular Biology. 2104, 337-360 (2020).
  8. Lopez-Ibanez, J., Pazos, F., Chagoyen, M. MBROLE 2.0-functional enrichment of chemical compounds. Nucleic Acids Research. 44 (W1), W201-W204 (2016).
  9. Cavalcante, R. G., et al. Broad-Enrich: Functional interpretation of large sets of broad genomic regions. Bioinformatics. 30 (17), i393-i400 (2014).
  10. Huang, D. W., et al. DAVID bioinformatics resources: Expanded annotation database and novel algorithms to better extract biology from large gene lists. Nucleic Acids Research. 35 (Web Server issue), W169-W175 (2007).
  11. Lee, P. H., O’Dushlaine, C., Thomas, B., Purcell, S. M. INRICH: interval-based enrichment analysis for genome-wide association studies. Bioinformatics. 28 (13), 1797-1799 (2012).
  12. Segre, A. V., Groop, L., Mootha, V. K., Daly, M. J., Altshuler, D. Common inherited variation in mitochondrial genes is not enriched for associations with type 2 diabetes or related glycemic traits. PLoS Genetics. 6 (8), e1001058 (2010).
  13. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102 (43), 15545-15550 (2005).
  14. Afshinnia, F., et al. Lipidomic signature of progression of chronic kidney disease in the chronic renal insufficiency cohort. Kidney International Reports. 1 (4), 256-268 (2016).
  15. Barupal, D. K., et al. MetaMapp: Mapping and visualizing metabolomic data by integrating information from biochemical pathways and chemical and mass spectral similarity. BMC Bioinformatics. 13, 99 (2012).
  16. Basu, S., et al. Sparse network modeling and Metscape-based visualization methods for the analysis of large-scale metabolomics data. Bioinformatics. 33 (10), 1545-1553 (2017).
  17. Krumsiek, J., Suhre, K., Illig, T., Adamski, J., Theis, F. J. Gaussian graphical modeling reconstructs pathway reactions from high-throughput metabolomics data. BMC Systems Biology. 5, 21 (2011).
  18. Camacho, D., de la Fuente, A., Mendes, P. The origin of correlations in metabolomics data. Metabolomics. 1 (1), 53-63 (2005).
  19. Steuer, R., Kurths, J., Fiehn, O., Weckwerth, W. Observing and interpreting correlations in metabolomic networks. Bioinformatics. 19 (8), 1019-1026 (2003).
  20. Bühlmann, P., Van De Geer, S. . Statistics for High-Dimensional Data: Methods, Theory and Applications. , (2011).
  21. Iyer, G. R., et al. Application of differential network enrichment analysis for deciphering metabolic alterations. Metabolites. 10 (12), 479 (2020).
  22. Ma, J., et al. Differential network enrichment analysis reveals novel lipid pathways in chronic kidney disease. Bioinformatics. 35 (18), 3441-3452 (2019).
  23. Shannon, P., et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Reserach. 13 (11), 2498-2504 (2003).
  24. Krumsiek, J., et al. Mining the unknown: a systems approach to metabolite identification combining genetic and metabolic information. PLoS Genetics. 8 (10), e1003005 (2012).
  25. Fahrmann, J., et al. Systemic alterations in the metabolome of diabetic NOD mice delineate increased oxidative stress accompanied by reduced inflammation and hypertriglyceremia. American Journal of Physiology. Endocrinology and Metabolism. 308 (11), E978-E989 (2015).
  26. Grapov, D., et al. Diabetes associated metabolomic perturbations in NOD mice. Metabolomics. 11 (2), 425-437 (2015).
  27. Jin, Y., Bai, S., Huang, Z., You, L., Zhang, T. Technology characteristics and flavor changes of traditional green wheat product nian zhuan in Northern China. Frontiers in Nutrition. 9, 996337 (2022).
  28. Lin, Y. S., et al. Probing folate-responsive and stage-sensitive metabolomics and transcriptional co-expression network markers to predict prognosis of non-small cell lung cancer patients. Nutrients. 15 (1), 3 (2022).
  29. Pan, C., et al. Metabolomics study identified bile acids as potential biomarkers for gastric cancer: A case control study. Frontiers in Endocrinology (Lausanne). 13, 1039786 (2022).
  30. Pancoro, A., Karima, E., Apriyanto, A., Effendi, Y. (1)H NMR metabolomics analysis of oil palm stem tissue infected by Ganoderma boninense based on field severity Indices. Scientific Reports. 12 (1), 21087 (2022).
  31. Chele, K. H., et al. A global metabolic map defines the effects of a Si-based biostimulant on tomato plants under normal and saline conditions. Metabolites. 11 (12), 820 (2021).
  32. Hubert, J., et al. The effect of residual pesticide application on microbiomes of the storage mite Tyrophagus putrescentiae. Microbial Ecology. 85 (4), 1527-1540 (2023).
  33. Li, K., et al. Metabolomic and exposomic biomarkers of risk of future neurodevelopmental delay in human milk. Pediatric Research. 93 (6), 1710-1720 (2023).
  34. Marino, C., et al. The metabolomic profile in amyotrophic lateral sclerosis changes according to the progression of the disease: An exploratory study. Metabolites. 12 (9), 837 (2022).
  35. Ma, J., Shojaie, A., Michailidis, G. Network-based pathway enrichment analysis with incomplete network information. Bioinformatics. 32 (20), 3165-3174 (2016).
  36. Mahieu, N. G., Patti, G. J. Systems-level annotation of a metabolomics data set reduces 25000 features to fewer than 1000 unique metabolites. Analytical Chemistry. 89 (19), 10397-10406 (2017).
check_url/65512?article_type=t

Play Video

Cite This Article
Iyer, G., Brandenburg, M., Patsalis, C., Michailidis, G., Karnovsky, A. CorrelationCalculator and Filigree: Tools for Data-Driven Network Analysis of Metabolomics Data. J. Vis. Exp. (201), e65512, doi:10.3791/65512 (2023).

View Video