We presenteren CorrelationCalculator en Filigree, twee tools voor datagestuurde netwerkconstructie en analyse van metabolomics-gegevens. CorrelationCalculator ondersteunt het bouwen van een enkel interactienetwerk van metabolieten op basis van expressiegegevens, terwijl Filigree het mogelijk maakt om een differentieel netwerk te bouwen, gevolgd door netwerkclustering en verrijkingsanalyse.
Een belangrijke uitdaging bij de analyse van omics-gegevens is het extraheren van bruikbare biologische kennis. Metabolomics is geen uitzondering. Het algemene probleem van het relateren van veranderingen in niveaus van individuele metabolieten aan specifieke biologische processen wordt nog verergerd door het grote aantal onbekende metabolieten dat aanwezig is in ongerichte vloeistofchromatografie-massaspectrometrie (LC-MS)-studies. Verder zijn secundair metabolisme en lipidenmetabolisme slecht vertegenwoordigd in bestaande pathway-databases. Om deze beperkingen te overwinnen, heeft onze groep verschillende tools ontwikkeld voor datagestuurde netwerkconstructie en -analyse. Deze omvatten CorrelationCalculator en Filigree. Beide tools stellen gebruikers in staat om op partiële correlatie gebaseerde netwerken op te bouwen op basis van experimentele metabolomics-gegevens wanneer het aantal metabolieten groter is dan het aantal monsters. CorrelationCalculator ondersteunt de bouw van een enkel netwerk, terwijl Filigree het mogelijk maakt om een differentieel netwerk te bouwen met behulp van gegevens van twee groepen monsters, gevolgd door netwerkclustering en verrijkingsanalyse. We zullen het nut en de toepassing van beide tools beschrijven voor de analyse van real-life metabolomics-gegevens.
In het afgelopen decennium is metabolomics naar voren gekomen als een omics-wetenschap als gevolg van vooruitgang in analytische technologieën zoals gaschromatografie-massaspectrometrie (GC-MS) en vloeistofchromatografie-massaspectrometrie (LC-MS). Deze technieken maken het mogelijk om honderden tot duizenden metabolieten van kleine moleculen gelijktijdig te meten, waardoor complexe multidimensionale datasets ontstaan. Metabolomics-experimenten kunnen worden uitgevoerd in gerichte of niet-gerichte modi. Gerichte metabolomics-experimenten meten specifieke klassen van metabolieten. Ze zijn meestal hypothese-gedreven, terwijl ongerichte benaderingen proberen zoveel mogelijk metabolieten te meten en hypothese-genererend van aard zijn. Gerichte assays bevatten meestal interne standaarden en maken dus een absolute kwantificering van metabolieten van belang mogelijk. Daarentegen maken ongerichte assays relatieve kwantificering mogelijk en bevatten ze veel onbekendemetabolieten1.
Analyse van metabolomics-gegevens is een proces dat uit meerdere stappen bestaat en dat gebruikmaakt van veel gespecialiseerdesoftwaretools1. Het kan worden onderverdeeld in de volgende drie hoofdstappen: (1) gegevensverwerking en kwaliteitscontrole, (2) statistische analyse en (3) interpretatie van biologische gegevens. De hier beschreven tools zijn ontworpen om de laatste stap van de analyse mogelijk te maken.
Een intuïtieve en populaire manier om metabolomics-gegevens te interpreteren, is door de experimentele metingen in kaart te brengen op metabole routes. Er zijn tal van tools ontworpen om ditte bereiken 2,3,4,5, waaronder Metscape, ontwikkeld door onze groep6. Het in kaart brengen van paden wordt vaak gecombineerd met verrijkingsanalyse, wat helpt bij het identificeren van de belangrijkste routes 7,8. Deze technieken kregen voor het eerst bekendheid in de analyse van genexpressiegegevens en zijn met succes toegepast voor de analyse van proteomics- en epigenomics-gegevens 9,10,11,12,13. De analyse van metabolomics-gegevens brengt echter een aantal uitdagingen met zich mee voor op kennis gebaseerde benaderingen. Ten eerste meten metabolomics-assays naast de endogene metabolieten exogene verbindingen, inclusief verbindingen die afkomstig zijn van voeding en andere milieubronnen. Deze verbindingen, evenals metabolieten die door bacteriën worden geproduceerd, kunnen niet in kaart worden gebracht op menselijke of metabole routes van andere eukaryote organismen. Verder maakt de routedekking van secundair metabolisme en lipidenmetabolisme het momenteel niet mogelijk om met hoge resolutie in kaart te brengen op het niveau dat de biologische interpretatie van de gegevens gemakkelijk zou ondersteunen14,15.
Datagestuurde netwerkanalysetechnieken kunnen helpen deze uitdagingen het hoofd te bieden. Op correlaties gebaseerde netwerken kunnen bijvoorbeeld helpen bij het afleiden van relaties tussen zowel bekende als onbekende metabolieten en het annoteren van de onbekenden vergemakkelijken16. Hoewel het berekenen van de correlatiecoëfficiënten van Pearson de meest eenvoudige benadering is om de lineaire relaties tussen metabolieten vast te stellen, is het nadeel dat het zowel directe als indirecte associaties vastlegt17,18,19. Een alternatief is het berekenen van partiële correlatiecoëfficiënten die onderscheid kunnen maken tussen directe en indirecte associaties. Gaussiaanse grafische modellering (GGM) kan worden gebruikt om partiële correlatienetwerken te schatten. GGM vereist echter dat de steekproefomvang en het aantal kenmerken vergelijkbaar zijn. Aan deze voorwaarde wordt zelden voldaan in ongerichte LC-MS-gegevens die metingen bevatten voor duizenden metabole kenmerken. Regularisatietechnieken kunnen worden gebruikt om deze beperking te overwinnen. Grafische lasso (Glasso) en knoopsgewijze regressie zijn populaire methoden voor geregulariseerde schatting van het partiële correlatienetwerk 16,20.
De eerste van de hier gepresenteerde bio-informaticatools, CorrelationCalculator16, is gebaseerd op het DSPC-algoritme (Debiased Sparse Partiële Correlatie). DSPC vertrouwt op gedesparsificeerde grafische lasso-modellering. De onderliggende aanname van het algoritme is dat het aantal verbindingen tussen de metabolieten aanzienlijk kleiner is dan het aantal monsters, d.w.z. dat het partiële correlatienetwerk van metabolieten schaars is. Deze aanname stelt DSPC in staat om de connectiviteit tussen grote aantallen metabolieten te ontdekken met behulp van minder monsters, gebruikmakend van geregulariseerde regressietechnieken. Verder verkrijgt het, met behulp van een debiasing-stap voor de geregulariseerde regressieschattingen, steekproefverdelingen voor de randparameters die kunnen worden gebruikt om betrouwbaarheidsintervallen te construeren en interessante hypothesen te testen (bijv. aan- of afwezigheid van een enkele of een groep randen). De aan- of afwezigheid van een rand in het partiële correlatienetwerk kan dus formeel worden getest met behulp van de berekende p-waarden.
CorrelationCalculator bleek zeer nuttig te zijn voor analyse van één groep16; Het doel van veel metabolomics-experimenten is echter de differentiële analyse van twee of meer aandoeningen. Hoewel CorrelationCalculator op elk van de groepen afzonderlijk kan worden gebruikt om gedeeltelijke correlatienetwerken voor elke voorwaarde te genereren, beperkt deze benadering het aantal monsters dat kan worden gebruikt voor het genereren van netwerken. Aangezien een voldoende grote steekproefomvang een van de grootste overwegingen is bij datagestuurde analyse, zijn methoden die alle beschikbare steekproeven in de gegevens kunnen benutten om netwerken te bouwen zeer wenselijk. Deze aanpak wordt geïmplementeerd in de tweede tool die hier wordt gepresenteerd, genaamd Filigree21. Filigraan is gebaseerd op het eerder gepubliceerde Differential Network Enrichment Analysis (DNEA)-algoritme22. Tabel 1 toont de toepassingen en de workflow van beide tools.
Aantal experimentele omstandigheden (k) | k = 1 | k = 2 |
Software-instrument | CorrelatieCalculator | Filigraan |
Gegevens invoeren | • Metabolieten x Monsters datamatrix | • Metabolieten x Monsters datamatrix • Experimentele groepen |
Werkwijze •Voorbehandeling • Schatting van het netwerk • Netwerk clustering • Verrijkingsanalyse |
• Log transformatie; Automatisch schalen • DSPC • Via externe apps •Nee |
• Log transformatie; Automatisch schalen • Gezamenlijke netwerkraming • Clustering van consensus • NetGSA |
Data visualisatie | Via externe app, bijv. Cytoscape | Via externe app, bijv. Cytoscape |
Metabole modules testen op de associatie met de uitkomst van belang (optioneel) | Via externe apps | Via externe apps |
Tabel 1: Het toepassingsgebied en de workflow van CorrelationCalculator en Filigree.
Partiële correlatie-gebaseerde netwerkanalysemethoden geïmplementeerd in CorrelationCalculator en Filigree helpen enkele van de beperkingen van op kennis gebaseerde metabole routeanalyses te overwinnen, met name voor de datasets met een hoge prevalentie van onbekende metabolieten en een beperkte dekking van metabole routes (bijv. lipidomics-gegevens). Deze tools zijn op grote schaal gebruikt door de onderzoeksgemeenschap om een breed scala aan metabolomics- en lipidomics-gegevens te analyseren 14,22,27,28,29,30<sup cla…
The authors have nothing to disclose.
Dit werk werd ondersteund door NIH 1U01CA235487-subsidie.
CorrelationCalculator | JAVA | http://metscape.med.umich.edu/calculator.html | |
clusterNet | https://github.com/Karnovsky-Lab/clusterNet | ||
Cytoscape | Cytoscape | https://cytoscape.org/ | |
Filigree | JAVA | http://metscape.med.umich.edu/filigree.html | |
MetScape | Cytoscape | https://apps.cytoscape.org/apps/metscape | Cytoscape application that allows for the creation and exploration of correlation networks. |