Vi presenterer CorrelationCalculator og Filigree, to verktøy for datadrevet nettverkskonstruksjon og analyse av metabolomics-data. CorrelationCalculator støtter bygging av et enkelt interaksjonsnettverk av metabolitter basert på uttrykksdata, mens Filigree tillater å bygge et differensialnettverk, etterfulgt av nettverksklynger og anrikningsanalyse.
En betydelig utfordring i analysen av omics-data er å trekke ut handlingsbar biologisk kunnskap. Metabolomics er ikke noe unntak. Det generelle problemet med å relatere endringer i nivåer av individuelle metabolitter til spesifikke biologiske prosesser forsterkes av det store antallet ukjente metabolitter som er tilstede i ikke-målrettede væskekromatografi-massespektrometri (LC-MS) studier. Videre er sekundær metabolisme og lipidmetabolisme dårlig representert i eksisterende banedatabaser. For å overvinne disse begrensningene har vår gruppe utviklet flere verktøy for datadrevet nettverkskonstruksjon og analyse. Disse inkluderer CorrelationCalculator og Filigree. Begge verktøyene tillater brukere å bygge partielle korrelasjonsbaserte nettverk fra eksperimentelle metabolomics-data når antall metabolitter overstiger antall prøver. CorrelationCalculator støtter bygging av et enkelt nettverk, mens Filigree gjør det mulig å bygge et differensialnettverk ved hjelp av data fra to grupper av prøver, etterfulgt av nettverksklynger og berikelsesanalyse. Vi vil beskrive nytten og anvendelsen av begge verktøyene for analyse av virkelige metabolomics-data.
I det siste tiåret har metabolomikk dukket opp som en omics-vitenskap på grunn av fremskritt innen analytiske teknologier som gasskromatografi-massespektrometri (GC-MS) og væskekromatografi-massespektrometri (LC-MS). Disse teknikkene tillater samtidig måling av hundrevis til tusenvis av småmolekylære metabolitter, og skaper komplekse flerdimensjonale datasett. Metabolomics eksperimenter kan utføres i målrettede eller ikke-målrettede moduser. Målrettede metabolomics-eksperimenter måler spesifikke klasser av metabolitter. De er vanligvis hypotesedrevet, mens ikke-målrettede tilnærminger forsøker å måle så mange metabolitter som mulig og er hypotesegenererende i naturen. Målrettede analyser inkluderer vanligvis interne standarder og tillater dermed absolutt kvantifisering av metabolitter av interesse. I motsetning til dette tillater ikke-målrettede analyser relativ kvantifisering og inkluderer mange ukjente metabolitter1.
Analyse av metabolomics data er en multi-trinns prosess som utnytter mange spesialiserte programvareverktøy1. Det kan deles inn i følgende tre hovedtrinn: (1) databehandling og kvalitetskontroll, (2) statistisk analyse og (3) tolkning av biologiske data. Verktøyene beskrevet her er utformet for å muliggjøre det siste trinnet i analysen.
En intuitiv og populær måte å tolke metabolomics-data på er å kartlegge eksperimentelle målinger på metabolske veier. Tallrike verktøy er designet for å oppnå denne 2,3,4,5, inkludert Metscape, utviklet av vår gruppe6. Trasékartlegging kombineres ofte med berikelsesanalyse, som bidrar til å identifisere de viktigste veiene 7,8. Disse teknikkene ble først fremtredende i analysen av genuttrykksdata og har blitt brukt til analyse av proteomikk og epigenomikkdata 9,10,11,12,13. Analysen av metabolomics-data gir imidlertid en rekke utfordringer for kunnskapsbaserte tilnærminger. For det første, i tillegg til de endogene metabolittene, måler metabolomics-analyser eksogene forbindelser, inkludert de som kommer fra ernæring og andre miljøkilder. Disse forbindelsene, så vel som metabolitter produsert av bakterier, kan ikke kartlegges på menneskelige eller metabolske veier til andre eukaryote organismer. Videre tillater trasédekning av sekundær metabolisme og lipidmetabolisme for tiden ikke høyoppløselig kartlegging på det nivået som lett vil støtte den biologiske tolkningen av dataene14,15.
Datadrevne nettverksanalyseteknikker kan bidra til å overvinne disse utfordringene. For eksempel kan korrelasjonsbaserte nettverk bidra til å utlede relasjoner mellom både kjente og ukjente metabolitter og lette annotasjonen av de ukjente16. Mens beregning av Pearsons korrelasjonskoeffisienter er den enkleste tilnærmingen til å etablere de lineære forholdene mellom metabolitter, er ulempen at den fanger opp både direkte og indirekte assosiasjoner17,18,19. Et alternativ er å beregne partielle korrelasjonskoeffisienter som kan skille mellom direkte og indirekte sammenhenger. Gaussisk grafisk modellering (GGM) kan brukes til å estimere partielle korrelasjonsnettverk. GGM krever imidlertid at utvalgsstørrelsen og antall funksjoner er sammenlignbare. Denne tilstanden er sjelden oppfylt i ikke-målrettede LC-MS-data som inneholder målinger for tusenvis av metabolske egenskaper. Regulariseringsteknikker kan benyttes for å overvinne denne begrensningen. Grafisk lasso (Glasso) og nodevis regresjon er populære metoder for regularisert estimering av det partielle korrelasjonsnettverket16,20.
Det første av bioinformatikkverktøyene som presenteres her, CorrelationCalculator16, er basert på den debiased sparse partial correlation (DSPC) algoritmen. DSPC er avhengig av de-sparsifisert grafisk lassomodellering. Den underliggende antagelsen i algoritmen er at antall forbindelser mellom metabolittene er betydelig mindre enn antall prøver, dvs. det partielle korrelasjonsnettverket av metabolitter er sparsomt. Denne antagelsen gjør det mulig for DSPC å oppdage sammenhengen mellom et stort antall metabolitter ved å bruke færre prøver, ved å utnytte regulariserte regresjonsteknikker. Videre, ved å bruke et debiasing-trinn for de regulariserte regresjonsestimatene, oppnår den prøvefordelinger for kantparametrene som kan brukes til å konstruere konfidensintervaller og teste hypoteser av interesse (f.eks. tilstedeværelse / fravær av en enkelt eller en gruppe kanter). Tilstedeværelsen eller fraværet av et fortrinn i det partielle korrelasjonsnettverket kan dermed formelt testes ved hjelp av de beregnede p-verdiene.
CorrelationCalculator viste seg å være svært nyttig for enkeltgruppeanalyse16; Målet med mange metabolomics-eksperimenter er imidlertid differensialanalysen av to eller flere forhold. Mens CorrelationCalculator kan brukes på hver av gruppene separat for å generere delvise korrelasjonsnettverk for hver tilstand, begrenser denne tilnærmingen antall prøver som kan brukes til nettverksgenerering. Siden en tilstrekkelig stor utvalgsstørrelse er en av de største hensynene i datadrevet analyse, er metoder som kan utnytte alle tilgjengelige prøver i dataene for å konstruere nettverk, svært ønskelige. Denne tilnærmingen er implementert i det andre verktøyet som presenteres her, kalt Filigree21. Filigree er avhengig av den tidligere publiserte Differential Network Enrichment Analysis (DNEA) algoritmen22. Tabell 1 viser programmene og arbeidsflyten til begge verktøyene.
Antall eksperimentelle betingelser (k) | k = 1 | k = 2 |
Programvare verktøy | Korrelasjonskalkulator | Filigran |
Inndata | • Metabolitter x Prøver datamatrise | • Metabolitter x Prøver datamatrise • Eksperimentelle grupper |
Arbeidsflyt • Forbehandling • Estimering av nettverk • Nettverksklynger • Berikelse analyse |
• Logg transformasjon; Autoskalering • DSPC • Via eksterne apper •Nei |
• Logg transformasjon; Autoskalering • Estimering av felles nettverk • Konsensus clustering • NetGSA |
Datavisualisering | Via ekstern app, f.eks. | Via ekstern app, f.eks. |
Testing av metabolske moduler for assosiasjon med utfall av interesse (valgfritt) | Via eksterne apper | Via eksterne apper |
Tabell 1: Anvendelsesområdet og arbeidsflyten til CorrelationCalculator og Filigree.
Partielle korrelasjonsbaserte nettverksanalysemetoder implementert i CorrelationCalculator og Filigree bidrar til å overvinne noen av begrensningene i kunnskapsbaserte metabolske veianalyser, spesielt for datasettene med høy prevalens av ukjente metabolitter og begrenset dekning av metabolske veier (f.eks. lipidomikkdata). Disse verktøyene har blitt mye brukt av forskningsmiljøet for å analysere et bredt spekter av metabolomics og lipidomics data 14,22,27,28,29,30…
The authors have nothing to disclose.
Dette arbeidet ble støttet av NIH 1U01CA235487 stipend.
CorrelationCalculator | JAVA | http://metscape.med.umich.edu/calculator.html | |
clusterNet | https://github.com/Karnovsky-Lab/clusterNet | ||
Cytoscape | Cytoscape | https://cytoscape.org/ | |
Filigree | JAVA | http://metscape.med.umich.edu/filigree.html | |
MetScape | Cytoscape | https://apps.cytoscape.org/apps/metscape | Cytoscape application that allows for the creation and exploration of correlation networks. |