Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

CorrelationCalculator und Filigrane: Werkzeuge zur datengetriebenen Netzwerkanalyse von Metabolomik-Daten

Published: November 10, 2023 doi: 10.3791/65512

Summary

Wir stellen CorrelationCalculator und Filigree vor, zwei Werkzeuge für den datengesteuerten Netzwerkaufbau und die Analyse von Metabolomik-Daten. CorrelationCalculator unterstützt den Aufbau eines einzelnen Interaktionsnetzwerks von Metaboliten auf der Grundlage von Expressionsdaten, während Filigran den Aufbau eines differentiellen Netzwerks ermöglicht, gefolgt von Netzwerk-Clustering und Anreicherungsanalyse.

Abstract

Eine große Herausforderung bei der Analyse von Omics-Daten ist die Gewinnung von verwertbarem biologischem Wissen. Die Metabolomik ist da keine Ausnahme. Das allgemeine Problem, Veränderungen in den Konzentrationen einzelner Metaboliten mit spezifischen biologischen Prozessen in Verbindung zu bringen, wird durch die große Anzahl unbekannter Metaboliten verschärft, die in ungezielten Flüssigchromatographie-Massenspektrometrie-Studien (LC-MS) vorhanden sind. Darüber hinaus sind der Sekundärstoffwechsel und der Fettstoffwechsel in bestehenden Signalwegdatenbanken nur unzureichend vertreten. Um diese Einschränkungen zu überwinden, hat unsere Gruppe mehrere Tools für den datengesteuerten Netzwerkaufbau und die Analyse entwickelt. Dazu gehören CorrelationCalculator und Filigree. Beide Tools ermöglichen es Benutzern, partielle korrelationsbasierte Netzwerke aus experimentellen Metabolomik-Daten zu erstellen, wenn die Anzahl der Metaboliten die Anzahl der Proben übersteigt. CorrelationCalculator unterstützt den Aufbau eines einzelnen Netzwerks, während Filigran den Aufbau eines differenziellen Netzwerks unter Verwendung von Daten aus zwei Gruppen von Stichproben ermöglicht, gefolgt von Netzwerk-Clustering und Anreicherungsanalyse. Wir werden den Nutzen und die Anwendung beider Werkzeuge für die Analyse realer Metabolomics-Daten beschreiben.

Introduction

In den letzten zehn Jahren hat sich die Metabolomik aufgrund von Fortschritten in analytischen Technologien wie der Gaschromatographie-Massenspektrometrie (GC-MS) und der Flüssigkeitschromatographie-Massenspektrometrie (LC-MS) zu einer Omics-Wissenschaft entwickelt. Diese Techniken ermöglichen die gleichzeitige Messung von Hunderten bis Tausenden von niedermolekularen Metaboliten, wodurch komplexe mehrdimensionale Datensätze erstellt werden. Metabolomics-Experimente können im gezielten oder ungezielten Modus durchgeführt werden. Gezielte Metabolomik-Experimente messen bestimmte Klassen von Metaboliten. Sie sind in der Regel hypothesengetrieben, während ungezielte Ansätze versuchen, so viele Metaboliten wie möglich zu messen, und hypothesengenerierender Natur sind. Gezielte Assays enthalten in der Regel interne Standards und ermöglichen so eine absolute Quantifizierung der interessierenden Metaboliten. Im Gegensatz dazu ermöglichen ungezielte Assays eine relative Quantifizierung und umfassen viele unbekannte Metaboliten1.

Die Analyse von Metabolomik-Daten ist ein mehrstufiger Prozess, der viele spezialisierte Software-Tools nutzt1. Es kann in die folgenden drei Hauptschritte unterteilt werden: (1) Datenverarbeitung und Qualitätskontrolle, (2) statistische Analyse und (3) Interpretation biologischer Daten. Die hier beschriebenen Werkzeuge sind so konzipiert, dass sie den letzten Schritt der Analyse ermöglichen.

Eine intuitive und beliebte Methode zur Interpretation von Metabolomik-Daten besteht darin, die experimentellen Messungen auf Stoffwechselwege abzubilden. Um diese 2,3,4,5 zu erreichen, wurden zahlreiche Tools entwickelt, darunter Metscape, das von unserer Gruppe6 entwickelt wurde. Die Kartierung der Signalwege wird häufig mit einer Anreicherungsanalyse kombiniert, die dabei hilft, die wichtigsten Signalwege zu identifizieren 7,8. Diese Techniken erlangten erstmals bei der Analyse von Genexpressionsdaten an Bedeutung und wurden erfolgreich für die Analyse von Proteomik- und Epigenomik-Daten eingesetzt 9,10,11,12,13. Die Analyse von Metabolomics-Daten stellt jedoch eine Reihe von Herausforderungen für wissensbasierte Ansätze dar. Erstens messen Metabolomik-Assays zusätzlich zu den endogenen Metaboliten exogene Verbindungen, einschließlich solcher, die aus der Ernährung und anderen Umweltquellen stammen. Diese Verbindungen sowie die von Bakterien produzierten Metaboliten können nicht auf menschliche oder metabolische Wege anderer eukaryotischer Organismen abgebildet werden. Darüber hinaus erlaubt die Abdeckung des Sekundärstoffwechsels und des Lipidstoffwechsels derzeit keine hochauflösende Kartierung auf einem Niveau, das die biologische Interpretation der Daten leicht unterstützen würde14,15.

Datengesteuerte Netzwerkanalysetechniken können helfen, diese Herausforderungen zu meistern. Zum Beispiel können korrelationsbasierte Netzwerke helfen, Beziehungen zwischen bekannten und unbekannten Metaboliten abzuleiten und die Annotation der Unbekannten zu erleichtern16. Während die Berechnung der Pearson-Korrelationskoeffizienten der einfachste Ansatz ist, um die linearen Beziehungen zwischen Metaboliten zu ermitteln, besteht der Nachteil darin, dass sie sowohl direkte als auch indirekte Assoziationen erfasst17,18,19. Eine Alternative besteht darin, partielle Korrelationskoeffizienten zu berechnen, die zwischen direkten und indirekten Assoziationen unterscheiden können. Die Gaußsche grafische Modellierung (GGM) kann zur Schätzung partieller Korrelationsnetzwerke verwendet werden. GGM verlangt jedoch, dass die Stichprobengröße und die Anzahl der Merkmale vergleichbar sind. Diese Bedingung ist bei ungezielten LC-MS-Daten, die Messungen für Tausende von Stoffwechselmerkmalen enthalten, selten erfüllt. Regularisierungstechniken können verwendet werden, um diese Einschränkung zu überwinden. Graphisches Lasso (Glasso) und knotenweise Regression sind beliebte Methoden zur regularisierten Schätzung des partiellen Korrelationsnetzwerks16,20.

Das erste der hier vorgestellten Bioinformatik-Werkzeuge, CorrelationCalculator16, basiert auf dem Debiased Sparse Partial Correlation (DSPC)-Algorithmus. DSPC stützt sich auf die entsparsifizierte grafische Lasso-Modellierung. Dem Algorithmus liegt die Annahme zugrunde, dass die Anzahl der Verbindungen zwischen den Metaboliten deutlich kleiner ist als die Anzahl der Proben, d.h. das partielle Korrelationsnetzwerk der Metaboliten ist spärlich. Diese Annahme ermöglicht es DSPC, die Konnektivität zwischen einer großen Anzahl von Metaboliten mit weniger Proben zu entdecken und dabei regulierte Regressionstechniken zu nutzen. Darüber hinaus erhält es unter Verwendung eines Debiasing-Schritts für die regularisierten Regressionsschätzungen Stichprobenverteilungen für die Kantenparameter, die verwendet werden können, um Konfidenzintervalle zu konstruieren und Hypothesen von Interesse zu testen (z. B. Vorhandensein/Fehlen einer einzelnen oder einer Gruppe von Kanten). Das Vorhandensein oder Fehlen einer Kante im partiellen Korrelationsnetzwerk kann somit formal mit den berechneten p-Werten getestet werden.

CorrelationCalculator erwies sich als sehr nützlich für die Einzelgruppenanalyse16; Das Ziel vieler Metabolomics-Experimente ist jedoch die differentielle Analyse von zwei oder mehr Bedingungen. Während CorrelationCalculator für jede der Gruppen separat eingesetzt werden kann, um partielle Korrelationsnetzwerke für jede Bedingung zu generieren, begrenzt dieser Ansatz die Anzahl der Stichproben, die für die Netzwerkgenerierung verwendet werden können. Da eine ausreichend große Stichprobengröße eine der wichtigsten Überlegungen bei der datengetriebenen Analyse ist, sind Methoden, die alle verfügbaren Stichproben in den Daten nutzen können, um Netzwerke zu konstruieren, sehr wünschenswert. Dieser Ansatz wird im zweiten hier vorgestellten Tool mit dem Namen Filigran21 umgesetzt. Filigree stützt sich auf den zuvor veröffentlichten DNEA-Algorithmus (Differential Network Enrichment Analysis)22. Tabelle 1 zeigt die Anwendungen und den Workflow beider Tools.

Anzahl der Versuchsbedingungen (k) k = 1 k = 2
Programmentwicklungssystem Korrelationsrechner Filigran
Eingangsdaten • Metaboliten x Proben Datenmatrix • Metaboliten x Proben Datenmatrix
• Experimentelle Gruppen
Arbeitsablauf
•Vorbehandlung
• Schätzung des Netzwerks
• Netzwerk-Clustering
• Anreicherungsanalyse

• Log-Transformation; Automatische Skalierung
• DSPC
• Über externe Apps
•Nein

• Log-Transformation; Automatische Skalierung
• Schätzung des gemeinsamen Netzes
• Konsens-Clustering
• NetGSA
Datenvisualisierung Über externe App, z.B. Cytoscape Über externe App, z.B. Cytoscape
Testen von Stoffwechselmodulen auf die Assoziation mit dem interessierenden Ergebnis (optional) Über externe Apps Über externe Apps

Tabelle 1: Der Anwendungsbereich und der Workflow von CorrelationCalculator und Filigree.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Korrelationsrechner

  1. Laden Sie eine kommagetrennte Beispieleingabedatei herunter, die eine Liste der Metaboliten mit experimentellen Messungen bei http://metscape.med.umich.edu/kora_data_240.csv enthält.
  2. Doppelklicken Sie auf die heruntergeladene Beispieldatei, um sie zu öffnen.
    1. Stellen Sie sicher, dass die Datei Etiketten sowohl für die Proben als auch für die Metaboliten enthält.
    2. Da sich die Proben in Zeilen befinden, vergewissern Sie sich, dass die erste Spalte die Probennamen und die erste Zeile die Metabolitennamen enthält.
  3. Laden Sie die Java-Anwendung CorrelationCalculator (http://metscape.med.umich.edu/calculator.html) herunter. Doppelklicken Sie auf die heruntergeladene .jar-Datei, um die Anwendung zu starten.
  4. Klicken Sie auf der Registerkarte Eingabe auf die Schaltfläche Durchsuchen , um die Eingabedatei hochzuladen.
  5. Verwenden Sie unter Dateiformat angeben den Dropdown-Pfeil, um das entsprechende Eingabedateiformat auszuwählen. Wählen Sie Stichproben in Zeilen aus (ergänzende Abbildung 1).
  6. Wechseln Sie zur Registerkarte Datennormalisierung , indem Sie unten rechts im Fenster auf die Schaltfläche Nächste >> klicken.
  7. Aktivieren Sie unter Methode(n) auswählen das Kontrollkästchen neben Log2-Transform Data. Aktivieren Sie das Kontrollkästchen neben Daten automatisch skalieren.
  8. Klicken Sie unter Daten normalisieren auf die Schaltfläche Ausführen .
    HINWEIS: Sobald die Normalisierung abgeschlossen ist, klicken Sie auf die Schaltfläche Normalisierte Daten anzeigen , die sich unter Daten normalisieren befindet, und überprüfen Sie das aktualisierte Dataset (ergänzende Abbildung 2).
  9. Klicken Sie unter " Daten normalisieren" auf die Schaltfläche "Speichern " und speichern Sie die neue Datendatei.
  10. Wechseln Sie zur Registerkarte Datenanalyse , indem Sie unten rechts im Fenster auf die Schaltfläche Nächste >> klicken.
  11. Klicken Sie unter Pearson-Korrelation berechnen auf Ausführen. Bestimmen Sie den besten Pearson-Korrelationsbereich für die Daten.
    1. Klicken Sie auf die Schaltfläche Histogramm anzeigen . Überprüfen Sie die Häufigkeit der maximalen Pearson-Korrelationswerte pro Feature.
    2. Klicken Sie auf die Schaltfläche Heatmap anzeigen . Sehen Sie sich die Darstellung der Korrelationsmatrix von Pearson an.
  12. Behalten Sie unter Nach Pearson-Korrelationen filtern die Standardzahlen bei, um nach einem Bereich von 0,00 bis 1,00 zu filtern
    HINWEIS: Schieben Sie den kleinen blauen Pfeil am rechten Ende von 1 und den kleinen blauen Pfeil links von 0, um den Filter zu ändern. Die Eingabe bestimmter Zahlen in die Textfelder ist ebenfalls eine Option.
  13. Wählen Sie unter Partielle Korrelationsmethode auswählen die gewünschte Methode DSPC-Methode aus.
    HINWEIS: Wenn die Anzahl der Metaboliten kleiner ist als die Anzahl der Proben im Datensatz, kann nur die DSPC-Methode verwendet werden.
  14. Klicken Sie unter Partielle Korrelationen berechnen auf die Schaltfläche Ausführen (ergänzende Abbildung 3).
  15. Klicken Sie auf CSV-Datei anzeigen und zeigen Sie die Ergebnisse an. Klicken Sie auf die Schaltfläche Speichern und speichern Sie die Ergebnisse.
  16. Klicken Sie auf die Schaltfläche In MetScape anzeigen , um ein interaktives Korrelationsnetzwerk zu starten.
    Siehe Karnovsky, A. et al.6 für weitere Informationen zur Verwendung von MetScape.
    HINWEIS: MetScape ist eine Cytoscape-Anwendung, die die Erstellung und Untersuchung von Korrelationsnetzwerken ermöglicht.

2. Filigran

  1. Laden Sie eine kommagetrennte Beispieleingabedatei herunter, die Metabolitenmessungen bei http://metscape.med.umich.edu/T1D_primaryMetabolites_noIS_log_scaled_sorted.csv enthält.
  2. Doppelklicken Sie auf die heruntergeladene Beispieldatei, um sie zu öffnen.
    1. Stellen Sie sicher, dass die Datei Beispielnamen in Spalte 1 und Gruppenzuweisungen in Spalte 2 enthält. Vergewissern Sie sich, dass die verbleibenden Spalten Metaboliten/Lipide enthalten.
    2. Stellen Sie sicher, dass jede Zeile eine Stichprobe darstellt.
      HINWEIS: Die Metabolitenmessungen sollten logarithmisch transformiert und automatisch skaliert werden, es sei denn, es wird eine Merkmalsaggregation durchgeführt, in diesem Fall sollten die Messungen nur logarithmisch transformiert werden.
  3. Laden Sie die Anwendung Filigree Java (http://metscape.med.umich.edu/filigree.html) herunter.
    HINWEIS: Ein ausführliches Benutzerhandbuch finden Sie unter http://metscape.ncibi.org/v0.1.2Filigree_UserManual.pdf.
  4. Doppelklicken Sie auf die heruntergeladene .jar-Datei, um die Anwendung zu starten.
  5. Klicken Sie auf der Registerkarte Daten auf die Schaltfläche Durchsuchen , um die Eingabedatei hochzuladen.
  6. Klicken Sie unter Spalten/Zeilen angeben auf den Dropdown-Pfeil neben Beispiel-ID , um den entsprechenden Spalten-/Zeilennamen aus der Eingabedatei auszuwählen. Wählen Sie Sample (Beispiel) aus.
  7. Klicken Sie unter Spalten/Zeilen angeben auf den Dropdown-Pfeil neben "Gruppieren", um die entsprechende Spalte/Zeile aus der Eingabedatei auszuwählen. Wählen Sie Gruppe aus.
  8. Klicken Sie unter " Beispielgruppen angeben" auf die Dropdown-Pfeile neben jeder Gruppe , um die entsprechende Gruppenspalte aus der Eingabedatei auszuwählen. Wählen Sie für Gruppe 1 Diabetiker aus. Wählen Sie für Gruppe 2 die Option Nicht-Diabetiker aus.
  9. Aktivieren Sie unter Feature-Gruppierung das Kontrollkästchen neben der gewünschten Methode Feature-Gruppen berechnen.
  10. Klicken Sie auf die Schaltfläche Heatmaps anzeigen . Sehen Sie sich die Heatmap an und bestimmen Sie eine gewünschte prozentuale Reduzierung.
  11. Verwenden Sie den Schieberegler Feature-Reduzierung , um die gewünschte prozentuale Reduzierung von Features auszuwählen. Verschieben Sie den kleinen Kreis, bis die prozentuale Reduzierung ein Merkmal-zu-Stichproben-Verhältnis von 1,25 aufweist (ergänzende Abbildung 4).
  12. Wechseln Sie zur Registerkarte Analyse , indem Sie unten rechts im Fenster auf die Schaltfläche Nächste >> klicken.
  13. Klicken Sie unter Ausgabeverzeichnis auswählen auf die Schaltfläche Durchsuchen und wählen Sie den gewünschten Speicherort für die generierten Ausgabedateien aus.
  14. Klicken Sie auf die Schaltfläche Analyse ausführen unten links im Fenster. Die Fortschrittsbalken werden für jede Analysekomponente aktualisiert (ergänzende Abbildung 5). Klicken Sie auf die Schaltfläche OK im Popup-Fenster, in dem die Meldung Analyse erfolgreich abgeschlossen angezeigt wird.
  15. Klicken Sie auf der Registerkarte Analyse auf die Schaltfläche Netzwerke durchsuchen , um die interaktiven Filigranen Teilnetze in einer Browserregisterkarte zu öffnen.
  16. Klicken Sie auf den Link Teilnetz 1 in der Spalte Teilnetzname .
  17. Erkunden Sie das interaktive Teilnetz mithilfe der verschiedenen Schaltflächen. Klicken Sie auf die Schaltfläche + und vergrößern Sie den Teil des Netzwerks. Klicken Sie auf die Schaltfläche -, und verkleinern Sie die Ansicht (ergänzende Abbildung 6).
  18. Klicken Sie auf einen Gruppenknoten , und ziehen Sie ihn, um ihn innerhalb des Teilnetzes neu zu positionieren.
    HINWEIS: Die Knotenfarbe steht für die Auf-/Abwärtsregulierung und die Farbdeckkraft für die höhere/niedrigere Falzänderung. Die Kantenfarbe stellt den unterschiedlichen Status zwischen den Gruppen dar.
  19. Klicken Sie oben rechts auf der Seite auf die Schaltfläche Features erweitern, um alle Gruppenknoten zu erweitern . Überprüfen Sie die spezifischen Verbindungen, aus denen die Gruppenknoten bestehen.
  20. Klicken Sie oben rechts auf der Seite auf die Schaltfläche Features reduzieren , um die zuletzt erweiterten Gruppenknoten auszublenden.
  21. Klicken Sie oben rechts auf der Seite auf die Schaltfläche Nach Stichprobengruppe , um die Ansicht von einem einzelnen Teilnetz in mehrere Teilnetze zu ändern, die nach einer Gruppe aufgeteilt sind. Untersuchen und vergleichen Sie die Gruppen in dieser Ansicht der Teilnetze (ergänzende Abbildung 7).
  22. Klicken Sie auf die Schaltfläche Alle Stichproben , um zur Ansicht eines einzelnen Teilnetzes zurückzukehren.
  23. Zeigen Sie das nächste Teilnetz an, indem Sie oben rechts auf der Seite auf die Schaltfläche Weiter klicken.
  24. Wiederholen Sie die Schritte 2.19 bis 2.23 für jedes Teilnetz.
  25. Klicken Sie oben in der Mitte des Fensters auf den Link Ergebnisse der differenziellen Netzwerkanreicherungsanalyse , um zur Übersichtstabellenansicht zurückzukehren, in der alle Teilnetze aufgeführt sind.
    HINWEIS: Importieren Sie die Edge- und/oder Knotenausgabedateien in ein anderes Software-Tool, z. B. Cytoscape23, um zusätzliche Netzwerkvisualisierungen zu erstellen.

3. Zusätzliche Erwägungen

  1. Bei Mac-Computern, auf denen Big Sur (OSX 11.2) oder neuer ausgeführt wird, genehmigen Sie das Tool im Apple-Menü > Systemeinstellungen > Sicherheit & Datenschutz > Allgemein und wählen Sie unten im Tab die Option "Zulassen " aus.
  2. Erlauben Sie außerdem Filigrane Zugriff auf die Dateien im Apple-Menü > Systemeinstellungen > Sicherheit > Datenschutz , indem Sie im Menü auf der linken Seite die Option " Dateien und Ordner" und dann im Menü auf der rechten Seite die Option " Filigran" auswählen.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Um die Verwendung von CorrelationCalculator zu veranschaulichen, konstruierten wir ein partielles Korrelationsnetzwerk unter Verwendung einer Teilmenge der Metabolomik-Daten aus der KORA-Populationsstudie, die in Krumsiek et al.24 beschrieben wurden. Der Datensatz enthielt 151 Metaboliten und 240 Proben. Abbildung 1 zeigt das resultierende partielle Korrelationsnetzwerk, das in Cytoscape visualisiert wurde. Das Netzwerk umfasst 148 Knoten und 272 Edges. Die Farbe der Knoten stellt Metaboliten dar, die zu verschiedenen chemischen Klassen gehören, während die Kanten den angepassten p-Wert der partiellen Korrelationskoeffizienten darstellen (angepasster p-Wert < 0,05). Bemerkenswert ist, dass CorrelationCalculator trotz des Fehlens früherer Informationen in der Lage war, chemisch verwandte Metaboliten zu gruppieren. So sind beispielsweise Phosphatidylcholine und Lysophosphatidylcholine im Netzwerk eng miteinander verbunden. Die Visualisierung von Metabolitenänderungen im Kontext dieser Art von Netzwerk kann die Hypothesengenerierung erleichtern, bei der Planung zukünftiger Experimente helfen und die Vorbereitung von Manuskripten ermöglichen. Um einen möglichen Arbeitsablauf unter Verwendung eines partiellen Korrelationsmetabolitennetzwerks zu veranschaulichen, führten wir ein Konsensus-Netzwerk-Clustering durch, wie in Ma et al.22 beschrieben, was zur Identifizierung von 9 Subnetzwerken oder metabolischen Modulen führte. Diese Module hatten eine gute Übereinstimmung mit den chemischen Klassen, d.h. Metaboliten, die zur gleichen chemischen Klasse gehörten, waren tendenziell Teil desselben Stoffwechselmoduls. Der Benutzer kann unter https://github.com/Karnovsky-Lab/clusterNet auf das Clustering-Tool clusterNet zugreifen.

Figure 1
Abbildung 1: Repräsentatives Beispiel eines CorrelationCalculator-Netzwerks. Das Netzwerk wurde aus einer Teilmenge der Metabolomik-Daten der KORA-Populationsstudie24 erstellt, die aus 151 Metaboliten von 240 Probanden besteht. Die Knoten stellen Metaboliten dar, und die Kanten, die sie verbinden, werden mit dem angepassten p-Wert der partiellen Korrelationskoeffizienten gewichtet (angepasster p-Wert < 0,05). Die Form der Knoten stellt verschiedene metabolische Klassen dar, und die Farbe stellt metabolische Module dar, die durch Clustering des Netzwerks mit der Konsens-Clustering-Methode erhalten werden. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Wir veranschaulichen die Anwendung von Filigran, indem wir einen Datensatz aus einem Mausmodell für Typ-I-Diabetes (T1D) analysieren25,26. Plasmametabolitenmessungen von T1D- und nicht-diabetischen (NOD) Mäusen wurden verwendet, um ein differentielles partielles Korrelationsnetzwerk zu generieren (Abbildung 2). Bemerkenswert ist, dass wir in der Gruppe der Nicht-Diabetiker ein höheres Maß an Netzwerkkonnektivität beobachten. In den nächsten Schritten der Analyse wurden zwölf Stoffwechselmodule identifiziert, von denen sich neun zwischen T1D- und nicht-diabetischen Mäusen signifikant unterschieden (FDR < 0,05). Wir verweisen den Leser auf die Originalpublikation, um weitere Einblicke in die biologischen Schlussfolgerungen zu erhalten, die aus dieser Analyse gezogen werden können21.

Figure 2
Abbildung 2: Repräsentatives Beispiel für ein filigranes Netzwerk. Das differentielle Netzwerk wurde unter Verwendung der Konzentrationen von 163 Metaboliten von 71 Mäusen (30 T1D und 41 Nicht-T1D) konstruiert25,26. Differenzielle Kanten zwischen T1D- und Nicht-T1D-Gruppen sind rosa bzw. blau dargestellt. Die Knoten werden basierend auf der Falzänderung eingefärbt. Die Tabelle zeigt die Anreicherungsergebnisse, die von Filigran erzeugt wurden. Neun der zwölf identifizierten Teilnetze unterschieden sich signifikant zwischen T1D und Nicht-T1D (adjustierter p-Wert < 0,05). Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Ergänzende Abbildung 1: CorrCalc_InputTab. Screenshot der Registerkarte "Eingabe" des Korrelationsrechners. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Abbildung 2: CorrCalc_DataNormTab. Screenshot der Registerkarte "Datennormalisierung" des Korrelationsrechners. Log-2-Transformationsdaten und Daten für die automatische Skalierung sind aktiviert. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Abbildung 3: CorrCalc_DataAnalTab. Screenshot der Registerkarte "Datenanalyse" des Korrelationsrechners, die das Filtern nach Pearsons Korrelation von 0-0,8 zeigt. Darüber hinaus wurde die DSPC-Methode ausgewählt. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Abbildung 4: Filigree_DataTab. Screenshot des Daten-Tabs von Filigree . Spalten, Zeilen und Gruppen wurden angegeben. Die Methode " Feature-Gruppen berechnen " wurde mit einer Feature-Reduktion von 1,25 ausgewählt. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Abbildung 5: Filigree_AnalysisTab. Screenshot der Registerkarte "Analyse" von Filigree, die den Fortschritt der verschiedenen Analysekomponenten zeigt. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Abbildung 6: Filigree_Subnetwork1. Ein aus Filigran generiertes Teilnetz. Die Knotenfarbe stellt die Auf-/Abwärtsregulierung dar, und die Farbdeckkraft stellt eine höhere/niedrigere Falzänderung dar. Die Kantenfarbe stellt den unterschiedlichen Status zwischen den Gruppen dar. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Abbildung 7: Filigree_Subnetwork_SampleGroup. Teilnetz, getrennt nach Gruppen. Das linke Netzwerk stellt diabetische Proben dar, und das rechte Netzwerk stellt nicht-diabetische Proben dar. Die Knotenfarbe stellt die Ausdrucksebene proportional zum Gruppenmittelwert dar. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Partielle korrelationsbasierte Netzwerkanalysemethoden, die in CorrelationCalculator und Filigree implementiert sind, tragen dazu bei, einige der Einschränkungen wissensbasierter Stoffwechselweganalysen zu überwinden, insbesondere für Datensätze mit einer hohen Prävalenz unbekannter Metaboliten und einer begrenzten Abdeckung von Stoffwechselwegen (z. B. Lipidomik-Daten). Diese Werkzeuge werden von der Forschungsgemeinschaft häufig verwendet, um ein breites Spektrum von Metabolomik- und Lipidomik-Daten zu analysieren 14,22,27,28,29,30. Zum Beispiel wurde CorrelationCalculator verwendet, um die Daten vieler biologischer Systeme zu analysieren, die vom Mikrobiom über Pflanzen bis hin zu menschlichen Krankheiten reichen31,32,33,34. Hier veranschaulichen wir, wie die datengesteuerte Netzwerkanalyse, die durch unsere Tools ermöglicht wird, mit Clustering und Regressionsanalyse kombiniert werden kann, um die metabolischen Module zu lokalisieren, die mit dem interessierenden Phänotyp verbunden sind.

Partielle Korrelationsnetzwerke, die mit CorrelationCalculator und Filigrane generiert wurden, können mit Hilfe von Graph-Clustering-Algorithmen geclustert werden, um metabolische Module zu erzeugen. Diese Module bestehen in der Regel aus Metaboliten, die chemisch oder funktionell miteinander verwandt sind. Solche Module sind nicht nur aus Sicht der Visualisierung, sondern auch aus biologischer Sicht sehr nützlich. Die Untersuchung der Beziehungen zwischen Stoffwechselmodulen und phänotypischen Ergebnissen von Interesse (z. B. Überlebensergebnis) kann im Vergleich zum Testen einzelner Metaboliten mehr statistische Aussagekraft liefern und zusätzliche biologische Erkenntnisse generieren.

Metabolische Module, die durch Netzwerk-Clustering-Ansätze identifiziert wurden, können auch in der Anreicherungsanalyse verwendet werden. Filigrane verwendet metabolische Module, die durch Konsensus-Clustering identifiziert wurden, anstelle von vordefinierten biologischen Signalwegen. Obwohl partielle korrelationsbasierte Stoffwechselmodule nicht identisch mit Signalwegen sind, gruppieren sie chemisch und biochemisch konsistent ähnliche Metaboliten (z. B. Aminosäuren, Acylcarnitine, Lipide derselben Klasse usw.). Filigree testet die Aussagekraft dieser Module mit dem NetGSA-Algorithmus22,35. Zusätzlich zu den differentiellen Knoten berücksichtigt NetGSA krankheitsspezifische Unterschiede in der Netzwerkstruktur.

Eines der Probleme, die bei der Verwendung von CorrelationCalculator und Filigree für die Analyse von Metabolomics- und Lipidomics-Daten aus dem wirklichen Leben zu berücksichtigen sind, ist das Verhältnis zwischen der Anzahl der Metaboliten und der Anzahl der Proben in einem bestimmten Experiment. Während groß angelegte epidemiologische Studien mit Tausenden von Proben immer häufiger werden, bleibt die Stichprobengröße bei den meisten Metabolomics-Experimenten bescheiden. Dies gilt insbesondere für mechanistische Studien mit Systemen, bei denen eine geringe biologische Variation zu erwarten ist (z. B. Zelllinien oder genetisch homogene Tiermodelle). Die statistischen Algorithmen, die in beiden Tools implementiert sind, können in Situationen angewendet werden, in denen die Anzahl der Metaboliten die Anzahl der Proben übersteigt, aber die Erhöhung dieses Verhältnisses zu dünneren Netzwerken führt.

Eine weitere wichtige Überlegung für die Anwendung der hier beschriebenen Werkzeuge betrifft die Analyse von ungezielten Metabolomik-Daten, von denen bekannt ist, dass sie eine große Anzahl redundanter oder degenerierter Merkmale36 enthalten, zu denen Isotope, chemische Addukte, Fragmente aus der Quelle und Verunreinigungen gehören können. Da viele degenerierte Merkmale aus demselben Metaboliten stammen, weisen sie tendenziell einen hohen Grad an Korrelation auf. Eine partielle korrelationsbasierte Analyse solcher Daten kann eine sorgfältige Annotation und Entfernung degenerierter Merkmale erfordern.

Zusammenfassend lässt sich sagen, dass die hier vorgestellten Tools eine praktikable Alternative zu wissensbasierten Pathways-Analysewerkzeugen für die Interpretation von Metabolomics-Daten darstellen.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Die Autoren haben keine konkurrierenden finanziellen Interessen.

Acknowledgments

Diese Arbeit wurde durch einen NIH 1U01CA235487 Zuschuss unterstützt.

Materials

Name Company Catalog Number Comments
CorrelationCalculator JAVA http://metscape.med.umich.edu/calculator.html
clusterNet https://github.com/Karnovsky-Lab/clusterNet
Cytoscape Cytoscape https://cytoscape.org/
Filigree JAVA http://metscape.med.umich.edu/filigree.html
MetScape Cytoscape https://apps.cytoscape.org/apps/metscape Cytoscape application that allows for the creation and exploration of correlation networks.

DOWNLOAD MATERIALS LIST

References

  1. Sas, K. M., Karnovsky, A., Michailidis, G., Pennathur, S. Metabolomics and diabetes: analytical and computational approaches. Diabetes. 64 (3), 718-732 (2015).
  2. Cottret, L., et al. MetExplore: Collaborative edition and exploration of metabolic networks. Nucleic Acids Research. 46 (W1), W495-W502 (2018).
  3. Garcia-Alcalde, F., Garcia-Lopez, F., Dopazo, J., Conesa, A. Paintomics: A web based tool for the joint visualization of transcriptomics and metabolomics data. Bioinformatics. 27 (1), 137-139 (2011).
  4. Kuo, T. C., Tian, T. F., Tseng, Y. J. 3Omics: A web-based systems biology tool for analysis, integration and visualization of human transcriptomic, proteomic and metabolomic data. BMC Systems Biology. 7, 64 (2013).
  5. Paley, S. M., Karp, P. D. The pathway tools cellular overview diagram and Omics Viewer. Nucleic Acids Research. 34 (13), 3771-3778 (2006).
  6. Karnovsky, A., et al. Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene expression data. Bioinformatics. 28 (3), 373-380 (2012).
  7. Chong, J., Xia, J. Using MetaboAnalyst 4.0 for metabolomics data analysis, interpretation, and integration with other omics data. Methods in Molecular Biology. 2104, 337-360 (2020).
  8. Lopez-Ibanez, J., Pazos, F., Chagoyen, M. MBROLE 2.0-functional enrichment of chemical compounds. Nucleic Acids Research. 44 (W1), W201-W204 (2016).
  9. Cavalcante, R. G., et al. Broad-Enrich: Functional interpretation of large sets of broad genomic regions. Bioinformatics. 30 (17), i393-i400 (2014).
  10. Huang, D. W., et al. DAVID bioinformatics resources: Expanded annotation database and novel algorithms to better extract biology from large gene lists. Nucleic Acids Research. 35 (Web Server issue), W169-W175 (2007).
  11. Lee, P. H., O'Dushlaine, C., Thomas, B., Purcell, S. M. INRICH: interval-based enrichment analysis for genome-wide association studies. Bioinformatics. 28 (13), 1797-1799 (2012).
  12. Segre, A. V., Groop, L., Mootha, V. K., Daly, M. J., Altshuler, D. Common inherited variation in mitochondrial genes is not enriched for associations with type 2 diabetes or related glycemic traits. PLoS Genetics. 6 (8), e1001058 (2010).
  13. Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102 (43), 15545-15550 (2005).
  14. Afshinnia, F., et al. Lipidomic signature of progression of chronic kidney disease in the chronic renal insufficiency cohort. Kidney International Reports. 1 (4), 256-268 (2016).
  15. Barupal, D. K., et al. MetaMapp: Mapping and visualizing metabolomic data by integrating information from biochemical pathways and chemical and mass spectral similarity. BMC Bioinformatics. 13, 99 (2012).
  16. Basu, S., et al. Sparse network modeling and Metscape-based visualization methods for the analysis of large-scale metabolomics data. Bioinformatics. 33 (10), 1545-1553 (2017).
  17. Krumsiek, J., Suhre, K., Illig, T., Adamski, J., Theis, F. J. Gaussian graphical modeling reconstructs pathway reactions from high-throughput metabolomics data. BMC Systems Biology. 5, 21 (2011).
  18. Camacho, D., de la Fuente, A., Mendes, P. The origin of correlations in metabolomics data. Metabolomics. 1 (1), 53-63 (2005).
  19. Steuer, R., Kurths, J., Fiehn, O., Weckwerth, W. Observing and interpreting correlations in metabolomic networks. Bioinformatics. 19 (8), 1019-1026 (2003).
  20. Bühlmann, P., Van De Geer, S. Statistics for High-Dimensional Data: Methods, Theory and Applications. , Springer Berlin, Heidelberg. (2011).
  21. Iyer, G. R., et al. Application of differential network enrichment analysis for deciphering metabolic alterations. Metabolites. 10 (12), 479 (2020).
  22. Ma, J., et al. Differential network enrichment analysis reveals novel lipid pathways in chronic kidney disease. Bioinformatics. 35 (18), 3441-3452 (2019).
  23. Shannon, P., et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Reserach. 13 (11), 2498-2504 (2003).
  24. Krumsiek, J., et al. Mining the unknown: a systems approach to metabolite identification combining genetic and metabolic information. PLoS Genetics. 8 (10), e1003005 (2012).
  25. Fahrmann, J., et al. Systemic alterations in the metabolome of diabetic NOD mice delineate increased oxidative stress accompanied by reduced inflammation and hypertriglyceremia. American Journal of Physiology. Endocrinology and Metabolism. 308 (11), E978-E989 (2015).
  26. Grapov, D., et al. Diabetes associated metabolomic perturbations in NOD mice. Metabolomics. 11 (2), 425-437 (2015).
  27. Jin, Y., Bai, S., Huang, Z., You, L., Zhang, T. Technology characteristics and flavor changes of traditional green wheat product nian zhuan in Northern China. Frontiers in Nutrition. 9, 996337 (2022).
  28. Lin, Y. S., et al. Probing folate-responsive and stage-sensitive metabolomics and transcriptional co-expression network markers to predict prognosis of non-small cell lung cancer patients. Nutrients. 15 (1), 3 (2022).
  29. Pan, C., et al. Metabolomics study identified bile acids as potential biomarkers for gastric cancer: A case control study. Frontiers in Endocrinology (Lausanne). 13, 1039786 (2022).
  30. Pancoro, A., Karima, E., Apriyanto, A., Effendi, Y. (1)H NMR metabolomics analysis of oil palm stem tissue infected by Ganoderma boninense based on field severity Indices. Scientific Reports. 12 (1), 21087 (2022).
  31. Chele, K. H., et al. A global metabolic map defines the effects of a Si-based biostimulant on tomato plants under normal and saline conditions. Metabolites. 11 (12), 820 (2021).
  32. Hubert, J., et al. The effect of residual pesticide application on microbiomes of the storage mite Tyrophagus putrescentiae. Microbial Ecology. 85 (4), 1527-1540 (2023).
  33. Li, K., et al. Metabolomic and exposomic biomarkers of risk of future neurodevelopmental delay in human milk. Pediatric Research. 93 (6), 1710-1720 (2023).
  34. Marino, C., et al. The metabolomic profile in amyotrophic lateral sclerosis changes according to the progression of the disease: An exploratory study. Metabolites. 12 (9), 837 (2022).
  35. Ma, J., Shojaie, A., Michailidis, G. Network-based pathway enrichment analysis with incomplete network information. Bioinformatics. 32 (20), 3165-3174 (2016).
  36. Mahieu, N. G., Patti, G. J. Systems-level annotation of a metabolomics data set reduces 25000 features to fewer than 1000 unique metabolites. Analytical Chemistry. 89 (19), 10397-10406 (2017).

Tags

Biologie Heft 201
CorrelationCalculator und Filigrane: Werkzeuge zur datengetriebenen Netzwerkanalyse von Metabolomik-Daten
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Iyer, G., Brandenburg, M., Patsalis, More

Iyer, G., Brandenburg, M., Patsalis, C., Michailidis, G., Karnovsky, A. CorrelationCalculator and Filigree: Tools for Data-Driven Network Analysis of Metabolomics Data. J. Vis. Exp. (201), e65512, doi:10.3791/65512 (2023).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter