Biochemistry

JUMPn: Eine optimierte Anwendung für Protein-Co-Expressions-Clustering und Netzwerkanalyse in der Proteomik

Published: October 19, 2021 doi: 10.3791/62796

David Vanderwall¹, Poudel Suresh^1,2, Yingxue Fu², Ji-Hoon Cho², Timothy I. Shaw^2,3, Ashutosh Mishra², Anthony A. High², Junmin Peng^1,2, Yuxin Li^1,2

¹Departments of Structural Biology and Developmental Neurobiology, St. Jude Children’s Research Hospital, ²Center for Proteomics and Metabolomics, St. Jude Children’s Research Hospital, ³Department of Computational Biology, St. Jude Children’s Research Hospital

Summary

Wir präsentieren ein systembiologisches Tool JUMPn zur Durchführung und Visualisierung von Netzwerkanalysen für quantitative Proteomikdaten mit einem detaillierten Protokoll, das Datenvorverarbeitung, Co-Expression-Clustering, Signalweganreicherung und Protein-Protein-Interaktionsnetzwerkanalyse umfasst.

Abstract

Mit den jüngsten Fortschritten bei massenspektrometriebasierten Proteomiktechnologien ist die Tiefenprofilierung von Hunderten von Proteomen zunehmend möglich geworden. Es ist jedoch eine Herausforderung, biologische Erkenntnisse aus solch wertvollen Datensätzen abzuleiten. Hier stellen wir eine auf Systembiologie basierende Software JUMPn und das zugehörige Protokoll vor, um das Proteom in Protein-Coexpressionscluster über Proben und Protein-Protein-Interaktionsnetzwerke (PPI) zu organisieren, die durch Module (z. B. Proteinkomplexe) verbunden sind. Mit der R/Shiny-Plattform optimiert die JUMPn-Software die Analyse von Co-Expression-Clustering, Pathway-Anreicherung und PPI-Modulerkennung mit integrierter Datenvisualisierung und einer benutzerfreundlichen Oberfläche. Die Hauptschritte des Protokolls umfassen die Installation der JUMPn-Software, die Definition von differentiell exprimierten Proteinen oder des (dys)regulierten Proteoms, die Bestimmung von aussagekräftigen Co-Expressionsclustern und PPI-Modulen sowie die Ergebnisvisualisierung. Während das Protokoll anhand eines isobaren, markierungsbasierten Proteomprofils demonstriert wird, ist JUMPn im Allgemeinen auf eine Vielzahl von quantitativen Datensätzen anwendbar (z. B. markierungsfreie Proteomik). Die JUMPn-Software und das JUMPn-Protokoll stellen somit ein leistungsfähiges Werkzeug zur Verfügung, um die biologische Interpretation in der quantitativen Proteomik zu erleichtern.

Introduction

Massenspektrometrie-basierte Schrotflintenproteomik ist zum Schlüsselansatz für die Analyse der Proteomdiversität komplexer Proben^{geworden 1}. Mit den jüngsten Fortschritten in der Massenspektrometrie^{Instrumentierung 2,3}, Chromatographie 4,5, Ionenmobilitätsdetektion⁶, Erfassungsmethoden (datenunabhängig⁷ und datenabhängige Erfassung⁸), Quantifizierungsansätze (multiplexe isobare Peptidmarkierungsmethode, z. B. TMT^9,10 und markierungsfreie Quantifizierung ^11,12) und Datenanalysestrategien / Softwareentwicklung 13,14,15,16,17,18, Quantifizierung des gesamten Proteoms (z.B. über 10.000 Proteine) ist jetzt Routine 19,20,21. Wie man jedoch mechanistische Erkenntnisse aus solch tiefen quantitativen Datensätzen gewinnen kann, ist immer noch eine Herausforderung²². Erste Versuche, diese Datensätze zu untersuchen, stützten sich hauptsächlich auf die Annotation einzelner Elemente der Daten, wobei jede Komponente (Protein) unabhängig voneinander behandelt wurde. Biologische Systeme und ihr Verhalten lassen sich jedoch nicht allein durch die Untersuchung einzelner Komponenten^{erklären 23}. Daher ist ein Systemansatz, der die quantifizierten Biomoleküle in den Kontext von Interaktionsnetzwerken stellt, für das Verständnis komplexer Systeme und der damit verbundenen Prozesse wie Embryogenese, Immunantwort und Pathogenese menschlicher Krankheiten^{unerlässlich 24}.

Die netzwerkbasierte Systembiologie hat sich zu einem leistungsfähigen Paradigma für die Analyse großer quantitativer Proteomikdaten 25,26,27,28,29,30,31,32,33 entwickelt. Konzeptionell könnten komplexe Systeme wie Säugetierzellen als hierarchisches Netzwerk^34,35 modelliert werden, in dem das gesamte System in Ebenen dargestellt wird: zuerst durch eine Reihe von großen Komponenten^, von denen jede dann iterativ durch kleinere Subsysteme modelliert wird. Technisch gesehen kann die Struktur der Proteomdynamik durch miteinander verbundene Netzwerke von koexprimierten Proteinclustern (weil koexprimierte Gene / Proteine oft ähnliche biologische Funktionen oder Mechanismen der Regulation³⁶ teilen) und physikalisch interagierenden PPI-Modulen³⁷ dargestellt werden. Als aktuelles Beispiel²⁵ generierten wir zeitliche Profile des gesamten Proteoms und des Phosphoproteoms während der T-Zell-Aktivierung und verwendeten integrative Co-Expressionsnetzwerke mit PPIs, um funktionelle Module zu identifizieren, die den T-Zell-Ruhezustand vermitteln. Mehrere bioenergetische Module wurden hervorgehoben und experimentell validiert (z. B. die Mitoribosom- und komplexen IV-Module²⁵ und das Ein-Kohlenstoff-Modul³⁸). In einem weiteren Beispiel²⁶ haben wir unseren Ansatz zur Untersuchung der Pathogenese der Alzheimer-Krankheit weiter ausgebaut und erfolgreich die mit dem Krankheitsverlauf assoziierten Proteinmodule und -moleküle priorisiert. Wichtig ist, dass viele unserer unvoreingenommenen Entdeckungen durch unabhängige Patientenkohorten ^26,29 und/oder Krankheitsmausmodelle²⁶ validiert wurden. Diese Beispiele veranschaulichten die Leistungsfähigkeit des systembiologischen Ansatzes zur Sezierung molekularer Mechanismen mit quantitativer Proteomik und anderen Omics-Integrationen.

Hier stellen wir JUMPn vor, eine optimierte Software, die quantitative Proteomikdaten mit netzwerkbasierten systembiologischen Ansätzen untersucht. JUMPn dient als nachgelagerte Komponente der etablierten JUMP Proteomik-Software-Suite^13,14,39 und zielt darauf ab^, die Lücke von einzelnen Proteinquantifizierungen zu biologisch sinnvollen Signalwegen und Proteinmodulen mit dem systembiologischen Ansatz zu schließen. Durch die Berücksichtigung der Quantifizierungsmatrix von differentiell exprimierten (oder den variabelsten) Proteinen als Input zielt JUMPn darauf ab, das Proteom in einer abgestuften Hierarchie von Proteinclustern zu organisieren, die über Proben und dicht verbundene PPI-Module (z. B. Proteinkomplexe) koexprimiert werden, die durch Überrepräsentationsanalyse (oder Anreicherungsanalyse) weiter mit öffentlichen Pfaddatenbanken annotiert werden (Abbildung 1). JUMPn wurde mit der R/Shiny-Plattform⁴⁰ für eine benutzerfreundliche Oberfläche entwickelt und integriert drei Hauptfunktionsmodule: Co-Expression-Clustering-Analyse, Pathway-Enrichment-Analyse und PPI-Netzwerkanalyse (Abbildung 1). Nach jeder Analyse werden die Ergebnisse automatisch visualisiert und über die R/shiny-Widget-Funktionen einstellbar und können als Publikationstabellen im Microsoft Excel-Format heruntergeladen werden. Im folgenden Protokoll verwenden wir quantitative Gesamtproteomdaten als Beispiel und beschreiben die wichtigsten Schritte der Verwendung von JUMPn, einschließlich der Installation der JUMPn-Software, der Definition von differentiell exprimierten Proteinen oder des (dys)regulierten Proteoms, der Co-Expressionsnetzwerkanalyse und der PPI-Modulanalyse, der Ergebnisvisualisierung und -interpretation sowie der Fehlerbehebung. Die JUMPn-Software ist auf GitHub⁴¹ frei verfügbar.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

HINWEIS: In diesem Protokoll wird die Verwendung von JUMPn durch die Verwendung eines veröffentlichten Datensatzes der Profilerstellung des gesamten Proteoms während der B-Zell-Differenzierung veranschaulicht, der mit dem isobaren TMT-Markierungsreagenz²⁷ quantifiziert wurde.

1. Einrichtung der JUMPn-Software

HINWEIS: Für die Einrichtung der JUMPn-Software stehen zwei Optionen zur Verfügung: (i) Installation auf einem lokalen Computer für den persönlichen Gebrauch; und (ii) Bereitstellung von JUMPn auf einem Remote-Shiny-Server für mehrere Benutzer. Für die lokale Installation reicht ein PC mit Internetzugang und ≥4 GB RAM aus, um die JUMPn-Analyse für einen Datensatz mit einer kleinen Stichprobengröße (n < 30) durchzuführen. Für die Analyse großer Kohorten (z. B. n = 200 Proben) wird ein größerer Arbeitsspeicher (z. B. 16 GB) benötigt.

Installieren Sie die Software auf einem lokalen Computer. Lassen Sie den Webbrowser nach der Installation JUMPn starten und lassen Sie die Analyse auf dem lokalen Computer laufen.
1. Installieren Sie anaconda⁴² oder miniconda⁴³ gemäß den Online-Anweisungen.
2. Laden Sie den JUMPn-Quellcode⁴¹ herunter. Doppelklicken Sie, um die heruntergeladene Datei JUMPn_v_1.0.0.zip zu entpacken; Ein neuer Ordner mit dem Namen JUMPn_v_1.0.0 wird erstellt.
3. Öffnen Sie das Befehlszeilenterminal. Verwenden Sie unter Windows die Anaconda-Eingabeaufforderung. Verwenden Sie unter MacOS die integrierte Terminal-Anwendung.
4. Erstellen Sie die JUMPn Conda-Umgebung: Rufen Sie den absoluten Pfad des Ordners JUMPn_v_1.0.0 ab (z. B. /path/to/JUMPn_v_1.0.0). Um eine leere Conda-Umgebung zu erstellen und zu aktivieren, geben Sie die folgenden Befehle auf dem Terminal ein
  conda create -p /path/to/JUMPn_v_1.0.0/JUMPn -y
  conda aktivieren /path/to/JUMPn_v_1.0.0/JUMPn
5. Installieren Sie JUMPn-Abhängigkeiten: Installieren Sie R (geben Sie auf dem Terminal conda install -c conda-forge r=4.0.0 -y ein), ändern Sie das aktuelle Verzeichnis in den Ordner JUMPn_v_1.0.0 (geben Sie auf dem Terminal cd path/to/JUMPn_v_1.0.0) ein und installieren Sie die Abhängigkeitspakete (geben Sie auf dem Terminal Rscript bootstrap ein. R)
6. Starten Sie JUMPn im Webbrowser: Ändern Sie das aktuelle Verzeichnis in den Ausführungsordner (geben Sie auf dem Terminal cd execution ein) und starten Sie JUMPn (geben Sie auf dem Terminal R -e "shiny::runApp()" ein)
7. Sobald das oben Genannte ausgeführt wurde, wird auf dem Terminalbildschirm Listening auf http://127.0.0.1: XXXX angezeigt (hier zeigt XXXX 4 Zufallszahlen an). Kopieren Sie http://127.0.0.1:XXXX und fügen Sie es in den Webbrowser ein, auf dem die JUMPn-Willkommensseite angezeigt wird (Abbildung 2).
Bereitstellung auf Shiny Server. Beispiele für Shiny Server sind der kommerzielle shinyapps.io Server oder alle institutionell unterstützten Shiny Server.
1. Laden Sie RStudio herunter und installieren Sie es gemäß den Anweisungen⁴⁴.
2. Holen Sie sich die Bereitstellungsberechtigung für den Shiny Server. Richten Sie für den shinyapps.io Server das Benutzerkonto ein, indem Sie die Anweisung⁴⁵ befolgen. Für den institutionellen Shiny-Server wenden Sie sich an den Serveradministrator, um Berechtigungen anzufordern.
3. Laden Sie den JUMPn-Quellcode⁴¹ auf den lokalen Computer herunter. Eine Installation ist nicht notwendig. Öffnen Sie entweder den Server. R oder ui. R-Dateien in RStudio und klicken Sie auf das Dropdown-Menü Auf Server veröffentlichen oben rechts in der RStudio-IDE.
4. Geben Sie im Bereich "In Konto veröffentlichen " die Serveradresse ein. Klicken Sie auf die Schaltfläche Veröffentlichen . Die erfolgreiche Bereitstellung wird bei der automatischen Umleitung von RStudio auf den RShiny-Server, auf dem die Anwendung bereitgestellt wurde, überprüft.

2. Demolauf mit einem Beispieldatensatz

HINWEIS: JUMPn bietet einen Demolauf mit dem veröffentlichten B-Zell-Proteomik-Datensatz an. Der Demolauf veranschaulicht einen optimierten Workflow, der die Quantifizierungsmatrix differentiell exprimierter Proteine als Input verwendet und Co-Expressionsclustering, Signalweganreicherung und PPI-Netzwerkanalyse nacheinander durchführt.

Klicken Sie auf der JUMPn-Startseite (Abbildung 2) auf die Schaltfläche Analyse beginnen, um die JUMPn-Analyse zu starten.
Klicken Sie in der unteren linken Ecke der Seite Anfangsanalyse (Abbildung 3) auf die Schaltfläche Demo B Cell Proteomic Data hochladen. Ein Dialogfeld wird angezeigt, in dem Sie über den Erfolg des Datenuploads informiert werden.
Klicken Sie in der unteren rechten Ecke der Seite auf die Schaltfläche JUMPn-Analyse senden , um den Demolauf mit Standardparametern zu starten. Es erscheint ein Fortschrittsbalken, der den Verlauf der Analyse angibt. Warten Sie, bis der Fortschrittsbalken erfüllt ist (3 min erwartet).
Sobald der Demolauf abgeschlossen ist, wird ein Dialogfeld mit der Erfolgsmeldung und dem absoluten Pfad zum Ergebnisordner angezeigt. Klicken Sie auf Weiter zu den Ergebnissen , um fortzufahren.
Die Webseite führt den Benutzer zunächst zu den Ergebnissen des Co-Expression-Clusters von WGCNA. Klicken Sie im Dialogfenster auf Ergebnisse anzeigen , um fortzufahren.
Die Protein-Co-Expressionsmuster finden Sie links auf der Ergebnisseite 1: WGCNA-Ausgabeseite. Klicken Sie auf das Dropdownfeld Ausdrucksformat auswählen , um zwischen zwei Abbildungsformaten zu navigieren:
1. Wählen Sie Trends aus, um das Trenddiagramm anzuzeigen, wobei jede Zeile die individuelle Proteinhäufigkeit über Proben hinweg darstellt. Die Farbe jeder Zeile stellt dar, wie nahe das Ausdrucksmuster am Konsens des Koexpressionsclusters liegt (d. h. "Eigengen" gemäß der Definition des WGCNA-Algorithmus).
2. Wählen Sie Boxplot aus, um für jedes Beispiel Co-Ausdrucksmuster im Boxplot-Format anzuzeigen.
Sehen Sie sich die Heatmap zur Pathway-/Ontologieanreicherung rechts neben der WGCNA-Ausgabeseite an. Die am stärksten angereicherten Pfade für jeden Cluster werden zusammen in einer Heatmap angezeigt, wobei die Farbintensität den angepassten p-Wert von Benjamini-Hochberg widerspiegelt.
Scrollen Sie auf der Webseite nach unten, um das Expressionsmuster für einzelne Proteine anzuzeigen.
1. Verwenden Sie das Dropdown-Feld Wählen Sie den Co-Expression-Cluster aus, um Proteine aus jedem Cluster anzuzeigen (Standardeinstellung ist Cluster 1). Wählen Sie ein bestimmtes Protein in der Tabelle aus, auf dem das Balkendiagramm unter der Tabelle automatisch aktualisiert wird, um seine Proteinhäufigkeit widerzuspiegeln.
2. Suchen Sie bestimmte Proteinnamen mithilfe des Suchfelds auf der rechten Seite der Tabelle nach einem bestimmten Protein.
Um die PPI-Ergebnisse anzuzeigen, klicken Sie oben auf die Ergebnisseite 2: PPI-Ausgabe .
Klicken Sie auf Co-Expression-Cluster auswählen, um die Ergebnisse für einen bestimmten Co-Expression-Cluster anzuzeigen (Standardeinstellung ist Cluster 1). Die Anzeigen aller Abbildungsfelder auf dieser Seite werden für den neu ausgewählten Cluster aktualisiert.
Zeigen Sie die PPI-Netzwerke für den ausgewählten Co-Expression-Cluster im linken Abbildungsbereich an:
1. Klicken Sie auf das Dropdown-Feld Nach Gruppe auswählen , um einzelne PPI-Module innerhalb des Netzwerks hervorzuheben. Klicken Sie auf das Dropdown-Feld Netzwerklayoutformat auswählen , um das Netzwerklayout zu ändern (standardmäßig von Fruchterman Reingold).
2. Verwenden Sie die Maus und das Trackpad, um die Schritte 2.11.3-2.11.5 auszuführen.
3. Vergrößern oder verkleinern Sie das PPI-Netzwerk nach Bedarf. Die Gennamen der einzelnen Knoten im Netzwerk werden angezeigt, wenn sie ausreichend vergrößert werden.
4. Wählen Sie beim Vergrößern ein bestimmtes Protein aus und klicken Sie darauf, um dieses Protein und seine Netzwerknachbarn hervorzuheben.
5. Ziehen Sie einen bestimmten Knoten (Protein) im Netzwerk, um seine Position im Layout zu ändern. Dadurch kann das Netzwerklayout vom Benutzer neu organisiert werden.
Zeigen Sie im rechten Bereich der PPI-Ergebnisseite die Informationen auf Clusterebene mit gemeinsamem Ausdruck an, die die Interpretation der PPI-Ergebnisse unterstützen:
1. Zeigen Sie das Co-Ausdrucksmuster des ausgewählten Clusters standardmäßig als Boxplot an.
2. Klicken Sie auf das Dropdownfeld Ausdrucksformat auswählen , um weitere Informationen zu erhalten, oder werden Sie wie in den Schritten 2.12.3-2.12.5 beschrieben angezeigt.
3. Wählen Sie Trends aus, um das Trenddiagramm für das Co-Ausdrucksmuster anzuzeigen.
4. Wählen Sie Pfadbarplot aus, um deutlich angereicherte Pfade für den Co-Ausdruckscluster anzuzeigen.
5. Wählen Sie "Pfadkreisdiagramm", um deutlich angereicherte Pfade für den Co-Ausdruckscluster im Kreisdiagrammformat anzuzeigen.
Scrollen Sie auf der Webseite Ergebnisseite 2: PPI-Ausgabe nach unten, um die Ergebnisse auf der Ebene der einzelnen PPI-Module anzuzeigen. Klicken Sie auf das Dropdown-Feld Wählen Sie das Modul aus , um ein bestimmtes PPI-Modul für die Anzeige auszuwählen (Cluster1: Modul 1 wird standardmäßig angezeigt).
Sehen Sie sich das PPI-Modul im linken Bereich an. Führen Sie die Schritte 2.11.2-2.11.5 aus, um die Netzwerkanzeige zu manipulieren.
Sehen Sie sich die Ergebnisse der Signalweg-/Ontologieanreicherung im rechten Bereich an. Klicken Sie auf das Dropdown-Feld Pfadanmerkungsstil auswählen, um weitere Informationen und Anzeigen zu erhalten:
1. Wählen Sie Barplot aus, um deutlich angereicherte Pfade für das ausgewählte PPI-Modul anzuzeigen.
2. Wählen Sie "Kreisdiagramm ", um deutlich angereicherte Pfade für das ausgewählte PPI-Modul im Format eines Kreisdiagramms anzuzeigen.
3. Wählen Sie Heatmap , um deutlich angereicherte Signalwege und die zugehörigen Gennamen aus dem ausgewählten PPI-Modul anzuzeigen.
4. Wählen Sie Tabelle aus, um die detaillierten Ergebnisse der Signalweganreicherung anzuzeigen, einschließlich der Namen der Signalwege/Ontologiebegriffe, Gennamen und des P-Werts nach Fishers exaktem Test.
Zeigen Sie die Publikationstabelle in einem Tabellenkalkulationsformat an: Folgen Sie dem absoluten Pfad (oben auf beiden Ergebnisseiten abgedruckt) und suchen Sie die Publikationstabellentabelle mit dem Namen ComprehensiveSummaryTables.xlsx.

3. Vorbereitung der Eingabedatei und Upload auf JUMPn

HINWEIS: JUMPn nimmt als Eingabe die Quantifizierungsmatrix entweder der differentiell exprimierten Proteine (überwachte Methode) oder der variabelsten Proteine (unüberwachte Methode). Wenn das Ziel des Projekts darin besteht, Proteine zu verstehen, die über mehrere Bedingungen (z. B. verschiedene Krankheitsgruppen oder Zeitreihenanalyse des biologischen Prozesses) verändert wurden, wird die überwachte Methode zur Durchführung der DE-Analyse bevorzugt. Andernfalls kann ein unüberwachter Ansatz zur Auswahl der variabelsten Proteine für den explorativen Zweck verwendet werden.

Generieren Sie die Proteinquantifizierungstabelle, wobei jedes Protein als Zeilen und jede Probe als Spalten angezeigt wird. Erreichen Sie dies über eine moderne massenspektrometriebasierte Proteomik-Software-Suite (z.B. JUMP suite^13,14,39, Proteome Discoverer, Maxquant ^15,46).
Definieren Sie die Variable Proteom.
1. Verwenden Sie die statistischen Analyseergebnisse der Proteomik-Software-Suite, um differentiell exprimierte (DE) Proteine zu definieren (z. B. mit angepasstem p-Wert < 0,05).
2. Alternativ können Benutzer dem Beispiel-R-Code⁴⁷ folgen, um entweder DE oder die meisten variablen Proteine zu definieren.
Formatieren Sie die Eingabedatei mit dem definierten variablen Proteom.
HINWEIS: Das erforderliche Eingabedateiformat (Abbildung 4) enthält eine Kopfzeile. Die Spalten enthalten den Proteinzutritt (oder eindeutige IDs), GN (offizielle Gensymbole), die Proteinbeschreibung (oder alle vom Benutzer bereitgestellten Informationen), gefolgt von der Proteinquantifizierung einzelner Proben.
1. Befolgen Sie die Reihenfolge der in Schritt 3.1 angegebenen Spalten, aber die Spaltennamen der Kopfzeile sind für den Benutzer flexibel.
2. Verwenden Sie für TMT (oder ähnliches) quantifiziertes Proteom die zusammengefasste TMT-Reporterintensität als Eingangsquantifizierungswerte. Für markierungsfreie Daten verwenden Sie entweder normalisierte Spektralzählungen (z. B. NSAF⁴⁸) oder intensitätsbasierte Methoden (z. B. LFQ-Intensität oder iBAQ-Proteinintensität, die von Maxquant⁴⁶ gemeldet werden).
3. Fehlende Werte sind für die JUMPn-Analyse zulässig. Stellen Sie sicher, dass diese in der Quantifizierungsmatrix als NA gekennzeichnet sind. Es wird jedoch empfohlen, nur Proteine mit Quantifizierung in mehr als 50% der Proben zu verwenden.
4. Speichern Sie die resultierende Eingabedatei im .txt-, .xlsx- oder .csv-Format (alle drei werden von JUMPn unterstützt).
Eingabedatei hochladen:
1. Klicken Sie auf die Schaltfläche Browser und wählen Sie die Eingabedatei aus (Abbildung 3, linker Bereich); Das Dateiformat (XLSX, CSV und TXT werden unterstützt) wird automatisch erkannt.
2. Wenn die Eingabedatei intensitätsähnliche Quantifizierungswerte (z. B. solche, die von der JUMP Suite³⁹ generiert werden) oder verhältnisähnliche (z. B. aus Proteome Discoverer) enthält, wählen Sie Ja für die Option Log2-Transformation der Daten ausführen. Andernfalls wurden die Daten möglicherweise bereits protokolliert umgewandelt, daher wählen Sie für diese Option Nein aus.

4. Co-Expression-Clustering-Analyse

HINWEIS: Unsere Gruppe 25,26,27 und andere^28,29,31 haben WGCNA ⁴⁹ als effektive Methode zur Co-Expression-Clustering-Analyse der quantitativen Proteomik bewiesen. JUMPn folgt einem 3-stufigen Verfahren für die WGCNA-Analyse^25,50: (i) anfängliche Definition von Co-Expressions-Gen-/Proteinclustern durch dynamisches Baumschneiden ⁵¹ basierend auf der topologischen Überlappungsmatrix (TOM; bestimmt durch Quantifizierungsähnlichkeiten zwischen Genen/Proteinen); (ii) Zusammenführung ähnlicher Cluster zur Verringerung der Redundanz (basierend auf dem Dendrogramm der Eigengenähnlichkeiten); und (iii) endgültige Zuordnung von Genen/Proteinen zu jedem Cluster, die den minimalen Pearson-Korrelations-Cutoff überschreiten.

Konfigurieren Sie die WGCNA-Parameter (Abbildung 3, mittlere Abbildung). Die folgenden drei Parameter steuern jeweils die drei Schritte:
1. Legen Sie die minimale Clustergröße auf 30 fest. Dieser Parameter definiert die minimale Anzahl von Proteinen, die für jeden Co-Expressionscluster im ersten Schritt (i) des TOM-basierten hybriden dynamischen Baumschneidens erforderlich sind. Je größer der Wert, desto kleiner die Anzahl der vom Algorithmus zurückgegebenen Cluster.
2. Legen Sie den minimalen Clusterabstand auf 0,2 fest. Das Erhöhen dieses Werts (z. B. von 0,2 auf 0,3) kann zu einer stärkeren Clusterzusammenführung während Schritt (ii) führen, was zu einer geringeren Anzahl von Clustern führt.
3. Legen Sie das Minimum kME auf 0,7 fest. Proteine werden dem am stärksten korrelierten Cluster zugeordnet, der in Schritt (ii) definiert wurde, aber nur Proteine mit Pearson-Korrelation, die diesen Schwellenwert überschreiten, werden beibehalten. Proteine, die in diesem Schritt versagen, werden keinem Cluster zugeordnet ('NA'-Cluster für die ausgefallenen Proteine im Abschlussbericht).
Initiieren Sie die Analyse. Es gibt zwei Möglichkeiten, die Clustering-Analyse für den gemeinsamen Ausdruck einzureichen:
1. Klicken Sie auf die Schaltfläche Submit JUMPn Analysis in der unteren rechten Ecke, um die umfassende Analyse von WGCNA automatisch gefolgt von einer PPI-Netzwerkanalyse zu starten.
2. Alternativ können Sie den WGCNA-Schritt nur ausführen (insbesondere zum Zwecke der Parameterabstimmung; siehe Schritte 4.2.3-4.2.4):
3. Klicken Sie unten auf der Seite Analyse beginnen auf die Schaltfläche Erweiterte Parameter. Ein neues Parameterfenster wird angezeigt. Wählen Sie im unteren Widget Analysemodus, wählen Sie Nur WGCNA und klicken Sie dann auf Schließen, um fortzufahren.
4. Klicken Sie auf der Seite Analyse beginnen auf die Schaltfläche JUMPn-Analyse senden .
5. In beiden oben genannten Fällen wird bei der Übermittlung der Analyse ein Fortschrittsbalken angezeigt.
  HINWEIS: Sobald die Analyse abgeschlossen ist (in der Regel < 1 Minute für die Nur-WGCNA-Analyse und <3 Minuten für eine umfassende Analyse), wird ein Dialogfeld mit einer Erfolgsausführungsmeldung und dem absoluten Pfad zum Ergebnisordner angezeigt.
Untersuchen Sie die WGCNA-Ergebnisse, wie in den Schritten 2.4-2.8 dargestellt (Abbildung 5). Beachten Sie, dass der absolute Pfad zum Datei-co_exp_clusters_3colums.txt oben auf der Ergebnisseite: WGCNA-Ausgabe hervorgehoben ist, um die Clustermitgliedschaft jedes Proteins aufzuzeichnen und es als Eingabe für die Nur-PPI-Analyse zu verwenden.
Fehlerbehebung. Die folgenden drei häufigen Fälle werden diskutiert. Sobald die Parameter wie unten beschrieben aktualisiert wurden, führen Sie die Schritte 4.2.2-4.2.4 aus, um neue WGCNA-Ergebnisse zu generieren.
1. Wenn ein wichtiges Co-Ausdrucksmuster von den Daten erwartet, aber vom Algorithmus übersehen wird, führen Sie die Schritte 4.4.2-4.4.4 aus.
2. Ein fehlender Cluster ist besonders wahrscheinlich für kleine Co-Expressions-Cluster, d.h. nur eine begrenzte Anzahl (z. B. <30) von Proteinen, die dieses Muster aufweisen. Überprüfen Sie vor der erneuten Analyse die Eingabedatei der Proteinquantifizierungsmatrix erneut und lokalisieren Sie mehrere Positivkontrollproteine, die diesem wichtigen Co-Expressionsmuster entsprechen.
3. Um die kleinen Cluster zu retten, verringern Sie die minimale Clustergröße (z. B. 10; Clustergröße kleiner als 10 ist möglicherweise nicht robust und wird daher nicht empfohlen) und verringern Sie die minimale Clusterentfernung (z. B. 0,1; hier ist auch die Einstellung als 0 zulässig, was bedeutet, dass die automatische Clusterzusammenführung übersprungen wird).
4. Überprüfen Sie nach dem Ausführen des Co-Expression-Clustering-Schritts mit den aktualisierten Parametern zunächst, ob der Cluster aus den Co-Expression-Musterdiagrammen gerettet wurde, und überprüfen Sie dann die positiven Kontrollen, indem Sie ihre Proteinakzessionen unter Detaillierte Proteinquantifizierung durchsuchen (stellen Sie sicher, dass Sie vor der Suche den entsprechenden Co-Expression-Cluster aus dem linken Dropdown-Widget auswählen).
  HINWEIS: Für die Rettung sind möglicherweise mehrere Iterationen der Parameteroptimierung und -wiederholung erforderlich.
5. Wenn es zu viele Proteine gibt, die keinem Cluster zugeordnet werden können, führen Sie die Schritte 4.4.6-4.4.7 aus.
  HINWEIS: Normalerweise ist ein kleiner Prozentsatz (typischerweise <10%) der Proteine möglicherweise keinem Cluster zugeordnet werden, da es sich dabei um Ausreißerproteine handeln kann, die keinem der üblichen Expressionsmuster des Datensatzes folgten. Wenn ein solcher Prozentsatz jedoch signifikant ist (z. B. >30%), deutet dies darauf hin, dass es zusätzliche Koausdrucksmuster gibt, die nicht ignoriert werden können.
6. Verringern Sie sowohl die Parameter Minimale Clustergröße als auch Minimale Clusterentfernung, um diese Situation zu verringern, indem Sie "neue" Co-Expression-Cluster erkennen.
7. Verringern Sie außerdem den Parameter Minimal Pearson Correlation (kME), um diese "NA-Cluster" -Proteine zu schrumpfen.
  HINWEIS: Durch die Optimierung dieses Parameters werden keine neuen Cluster generiert, sondern stattdessen die Größe der "bestehenden" Cluster erhöht, indem mehr zuvor ausgefallene Proteine mit dem niedrigeren Schwellenwert akzeptiert werden. Dies wird jedoch auch die Heterogenität jedes Clusters erhöhen, da jetzt mehr verrauschte Proteine erlaubt sind.
8. Zwei Cluster haben einen sehr geringen Unterschied in den Mustern; Führen Sie sie in einem Cluster zusammen, indem Sie die Schritte 4.4.9-4.4.11 ausführen.
9. Erhöhen Sie den Parameter Minimale Clusterentfernung, um das Problem zu beheben.
10. In einigen Situationen gibt der Algorithmus jedoch möglicherweise nie das gewünschte Muster zurück. Passen Sie in einem solchen Moment die Clustermitgliedschaft in der Datei co_exp_clusters_3colums.txt (Datei aus Schritt 4.3) manuell an oder bearbeiten Sie sie, um sie zusammenzuführen.
11. Nehmen Sie die nachbearbeitete Datei als Eingabe für die nachgelagerte PPI-Netzwerkanalyse. Begründen Sie im Falle einer manuellen Bearbeitung die Kriterien der Clusterzuweisung und zeichnen Sie den Ablauf der manuellen Bearbeitung auf.

5. Protein-Protein-Interaktionsnetzwerk-Analyse

HINWEIS: Durch die Überlagerung von Co-Expression-Clustern in das PPI-Netzwerk wird jeder Co-Expression-Cluster weiter in kleinere PPI-Module geschichtet. Die Analyse wird für jeden Co-Expressions-Cluster durchgeführt und umfasst zwei Phasen: In der ersten Phase überlagert JUMPn Proteine aus dem Co-Expressions-Cluster in das PPI-Netzwerk und findet alle verbundenen Komponenten (d. h. mehrere Cluster verbundener Knoten/Proteine; als Beispiel siehe Abbildung 6A); dann werden Gemeinschaften oder Module (von dicht verbundenen Knotenpunkten) für jede verbundene Komponente iterativ mit der TOM-Methode⁵² (Topological Overlap Matrix) detektiert.

Konfigurieren Sie die Parameter für die PPI-Netzwerkanalyse (Abbildung 3, rechter Bereich).
1. Legen Sie die minimale PPI-Modulgröße auf 2 fest. Dieser Parameter definiert die minimale Größe der getrennten Komponenten aus der ersten Analysephase. Jede Komponente, die kleiner als der angegebene Parameter ist, wird aus den Endergebnissen entfernt.
2. Legen Sie die maximale PPI-Modulgröße auf 40 fest. Große, nicht verbundene Komponenten, die diesen Schwellenwert überschreiten, werden einer TOM-basierten Analyse der zweiten Stufe unterzogen. Die zweite Stufe der Analyse wird jede große Komponente weiter in kleinere Module aufteilen: Jedes Modul enthält vermutlich Proteine, die dichter miteinander verbunden sind als die ursprüngliche Komponente als Ganzes.
Initiieren Sie die Analyse. Es gibt zwei Möglichkeiten, die PPI-Netzwerkanalyse einzureichen:
1. Klicken Sie auf die Schaltfläche JUMPn-Analyse senden , um die PPI-Analyse nach der WGCNA-Analyse standardmäßig automatisch durchzuführen.
2. Alternativ können Sie benutzerdefinierte Co-Expression-Clusterergebnisse hochladen und eine Nur-PPI-Analyse gemäß den Schritten 5.2.3-5.2.5 durchführen.
3. Bereiten Sie die Eingabedatei vor, indem Sie dem Format der Datei co_exp_clusters_3colums.txt folgen (siehe Unterabschnitt 4.4).
4. Klicken Sie unten auf der Seite Analyse beginnen auf die Schaltfläche Erweiterte Parameter. Ein neues Parameterfenster wird angezeigt. Klicken Sie in der oberen Sitzung Upload Co-Expression Cluster Result for 'PPI Only' Analysis auf Browser, um die von Schritt 5.2.3 vorbereitete Eingabedatei hochzuladen.
5. Wählen Sie im unteren Widget Analysemodus, wählen Sie Nur PPI und klicken Sie dann auf Schließen , um fortzufahren. Klicken Sie auf der Seite Analyse beginnen auf die Schaltfläche JUMPn-Analyse senden .
Sobald die Analyse abgeschlossen ist (in der Regel <3 min), untersuchen Sie die PPI-Ergebnisse, wie in den Schritten 2.10-2.15 dargestellt (Abbildung 6).
Optionaler erweiterter Schritt) Passen Sie die PPI-Modularisierung an, indem Sie die Parameter abstimmen:
1. Erhöhen Sie den Parameter Maximale Modulgröße , damit mehr Proteine in die PPI-Ergebnisse einbezogen werden können. Laden Sie ein benutzerdefiniertes PPI-Netzwerk hoch, um undokumentierte Interaktionen abzudecken, und führen Sie die Schritte 5.4.2-5.4.3 aus.
2. Klicken Sie unten auf der Seite Analyse beginnen auf die Schaltfläche Erweiterte Parameter. Ein neues Parameterfenster wird angezeigt. Bereiten Sie die benutzerdefinierte PPI-Datei vor, die drei Spalten im Format , C onnection und enthält. Hier werden durch die offiziellen Gennamen jedes Proteins dargestellt.
3. Klicken Sie unter PPI-Datenbank hochladen auf die Schaltfläche Durchsuchen , um die angepasste PPI-Datei hochzuladen.

6. Analyse der Signalweganreicherung

HINWEIS: Die von JUMPn abgeleiteten hierarchischen Strukturen sowohl von Co-Expression-Clustern als auch von PPI-Modulen innerhalb werden automatisch mit überrepräsentierten Pfaden mit Fishers exaktem Test annotiert. Zu den verwendeten Pfad-/Topologiedatenbanken gehören Gene Ontology (GO), KEGG, Hallmark und Reactome. Benutzer können erweiterte Optionen verwenden, um benutzerdefinierte Datenbanken für die Analyse hochzuladen (z. B. im Falle der Analyse von Daten von nicht-menschlichen Spezies).

Standardmäßig wird die Pfadanreicherungsanalyse automatisch mit Co-Expression-Clustering und PPI-Netzwerkanalyse initiiert.
Sehen Sie sich die Ergebnisse der Signalweganreicherung an:
1. Führen Sie die Schritte 2.7, 2.12 und 2.15 aus, um verschiedene Formate auf den Ergebnisseiten zu visualisieren. Zeigen Sie detaillierte Ergebnisse in der Tabellenkalkulationstabellen-Veröffentlichungstabelle in der Datei ComprehensiveSummaryTables.xlsx an (Schritt 2.16).
(Optionaler erweiterter Schritt) Laden Sie eine benutzerdefinierte Datenbank für die Analyse der Pfadanreicherung hoch:
1. Bereiten Sie die Genhintergrunddatei vor, die typischerweise die offiziellen Gennamen aller Gene einer Art enthält.
2. Bereiten Sie die Ontologiebibliotheksdatei gemäß den Schritten 6.3.3-6.3.4 vor.
3. Laden Sie die Ontologiebibliotheksdateien von öffentlichen Websites herunter, einschließlich EnrichR⁵³ und MSigDB⁵⁴. Laden Sie beispielsweise die Ontologie von Drosophila von der EnrichR-Website⁵⁵ herunter.
4. Bearbeiten Sie die heruntergeladene Datei für das erforderliche Format mit zwei Spalten: dem Signalwegnamen als erste Spalte und dann den offiziellen Gensymbolen (getrennt durch "/") als zweite Spalte. Das detaillierte Dateiformat ist auf der Hilfeseite der JUMPn R Shiny-Software beschrieben.
  HINWEIS: Finden Sie Beispieldateien des Genhintergrunds und der Ontologiebibliothek (mit Drosophila als Instanz) in der JUMPn GitHub-Site⁵⁶.
5. Klicken Sie unten auf der Seite Analyse beginnen auf die Schaltfläche Erweiterte Parameter. Ein neues Parameterfenster wird angezeigt.
6. Suchen Sie nach Upload a Background File for Pathway Enrichment Analysis (Hintergrunddatei für die Pathway Enrichment Analysis ) und klicken Sie auf Browser, um die in Schritt 6.3.1 vorbereitete Hintergrunddatei hochzuladen. Wählen Sie dann in der Sitzung den Hintergrund aus, der für die Pathway-Anreicherungsanalyse verwendet werden soll, und klicken Sie auf Vom Benutzer bereitgestellter Hintergrund.
7. Suchen Sie Upload an Ontology Library File for Pathway Enrichment Analysis ( Upload an Ontology Library File for Pathway Enrichment Analysis item ) und klicken Sie auf Browser , um die unter den Schritten 6.3.2-6.3.4 vorbereitete Ontologiebibliotheksdatei hochzuladen. Wählen Sie dann in der Sitzung Datenbanken für die Pathway-Anreicherungsanalyse aus und klicken Sie auf Vom Benutzer bereitgestellte Datenbank im .xlsx Format.
Klicken Sie auf die Schaltfläche Submit JUMPn Analysis in der unteren rechten Ecke, um die Analyse mit der angepassten Datenbank zu starten.

7. Analyse des Datensatzes mit großem Stichprobenumfang

HINWEIS: JUMPn unterstützt die Analyse von Datensätzen mit großer Stichprobengröße (bis zu 200 getestete Proben). Um die Visualisierung eines großen Stichprobenumfangs zu erleichtern, ist eine zusätzliche Datei (mit dem Namen "Metadatei") erforderlich, die die Beispielgruppe angibt, um die Anzeige von Clusterergebnissen für gemeinsame Ausdrücke zu erleichtern.

Vorbereiten und Hochladen der Metadatei.
1. Bereiten Sie die Metadatei vor, die Gruppeninformationen (z. B. Kontroll- und Krankheitsgruppen) für jede Probe angibt, indem Sie die Schritte 7.1.2-7.1.3 ausführen.
2. Stellen Sie sicher, dass die Metadatei mindestens zwei Spalten enthält: Spalte 1 muss die Probennamen enthalten, die mit den Spaltennamen identisch sind, und die Reihenfolge aus der Proteinquantifizierungsmatrixdatei (wie in Schritt 3.3 vorbereitet); Ab Spalte 2 wird für die Gruppenzuweisung für eine beliebige Anzahl von Features verwendet, die vom Benutzer definiert wurden. Die Anzahl der Spalten ist flexibel.
3. Stellen Sie sicher, dass die erste Zeile der Metadatei die Spaltennamen für jede Spalte enthält. Ab der zweiten Zeile sollten einzelne Stichprobeninformationen von Gruppen oder anderen Merkmalen (z.B. Geschlecht, Alter, Behandlung etc.) aufgelistet werden.
4. Laden Sie die Metadatei hoch, indem Sie unten auf der Seite Analyse beginnen auf die Schaltfläche Erweiterte Parameter klicken. Ein neues Parameterfenster wird angezeigt. Fahren Sie mit Schritt 7.1.5 fort
5. Suchen Sie das Element Metadatei hochladen und klicken Sie auf Browser , um die Hintergrunddatei hochzuladen. Wenn das unerwartete Format oder nicht übereinstimmende Beispielnamen von JUMPn erkannt werden, wird eine Fehlermeldung zur weiteren Formatierung der Metadatei angezeigt (Schritte 7.1.1-7.1.3).
Passen Sie die Parameter für die Co-Expression-Clustering-Analyse an: Legen Sie Minimale Pearson-Korrelation auf 0,2 fest. Dieser Parameter muss aufgrund der größeren Stichprobengröße gelockert werden.
Klicken Sie auf die Schaltfläche Submit JUMPn Analysis in der unteren rechten Ecke, um die Analyse zu senden.
Analyseergebnisse anzeigen: Alle Datenausgaben sind identisch, mit Ausnahme der Anzeige der Clustermuster für gemeinsame Ausdrücke.
1. Visualisieren Sie auf der Seite Ergebnisseite 1: WGCNA-Ausgabe die Co-Ausdruckscluster als Boxplots mit Beispielen, die von den benutzerdefinierten Beispielgruppen oder Features geschichtet werden. Jeder Punkt im Diagramm stellt das Eigengen (d. h. das Konsensmuster des Clusters) dar, das vom WGCNA-Algorithmus berechnet wird.
2. Wenn der Benutzer mehrere Funktionen (z. B. Alter, Geschlecht, Behandlung usw.) zum Gruppieren der Beispiele bereitgestellt hat, klicken Sie auf das Dropdownfeld Ausdrucksformat auswählen , um ein anderes Feature zum Gruppieren der Beispiele auszuwählen.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Wir verwendeten unsere veröffentlichten Deep-Proteomics-Datensätze^25,26,27,30 (Abbildungen 5 und Abbildung 6⁾ sowie Datensimulationen⁵⁷ (Tabelle 1), um die JUMPn-Leistung zu optimieren und zu bewerten. Für die Co-Expressions-Proteinclustering-Analyse über WGCNA empfehlen wir, Proteine zu verwenden, die signifikant über Proben hinweg als Input verändert wurden (z. B. differentiell exprimierte (DE) Proteine, die durch statistische Analyse nachgewiesen wurden). Während die Einbeziehung von Nicht-DE-Proteinen für die Analyse zu mehr Co-Expressionsclustern führen kann, die vom Programm zurückgegeben werden (aufgrund der größeren Eingangsgröße), stellen wir die Hypothese auf, dass das Mischen des realen Signals (z. B. der DE-Proteine) mit dem Hintergrund (dem verbleibenden Nicht-DE) für die Analyse auf Systemebene das Signal verdünnen und die zugrunde liegende Netzwerkstruktur maskieren kann. Um dies zu testen, wurde die Simulationsanalyse unter zwei verschiedenen Bedingungen durchgeführt: i) hochdynamisches Proteom (z. B. 50% verändert in der T-Zell-Aktivierung²⁵) und ii) relativ stabiles Proteom (z. B. 2% Proteom in AD²⁶ verändert). Für das hochdynamische Proteom wurden sechs Co-Expressionscluster aus 50% Proteom simuliert, die der gleichen Clustergröße und den gleichen Expressionsmustern (d.h. Eigengenen) unserer veröffentlichten Ergebnisse^{folgten 25}. In ähnlicher Weise haben wir für ein relativ stabiles Proteom drei Cluster aus 2% Proteom nach unserer jüngsten AD-Proteomik-Studie²⁶ simuliert. Wie erwartet, erhöht die Erhöhung der Eingangszahl von Proteinen die Anzahl der nachgewiesenen Cluster (Tabelle 1). Für das hochdynamische Proteom kann die Verwendung aller Proteine als Input die meisten der wahren Cluster (5 der 6 simulierten Bona-Fide-Cluster; 83% erinnern) mit einer Genauigkeit von 63% erfassen (5 der 8 zurückgegebenen Cluster sind True Positives; d.h. die restlichen 3 Cluster sind falsch positiv). Für das relativ stabile Proteom verringert jedoch die Erhöhung der Inputgröße mit Nicht-DE-Proteinen die Präzision drastisch (Tabelle 1). Wenn beispielsweise das gesamte Proteom als Eingabe verwendet wird, werden 169 Module erkannt, von denen nur 2 korrekt sind (1,2% Genauigkeit; die restlichen 98,8% erkannten Module sind falsch positive Module). Diese Ergebnisse deuten somit darauf hin, dass die Wahl nur des geänderten Proteoms als Eingabe die Genauigkeit der Koexpressionsanalyse erhöht, insbesondere bei relativ stabilen Proteomen.

Nach dem Nachweis von Co-Expressionsprotein-Clustern wird jeder Cluster von JUMPn unter Verwendung der Pathway-Enrichment-Analyse annotiert (Abbildung 1). Die aktuelle Version enthält vier häufig verwendete Pfaddatenbanken, darunter Gene Ontology (GO), KEGG, Hallmark und Reactome. Benutzer können auch ihre eigene Datenbank im GMT-Format⁵⁴ zusammenstellen, die in JUMPn hochgeladen werden kann. Die Integration mehrerer Datenbanken für die Analyse der Pfadanreicherung kann umfassendere Ansichten bieten. Die Größen der verschiedenen Pfaddatenbanken variieren jedoch erheblich, was zu unerwünschten Verzerrungen bestimmter (insbesondere großer) Datenbanken führen kann. Zwei Lösungen werden in JUMPn bereitgestellt. Erstens werden mit einem statistischen Ansatz nominale p-Werte für die Prüfung mehrerer Hypothesen nach der Benjamini-Hochberg-Methode⁵⁸ angepasst (oder bestraft), wobei eine größere Datenbank einen signifikanteren nominalen p-Wert benötigt, um den gleichen angepassten p-Wert zu erreichen als der aus einer kleinen Datenbank. Zweitens hebt JUMPn den obersten signifikant angereicherten Pfad für jede Datenbank separat hervor, so dass datenbankspezifische oben angereicherte Pfade immer angezeigt werden.

Ähnlich wie bei der Pathway-Anreicherungsanalyse wurde ein zusammengesetztes PPI-Netzwerk durch die Kombination von STRING^59,60-, BioPlex ^61,62- und InWeb_IM ^{63-Datenbanken zusammengestellt.} Die BioPlex-Datenbank wurde mittels Affinitätsreinigung und anschließender Massenspektrometrie in menschlichen Zelllinien erstellt, während STRING und InWeb Informationen aus verschiedenen Quellen enthalten. Daher wurden die STRING- und InWeb-Datenbanken weiter nach dem Edge-Score gefiltert, um eine hohe Qualität zu gewährleisten, wobei der Cutoff durch die beste Anpassung der skalenfreien Kriterien^{bestimmt wurde 24}. Das endgültige fusionierte PPI-Netzwerk umfasst mehr als 20.000 menschliche Gene mit ~ 1.100.000 Kanten (Tabelle 2). Dieses umfassende Interaktom ist in einem Bundle mit unserer JUMPn-Software für empfindliche PPI-Analysen enthalten und veröffentlicht.

Nach Abschluss der Analyse generiert JUMPn die Publikationstabellenkalkulationsdatei ComprehensiveSummaryTables.xlsx, die aus drei einzelnen Blättern besteht. Das erste Blatt enthält Ergebnisse von Co-Expressionsproteinclustern mit einem Protein pro Zeile: Die erste Spalte gibt die Clustermitgliedschaft jedes Eingabeproteins an, und die restlichen Spalten werden aus der Benutzereingabedatei kopiert, die die Proteinakzeption, Gennamen, Proteinbeschreibung und Quantifizierung einzelner Proben enthält. Das zweite Blatt enthält die Ergebnisse der Analyse der Signalweganreicherung und zeigt signifikante Pfade, die in jedem Co-Expression-Cluster angereichert sind. Diese Tabelle ist zunächst nach verschiedenen Pfaddatenbanken organisiert, dann sortiert nach Co-Expressionsclustern, funktionellen Pfaden, der Gesamtzahl der Signalweggene, der Gesamtzahl der Gene im einzelnen Cluster, den überlappenden Genzahlen und -namen, der Anreicherungsfalt, den von Fisher exakten Tests abgeleiteten P-Werten und der Benjamini-Hochberg-Falschentdeckungsrate. Das dritte Blatt enthält Ergebnisse der PPI-Modulanalyse mit einem PPI-Modul pro Zeile; Zu den Spalten gehören der Modulname (definiert durch seine Co-Expression-Mitgliedschaft und Modul-ID, z. B. Cluster1_Module1), die zugeordneten Proteine und Zahlen sowie funktionelle Signalwege, die durch Durchsuchen der Modulproteine anhand der Pfaddatenbanken definiert werden.

Abbildung 1: Workflow von JUMPn. Die Quantifizierungsmatrix der obersten Variablen differentiell exprimierter (DE) Proteine wird als Input genommen, und Proteine werden vom WGCNA-Algorithmus in Co-Expressionscluster gruppiert. Jede Co-Expression wird dann durch eine Signalweganreicherungsanalyse annotiert und dem Protein-Protein-Interaktionsnetzwerk (PPI) für dicht verbundene Proteinmodulidentifikationen weiter überlagert. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Abbildung 2: JUMPn-Willkommensseite. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 3: Eingabeseite von JUMPn. Die Seite enthält den Bereich zum Hochladen von Eingabedateien und die Parameterkonfigurationsbereiche für Co-Expression-Clustering bzw. PPI-Netzwerkanalyse. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Abbildung 4: Beispieleingabedatei der Quantifizierungsmatrix. Die Spalten enthalten den Proteinzutritt (oder eindeutige IDs), GN (offizielle Gensymbole), die Proteinbeschreibung (oder alle vom Benutzer bereitgestellten Informationen), gefolgt von der Proteinquantifizierung einzelner Proben. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Abbildung 5: Von JUMPn gemeldete Ergebnisse des Co-Expression-Clusters. Die Co-Expressions-Clustering-Muster (A), die Top-Enrich-Pathway-Heatmap über Cluster hinweg (B) und die detaillierte Proteinhäufigkeit für jeden Cluster sind dargestellt (C). Benutzer können verschiedene Anzeigeoptionen auswählen und über die Auswahlbox zwischen verschiedenen Clustern navigieren. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Abbildung 6: Von JUMPn gemeldete Ergebnisse der PPI-Netzwerkanalyse. Es wird das globale Inter-Modul-Netzwerk (A) gezeigt, gefolgt von einem Teilnetz einzelner Module (B) und seinen deutlich angereicherten Pfaden (C). Benutzer können verschiedene Darstellungsoptionen auswählen und über die Auswahlbox zwischen verschiedenen Clustern und Modulen navigieren. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

% Top-Proteine für die Analyse	# simulierte Module	# erkannte Module	# Rückeroberte Module¹	Präzision²	Rückruf³
Hochdynamisches Proteom (z.B. bei T-Zell-Aktivierung): 6 simulierte Module aus 50% Proteom
2	6	2	2	1	0.33
5	6	2	2	1	0.33
10	6	3	3	1	0.5
20	6	4	4	1	0.67
50	6	6	6	1	1
100	6	8	5	0.63	0.83
Relativ stabiles Proteom (z.B. während der Pathogenese von AD): 3 simulierte Module aus 2% Proteom
1	3	1	1	1	0.33
2	3	3	3	1	1
5	3	8	3	0.38	1
10	3	13	3	0.23	1
20	3	19	3	0.16	1
50	3	71	2	0.03	0.67
100	3	169	2	0.01	0.67
¹ Ein zurückerobertes Modul ist ein detektiertes Modul, dessen Eigengen stark korreliert (Pearson R > 0,95) mit einem der simulierten Eigengene.
²Genauigkeit = # zurückeroberte Module / # erkannte Module
³Rückruf = # zurückeroberte Module / # simulierte Module

Tabelle 1: Simulationsstudien zur Co-Expression-Cluster-Detektion.

PPI-Netzwerke	Nein. Anzahl der Knoten	Nein. Anzahl der Kanten
BioPlex 3.0 kombiniert (293T+HCT116)	14,551	1,67,399
InBio_Map_core_2016_09_12	17,429	6,08,166
ZEICHENFOLGE (v11.0)	18,954	5,87,482
Zusammengesetztes PPI-Netzwerk	20,485	11,52,607

Tabelle 2: Statistik der humanen Protein-Protein-Interaktionsnetzwerke (PPI) PPI-Netzwerke werden nach Edge-Score gefiltert, um eine hohe Qualität zu gewährleisten, wobei der Score-Cutoff durch die beste Übereinstimmung mit den skalenfreien Kriterien bestimmt wird.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Hier haben wir unsere JUMPn-Software und ihr Protokoll vorgestellt, die in mehreren Projekten zur Sezierung molekularer Mechanismen unter Verwendung tiefer quantitativer Proteomik-Daten 25,26,27,30,64 angewendet wurden. Die JUMPn-Software und das Protokoll wurden vollständig optimiert, einschließlich der Berücksichtigung von DE-Proteinen für die Co-Expressionsnetzwerkanalyse, einer Zusammenstellung eines umfassenden und qualitativ hochwertigen PPI-Netzwerks, einer stringenten statistischen Analyse (z. B. unter Berücksichtigung mehrerer Hypothesentests) mit einer optimierten und benutzerfreundlichen Oberfläche. Mehrere von JUMPn identifizierte Proteinmodule wurden durch funktionelle Experimentstudien^25,27 oder unabhängige Patientenkohorten²⁶ validiert^, was JUMPn als effektives Werkzeug zur Identifizierung von Schlüsselmolekülen und -pfaden veranschaulicht^, die verschiedenen biologischen Prozessen zugrunde liegen.

Zu den kritischen Schritten dieses Protokolls gehören die Generierung optimaler Ergebnisse von Co-Expression-Clustern und PPI-Modulen, die möglicherweise mehrere Iterationen der Parameteroptimierung erfordern, sowie das Hochladen eines benutzerdefinierten PPI-Netzwerks. In unserem Protokoll diskutierten wir gängige praktische Szenarien, einschließlich des Umgangs mit dem Fehlen wichtiger Cluster, einem hohen Prozentsatz nicht zugewiesener Proteine, der Zusammenführung von zwei redundanten Clustern und dem Fehlen wichtiger Proteine innerhalb von PPI-Modulen. Wir empfehlen dem Benutzer, mehrere Positivkontrollproteine vorzubereiten und ihr Vorhandensein in den endgültigen Co-Expressionsclustern zu bestätigen. Manchmal wird eine Positivkontrolle aufgrund einer unvollständigen PPI-Netzwerkdatenbank nie in die endgültigen PPI-Module aufgenommen. Um dies teilweise zu lindern, haben wir unser PPI-Netzwerk mit den neuesten Versionen von BioPlex V3⁶² und STRING V11⁶⁰ aktualisiert. Darüber hinaus ermöglicht JUMPn Benutzern, benutzerdefinierte PPI-Netzwerke hochzuladen. Zum Beispiel können neuartige Wechselwirkungen, die aus Affinitätsreinigungs-Massenspektrometrie-Experimenten (AP-MS) mit einem wichtigen Positivkontrollprotein als Köder abgeleitet wurden, in das aktuelle zusammengesetzte PPI-Netzwerk integriert werden, um eine individuellere Analyse zu ermöglichen.

Durch die Verwendung des Frameworks der Signalweganreicherungsanalyse für jeden Co-Expressionsproteincluster kann JUMPn erweitert werden, um auf die Transkriptionsfaktoraktivität (TF) zu schließen. Die Annahme ist, dass, wenn es eine Überrepräsentation von Zielgenen einer spezifischen TF in einem Co-Expressionscluster gibt (d.h. diese Ziele werden differentiell exprimiert und folgen dem gleichen Expressionsmuster), die Aktivität dieser TF möglicherweise über experimentelle Bedingungen verändert wird, weil ihre Zielproteinhäufigkeit konsequent verändert wird. Technisch kann dies einfach über JUMPn erreicht werden, indem die aktuelle Pfaddatenbank durch die TF-Zieldatenbank (z.B. aus dem ENCODE-Projekt⁶⁵) ersetzt wird. In ähnlicher Weise kann die Kinaseaktivität auch durch Nutzung der Kinase-Substrat-Datenbank abgeleitet werden, wobei tiefe Phosphoproteomiken als Input verwendet werden. Als Beispiel haben wir erfolgreich fehlregulierte TFs und Kinasen identifiziert, die der Pathogenese des Hirntumors^{zugrunde liegen 64}. Tatsächlich hat sich die Verwendung des Netzwerkansatzes für die Aktivitätsinferenz als wirksamer Ansatz zur Identifizierung fehlregulierter Treiber für menschliche Krankheiten erwiesen^66,67.

Die JUMPn-Software wird problemlos auf eine Vielzahl von Datentypen angewendet. Obwohl das quantifizierte Proteom der isobaren Markierung als illustratives Beispiel verwendet wurde, gilt das gleiche Protokoll auch für markierungsfreie quantifizierte Proteomikdaten sowie für genomweite Expressionsprofile (z. B. quantifiziert durch RNA-Seq oder Microarray; siehe unser aktuelles Beispiel für die Anwendung von JUMPn für Gen- und Proteinexpressionsprofile²⁷). Phosphoproteomics-Daten könnten auch von JUMPn verwendet werden, um co-exprimierte Phosphosite zu identifizieren, gefolgt von Kinase-Aktivitätsinferenz²⁵. Darüber hinaus werden auch Interaktomdaten, die durch den AP-MS-Ansatz generiert werden, geeignet sein, wodurch Beuteproteine, die einer ähnlichen Köderinteraktionsstärke und Stöchiometrie folgen, Co-Expressionscluster bilden und sich weiter mit bekannten PPIs für die Dateninterpretation überschneiden⁶⁸.

Für die aktuelle Version von JUMPn bestehen Einschränkungen. Erstens ist der Installationsvorgang kommandozeilenbasiert und erfordert Grundkenntnisse der Informatik. Dies behindert eine breitere Nutzung von JUMPn, insbesondere von Biologen ohne rechnerischen Hintergrund. Eine idealere Implementierung ist die Veröffentlichung von JUMPn auf einem Online-Server. Zweitens sind die aktuellen Datenbanken aufgrund unseres Fokus auf Studien zu menschlichen Krankheiten auf den Menschen ausgerichtet. Beachten Sie, dass Proteomikdaten, die von Mäusen generiert wurden, auch von JUMPn unter Verwendung solcher menschenzentrierten Datenbanken^{analysiert wurden 25,27}, wobei davon ausgegangen wird, dass die meisten PPIs bei beiden Arten ^{konserviert sind 69,70}. Die mausspezifische Signalgebung wird durch diesen Ansatz nicht erfasst, ist aber in diesen Studien am Menschen nicht von Interesse. Für Modellsysteme von Nicht-Säugetieren (z. B. Zebrafisch, Fliege oder Hefe) sollten jedoch artspezifische Datenbanken erstellt und mit den erweiterten Optionen auf JUMPn hochgeladen werden. Ressourcen zusätzlicher Arten können über die zukünftige JUMPn-Freilassung bereitgestellt werden. Drittens nimmt der aktuelle Schritt der Ontologie/Pfadanalyse viel Zeit in Anspruch, die durch paralleles Rechnen weiter optimiert werden kann.

Abschließend stellen wir die JUMPn-Software und das Protokoll zur Untersuchung quantitativer Proteomikdaten vor, um koexprimierte und potenziell physikalisch interagierende Proteinmodule durch systembiologischen Ansatz zu identifizieren und zu visualisieren. Zu den wichtigsten Merkmalen, die JUMPn von anderen 53,71,72 unterscheiden^, gehören: (i) JUMPn integriert und rationalisiert vier Hauptkomponenten der Pfad- und Netzwerkanalyse (Abbildung 1); (ii) Im Gegensatz zu den meisten Signalweganalysesoftwares, die eine einfache Genliste als Eingabe verwendet, beginnt JUMPn mit der Quantifizierungsmatrix, mit der quantitative Informationen nahtlos in literaturdokumentierte Wege und Netzwerke integriert werden können. (iii) Sowohl Co-Expressionsproteincluster als auch Interaktionsmodule werden automatisch durch bekannte Signalwege annotiert und über die R / Shiny-Interaktionsplattform mit einem benutzerfreundlichen Webbrowser visualisiert. (iv) Die endgültigen Ergebnisse sind in drei Tabellen gegliedert, die im Excel-Format leicht veröffentlicht werden können. Daher erwarten wir, dass das JUMPn und dieses Protokoll auf viele Studien zur Sezierung von Mechanismen unter Verwendung quantitativer Proteomikdaten anwendbar sein werden.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Die Autoren haben nichts offenzulegen.

Acknowledgments

Die finanzielle Unterstützung wurde von den National Institutes of Health (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 und U54NS110435) und ALSAC (American Lebanese Syrian Associated Charities) bereitgestellt. Die MS-Analyse wurde im Zentrum für Proteomik und Metabolomik des St. Jude Children's Research Hospital durchgeführt, das teilweise durch den NIH Cancer Center Support Grant (P30CA021765) unterstützt wurde. Der Inhalt liegt in der alleinigen Verantwortung der Autoren und stellt nicht unbedingt die offiziellen Ansichten der National Institutes of Health dar.

Materials

Name	Company	Catalog Number	Comments
MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7.	Apple Inc.	MacBook Pro 13''	Hardware used for software development and testing
Anoconda	Anaconda, Inc.	version 4.9.2	https://docs.anaconda.com/anaconda/install/
miniconda	Anaconda, Inc.	version 4.9.2	https://docs.conda.io/en/latest/miniconda.html
RStudio	RStudio Public-benefit corporation	version 4.0.3	https://www.rstudio.com/products/rstudio/download/
Shiny Server	RStudio Public-benefit corporation		https://shiny.rstudio.com/articles/shinyapps.html