Biochemistry

JUMPn: Een gestroomlijnde toepassing voor eiwit co-expressie clustering en netwerkanalyse in proteomics

Published: October 19, 2021 doi: 10.3791/62796

David Vanderwall¹, Poudel Suresh^1,2, Yingxue Fu², Ji-Hoon Cho², Timothy I. Shaw^2,3, Ashutosh Mishra², Anthony A. High², Junmin Peng^1,2, Yuxin Li^1,2

¹Departments of Structural Biology and Developmental Neurobiology, St. Jude Children’s Research Hospital, ²Center for Proteomics and Metabolomics, St. Jude Children’s Research Hospital, ³Department of Computational Biology, St. Jude Children’s Research Hospital

Summary

We presenteren een systeembiologische tool JUMPn om netwerkanalyse uit te voeren en te visualiseren voor kwantitatieve proteomics-gegevens, met een gedetailleerd protocol inclusief gegevensvoorverwerking, co-expressieclustering, pathway-verrijking en eiwit-eiwitinteractienetwerkanalyse.

Abstract

Met recente ontwikkelingen in op massaspectrometrie gebaseerde proteomics-technologieën is diepe profilering van honderden proteomen steeds haalbaarder geworden. Het afleiden van biologische inzichten uit dergelijke waardevolle datasets is echter een uitdaging. Hier introduceren we een op systeembiologie gebaseerde software JUMPn en het bijbehorende protocol om het proteoom te organiseren in eiwitco-expressieclusters over monsters en eiwit-eiwitinteractie (PPI) -netwerken verbonden door modules (bijv. Eiwitcomplexen). Met behulp van het R/Shiny-platform stroomlijnt de JUMPn-software de analyse van co-expressieclustering, pathwayverrijking en PPI-moduledetectie, met geïntegreerde datavisualisatie en een gebruiksvriendelijke interface. De belangrijkste stappen van het protocol omvatten de installatie van de JUMPn-software, de definitie van differentieel tot expressie gebrachte eiwitten of het (dys)gereguleerde proteoom, bepaling van betekenisvolle co-expressieclusters en PPI-modules en resultaatvisualisatie. Hoewel het protocol wordt gedemonstreerd met behulp van een op isobaar labeling gebaseerd proteoomprofiel, is JUMPn algemeen toepasbaar op een breed scala aan kwantitatieve datasets (bijv. Labelvrije proteomics). De JUMPn-software en het protocol bieden dus een krachtig hulpmiddel om biologische interpretatie in kwantitatieve proteomics te vergemakkelijken.

Introduction

Massaspectrometrie-gebaseerde shotgun proteomics is de belangrijkste benadering geworden voor het analyseren van proteoomdiversiteit van complexe monsters¹. Met recente ontwikkelingen in massaspectrometrie-instrumentatie ^2,3, chromatografie ^4,5, ionenmobiliteitsdetectie⁶, acquisitiemethoden (data-onafhankelijke⁷ en data-afhankelijke acquisitie⁸), kwantificeringsbenaderingen (multi-plex isobare peptide-etiketteringsmethode, bijv. TMT ^9,10, en labelvrije kwantificering^11,12) en data-analysestrategieën/ softwareontwikkeling 13,14,15,16,17,18, kwantificering van het hele proteoom (bijv. Meer dan 10.000 eiwitten) is nu routine 19,20,21. Hoe je mechanistische inzichten kunt krijgen uit zulke diepe kwantitatieve datasets is echter nog steeds een uitdaging²². De eerste pogingen om deze datasets te onderzoeken waren voornamelijk gebaseerd op de annotatie van individuele elementen van de gegevens, waarbij elke component (eiwit) onafhankelijk werd behandeld. Biologische systemen en hun gedrag kunnen echter niet alleen worden verklaard door individuele componenten^{te onderzoeken 23}. Daarom is een systeembenadering die de gekwantificeerde biomoleculen in de context van interactienetwerken plaatst, essentieel voor het begrip van complexe systemen en de bijbehorende processen zoals embryogenese, immuunrespons en pathogenese van menselijke ziekten²⁴.

Netwerkgebaseerde systeembiologie is naar voren gekomen als een krachtig paradigma voor het analyseren van grootschalige kwantitatieve proteomics-gegevens 25,26,27,28,29,30,31,32,33. Conceptueel zouden complexe systemen zoals zoogdiercellen kunnen worden gemodelleerd als een hiërarchisch netwerk^34,35, waarin het hele systeem in lagen wordt weergegeven: eerst door een aantal grote componenten, die elk vervolgens iteratief worden gemodelleerd door kleinere subsystemen. Technisch gezien kan de structuur van proteoomdynamica worden gepresenteerd door onderling verbonden netwerken van co-tot expressie gebrachte eiwitclusters (omdat co-tot expressie gebrachte genen / eiwitten vaak vergelijkbare biologische functies of regulatiemechanismen delen³⁶) en fysiek interagerende PPI-modules³⁷. Als recent voorbeeld²⁵ genereerden we temporele profielen van hele proteoom en fosfoproteoom tijdens T-celactivering en gebruikten we integratieve co-expressienetwerken met PPI's om functionele modules te identificeren die T-cel rust exit bemiddelen. Meerdere bio-energetische gerelateerde modules werden gemarkeerd en experimenteel gevalideerd (bijv. de mitoribostische en complexe IV-modules²⁵ en de één-koolstofmodule³⁸). In een ander voorbeeld²⁶ hebben we onze aanpak verder uitgebreid om de pathogenese van de ziekte van Alzheimer te bestuderen en met succes prioriteit gegeven aan ziekteprogressie geassocieerde eiwitmodules en moleculen. Belangrijk is dat veel van onze onbevooroordeelde ontdekkingen werden gevalideerd door onafhankelijke patiëntencohorten^26,29 en /of ziektemuismodellen²⁶. Deze voorbeelden illustreerden de kracht van de systeembiologische benadering voor het ontleden van moleculaire mechanismen met kwantitatieve proteomics en andere omics-integraties.

Hier introduceren we JUMPn, een gestroomlijnde software die kwantitatieve proteomics-gegevens onderzoekt met behulp van netwerkgebaseerde systeembiologische benaderingen. JUMPn dient als de downstream-component van de gevestigde JUMP proteomics-softwaresuite 13,14,39 en heeft tot doel de kloof te dichten van individuele eiwitkwantificeringen naar biologisch zinvolle routes en eiwitmodules met behulp van de systeembiologische benadering. Door de kwantificeringsmatrix van differentieel tot expressie gebrachte (of de meest variabele) eiwitten als input te nemen, wil JUMPn het proteoom organiseren in een gelaagde hiërarchie van eiwitclusters die mede tot expressie komen in monsters en dicht verbonden PPI-modules (bijv. Eiwitcomplexen), die verder worden geannoteerd met openbare pathway-databases door oververtegenwoordiging (of verrijking) analyse (figuur 1). JUMPn is ontwikkeld met het R/Shiny-platform⁴⁰ voor een gebruiksvriendelijke interface en integreert drie belangrijke functionele modules: co-expressieclusteringanalyse, pathwayverrijkingsanalyse en PPI-netwerkanalyse (figuur 1). Na elke analyse worden de resultaten automatisch gevisualiseerd en zijn ze instelbaar via de R/shiny widget-functies en gemakkelijk te downloaden als publicatietabellen in Microsoft Excel-formaat. In het volgende protocol gebruiken we kwantitatieve hele proteoomgegevens als voorbeeld en beschrijven we de belangrijkste stappen van het gebruik van JUMPn, inclusief de installatie van de JUMPn-software, de definitie van differentieel tot expressie gebrachte eiwitten of het (dys)gereguleerde proteoom, co-expressienetwerkanalyse en PPI-moduleanalyse, resultaatvisualisatie en -interpretatie en probleemoplossing. JUMPn-software is gratis beschikbaar op GitHub⁴¹.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

OPMERKING: In dit protocol wordt het gebruik van JUMPn geïllustreerd door gebruik te maken van een gepubliceerde dataset van volledige proteoomprofilering tijdens B-celdifferentiatie gekwantificeerd door TMT isobaar labelreagens²⁷.

1. Installatie van JUMPn-software

OPMERKING: Er zijn twee opties voor het instellen van de JUMPn-software: (i) installatie op een lokale computer voor persoonlijk gebruik; en (ii) implementatie van JUMPn op een externe Shiny Server voor meerdere gebruikers. Voor lokale installatie is een pc met internettoegang en ≥4 Gb RAM voldoende om JUMPn-analyse uit te voeren voor een gegevensset met een kleine steekproefgrootte (n < 30); groter RAM (bijv. 16 Gb) is nodig voor analyse van grote cohorten (bijv. n = 200 monsters).

Installeer de software op een lokale computer. Laat de webbrowser na de installatie JUMPn starten en laat de analyse op de lokale computer uitvoeren.
1. Installeer anaconda⁴² of miniconda⁴³ volgens de online instructies.
2. Download de JUMPn broncode⁴¹. Dubbelklik om het gedownloade bestand uit te pakken JUMPn_v_1.0.0.zip; er wordt een nieuwe map met de naam JUMPn_v_1.0.0 gemaakt.
3. Open de opdrachtregelterminal. Gebruik in Windows de Anaconda-prompt. Gebruik in MacOS de ingebouwde terminaltoepassing.
4. De JUMPn Conda-omgeving maken: haal het absolute pad van de map JUMPn_v_1.0.0 op (bijvoorbeeld /path/to/JUMPn_v_1.0.0). Om een lege Conda-omgeving te maken en te activeren, typt u de volgende opdrachten op de terminal
  conda create -p /path/to/JUMPn_v_1.0.0/JUMPn -y
  conda activeren /path/to/JUMPn_v_1.0.0/JUMPn
5. JUMPn-afhankelijkheden installeren: Installeer R (typ op de terminal conda install -c conda-forge r=4.0.0 -y), wijzig de huidige map in de map JUMPn_v_1.0.0 (typ op de terminal cd path/to/JUMPn_v_1.0.0) en installeer de afhankelijkheidspakketten (typ op de terminal Rscript bootstrap. R)
6. Start JUMPn in de webbrowser: Wijzig de huidige map in de uitvoeringsmap (op de terminal typ cd execution) en start JUMPn (typ op de terminal R -e "shiny::runApp()")
7. Zodra het bovenstaande is uitgevoerd, verschijnt het terminalscherm Luisteren op http://127.0.0.1:XXXX (hier geeft XXXX 4 willekeurige getallen aan). Kopieer en plak http://127.0.0.1:XXXX in de webbrowser, waarop de JUMPn-welkomstpagina wordt weergegeven (afbeelding 2).
Implementatie op Shiny Server. Voorbeelden van Shiny Server zijn de commerciële shinyapps.io server of een institutioneel ondersteunde Shiny Servers.
1. Download en installeer RStudio volgens de instructies⁴⁴.
2. Verkrijg de implementatiemachtiging voor de Shiny Server. Voor de shinyapps.io server stelt u het gebruikersaccount in door de instructies^{45 te volgen}. Voor de shiny-server van de instelling neemt u contact op met de serverbeheerder voor het aanvragen van machtigingen.
3. Download de JUMPn broncode⁴¹ naar de lokale machine; installatie is niet nodig. Open de server. R of ui. R-bestanden in RStudio en klik op het vervolgkeuzemenu Publiceren op server in de rechterbovenhoek van de RStudio IDE.
4. Typ in het deelvenster Publiceren naar account het serveradres. Druk op de knop Publiceren . Succesvolle implementatie wordt gevalideerd na automatische omleiding van RStudio naar de RShiny-server waar de toepassing is geïmplementeerd.

2. Demo uitvoeren met behulp van een voorbeeldgegevensset

OPMERKING: JUMPn biedt een demorun met behulp van de gepubliceerde B-cel proteomics-dataset. De demorun illustreert een gestroomlijnde workflow die de kwantificeringsmatrix van differentieel tot expressie gebrachte eiwitten als input neemt en co-expressieclustering, pathwayverrijking en PPI-netwerkanalyse sequentieel uitvoert.

Klik op de JUMPn-startpagina (figuur 2) op de knop Analyse starten om de JUMPn-analyse te starten.
Klik in de linkerbenedenhoek van de pagina Analyse starten (figuur 3) op de knop Demo B-celproteomische gegevens uploaden ; er verschijnt een dialoogvenster met de melding dat de gegevens zijn geüpload.
Klik in de rechterbenedenhoek van de pagina op de knop JUMPn-analyse verzenden om de demorun te starten met behulp van standaardparameters; er verschijnt een voortgangsbalk die het verloop van de analyse aangeeft. Wacht tot aan de voortgangsbalk is voldaan (3 min verwacht).
Zodra de demorun is voltooid, verschijnt er een dialoogvenster met het bericht geslaagde uitvoering en het absolute pad naar de resultaatmap. Klik op Doorgaan naar Resultaten om door te gaan.
De webpagina leidt de gebruiker eerst naar de resultaten van het co-expressiecluster van WGCNA. Klik op Resultaten weergeven in het dialoogvenster om door te gaan.
Zoek de co-expressiepatronen van eiwitten aan de linkerkant van de pagina Resultaatpagina 1: WGCNA-uitvoer . Klik op de vervolgkeuzelijst Selecteer de expressie-indeling om te navigeren tussen twee figuurindelingen:
1. Selecteer Trends om de trendsplot weer te geven, waarbij elke regel de individuele eiwitrijkdom in monsters vertegenwoordigt. De kleur van elke lijn geeft aan hoe dicht het expressiepatroon zich bevindt bij de consensus van het co-expressiecluster (d.w.z. "eigengen" zoals gedefinieerd door het WGCNA-algoritme).
2. Selecteer Boxplot om co-expressiepatronen in boxplot-indeling voor elk voorbeeld weer te geven.
Bekijk de pathway/ontologie verrijking heatmap aan de rechterkant van de WGCNA output pagina. De meest verrijkte paden voor elk cluster worden samen weergegeven in een heatmap, waarbij de kleurintensiteit de door Benjamini-Hochberg gecorrigeerde p-waarde weerspiegelt.
Scrol omlaag op de webpagina om het expressiepatroon voor individuele eiwitten te bekijken.
1. Gebruik de vervolgkeuzelijst Selecteer het co-expressiecluster om eiwitten van elk cluster weer te geven (standaard is cluster 1). Selecteer een specifiek eiwit in de tabel, waarop de staafplot onder de tabel automatisch wordt bijgewerkt om de eiwitrijkdom weer te geven.
2. Zoek specifieke eiwitnamen met behulp van het vak Zoeken aan de rechterkant van de tabel naar een specifiek eiwit.
Om PPI-resultaten te bekijken, klikt u op de resultatenpagina 2: PPI-uitvoer bovenaan.
Klik op Selecteer het co-expressiecluster om de resultaten voor een specifiek co-expressiecluster weer te geven (standaard is cluster 1). De weergaven van alle figuurvensters op deze pagina worden bijgewerkt voor het nieuw geselecteerde cluster.
Bekijk de PPI-netwerken voor het geselecteerde co-expressiecluster in het linkerdeelvenster:
1. Klik op de vervolgkeuzelijst Selecteren op groep om afzonderlijke PPI-modules binnen het netwerk te markeren. Klik op de selecteer een netwerklay-out formaat vervolgkeuzelijst om de netwerklay-out te wijzigen (standaard is door Fruchterman Reingold).
2. Gebruik de muis en het trackpad om stappen 2.11.3-2.11.5 uit te voeren.
3. Zoom indien nodig in of uit op het PPI-netwerk. De gennamen van elk knooppunt in het netwerk worden weergegeven wanneer er voldoende is ingezoomd.
4. Wanneer u bent ingezoomd, selecteert en klikt u op een bepaald eiwit om dat eiwit en zijn netwerkburen te markeren.
5. Sleep een bepaald knooppunt (eiwit) in het netwerk om de positie in de lay-out te wijzigen; daardoor kan de netwerklay-out door de gebruiker worden gereorganiseerd.
Bekijk in het rechterdeelvenster van de PPI-resultatenpagina de informatie op clusterniveau op co-expressieniveau die helpt bij de interpretatie van PPI-resultaten:
1. Bekijk het co-expressiepatroon van het geselecteerde cluster standaard als boxplot.
2. Klik op de selecteer de expressie-indeling vervolgkeuzelijst voor meer informatie of displays zoals vermeld in stappen 2.12.3-2.12.5.
3. Selecteer Trends om trends plot voor het co-expressiepatroon weer te geven.
4. Selecteer Pathway Barplot om aanzienlijk verrijkte pathways voor het co-expressiecluster weer te geven.
5. Selecteer Pathway Circle Plot om aanzienlijk verrijkte paden voor het co-expressiecluster weer te geven in de cirkelplotindeling.
Scrol omlaag op de webpagina Resultaatpagina 2: PPI-uitvoer om resultaten op het niveau van de afzonderlijke PPI-module weer te geven. Klik op de vervolgkeuzelijst Selecteer de module om een specifieke PPI-module te selecteren voor weergave (Cluster1: Module 1 wordt standaard weergegeven).
Bekijk de PPI-module in het linkerdeelvenster. Volg de stappen 2.11.2-2.11.5 om de netwerkweergave te manipuleren.
Bekijk de resultaten van de pathway/ontologieverrijking op het rechterpaneel. Klik op de vervolgkeuzelijst Selecteer de Pathway Annotation Style voor meer informatie en displays:
1. Selecteer Barplot om aanzienlijk verrijkte paden voor de geselecteerde PPI-module weer te geven.
2. Selecteer Cirkelplot om aanzienlijk verrijkte paden voor de geselecteerde PPI-module weer te geven in de indeling van een cirkelplot.
3. Selecteer Heatmap om aanzienlijk verrijkte paden en de bijbehorende gennamen van de geselecteerde PPI-module weer te geven.
4. Selecteer Tabel om de gedetailleerde resultaten van de pathwayverrijking weer te geven, inclusief de naam van pathways/ontologietermen, gennamen en de P-waarde van Fisher's exacte test.
Bekijk de publicatietabel in een spreadsheetindeling: volg het absolute pad (boven aan beide resultatenpagina's afgedrukt) en zoek de tabel met de publicatiespreadsheet met de naam ComprehensiveSummaryTables.xlsx.

3. Voorbereiding van het invoerbestand en uploaden naar JUMPn

OPMERKING: JUMPn neemt als input de kwantificeringsmatrix van ofwel de differentieel tot expressie gebrachte eiwitten (gecontroleerde methode) of de meest variabele eiwitten (unsupervised methode). Als het doel van het project is om eiwitten te begrijpen die zijn veranderd in meerdere omstandigheden (bijvoorbeeld verschillende ziektegroepen of tijdreeksanalyse van biologisch proces), heeft de gesuperviseerde methode voor het uitvoeren van DE-analyse de voorkeur; anders kan een onbewaakte benadering van het selecteren van de meest variabele eiwitten worden gebruikt voor het verkennende doel.

Genereer de eiwitkwantificatietabel, met elk eiwit als rijen en elk monster als kolommen. Bereik dit via moderne op massaspectrometrie gebaseerde proteomics-softwaresuite (bijv. JUMP-suite 13,14,39, Proteome Discoverer, Maxquant ^15,46).
Definieer de variabele proteoom.
1. Gebruik de statistische analyseresultaten van de proteomics-softwaresuite om differentieel tot expressie gebrachte (DE) eiwitten te definiëren (bijvoorbeeld met aangepaste p-waarde < 0,05).
2. Als alternatief kunnen gebruikers het voorbeeld R-code⁴⁷ volgen om DE of de meeste variabele eiwitten te definiëren.
Formatteer het invoerbestand met behulp van het gedefinieerde variabele proteoom.
OPMERKING: De vereiste invoerbestandsindeling (afbeelding 4) bevat een veldnamenrij; de kolommen omvatten eiwittoetreding (of unieke ID's), GN (officiële gensymbolen), eiwitbeschrijving (of door de gebruiker verstrekte informatie), gevolgd door eiwitkwantificering van individuele monsters.
1. Volg de volgorde van de kolommen die in stap 3.1 zijn opgegeven, maar de kolomnamen van de koptekst zijn flexibel voor de gebruiker.
2. Gebruik voor TMT (of vergelijkbaar) gekwantificeerd proteoom de samengevatte INTENSITEIT van tmt-reporters als inputkwantificeringswaarden. Gebruik voor labelvrije gegevens ofwel genormaliseerde spectrale tellingen (bijv. NSAF⁴⁸) of een op intensiteit gebaseerde methode (bijv. LFQ-intensiteit of iBAQ-eiwitintensiteit gerapporteerd door Maxquant⁴⁶).
3. Ontbrekende waarden zijn toegestaan voor JUMPn-analyse. Zorg ervoor dat u deze als NA labelt in de kwantificeringsmatrix. Het wordt echter aanbevolen om alleen eiwitten met kwantificering te gebruiken in meer dan 50% van de monsters.
4. Sla het resulterende invoerbestand op als .txt-, .xlsx- of .csv-indeling (alle drie worden ondersteund door JUMPn).
Invoerbestand uploaden:
1. Klik op de knop Browser en selecteer het invoerbestand (figuur 3, linkerdeelvenster); de bestandsindeling (xlsx, csv en txt worden ondersteund) wordt automatisch gedetecteerd.
2. Als het invoerbestand intensiteitsachtige kwantificeringswaarden bevat (bijvoorbeeld die gegenereerd door JUMP suite³⁹) of ratio-achtige (bijvoorbeeld van Proteome Discoverer), selecteert u Ja voor de optie Log2-transformatie van gegevens uitvoeren; Anders zijn de gegevens mogelijk al in logboeken getransformeerd, dus selecteer Nee voor deze optie.

4. Co-expressie clustering analyse

OPMERKING: Onze groep 25,26,27 en anderen 28,29,31 hebben bewezen dat WGCNA⁴⁹ een effectieve methode is voor co-expressie clustering analyse van kwantitatieve proteomics. JUMPn volgt een 3-stappenprocedure voor WGCNA-analyse^25,50: (i) initiële definitie van co-expressiegen/eiwitclusters door dynamisch boomsnijden⁵¹ op basis van de topologische overlapmatrix (TOM; bepaald door kwantificeringsovereenkomsten tussen genen/eiwitten); ii) samenvoeging van soortgelijke clusters om redundantie te verminderen (op basis van dendrogram van eigengene overeenkomsten); en (iii) de uiteindelijke toewijzing van genen/eiwitten aan elk cluster die de minimale Pearson-correlatieafsnijding overschrijden.

Configureer de WGCNA-parameters (figuur 3, middenpaneel). De volgende drie parameters regelen respectievelijk de drie stappen:
1. Stel de minimale clustergrootte in op 30. Deze parameter definieert het minimale aantal eiwitten dat nodig is voor elk co-expressiecluster in de eerste stap (i) van tom-gebaseerde hybride dynamische boomkap. Hoe groter de waarde, hoe kleiner het aantal clusters dat door het algoritme wordt geretourneerd.
2. Stel de minimale clusterafstand in op 0,2. Het verhogen van deze waarde (bijvoorbeeld van 0,2-0,3) kan ertoe leiden dat er tijdens stap (ii) meer clusters samensmelten, wat resulteert in een kleiner aantal clusters.
3. Stel minimale kME in op 0,7. Eiwitten worden toegewezen aan het meest gecorreleerde cluster dat in stap (ii) is gedefinieerd, maar alleen eiwitten met Pearson-correlatie die deze drempel overschrijden, blijven behouden. Eiwitten die in deze stap falen, worden niet toegewezen aan een cluster ('NA'-cluster voor de mislukte eiwitten in het eindrapport).
Start de analyse. Er zijn twee manieren om de co-expressieclusteranalyse in te dienen:
1. Klik op de knop JUMPn-analyse verzenden in de rechterbenedenhoek om de uitgebreide analyse van WGCNA automatisch te starten, gevolgd door PPI-netwerkanalyse.
2. U kunt er ook voor kiezen om alleen de WGCNA-stap uit te voeren (met name voor het afstemmen van parameters; zie stappen 4.2.3-4.2.4):
3. Klik op de knop Geavanceerde parameters onderaan de pagina Analyse starten ; er verschijnt een nieuw parametervenster. In de onderste widget, Selecteer Analysemodus, selecteer alleen WGCNA en klik vervolgens op Afwijzen om door te gaan.
4. Klik op de pagina Analyse starten op de knop JUMPn-analyse verzenden .
5. In beide bovenstaande gevallen verschijnt er een voortgangsbalk bij het indienen van de analyse.
  OPMERKING: Zodra de analyse is voltooid (meestal < 1 min voor WGCNA Only-analyse en <3 minuten voor uitgebreide analyse), verschijnt er een dialoogvenster met een bericht over geslaagd uitvoeren en het absolute pad naar de resultaatmap.
Bekijk de WGCNA-resultaten zoals geïllustreerd in stap 2.4-2.8 (figuur 5). Merk op dat het absolute pad naar het bestand co_exp_clusters_3colums.txt is gemarkeerd bovenaan de resultatenpagina: WGCNA Output om het clusterlidmaatschap van elk eiwit vast te leggen en te gebruiken als invoer voor de PPI Only-analyse .
Probleemoplossing. De volgende drie veel voorkomende gevallen worden besproken. Zodra de parameters zijn bijgewerkt zoals hieronder besproken, volgt u de stappen 4.2.2-4.2.4 om nieuwe WGCNA-resultaten te genereren.
1. Als een belangrijk co-expressiepatroon wordt verwacht van de gegevens, maar door het algoritme wordt gemist, volgt u de stappen 4.4.2-4.4.4
2. Een ontbrekend cluster is vooral waarschijnlijk voor kleine co-expressieclusters, d.w.z. slechts een beperkt aantal (bijv. <30) eiwitten die dit patroon vertonen. Onderzoek vóór de heranalyse het invoerbestand van de eiwitkwantificeringsmatrix opnieuw en lokaliseer verschillende positieve controle-eiwitten die zich houden aan dat belangrijke co-expressiepatroon.
3. Om de kleine clusters te redden, verlaagt u de minimale clustergrootte (bijvoorbeeld 10; clustergrootte kleiner dan 10 is mogelijk niet robuust, dus niet aanbevolen) en verlaagt u de minimale clusterafstand (bijvoorbeeld 0,1; hier is instelling als 0 ook toegestaan, wat betekent dat automatisch cluster samenvoegen wordt overgeslagen).
4. Nadat u de co-expressieclusteringstap met de bijgewerkte parameters hebt uitgevoerd, controleert u eerst of het cluster is gered uit de co-expressiepatroonplots en controleert u vervolgens de positieve besturingselementen door hun eiwittoetredingen te zoeken in Gedetailleerde eiwitkwantificering (zorg ervoor dat u het juiste co-expressiecluster selecteert in de vervolgkeuzewidget aan de linkerkant voordat u gaat zoeken).
  OPMERKING: Meerdere iteraties van parameterafstemming en herhaling kunnen nodig zijn voor de redding.
5. Als er te veel eiwitten zijn die niet aan een cluster kunnen worden toegewezen, volgt u de stappen 4.4.6-4.4.7.
  OPMERKING: Meestal kan een klein percentage (meestal <10%) van eiwitten niet aan een cluster worden toegewezen, omdat dit uitschieters kunnen zijn die geen van de gemeenschappelijke expressiepatronen van de dataset hebben gevolgd. Als een dergelijk percentage echter significant is (bijvoorbeeld >30%), suggereert dit dat er aanvullende co-expressiepatronen bestaan die niet kunnen worden genegeerd.
6. Verlaag zowel de parameters Minimale clustergrootte als Minimale clusterafstand om deze situatie te verlichten door 'nieuwe' co-expressieclusters te detecteren.
7. Verlaag bovendien de minimale Pearson-correlatie (kME) parameter om deze 'NA-cluster'-eiwitten te verkleinen.
  OPMERKING: Het afstemmen van deze parameter zal geen nieuwe clusters genereren, maar in plaats daarvan de grootte van 'bestaande' clusters vergroten door meer eerder mislukte eiwitten met de onderste drempel te accepteren; dit zal echter ook de heterogeniteit van elk cluster vergroten, omdat er nu meer luidruchtige eiwitten zijn toegestaan.
8. Twee clusters hebben een zeer klein verschil in patronen; voeg ze samen in één cluster volgens de stappen 4.4.9-4.4.11.
9. Verhoog de parameter Minimale clusterafstand om het probleem op te lossen.
10. In sommige situaties kan het algoritme echter nooit het gewenste patroon retourneren; pas in zo'n ogenblik het clusterlidmaatschap handmatig aan of bewerk het clusterlidmaatschap in het bestand co_exp_clusters_3colums.txt (bestand uit stap 4.3) om samen te voegen.
11. Neem het nabewerkte bestand als invoer voor de downstream PPI-netwerkanalyse. In het geval van handmatige bewerking, rechtvaardigt u de criteria van clustertoewijzing en registreert u de procedure voor handmatige bewerking.

5. Eiwit-eiwit interactie netwerk analyse

OPMERKING: Door co-expressieclusters op het PPI-netwerk te plaatsen, wordt elk co-expressiecluster verder gestratificeerd in kleinere PPI-modules. De analyse wordt uitgevoerd voor elk co-expressiecluster en omvat twee fasen: in de eerste fase plaatst JUMPn eiwitten uit het co-expressiecluster op het PPI-netwerk en vindt alle verbonden componenten (d.w.z. meerdere clusters van verbonden knooppunten / eiwitten; zie bijvoorbeeld figuur 6A); vervolgens worden gemeenschappen of modules (van dicht verbonden knooppunten) voor elke verbonden component iteratief gedetecteerd met behulp van de topologische overlapmatrix (TOM) methode⁵².

Configureer parameters voor PPI-netwerkanalyse (figuur 3, rechterdeelvenster).
1. Stel minimale PPI-modulegrootte in op 2. Deze parameter definieert de minimale grootte van de niet-verbonden componenten uit de eerste fase analyse. Elk onderdeel dat kleiner is dan de opgegeven parameter wordt uit de eindresultaten verwijderd.
2. Stel maximale PPI-modulegrootte in op 40. Grote, niet-verbonden componenten die deze drempel overschrijden, ondergaan een tom-gebaseerde analyse in de tweede fase. De analyse van de tweede fase zal elke grote component verder opsplitsen in kleinere modules: elke module bevat vermoedelijk eiwitten die dichter verbonden zijn dan de oorspronkelijke component als geheel.
Start de analyse. Er zijn twee manieren om de PPI-netwerkanalyse in te dienen:
1. Druk op de knop JUMPn-analyse verzenden om de PPI-analyse na WGCNA-analyse standaard automatisch uit te voeren.
2. U kunt ook aangepaste co-expressieclusterresultaten uploaden en alleen PPI-analyse uitvoeren volgens de stappen 5.2.3-5.2.5.
3. Bereid het invoerbestand voor door de indeling van het bestand co_exp_clusters_3colums.txt te volgen (zie subsectie 4.4).
4. Klik op de knop Geavanceerde parameters onderaan de pagina Analyse starten ; er verschijnt een nieuw parametervenster. In de bovenste sessie Co-expressieclusterresultaat uploaden voor 'PPI Only'-analyse, klikt u op Browser om het invoerbestand te uploaden dat is voorbereid door stap 5.2.3.
5. In de onderste widget, Selecteer Analysemodus, selecteer alleen PPI en klik vervolgens op Negeren om door te gaan. Klik op de pagina Analyse starten op de knop JUMPn-analyse verzenden .
Zodra de analyse is voltooid (meestal <3 min), onderzoekt u de PPI-resultaten zoals geïllustreerd in stap 2.10-2.15 (figuur 6).
Optionele geavanceerde stap) Pas PPI-modularisatie aan door parameters af te stemmen:
1. Verhoog de parameter Maximale modulegrootte om meer eiwitten toe te staan die zijn opgenomen in de PPI-resultaten. Upload een aangepast PPI-netwerk voor ongedocumenteerde interacties en volg de stappen 5.4.2-5.4.3.
2. Klik op de knop Geavanceerde parameters onderaan de pagina Analyse starten ; er verschijnt een nieuw parametervenster. Bereid het aangepaste PPI-bestand voor, dat drie kolommen bevat in de indeling , C-onnection en ; hier worden gepresenteerd door de officiële gennamen van elk eiwit.
3. Klik in Een PPI-database uploaden op de knop Bladeren om het aangepaste PPI-bestand te uploaden.

6. Analyse van de verrijking van de route

OPMERKING: De van JUMPn afgeleide hiërarchische structuren van zowel co-expressieclusters als PPI-modules worden automatisch geannoteerd met oververtegenwoordigde paden met behulp van de exacte test van Fisher. De gebruikte pathway/topologie databases omvatten Gene Ontology (GO), KEGG, Hallmark en Reactome. Gebruikers kunnen geavanceerde opties gebruiken om aangepaste databases te uploaden voor de analyse (bijvoorbeeld in het geval van het analyseren van gegevens van niet-menselijke soorten).

Standaard wordt de padverrijkingsanalyse automatisch gestart met co-expressieclustering en PPI-netwerkanalyse.
Bekijk de resultaten van de padverrijking:
1. Volg stap 2.7, 2.12 en 2.15 om verschillende indelingen op de resultatenpagina's te visualiseren. Bekijk gedetailleerde resultaten in de publicatietabel van spreadsheets in het bestand ComprehensiveSummaryTables.xlsx (stap 2.16).
(Optionele geavanceerde stap) Upload aangepaste database voor pathway-verrijkingsanalyse:
1. Bereid het genachtergrondbestand voor, dat meestal de officiële gennamen van alle genen van een soort bevat.
2. Bereid het ontologiebibliotheekbestand voor volgens de stappen 6.3.3-6.3.4.
3. Download de ontologiebibliotheekbestanden van openbare websites, waaronder EnrichR⁵³ en MSigDB⁵⁴. Download bijvoorbeeld ontologie van Drosophila van de EnrichR-website⁵⁵.
4. Bewerk het gedownloade bestand voor de vereiste indeling met twee kolommen: de padnaam als eerste kolom en vervolgens de officiële gensymbolen (gescheiden door "/") als de tweede kolom. Het gedetailleerde bestandsformaat wordt beschreven op de Help-pagina van de JUMPn R shiny-software.
  OPMERKING: Zoek voorbeeldbestanden met genachtergrond en ontologiebibliotheek (met Drosophila als instantie) op de JUMPn GitHub-site⁵⁶.
5. Klik op de knop Geavanceerde parameters onderaan de pagina Analyse starten; er verschijnt een nieuw parametervenster.
6. Zoek een achtergrondbestand uploaden voor Pathway Enrichment Analysis-item en klik op Browser om het achtergrondbestand te uploaden dat is voorbereid in stap 6.3.1. Selecteer vervolgens in de sessie de achtergrond die moet worden gebruikt voor Pathway Enrichment Analysis, klik op Door de gebruiker geleverde achtergrond.
7. Zoek een ontologiebibliotheekbestand uploaden voor Pathway Enrichment Analysis-item en klik op Browser om het ontologiebibliotheekbestand te uploaden dat is voorbereid in stappen 6.3.2-6.3.4. Klik vervolgens in de sessie , Selecteer databases voor Pathway Enrichment Analysis, op Door de gebruiker geleverde database in .xlsx formaat.
Klik op de knop JUMPn-analyse verzenden in de rechterbenedenhoek om de analyse te starten met behulp van de aangepaste database.

7. Analyse van dataset met grote steekproefgrootte

OPMERKING: JUMPn ondersteunt de analyse van datasets met een grote steekproefgrootte (tot 200 geteste monsters). Om de visualisatie van een grote steekproefgrootte te vergemakkelijken, is een extra bestand (met de naam 'metabestand') nodig dat de voorbeeldgroep opgeeft om de weergave van co-expressieclusteringresultaten te vergemakkelijken.

Metabestand voorbereiden en uploaden.
1. Bereid het metabestand voor dat groepsinformatie (bijvoorbeeld controle- en ziektegroepen) opgeeft voor elk monster volgens de stappen 7.1.2-7.1.3.
2. Zorg ervoor dat het metabestand ten minste twee kolommen bevat: kolom 1 moet de monsternamen bevatten die identiek zijn aan de kolomnamen en volgorde uit het eiwitkwantificeringsmatrixbestand (zoals opgesteld in stap 3.3); Kolom 2 en hoger wordt gebruikt voor groepstoewijzing voor een willekeurig aantal functies die door de gebruiker zijn gedefinieerd. Het aantal kolommen is flexibel.
3. Zorg ervoor dat de eerste rij van het metabestand de kolomnamen voor elke kolom bevat; vanaf de tweede rij moet individuele steekproefinformatie van groepen of andere kenmerken (bijv. geslacht, leeftijd, behandeling, enz.) worden vermeld.
4. Upload het metabestand door op de knop Geavanceerde parameters onderaan de pagina Analyse starten te klikken; er verschijnt een nieuw parametervenster. Ga verder met stap 7.1.5
5. Zoek upload een metabestandsitem en klik op Browser om het achtergrondbestand te uploaden. Als de onverwachte indeling of niet-overeenkomende voorbeeldnamen worden gedetecteerd door JUMPn, verschijnt er een foutbericht voor verdere opmaak van het metabestand (stappen 7.1.1-7.1.3).
De parameters voor co-expressieclusteranalyse aanpassen: stel Minimale Pearson-correlatie in op 0,2. Deze parameter moet worden versoepeld vanwege de grotere steekproefomvang.
Klik op de knop JUMPn-analyse verzenden in de rechterbenedenhoek om de analyse in te dienen.
Analyseresultaten weergeven: alle gegevensuitvoer is hetzelfde, behalve voor het weergeven van de co-expressieclusterpatronen.
1. Visualiseer op de pagina Resultatenpagina 1: WGCNA-uitvoer de co-expressieclusters als boxplots met voorbeelden die zijn gestratificeerd door de door de gebruiker gedefinieerde voorbeeldgroepen of -functies. Elke stip in de plot vertegenwoordigt het eigengen (d.w.z. het consensuspatroon van het cluster) berekend door het WGCNA-algoritme.
2. Als de gebruiker meerdere functies heeft opgegeven (bijv. leeftijd, geslacht, behandeling, enz.) om de voorbeelden te groeperen, klikt u op de vervolgkeuzelijst Selecteer de expressie-indeling om een andere functie te selecteren voor het groeperen van de voorbeelden.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

We gebruikten onze gepubliceerde diepe proteomics-datasets 25,26,27,30 (figuren 5 en figuur 6) en gegevenssimulaties⁵⁷ (tabel 1) om jumPn-prestaties te optimaliseren en te evalueren. Voor co-expressie eiwitclusteringanalyse via WGCNA raden we aan om eiwitten te gebruiken die significant zijn veranderd in monsters als input (bijv. Differentieel tot expressie gebrachte (DE) eiwitten gedetecteerd door statistische analyse). Hoewel het opnemen van niet-DE-eiwitten voor de analyse kan resulteren in meer co-expressieclusters die door het programma worden geretourneerd (vanwege een grotere invoergrootte), veronderstellen we dat het mengen van het echte signaal (bijvoorbeeld de DE-eiwitten) met de achtergrond (de resterende niet-DE) voor analyse op systeemniveau het signaal kan verdunnen en de onderliggende netwerkstructuur kan maskeren. Om dit te testen, werd simulatieanalyse uitgevoerd onder twee verschillende omstandigheden: i) zeer dynamisch proteoom (bijv. 50% veranderd in T-celactivering²⁵) en ii) relatief stabiel proteoom (bijv. 2% proteoom veranderd in AD²⁶). Voor het zeer dynamische proteoom werden zes co-expressieclusters gesimuleerd van 50% proteoom volgens dezelfde clustergrootte en expressiepatronen (d.w.z. eigengenen) van onze gepubliceerde resultaten²⁵. Evenzo hebben we voor een relatief stabiel proteoom drie clusters van 2% proteoom gesimuleerd na onze recente AD-proteomics-studie²⁶. Zoals verwacht verhoogt het verhogen van het inputaantal eiwitten het aantal gedetecteerde clusters (tabel 1). Voor het zeer dynamische proteoom kan het gebruik van alle eiwitten als input de meeste van de echte clusters (5 van de 6 gesimuleerde bonafide clusters; 83% recall) met 63% precisie vastleggen (5 van de 8 geretourneerde clusters zijn echte positieven; d.w.z. de resterende 3 clusters zijn valse positieven). Voor het relatief stabiele proteoom vermindert het verhogen van de inputgrootte met niet-DE-eiwitten echter de precisie drastisch (tabel 1). Als bijvoorbeeld het hele proteoom als invoer wordt gebruikt, worden 169 modules gedetecteerd, waarvan er slechts 2 correct zijn (1,2% precisie; de resterende 98,8% gedetecteerde modules zijn vals-positieven). Deze resultaten geven dus aan dat het kiezen van alleen het veranderde proteoom als input de precisie van co-expressieanalyse zal verhogen, vooral voor relatief stabiel proteoom.

Na de detectie van co-expressie eiwitclusters wordt elk cluster geannoteerd door JUMPn met behulp van de pathway enrichment-analyse (figuur 1). De huidige versie bevat vier veelgebruikte pathway databases, waaronder Gene Ontology (GO), KEGG, Hallmark en Reactome. Gebruikers kunnen ook hun eigen database samenstellen in GMT-formaat⁵⁴, die kan worden geüpload naar JUMPn. Het integreren van meerdere databases voor pathway-verrijkingsanalyse kan uitgebreidere weergaven bieden; de grootte van verschillende pathway-databases varieert echter aanzienlijk, wat ongewenste vertekening van bepaalde (vooral grote) databases kan veroorzaken. Binnen JUMPn worden twee oplossingen geboden. Ten eerste worden met behulp van een statistische benadering nominale p-waarden aangepast (of bestraft) voor het testen van meerdere hypothesen volgens de Benjamini-Hochberg-methode⁵⁸, waarbij een grotere database een belangrijkere nominale p-waarde vereist om hetzelfde aangepaste p-niveau te bereiken dan die van een kleine database. Ten tweede benadrukt JUMPn de top significant verrijkte pathway voor elke database afzonderlijk, zodat database-specifieke topverrijkte pathways altijd worden weergegeven.

Vergelijkbaar met pathway-verrijkingsanalyse werd een samengesteld PPI-netwerk samengesteld door STRING^59,60, BioPlex^61,62 en InWeb_IM⁶³ databases te combineren. De BioPlex-database is gemaakt met behulp van affiniteitszuivering gevolgd door massaspectrometrie in menselijke cellijnen, terwijl de STRING en InWeb informatie uit verschillende bronnen bevatten. Daarom werden de STRING- en InWeb-databases verder gefilterd door de edge-score om een hoge kwaliteit te garanderen, waarbij de cutoff werd bepaald door het beste te voldoen aan de schaalvrije criteria²⁴. Het uiteindelijke samengevoegde PPI-netwerk omvat meer dan 20.000 menselijke genen met ~ 1.100.000 randen (tabel 2). Dit uitgebreide interactoom is opgenomen en gepubliceerd in een bundel met onze JUMPn-software voor gevoelige PPI-analyse.

Nadat de analyse is voltooid, genereert JUMPn het spreadsheetbestand ComprehensiveSummaryTables.xlsx, bestaande uit drie afzonderlijke bladen. Het eerste blad bevat resultaten van co-expressie-eiwitclusters met één eiwit per rij: de eerste kolom geeft het clusterlidmaatschap van elk inputeiwit aan en de resterende kolommen worden gekopieerd uit het gebruikersinvoerbestand, dat de eiwittoetreding, gennamen, eiwitbeschrijving en kwantificering van individuele monsters bevat. Het tweede blad bevat resultaten van pathway-verrijkingsanalyse, waarbij significante pathways worden weergegeven die in elk co-expressiecluster zijn verrijkt. Deze tabel wordt eerst georganiseerd door verschillende pathway databases, vervolgens gesorteerd op co-expressie clusters, functionele pathways, het totale aantal pathway genen, het totale aantal genen in het individuele cluster, de overlappende gennummers en namen, verrijkingsplooi, Fisher exacte test afgeleide P-waarden en Benjamini-Hochberg valse ontdekkingssnelheid. Het derde blad bevat resultaten van PPI-moduleanalyse met één PPI-module per rij; de kolommen bevatten de modulenaam (gedefinieerd door het co-expressielidmaatschap en de module-ID, bijvoorbeeld Cluster1_Module1), de in kaart gebrachte eiwitten en getallen, evenals functionele paden die worden gedefinieerd door de module-eiwitten te doorzoeken tegen de pathway-databases.

Figuur 1: Workflow van JUMPn. Kwantificeringsmatrix van de topvariabele van differentieel tot expressie gebrachte (DE) eiwitten worden als input genomen en eiwitten worden gegroepeerd in co-expressieclusters door het WGCNA-algoritme. Elke co-expressie wordt vervolgens geannoteerd door pathway-verrijkingsanalyse en verder gesuperponeerd op het eiwit-eiwitinteractie (PPI) -netwerk voor dicht verbonden eiwitmodule-identificaties. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 2: JUMPn welkomstpagina. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 3: Invoerpagina van JUMPn. De pagina bevat het uploadpaneel van het invoerbestand en de parameterconfiguratiepanelen voor respectievelijk co-expressieclustering en PPI-netwerkanalyse. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 4: Voorbeeld invoerbestand van kwantificeringsmatrix. Kolommen omvatten eiwittoetreding (of unieke ID's), GN (officiële gensymbolen), eiwitbeschrijving (of door de gebruiker verstrekte informatie), gevolgd door eiwitkwantificering van individuele monsters. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 5: Resultaten van co-expressieclusters gerapporteerd door JUMPn. De co-expressie clustering patronen (A), top verrijkte pathway heatmap over clusters (B) en gedetailleerde eiwit abundantie voor elke cluster worden getoond (C). Gebruikers kunnen verschillende weergaveopties selecteren en via het selectievak tussen verschillende clusters navigeren. Klik hier om een grotere versie van deze figuur te bekijken.

Figuur 6: PPI-netwerkanalyseresultaten gerapporteerd door JUMPn. Het globale intermodulenetwerk wordt getoond (A), gevolgd door een subnetwerk van individuele modules (B) en de aanzienlijk verrijkte pathways (C). Gebruikers kunnen verschillende weergaveopties selecteren en via het selectievak tussen verschillende clusters en modules navigeren. Klik hier om een grotere versie van deze figuur te bekijken.

% topeiwitten voor analyse	# gesimuleerde modules	# gedetecteerde modules	# heroverde modules¹	precisie²	terugroepactie³
Zeer dynamisch proteoom (bijv. tijdens T-celactivering): 6 gesimuleerde modules van 50% proteoom
2	6	2	2	1	0.33
5	6	2	2	1	0.33
10	6	3	3	1	0.5
20	6	4	4	1	0.67
50	6	6	6	1	1
100	6	8	5	0.63	0.83
Relatief stabiel proteoom (bijv. tijdens pathogenese van AD): 3 gesimuleerde modules van 2% proteoom
1	3	1	1	1	0.33
2	3	3	3	1	1
5	3	8	3	0.38	1
10	3	13	3	0.23	1
20	3	19	3	0.16	1
50	3	71	2	0.03	0.67
100	3	169	2	0.01	0.67
¹ Een heroverde module is een gedetecteerde module waarvan het eigengen sterk correleert (Pearson R > 0,95) met een van de gesimuleerde eigengenen.
²precisie = # heroverde modules / # gedetecteerde modules
³recall = # heroverde modules / # gesimuleerde modules

Tabel 1: Simulatiestudies van co-expressie clusterdetectie.

PPI-netwerken	Nee. van knooppunten	Nee. van randen
BioPlex 3.0 gecombineerd (293T+HCT116)	14,551	1,67,399
InBio_Map_core_2016_09_12	17,429	6,08,166
STRING (v11.0)	18,954	5,87,482
Samengesteld PPI-netwerk	20,485	11,52,607

Tabel 2: Statistieken van humane eiwit-eiwit interactie (PPI) netwerken. PPI-netwerken worden gefilterd op edge score om een hoge kwaliteit te garanderen, waarbij de score cutoff wordt bepaald door de schaalvrije criteria het beste aan te passen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Hier introduceerden we onze JUMPn-software en het bijbehorende protocol, die in meerdere projecten zijn toegepast voor het ontleden van moleculaire mechanismen met behulp van diepe kwantitatieve proteomics-gegevens 25,26,27,30,64. De JUMPn-software en het JUMPn-protocol zijn volledig geoptimaliseerd, inclusief overweging van DE-eiwitten voor co-expressienetwerkanalyse, een compilatie van een uitgebreid en hoogwaardig PPI-netwerk, strenge statistische analyse (bijvoorbeeld door rekening te houden met het testen van meerdere hypothesen) met een gestroomlijnde en gebruiksvriendelijke interface. Meerdere eiwitmodules geïdentificeerd door JUMPn zijn gevalideerd door functionele experimentstudies^25,27 of onafhankelijke patiëntcohorten²⁶, die JUMPn illustreren als een effectief hulpmiddel voor het identificeren van belangrijke moleculen en routes die ten grondslag liggen aan diverse biologische processen.

Kritieke stappen van dit protocol omvatten het genereren van optimale resultaten van co-expressieclusters en PPI-modules, waarvoor mogelijk meerdere iteraties van parameterafstemming nodig zijn, evenals het uploaden van aangepast PPI-netwerk. In ons protocol bespraken we veelvoorkomende praktische scenario's, waaronder hoe om te gaan met het ontbreken van belangrijke clusters, een hoog percentage niet-toegewezen eiwitten, het samenvoegen van twee redundante clusters en het ontbreken van belangrijke eiwitten binnen PPI-modules. We raden de gebruiker aan om verschillende positieve controle-eiwitten te bereiden en hun aanwezigheid in de uiteindelijke co-expressieclusters te bevestigen. Soms wordt een positief besturingselement nooit opgenomen in de uiteindelijke PPI-modules vanwege een onvolledige PPI-netwerkdatabase. Om dit gedeeltelijk te verlichten, hebben we ons PPI-netwerk bijgewerkt met de nieuwste versies van BioPlex V3⁶² en STRING V11⁶⁰. Bovendien kunnen gebruikers met JUMPn aangepaste PPI-netwerken uploaden. Nieuwe interacties die zijn afgeleid van affiniteitszuivering-massaspectrometrie (AP-MS) experimenten met een belangrijk positief controle-eiwit als lokaas, kunnen bijvoorbeeld worden geïntegreerd met het huidige samengestelde PPI-netwerk voor meer aangepaste analyse.

Door gebruik te maken van het raamwerk van pathway enrichment analyse voor elke co-expressie eiwitcluster, kan JUMPn worden uitgebreid voor het afleiden van transcriptiefactor (TF) activiteit. De veronderstelling is dat als er een oververtegenwoordiging van doelgenen van een specifieke TF in een co-expressiecluster bestaat (d.w.z. deze doelen worden differentieel tot expressie gebracht en volgen hetzelfde expressiepatroon), de activiteit van die TF mogelijk wordt gewijzigd in experimentele omstandigheden omdat de doeleiwitrijkdom consistent wordt gewijzigd. Technisch gezien kan dit eenvoudig worden bereikt via JUMPn door de huidige pathway-database te vervangen door de TF-target database (bijvoorbeeld van het ENCODE-project⁶⁵). Evenzo kan kinase-activiteit ook worden afgeleid door gebruik te maken van de kinase-substraatdatabase, waarbij diepe fosfoproteomica als input worden genomen. Als voorbeeld identificeerden we met succes ontregelde TF's en kinasen die ten grondslag liggen aan pathogenese van hersentumoren⁶⁴. Inderdaad, het gebruik van de netwerkbenadering voor activiteitsinferentie is naar voren gekomen als een krachtige benadering voor het identificeren van ontregelde oorzaken voor menselijke ziekten^66,67.

De JUMPn-software kan gemakkelijk worden toegepast op een breed scala aan gegevenstypen. Hoewel isobaar labelen gekwantificeerd proteoom als illustratief voorbeeld werd gebruikt, is hetzelfde protocol ook van toepassing op labelvrije gekwantificeerde proteomics-gegevens, evenals genoombrede expressieprofielen (bijvoorbeeld gekwantificeerd door RNA-seq of microarray; zie ons recente voorbeeld van het toepassen van JUMPn voor zowel gen- als eiwitexpressieprofielen²⁷). Fosfoproteomics-gegevens kunnen ook door JUMPn worden genomen om co-uitgedrukte fosfosieten te identificeren, gevolgd door kinaseactiviteitsinferentie²⁵. Daarnaast zullen ook interactoomgegevens die door de AP-MS-benadering worden gegenereerd, geschikt zijn, waarbij prooieiwitten die vergelijkbare aasinteractiesterkte en stoichiometrie volgen, co-expressieclusters vormen en verder overlappen met bekende PPI's voor gegevensinterpretatie⁶⁸.

Er zijn beperkingen voor de huidige versie van JUMPn. Ten eerste is de installatieprocedure gebaseerd op de opdrachtregel en vereist basiskennis van de informatica. Dit belemmert een breder gebruik van JUMPn, vooral van biologen zonder computationele achtergrond. Een meer ideale implementatie is om JUMPn op een online server te publiceren. Ten tweede zijn de huidige databases mensgericht vanwege onze focus op menselijke ziektestudies. Merk op dat proteomics-gegevens gegenereerd door muizen ook zijn geanalyseerd door JUMPn met behulp van dergelijke mensgerichte databases^25,27, ervan uitgaande dat de meeste PPI's worden bewaard over beide soorten^69,70. Muisspecifieke signalering zal niet worden vastgelegd door deze aanpak, maar is niet van belang in die menselijke studies. Voor niet-zoogdiermodelsystemen (bijv. zebravissen, vliegen of gisten) moeten echter soortspecifieke databases worden opgesteld en geüpload naar JUMPn met behulp van de geavanceerde opties. Middelen van extra soorten kunnen worden verstrekt via toekomstige JUMPn-release. Ten derde kost de huidige stap van ontologie/ pathway-analyse veel tijd, die verder kan worden geoptimaliseerd door parallel computing.

Tot slot presenteren we de JUMPn-software en het PROTOCOL voor het verkennen van kwantitatieve proteomics-gegevens om co-uitgedrukte en potentieel fysiek interagerende eiwitmodules te identificeren en te visualiseren door middel van systeembiologische benadering. De belangrijkste kenmerken die JUMPn onderscheiden van andere 53,71,72 zijn: (i) JUMPn integreert en stroomlijnt vier belangrijke componenten van de pathway- en netwerkanalyse (figuur 1); (ii) Anders dan de meeste pathway-analysesoftware die een eenvoudige genenlijst als input neemt, gaat JUMPn uit van een kwantificeringsmatrix, waarmee kwantitatieve informatie naadloos kan worden geïntegreerd met in de literatuur gedocumenteerde paden en netwerken; (iii) Zowel co-expressie eiwitclusters als interactiemodules worden automatisch geannoteerd door bekende paden en gevisualiseerd via het R/shiny interacting platform met behulp van een gebruiksvriendelijke webbrowser; (iv) De eindresultaten zijn georganiseerd in drie tabellen die gemakkelijk kunnen worden gepubliceerd in Excel-indeling. We verwachten dus dat de JUMPn en dit protocol breed toepasbaar zullen zijn op veel studies voor het ontleden van mechanismen met behulp van kwantitatieve proteomics-gegevens.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteurs hebben niets te onthullen.

Acknowledgments

Financiële steun werd verleend door de National Institutes of Health (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 en U54NS110435) en ALSAC (American Lebanese Syrian Associated Charities). De MS-analyse werd uitgevoerd in het St. Jude Children's Research Hospital's Center of Proteomics and Metabolomics, dat gedeeltelijk werd ondersteund door NIH Cancer Center Support Grant (P30CA021765). De inhoud is uitsluitend de verantwoordelijkheid van de auteurs en vertegenwoordigt niet noodzakelijkerwijs de officiële standpunten van de National Institutes of Health.

Materials

Name	Company	Catalog Number	Comments
MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7.	Apple Inc.	MacBook Pro 13''	Hardware used for software development and testing
Anoconda	Anaconda, Inc.	version 4.9.2	https://docs.anaconda.com/anaconda/install/
miniconda	Anaconda, Inc.	version 4.9.2	https://docs.conda.io/en/latest/miniconda.html
RStudio	RStudio Public-benefit corporation	version 4.0.3	https://www.rstudio.com/products/rstudio/download/
Shiny Server	RStudio Public-benefit corporation		https://shiny.rstudio.com/articles/shinyapps.html