Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biochemistry

JUMPn: Een gestroomlijnde toepassing voor eiwit co-expressie clustering en netwerkanalyse in proteomics

Published: October 19, 2021 doi: 10.3791/62796

Summary

We presenteren een systeembiologische tool JUMPn om netwerkanalyse uit te voeren en te visualiseren voor kwantitatieve proteomics-gegevens, met een gedetailleerd protocol inclusief gegevensvoorverwerking, co-expressieclustering, pathway-verrijking en eiwit-eiwitinteractienetwerkanalyse.

Abstract

Met recente ontwikkelingen in op massaspectrometrie gebaseerde proteomics-technologieën is diepe profilering van honderden proteomen steeds haalbaarder geworden. Het afleiden van biologische inzichten uit dergelijke waardevolle datasets is echter een uitdaging. Hier introduceren we een op systeembiologie gebaseerde software JUMPn en het bijbehorende protocol om het proteoom te organiseren in eiwitco-expressieclusters over monsters en eiwit-eiwitinteractie (PPI) -netwerken verbonden door modules (bijv. Eiwitcomplexen). Met behulp van het R/Shiny-platform stroomlijnt de JUMPn-software de analyse van co-expressieclustering, pathwayverrijking en PPI-moduledetectie, met geïntegreerde datavisualisatie en een gebruiksvriendelijke interface. De belangrijkste stappen van het protocol omvatten de installatie van de JUMPn-software, de definitie van differentieel tot expressie gebrachte eiwitten of het (dys)gereguleerde proteoom, bepaling van betekenisvolle co-expressieclusters en PPI-modules en resultaatvisualisatie. Hoewel het protocol wordt gedemonstreerd met behulp van een op isobaar labeling gebaseerd proteoomprofiel, is JUMPn algemeen toepasbaar op een breed scala aan kwantitatieve datasets (bijv. Labelvrije proteomics). De JUMPn-software en het protocol bieden dus een krachtig hulpmiddel om biologische interpretatie in kwantitatieve proteomics te vergemakkelijken.

Introduction

Massaspectrometrie-gebaseerde shotgun proteomics is de belangrijkste benadering geworden voor het analyseren van proteoomdiversiteit van complexe monsters1. Met recente ontwikkelingen in massaspectrometrie-instrumentatie 2,3, chromatografie 4,5, ionenmobiliteitsdetectie6, acquisitiemethoden (data-onafhankelijke7 en data-afhankelijke acquisitie8), kwantificeringsbenaderingen (multi-plex isobare peptide-etiketteringsmethode, bijv. TMT 9,10, en labelvrije kwantificering11,12) en data-analysestrategieën/ softwareontwikkeling 13,14,15,16,17,18, kwantificering van het hele proteoom (bijv. Meer dan 10.000 eiwitten) is nu routine 19,20,21. Hoe je mechanistische inzichten kunt krijgen uit zulke diepe kwantitatieve datasets is echter nog steeds een uitdaging22. De eerste pogingen om deze datasets te onderzoeken waren voornamelijk gebaseerd op de annotatie van individuele elementen van de gegevens, waarbij elke component (eiwit) onafhankelijk werd behandeld. Biologische systemen en hun gedrag kunnen echter niet alleen worden verklaard door individuele componentente onderzoeken 23. Daarom is een systeembenadering die de gekwantificeerde biomoleculen in de context van interactienetwerken plaatst, essentieel voor het begrip van complexe systemen en de bijbehorende processen zoals embryogenese, immuunrespons en pathogenese van menselijke ziekten24.

Netwerkgebaseerde systeembiologie is naar voren gekomen als een krachtig paradigma voor het analyseren van grootschalige kwantitatieve proteomics-gegevens 25,26,27,28,29,30,31,32,33. Conceptueel zouden complexe systemen zoals zoogdiercellen kunnen worden gemodelleerd als een hiërarchisch netwerk34,35, waarin het hele systeem in lagen wordt weergegeven: eerst door een aantal grote componenten, die elk vervolgens iteratief worden gemodelleerd door kleinere subsystemen. Technisch gezien kan de structuur van proteoomdynamica worden gepresenteerd door onderling verbonden netwerken van co-tot expressie gebrachte eiwitclusters (omdat co-tot expressie gebrachte genen / eiwitten vaak vergelijkbare biologische functies of regulatiemechanismen delen36) en fysiek interagerende PPI-modules37. Als recent voorbeeld25 genereerden we temporele profielen van hele proteoom en fosfoproteoom tijdens T-celactivering en gebruikten we integratieve co-expressienetwerken met PPI's om functionele modules te identificeren die T-cel rust exit bemiddelen. Meerdere bio-energetische gerelateerde modules werden gemarkeerd en experimenteel gevalideerd (bijv. de mitoribostische en complexe IV-modules25 en de één-koolstofmodule38). In een ander voorbeeld26 hebben we onze aanpak verder uitgebreid om de pathogenese van de ziekte van Alzheimer te bestuderen en met succes prioriteit gegeven aan ziekteprogressie geassocieerde eiwitmodules en moleculen. Belangrijk is dat veel van onze onbevooroordeelde ontdekkingen werden gevalideerd door onafhankelijke patiëntencohorten26,29 en /of ziektemuismodellen26. Deze voorbeelden illustreerden de kracht van de systeembiologische benadering voor het ontleden van moleculaire mechanismen met kwantitatieve proteomics en andere omics-integraties.

Hier introduceren we JUMPn, een gestroomlijnde software die kwantitatieve proteomics-gegevens onderzoekt met behulp van netwerkgebaseerde systeembiologische benaderingen. JUMPn dient als de downstream-component van de gevestigde JUMP proteomics-softwaresuite 13,14,39 en heeft tot doel de kloof te dichten van individuele eiwitkwantificeringen naar biologisch zinvolle routes en eiwitmodules met behulp van de systeembiologische benadering. Door de kwantificeringsmatrix van differentieel tot expressie gebrachte (of de meest variabele) eiwitten als input te nemen, wil JUMPn het proteoom organiseren in een gelaagde hiërarchie van eiwitclusters die mede tot expressie komen in monsters en dicht verbonden PPI-modules (bijv. Eiwitcomplexen), die verder worden geannoteerd met openbare pathway-databases door oververtegenwoordiging (of verrijking) analyse (figuur 1). JUMPn is ontwikkeld met het R/Shiny-platform40 voor een gebruiksvriendelijke interface en integreert drie belangrijke functionele modules: co-expressieclusteringanalyse, pathwayverrijkingsanalyse en PPI-netwerkanalyse (figuur 1). Na elke analyse worden de resultaten automatisch gevisualiseerd en zijn ze instelbaar via de R/shiny widget-functies en gemakkelijk te downloaden als publicatietabellen in Microsoft Excel-formaat. In het volgende protocol gebruiken we kwantitatieve hele proteoomgegevens als voorbeeld en beschrijven we de belangrijkste stappen van het gebruik van JUMPn, inclusief de installatie van de JUMPn-software, de definitie van differentieel tot expressie gebrachte eiwitten of het (dys)gereguleerde proteoom, co-expressienetwerkanalyse en PPI-moduleanalyse, resultaatvisualisatie en -interpretatie en probleemoplossing. JUMPn-software is gratis beschikbaar op GitHub41.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

OPMERKING: In dit protocol wordt het gebruik van JUMPn geïllustreerd door gebruik te maken van een gepubliceerde dataset van volledige proteoomprofilering tijdens B-celdifferentiatie gekwantificeerd door TMT isobaar labelreagens27.

1. Installatie van JUMPn-software

OPMERKING: Er zijn twee opties voor het instellen van de JUMPn-software: (i) installatie op een lokale computer voor persoonlijk gebruik; en (ii) implementatie van JUMPn op een externe Shiny Server voor meerdere gebruikers. Voor lokale installatie is een pc met internettoegang en ≥4 Gb RAM voldoende om JUMPn-analyse uit te voeren voor een gegevensset met een kleine steekproefgrootte (n < 30); groter RAM (bijv. 16 Gb) is nodig voor analyse van grote cohorten (bijv. n = 200 monsters).

  1. Installeer de software op een lokale computer. Laat de webbrowser na de installatie JUMPn starten en laat de analyse op de lokale computer uitvoeren.
    1. Installeer anaconda42 of miniconda43 volgens de online instructies.
    2. Download de JUMPn broncode41. Dubbelklik om het gedownloade bestand uit te pakken JUMPn_v_1.0.0.zip; er wordt een nieuwe map met de naam JUMPn_v_1.0.0 gemaakt.
    3. Open de opdrachtregelterminal. Gebruik in Windows de Anaconda-prompt. Gebruik in MacOS de ingebouwde terminaltoepassing.
    4. De JUMPn Conda-omgeving maken: haal het absolute pad van de map JUMPn_v_1.0.0 op (bijvoorbeeld /path/to/JUMPn_v_1.0.0). Om een lege Conda-omgeving te maken en te activeren, typt u de volgende opdrachten op de terminal
      conda create -p /path/to/JUMPn_v_1.0.0/JUMPn -y
      conda activeren /path/to/JUMPn_v_1.0.0/JUMPn
    5. JUMPn-afhankelijkheden installeren: Installeer R (typ op de terminal conda install -c conda-forge r=4.0.0 -y), wijzig de huidige map in de map JUMPn_v_1.0.0 (typ op de terminal cd path/to/JUMPn_v_1.0.0) en installeer de afhankelijkheidspakketten (typ op de terminal Rscript bootstrap. R)
    6. Start JUMPn in de webbrowser: Wijzig de huidige map in de uitvoeringsmap (op de terminal typ cd execution) en start JUMPn (typ op de terminal R -e "shiny::runApp()")
    7. Zodra het bovenstaande is uitgevoerd, verschijnt het terminalscherm Luisteren op http://127.0.0.1:XXXX (hier geeft XXXX 4 willekeurige getallen aan). Kopieer en plak http://127.0.0.1:XXXX in de webbrowser, waarop de JUMPn-welkomstpagina wordt weergegeven (afbeelding 2).
  2. Implementatie op Shiny Server. Voorbeelden van Shiny Server zijn de commerciële shinyapps.io server of een institutioneel ondersteunde Shiny Servers.
    1. Download en installeer RStudio volgens de instructies44.
    2. Verkrijg de implementatiemachtiging voor de Shiny Server. Voor de shinyapps.io server stelt u het gebruikersaccount in door de instructies45 te volgen. Voor de shiny-server van de instelling neemt u contact op met de serverbeheerder voor het aanvragen van machtigingen.
    3. Download de JUMPn broncode41 naar de lokale machine; installatie is niet nodig. Open de server. R of ui. R-bestanden in RStudio en klik op het vervolgkeuzemenu Publiceren op server in de rechterbovenhoek van de RStudio IDE.
    4. Typ in het deelvenster Publiceren naar account het serveradres. Druk op de knop Publiceren . Succesvolle implementatie wordt gevalideerd na automatische omleiding van RStudio naar de RShiny-server waar de toepassing is geïmplementeerd.

2. Demo uitvoeren met behulp van een voorbeeldgegevensset

OPMERKING: JUMPn biedt een demorun met behulp van de gepubliceerde B-cel proteomics-dataset. De demorun illustreert een gestroomlijnde workflow die de kwantificeringsmatrix van differentieel tot expressie gebrachte eiwitten als input neemt en co-expressieclustering, pathwayverrijking en PPI-netwerkanalyse sequentieel uitvoert.

  1. Klik op de JUMPn-startpagina (figuur 2) op de knop Analyse starten om de JUMPn-analyse te starten.
  2. Klik in de linkerbenedenhoek van de pagina Analyse starten (figuur 3) op de knop Demo B-celproteomische gegevens uploaden ; er verschijnt een dialoogvenster met de melding dat de gegevens zijn geüpload.
  3. Klik in de rechterbenedenhoek van de pagina op de knop JUMPn-analyse verzenden om de demorun te starten met behulp van standaardparameters; er verschijnt een voortgangsbalk die het verloop van de analyse aangeeft. Wacht tot aan de voortgangsbalk is voldaan (3 min verwacht).
  4. Zodra de demorun is voltooid, verschijnt er een dialoogvenster met het bericht geslaagde uitvoering en het absolute pad naar de resultaatmap. Klik op Doorgaan naar Resultaten om door te gaan.
  5. De webpagina leidt de gebruiker eerst naar de resultaten van het co-expressiecluster van WGCNA. Klik op Resultaten weergeven in het dialoogvenster om door te gaan.
  6. Zoek de co-expressiepatronen van eiwitten aan de linkerkant van de pagina Resultaatpagina 1: WGCNA-uitvoer . Klik op de vervolgkeuzelijst Selecteer de expressie-indeling om te navigeren tussen twee figuurindelingen:
    1. Selecteer Trends om de trendsplot weer te geven, waarbij elke regel de individuele eiwitrijkdom in monsters vertegenwoordigt. De kleur van elke lijn geeft aan hoe dicht het expressiepatroon zich bevindt bij de consensus van het co-expressiecluster (d.w.z. "eigengen" zoals gedefinieerd door het WGCNA-algoritme).
    2. Selecteer Boxplot om co-expressiepatronen in boxplot-indeling voor elk voorbeeld weer te geven.
  7. Bekijk de pathway/ontologie verrijking heatmap aan de rechterkant van de WGCNA output pagina. De meest verrijkte paden voor elk cluster worden samen weergegeven in een heatmap, waarbij de kleurintensiteit de door Benjamini-Hochberg gecorrigeerde p-waarde weerspiegelt.
  8. Scrol omlaag op de webpagina om het expressiepatroon voor individuele eiwitten te bekijken.
    1. Gebruik de vervolgkeuzelijst Selecteer het co-expressiecluster om eiwitten van elk cluster weer te geven (standaard is cluster 1). Selecteer een specifiek eiwit in de tabel, waarop de staafplot onder de tabel automatisch wordt bijgewerkt om de eiwitrijkdom weer te geven.
    2. Zoek specifieke eiwitnamen met behulp van het vak Zoeken aan de rechterkant van de tabel naar een specifiek eiwit.
  9. Om PPI-resultaten te bekijken, klikt u op de resultatenpagina 2: PPI-uitvoer bovenaan.
  10. Klik op Selecteer het co-expressiecluster om de resultaten voor een specifiek co-expressiecluster weer te geven (standaard is cluster 1). De weergaven van alle figuurvensters op deze pagina worden bijgewerkt voor het nieuw geselecteerde cluster.
  11. Bekijk de PPI-netwerken voor het geselecteerde co-expressiecluster in het linkerdeelvenster:
    1. Klik op de vervolgkeuzelijst Selecteren op groep om afzonderlijke PPI-modules binnen het netwerk te markeren. Klik op de selecteer een netwerklay-out formaat vervolgkeuzelijst om de netwerklay-out te wijzigen (standaard is door Fruchterman Reingold).
    2. Gebruik de muis en het trackpad om stappen 2.11.3-2.11.5 uit te voeren.
    3. Zoom indien nodig in of uit op het PPI-netwerk. De gennamen van elk knooppunt in het netwerk worden weergegeven wanneer er voldoende is ingezoomd.
    4. Wanneer u bent ingezoomd, selecteert en klikt u op een bepaald eiwit om dat eiwit en zijn netwerkburen te markeren.
    5. Sleep een bepaald knooppunt (eiwit) in het netwerk om de positie in de lay-out te wijzigen; daardoor kan de netwerklay-out door de gebruiker worden gereorganiseerd.
  12. Bekijk in het rechterdeelvenster van de PPI-resultatenpagina de informatie op clusterniveau op co-expressieniveau die helpt bij de interpretatie van PPI-resultaten:
    1. Bekijk het co-expressiepatroon van het geselecteerde cluster standaard als boxplot.
    2. Klik op de selecteer de expressie-indeling vervolgkeuzelijst voor meer informatie of displays zoals vermeld in stappen 2.12.3-2.12.5.
    3. Selecteer Trends om trends plot voor het co-expressiepatroon weer te geven.
    4. Selecteer Pathway Barplot om aanzienlijk verrijkte pathways voor het co-expressiecluster weer te geven.
    5. Selecteer Pathway Circle Plot om aanzienlijk verrijkte paden voor het co-expressiecluster weer te geven in de cirkelplotindeling.
  13. Scrol omlaag op de webpagina Resultaatpagina 2: PPI-uitvoer om resultaten op het niveau van de afzonderlijke PPI-module weer te geven. Klik op de vervolgkeuzelijst Selecteer de module om een specifieke PPI-module te selecteren voor weergave (Cluster1: Module 1 wordt standaard weergegeven).
  14. Bekijk de PPI-module in het linkerdeelvenster. Volg de stappen 2.11.2-2.11.5 om de netwerkweergave te manipuleren.
  15. Bekijk de resultaten van de pathway/ontologieverrijking op het rechterpaneel. Klik op de vervolgkeuzelijst Selecteer de Pathway Annotation Style voor meer informatie en displays:
    1. Selecteer Barplot om aanzienlijk verrijkte paden voor de geselecteerde PPI-module weer te geven.
    2. Selecteer Cirkelplot om aanzienlijk verrijkte paden voor de geselecteerde PPI-module weer te geven in de indeling van een cirkelplot.
    3. Selecteer Heatmap om aanzienlijk verrijkte paden en de bijbehorende gennamen van de geselecteerde PPI-module weer te geven.
    4. Selecteer Tabel om de gedetailleerde resultaten van de pathwayverrijking weer te geven, inclusief de naam van pathways/ontologietermen, gennamen en de P-waarde van Fisher's exacte test.
  16. Bekijk de publicatietabel in een spreadsheetindeling: volg het absolute pad (boven aan beide resultatenpagina's afgedrukt) en zoek de tabel met de publicatiespreadsheet met de naam ComprehensiveSummaryTables.xlsx.

3. Voorbereiding van het invoerbestand en uploaden naar JUMPn

OPMERKING: JUMPn neemt als input de kwantificeringsmatrix van ofwel de differentieel tot expressie gebrachte eiwitten (gecontroleerde methode) of de meest variabele eiwitten (unsupervised methode). Als het doel van het project is om eiwitten te begrijpen die zijn veranderd in meerdere omstandigheden (bijvoorbeeld verschillende ziektegroepen of tijdreeksanalyse van biologisch proces), heeft de gesuperviseerde methode voor het uitvoeren van DE-analyse de voorkeur; anders kan een onbewaakte benadering van het selecteren van de meest variabele eiwitten worden gebruikt voor het verkennende doel.

  1. Genereer de eiwitkwantificatietabel, met elk eiwit als rijen en elk monster als kolommen. Bereik dit via moderne op massaspectrometrie gebaseerde proteomics-softwaresuite (bijv. JUMP-suite 13,14,39, Proteome Discoverer, Maxquant 15,46).
  2. Definieer de variabele proteoom.
    1. Gebruik de statistische analyseresultaten van de proteomics-softwaresuite om differentieel tot expressie gebrachte (DE) eiwitten te definiëren (bijvoorbeeld met aangepaste p-waarde < 0,05).
    2. Als alternatief kunnen gebruikers het voorbeeld R-code47 volgen om DE of de meeste variabele eiwitten te definiëren.
  3. Formatteer het invoerbestand met behulp van het gedefinieerde variabele proteoom.
    OPMERKING: De vereiste invoerbestandsindeling (afbeelding 4) bevat een veldnamenrij; de kolommen omvatten eiwittoetreding (of unieke ID's), GN (officiële gensymbolen), eiwitbeschrijving (of door de gebruiker verstrekte informatie), gevolgd door eiwitkwantificering van individuele monsters.
    1. Volg de volgorde van de kolommen die in stap 3.1 zijn opgegeven, maar de kolomnamen van de koptekst zijn flexibel voor de gebruiker.
    2. Gebruik voor TMT (of vergelijkbaar) gekwantificeerd proteoom de samengevatte INTENSITEIT van tmt-reporters als inputkwantificeringswaarden. Gebruik voor labelvrije gegevens ofwel genormaliseerde spectrale tellingen (bijv. NSAF48) of een op intensiteit gebaseerde methode (bijv. LFQ-intensiteit of iBAQ-eiwitintensiteit gerapporteerd door Maxquant46).
    3. Ontbrekende waarden zijn toegestaan voor JUMPn-analyse. Zorg ervoor dat u deze als NA labelt in de kwantificeringsmatrix. Het wordt echter aanbevolen om alleen eiwitten met kwantificering te gebruiken in meer dan 50% van de monsters.
    4. Sla het resulterende invoerbestand op als .txt-, .xlsx- of .csv-indeling (alle drie worden ondersteund door JUMPn).
  4. Invoerbestand uploaden:
    1. Klik op de knop Browser en selecteer het invoerbestand (figuur 3, linkerdeelvenster); de bestandsindeling (xlsx, csv en txt worden ondersteund) wordt automatisch gedetecteerd.
    2. Als het invoerbestand intensiteitsachtige kwantificeringswaarden bevat (bijvoorbeeld die gegenereerd door JUMP suite39) of ratio-achtige (bijvoorbeeld van Proteome Discoverer), selecteert u Ja voor de optie Log2-transformatie van gegevens uitvoeren; Anders zijn de gegevens mogelijk al in logboeken getransformeerd, dus selecteer Nee voor deze optie.

4. Co-expressie clustering analyse

OPMERKING: Onze groep 25,26,27 en anderen 28,29,31 hebben bewezen dat WGCNA49 een effectieve methode is voor co-expressie clustering analyse van kwantitatieve proteomics. JUMPn volgt een 3-stappenprocedure voor WGCNA-analyse25,50: (i) initiële definitie van co-expressiegen/eiwitclusters door dynamisch boomsnijden51 op basis van de topologische overlapmatrix (TOM; bepaald door kwantificeringsovereenkomsten tussen genen/eiwitten); ii) samenvoeging van soortgelijke clusters om redundantie te verminderen (op basis van dendrogram van eigengene overeenkomsten); en (iii) de uiteindelijke toewijzing van genen/eiwitten aan elk cluster die de minimale Pearson-correlatieafsnijding overschrijden.

  1. Configureer de WGCNA-parameters (figuur 3, middenpaneel). De volgende drie parameters regelen respectievelijk de drie stappen:
    1. Stel de minimale clustergrootte in op 30. Deze parameter definieert het minimale aantal eiwitten dat nodig is voor elk co-expressiecluster in de eerste stap (i) van tom-gebaseerde hybride dynamische boomkap. Hoe groter de waarde, hoe kleiner het aantal clusters dat door het algoritme wordt geretourneerd.
    2. Stel de minimale clusterafstand in op 0,2. Het verhogen van deze waarde (bijvoorbeeld van 0,2-0,3) kan ertoe leiden dat er tijdens stap (ii) meer clusters samensmelten, wat resulteert in een kleiner aantal clusters.
    3. Stel minimale kME in op 0,7. Eiwitten worden toegewezen aan het meest gecorreleerde cluster dat in stap (ii) is gedefinieerd, maar alleen eiwitten met Pearson-correlatie die deze drempel overschrijden, blijven behouden. Eiwitten die in deze stap falen, worden niet toegewezen aan een cluster ('NA'-cluster voor de mislukte eiwitten in het eindrapport).
  2. Start de analyse. Er zijn twee manieren om de co-expressieclusteranalyse in te dienen:
    1. Klik op de knop JUMPn-analyse verzenden in de rechterbenedenhoek om de uitgebreide analyse van WGCNA automatisch te starten, gevolgd door PPI-netwerkanalyse.
    2. U kunt er ook voor kiezen om alleen de WGCNA-stap uit te voeren (met name voor het afstemmen van parameters; zie stappen 4.2.3-4.2.4):
    3. Klik op de knop Geavanceerde parameters onderaan de pagina Analyse starten ; er verschijnt een nieuw parametervenster. In de onderste widget, Selecteer Analysemodus, selecteer alleen WGCNA en klik vervolgens op Afwijzen om door te gaan.
    4. Klik op de pagina Analyse starten op de knop JUMPn-analyse verzenden .
    5. In beide bovenstaande gevallen verschijnt er een voortgangsbalk bij het indienen van de analyse.
      OPMERKING: Zodra de analyse is voltooid (meestal < 1 min voor WGCNA Only-analyse en <3 minuten voor uitgebreide analyse), verschijnt er een dialoogvenster met een bericht over geslaagd uitvoeren en het absolute pad naar de resultaatmap.
  3. Bekijk de WGCNA-resultaten zoals geïllustreerd in stap 2.4-2.8 (figuur 5). Merk op dat het absolute pad naar het bestand co_exp_clusters_3colums.txt is gemarkeerd bovenaan de resultatenpagina: WGCNA Output om het clusterlidmaatschap van elk eiwit vast te leggen en te gebruiken als invoer voor de PPI Only-analyse .
  4. Probleemoplossing. De volgende drie veel voorkomende gevallen worden besproken. Zodra de parameters zijn bijgewerkt zoals hieronder besproken, volgt u de stappen 4.2.2-4.2.4 om nieuwe WGCNA-resultaten te genereren.
    1. Als een belangrijk co-expressiepatroon wordt verwacht van de gegevens, maar door het algoritme wordt gemist, volgt u de stappen 4.4.2-4.4.4
    2. Een ontbrekend cluster is vooral waarschijnlijk voor kleine co-expressieclusters, d.w.z. slechts een beperkt aantal (bijv. <30) eiwitten die dit patroon vertonen. Onderzoek vóór de heranalyse het invoerbestand van de eiwitkwantificeringsmatrix opnieuw en lokaliseer verschillende positieve controle-eiwitten die zich houden aan dat belangrijke co-expressiepatroon.
    3. Om de kleine clusters te redden, verlaagt u de minimale clustergrootte (bijvoorbeeld 10; clustergrootte kleiner dan 10 is mogelijk niet robuust, dus niet aanbevolen) en verlaagt u de minimale clusterafstand (bijvoorbeeld 0,1; hier is instelling als 0 ook toegestaan, wat betekent dat automatisch cluster samenvoegen wordt overgeslagen).
    4. Nadat u de co-expressieclusteringstap met de bijgewerkte parameters hebt uitgevoerd, controleert u eerst of het cluster is gered uit de co-expressiepatroonplots en controleert u vervolgens de positieve besturingselementen door hun eiwittoetredingen te zoeken in Gedetailleerde eiwitkwantificering (zorg ervoor dat u het juiste co-expressiecluster selecteert in de vervolgkeuzewidget aan de linkerkant voordat u gaat zoeken).
      OPMERKING: Meerdere iteraties van parameterafstemming en herhaling kunnen nodig zijn voor de redding.
    5. Als er te veel eiwitten zijn die niet aan een cluster kunnen worden toegewezen, volgt u de stappen 4.4.6-4.4.7.
      OPMERKING: Meestal kan een klein percentage (meestal <10%) van eiwitten niet aan een cluster worden toegewezen, omdat dit uitschieters kunnen zijn die geen van de gemeenschappelijke expressiepatronen van de dataset hebben gevolgd. Als een dergelijk percentage echter significant is (bijvoorbeeld >30%), suggereert dit dat er aanvullende co-expressiepatronen bestaan die niet kunnen worden genegeerd.
    6. Verlaag zowel de parameters Minimale clustergrootte als Minimale clusterafstand om deze situatie te verlichten door 'nieuwe' co-expressieclusters te detecteren.
    7. Verlaag bovendien de minimale Pearson-correlatie (kME) parameter om deze 'NA-cluster'-eiwitten te verkleinen.
      OPMERKING: Het afstemmen van deze parameter zal geen nieuwe clusters genereren, maar in plaats daarvan de grootte van 'bestaande' clusters vergroten door meer eerder mislukte eiwitten met de onderste drempel te accepteren; dit zal echter ook de heterogeniteit van elk cluster vergroten, omdat er nu meer luidruchtige eiwitten zijn toegestaan.
    8. Twee clusters hebben een zeer klein verschil in patronen; voeg ze samen in één cluster volgens de stappen 4.4.9-4.4.11.
    9. Verhoog de parameter Minimale clusterafstand om het probleem op te lossen.
    10. In sommige situaties kan het algoritme echter nooit het gewenste patroon retourneren; pas in zo'n ogenblik het clusterlidmaatschap handmatig aan of bewerk het clusterlidmaatschap in het bestand co_exp_clusters_3colums.txt (bestand uit stap 4.3) om samen te voegen.
    11. Neem het nabewerkte bestand als invoer voor de downstream PPI-netwerkanalyse. In het geval van handmatige bewerking, rechtvaardigt u de criteria van clustertoewijzing en registreert u de procedure voor handmatige bewerking.

5. Eiwit-eiwit interactie netwerk analyse

OPMERKING: Door co-expressieclusters op het PPI-netwerk te plaatsen, wordt elk co-expressiecluster verder gestratificeerd in kleinere PPI-modules. De analyse wordt uitgevoerd voor elk co-expressiecluster en omvat twee fasen: in de eerste fase plaatst JUMPn eiwitten uit het co-expressiecluster op het PPI-netwerk en vindt alle verbonden componenten (d.w.z. meerdere clusters van verbonden knooppunten / eiwitten; zie bijvoorbeeld figuur 6A); vervolgens worden gemeenschappen of modules (van dicht verbonden knooppunten) voor elke verbonden component iteratief gedetecteerd met behulp van de topologische overlapmatrix (TOM) methode52.

  1. Configureer parameters voor PPI-netwerkanalyse (figuur 3, rechterdeelvenster).
    1. Stel minimale PPI-modulegrootte in op 2. Deze parameter definieert de minimale grootte van de niet-verbonden componenten uit de eerste fase analyse. Elk onderdeel dat kleiner is dan de opgegeven parameter wordt uit de eindresultaten verwijderd.
    2. Stel maximale PPI-modulegrootte in op 40. Grote, niet-verbonden componenten die deze drempel overschrijden, ondergaan een tom-gebaseerde analyse in de tweede fase. De analyse van de tweede fase zal elke grote component verder opsplitsen in kleinere modules: elke module bevat vermoedelijk eiwitten die dichter verbonden zijn dan de oorspronkelijke component als geheel.
  2. Start de analyse. Er zijn twee manieren om de PPI-netwerkanalyse in te dienen:
    1. Druk op de knop JUMPn-analyse verzenden om de PPI-analyse na WGCNA-analyse standaard automatisch uit te voeren.
    2. U kunt ook aangepaste co-expressieclusterresultaten uploaden en alleen PPI-analyse uitvoeren volgens de stappen 5.2.3-5.2.5.
    3. Bereid het invoerbestand voor door de indeling van het bestand co_exp_clusters_3colums.txt te volgen (zie subsectie 4.4).
    4. Klik op de knop Geavanceerde parameters onderaan de pagina Analyse starten ; er verschijnt een nieuw parametervenster. In de bovenste sessie Co-expressieclusterresultaat uploaden voor 'PPI Only'-analyse, klikt u op Browser om het invoerbestand te uploaden dat is voorbereid door stap 5.2.3.
    5. In de onderste widget, Selecteer Analysemodus, selecteer alleen PPI en klik vervolgens op Negeren om door te gaan. Klik op de pagina Analyse starten op de knop JUMPn-analyse verzenden .
  3. Zodra de analyse is voltooid (meestal <3 min), onderzoekt u de PPI-resultaten zoals geïllustreerd in stap 2.10-2.15 (figuur 6).
  4. Optionele geavanceerde stap) Pas PPI-modularisatie aan door parameters af te stemmen:
    1. Verhoog de parameter Maximale modulegrootte om meer eiwitten toe te staan die zijn opgenomen in de PPI-resultaten. Upload een aangepast PPI-netwerk voor ongedocumenteerde interacties en volg de stappen 5.4.2-5.4.3.
    2. Klik op de knop Geavanceerde parameters onderaan de pagina Analyse starten ; er verschijnt een nieuw parametervenster. Bereid het aangepaste PPI-bestand voor, dat drie kolommen bevat in de indeling , C-onnection en ; hier worden gepresenteerd door de officiële gennamen van elk eiwit.
    3. Klik in Een PPI-database uploaden op de knop Bladeren om het aangepaste PPI-bestand te uploaden.

6. Analyse van de verrijking van de route

OPMERKING: De van JUMPn afgeleide hiërarchische structuren van zowel co-expressieclusters als PPI-modules worden automatisch geannoteerd met oververtegenwoordigde paden met behulp van de exacte test van Fisher. De gebruikte pathway/topologie databases omvatten Gene Ontology (GO), KEGG, Hallmark en Reactome. Gebruikers kunnen geavanceerde opties gebruiken om aangepaste databases te uploaden voor de analyse (bijvoorbeeld in het geval van het analyseren van gegevens van niet-menselijke soorten).

  1. Standaard wordt de padverrijkingsanalyse automatisch gestart met co-expressieclustering en PPI-netwerkanalyse.
  2. Bekijk de resultaten van de padverrijking:
    1. Volg stap 2.7, 2.12 en 2.15 om verschillende indelingen op de resultatenpagina's te visualiseren. Bekijk gedetailleerde resultaten in de publicatietabel van spreadsheets in het bestand ComprehensiveSummaryTables.xlsx (stap 2.16).
  3. (Optionele geavanceerde stap) Upload aangepaste database voor pathway-verrijkingsanalyse:
    1. Bereid het genachtergrondbestand voor, dat meestal de officiële gennamen van alle genen van een soort bevat.
    2. Bereid het ontologiebibliotheekbestand voor volgens de stappen 6.3.3-6.3.4.
    3. Download de ontologiebibliotheekbestanden van openbare websites, waaronder EnrichR53 en MSigDB54. Download bijvoorbeeld ontologie van Drosophila van de EnrichR-website55.
    4. Bewerk het gedownloade bestand voor de vereiste indeling met twee kolommen: de padnaam als eerste kolom en vervolgens de officiële gensymbolen (gescheiden door "/") als de tweede kolom. Het gedetailleerde bestandsformaat wordt beschreven op de Help-pagina van de JUMPn R shiny-software.
      OPMERKING: Zoek voorbeeldbestanden met genachtergrond en ontologiebibliotheek (met Drosophila als instantie) op de JUMPn GitHub-site56.
    5. Klik op de knop Geavanceerde parameters onderaan de pagina Analyse starten; er verschijnt een nieuw parametervenster.
    6. Zoek een achtergrondbestand uploaden voor Pathway Enrichment Analysis-item en klik op Browser om het achtergrondbestand te uploaden dat is voorbereid in stap 6.3.1. Selecteer vervolgens in de sessie de achtergrond die moet worden gebruikt voor Pathway Enrichment Analysis, klik op Door de gebruiker geleverde achtergrond.
    7. Zoek een ontologiebibliotheekbestand uploaden voor Pathway Enrichment Analysis-item en klik op Browser om het ontologiebibliotheekbestand te uploaden dat is voorbereid in stappen 6.3.2-6.3.4. Klik vervolgens in de sessie , Selecteer databases voor Pathway Enrichment Analysis, op Door de gebruiker geleverde database in .xlsx formaat.
  4. Klik op de knop JUMPn-analyse verzenden in de rechterbenedenhoek om de analyse te starten met behulp van de aangepaste database.

7. Analyse van dataset met grote steekproefgrootte

OPMERKING: JUMPn ondersteunt de analyse van datasets met een grote steekproefgrootte (tot 200 geteste monsters). Om de visualisatie van een grote steekproefgrootte te vergemakkelijken, is een extra bestand (met de naam 'metabestand') nodig dat de voorbeeldgroep opgeeft om de weergave van co-expressieclusteringresultaten te vergemakkelijken.

  1. Metabestand voorbereiden en uploaden.
    1. Bereid het metabestand voor dat groepsinformatie (bijvoorbeeld controle- en ziektegroepen) opgeeft voor elk monster volgens de stappen 7.1.2-7.1.3.
    2. Zorg ervoor dat het metabestand ten minste twee kolommen bevat: kolom 1 moet de monsternamen bevatten die identiek zijn aan de kolomnamen en volgorde uit het eiwitkwantificeringsmatrixbestand (zoals opgesteld in stap 3.3); Kolom 2 en hoger wordt gebruikt voor groepstoewijzing voor een willekeurig aantal functies die door de gebruiker zijn gedefinieerd. Het aantal kolommen is flexibel.
    3. Zorg ervoor dat de eerste rij van het metabestand de kolomnamen voor elke kolom bevat; vanaf de tweede rij moet individuele steekproefinformatie van groepen of andere kenmerken (bijv. geslacht, leeftijd, behandeling, enz.) worden vermeld.
    4. Upload het metabestand door op de knop Geavanceerde parameters onderaan de pagina Analyse starten te klikken; er verschijnt een nieuw parametervenster. Ga verder met stap 7.1.5
    5. Zoek upload een metabestandsitem en klik op Browser om het achtergrondbestand te uploaden. Als de onverwachte indeling of niet-overeenkomende voorbeeldnamen worden gedetecteerd door JUMPn, verschijnt er een foutbericht voor verdere opmaak van het metabestand (stappen 7.1.1-7.1.3).
  2. De parameters voor co-expressieclusteranalyse aanpassen: stel Minimale Pearson-correlatie in op 0,2. Deze parameter moet worden versoepeld vanwege de grotere steekproefomvang.
  3. Klik op de knop JUMPn-analyse verzenden in de rechterbenedenhoek om de analyse in te dienen.
  4. Analyseresultaten weergeven: alle gegevensuitvoer is hetzelfde, behalve voor het weergeven van de co-expressieclusterpatronen.
    1. Visualiseer op de pagina Resultatenpagina 1: WGCNA-uitvoer de co-expressieclusters als boxplots met voorbeelden die zijn gestratificeerd door de door de gebruiker gedefinieerde voorbeeldgroepen of -functies. Elke stip in de plot vertegenwoordigt het eigengen (d.w.z. het consensuspatroon van het cluster) berekend door het WGCNA-algoritme.
    2. Als de gebruiker meerdere functies heeft opgegeven (bijv. leeftijd, geslacht, behandeling, enz.) om de voorbeelden te groeperen, klikt u op de vervolgkeuzelijst Selecteer de expressie-indeling om een andere functie te selecteren voor het groeperen van de voorbeelden.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

We gebruikten onze gepubliceerde diepe proteomics-datasets 25,26,27,30 (figuren 5 en figuur 6) en gegevenssimulaties57 (tabel 1) om jumPn-prestaties te optimaliseren en te evalueren. Voor co-expressie eiwitclusteringanalyse via WGCNA raden we aan om eiwitten te gebruiken die significant zijn veranderd in monsters als input (bijv. Differentieel tot expressie gebrachte (DE) eiwitten gedetecteerd door statistische analyse). Hoewel het opnemen van niet-DE-eiwitten voor de analyse kan resulteren in meer co-expressieclusters die door het programma worden geretourneerd (vanwege een grotere invoergrootte), veronderstellen we dat het mengen van het echte signaal (bijvoorbeeld de DE-eiwitten) met de achtergrond (de resterende niet-DE) voor analyse op systeemniveau het signaal kan verdunnen en de onderliggende netwerkstructuur kan maskeren. Om dit te testen, werd simulatieanalyse uitgevoerd onder twee verschillende omstandigheden: i) zeer dynamisch proteoom (bijv. 50% veranderd in T-celactivering25) en ii) relatief stabiel proteoom (bijv. 2% proteoom veranderd in AD26). Voor het zeer dynamische proteoom werden zes co-expressieclusters gesimuleerd van 50% proteoom volgens dezelfde clustergrootte en expressiepatronen (d.w.z. eigengenen) van onze gepubliceerde resultaten25. Evenzo hebben we voor een relatief stabiel proteoom drie clusters van 2% proteoom gesimuleerd na onze recente AD-proteomics-studie26. Zoals verwacht verhoogt het verhogen van het inputaantal eiwitten het aantal gedetecteerde clusters (tabel 1). Voor het zeer dynamische proteoom kan het gebruik van alle eiwitten als input de meeste van de echte clusters (5 van de 6 gesimuleerde bonafide clusters; 83% recall) met 63% precisie vastleggen (5 van de 8 geretourneerde clusters zijn echte positieven; d.w.z. de resterende 3 clusters zijn valse positieven). Voor het relatief stabiele proteoom vermindert het verhogen van de inputgrootte met niet-DE-eiwitten echter de precisie drastisch (tabel 1). Als bijvoorbeeld het hele proteoom als invoer wordt gebruikt, worden 169 modules gedetecteerd, waarvan er slechts 2 correct zijn (1,2% precisie; de resterende 98,8% gedetecteerde modules zijn vals-positieven). Deze resultaten geven dus aan dat het kiezen van alleen het veranderde proteoom als input de precisie van co-expressieanalyse zal verhogen, vooral voor relatief stabiel proteoom.

Na de detectie van co-expressie eiwitclusters wordt elk cluster geannoteerd door JUMPn met behulp van de pathway enrichment-analyse (figuur 1). De huidige versie bevat vier veelgebruikte pathway databases, waaronder Gene Ontology (GO), KEGG, Hallmark en Reactome. Gebruikers kunnen ook hun eigen database samenstellen in GMT-formaat54, die kan worden geüpload naar JUMPn. Het integreren van meerdere databases voor pathway-verrijkingsanalyse kan uitgebreidere weergaven bieden; de grootte van verschillende pathway-databases varieert echter aanzienlijk, wat ongewenste vertekening van bepaalde (vooral grote) databases kan veroorzaken. Binnen JUMPn worden twee oplossingen geboden. Ten eerste worden met behulp van een statistische benadering nominale p-waarden aangepast (of bestraft) voor het testen van meerdere hypothesen volgens de Benjamini-Hochberg-methode58, waarbij een grotere database een belangrijkere nominale p-waarde vereist om hetzelfde aangepaste p-niveau te bereiken dan die van een kleine database. Ten tweede benadrukt JUMPn de top significant verrijkte pathway voor elke database afzonderlijk, zodat database-specifieke topverrijkte pathways altijd worden weergegeven.

Vergelijkbaar met pathway-verrijkingsanalyse werd een samengesteld PPI-netwerk samengesteld door STRING59,60, BioPlex61,62 en InWeb_IM63 databases te combineren. De BioPlex-database is gemaakt met behulp van affiniteitszuivering gevolgd door massaspectrometrie in menselijke cellijnen, terwijl de STRING en InWeb informatie uit verschillende bronnen bevatten. Daarom werden de STRING- en InWeb-databases verder gefilterd door de edge-score om een hoge kwaliteit te garanderen, waarbij de cutoff werd bepaald door het beste te voldoen aan de schaalvrije criteria24. Het uiteindelijke samengevoegde PPI-netwerk omvat meer dan 20.000 menselijke genen met ~ 1.100.000 randen (tabel 2). Dit uitgebreide interactoom is opgenomen en gepubliceerd in een bundel met onze JUMPn-software voor gevoelige PPI-analyse.

Nadat de analyse is voltooid, genereert JUMPn het spreadsheetbestand ComprehensiveSummaryTables.xlsx, bestaande uit drie afzonderlijke bladen. Het eerste blad bevat resultaten van co-expressie-eiwitclusters met één eiwit per rij: de eerste kolom geeft het clusterlidmaatschap van elk inputeiwit aan en de resterende kolommen worden gekopieerd uit het gebruikersinvoerbestand, dat de eiwittoetreding, gennamen, eiwitbeschrijving en kwantificering van individuele monsters bevat. Het tweede blad bevat resultaten van pathway-verrijkingsanalyse, waarbij significante pathways worden weergegeven die in elk co-expressiecluster zijn verrijkt. Deze tabel wordt eerst georganiseerd door verschillende pathway databases, vervolgens gesorteerd op co-expressie clusters, functionele pathways, het totale aantal pathway genen, het totale aantal genen in het individuele cluster, de overlappende gennummers en namen, verrijkingsplooi, Fisher exacte test afgeleide P-waarden en Benjamini-Hochberg valse ontdekkingssnelheid. Het derde blad bevat resultaten van PPI-moduleanalyse met één PPI-module per rij; de kolommen bevatten de modulenaam (gedefinieerd door het co-expressielidmaatschap en de module-ID, bijvoorbeeld Cluster1_Module1), de in kaart gebrachte eiwitten en getallen, evenals functionele paden die worden gedefinieerd door de module-eiwitten te doorzoeken tegen de pathway-databases.

Figure 1
Figuur 1: Workflow van JUMPn. Kwantificeringsmatrix van de topvariabele van differentieel tot expressie gebrachte (DE) eiwitten worden als input genomen en eiwitten worden gegroepeerd in co-expressieclusters door het WGCNA-algoritme. Elke co-expressie wordt vervolgens geannoteerd door pathway-verrijkingsanalyse en verder gesuperponeerd op het eiwit-eiwitinteractie (PPI) -netwerk voor dicht verbonden eiwitmodule-identificaties. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 2
Figuur 2: JUMPn welkomstpagina. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 3
Figuur 3: Invoerpagina van JUMPn. De pagina bevat het uploadpaneel van het invoerbestand en de parameterconfiguratiepanelen voor respectievelijk co-expressieclustering en PPI-netwerkanalyse. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 4
Figuur 4: Voorbeeld invoerbestand van kwantificeringsmatrix. Kolommen omvatten eiwittoetreding (of unieke ID's), GN (officiële gensymbolen), eiwitbeschrijving (of door de gebruiker verstrekte informatie), gevolgd door eiwitkwantificering van individuele monsters. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 5
Figuur 5: Resultaten van co-expressieclusters gerapporteerd door JUMPn. De co-expressie clustering patronen (A), top verrijkte pathway heatmap over clusters (B) en gedetailleerde eiwit abundantie voor elke cluster worden getoond (C). Gebruikers kunnen verschillende weergaveopties selecteren en via het selectievak tussen verschillende clusters navigeren. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 6
Figuur 6: PPI-netwerkanalyseresultaten gerapporteerd door JUMPn. Het globale intermodulenetwerk wordt getoond (A), gevolgd door een subnetwerk van individuele modules (B) en de aanzienlijk verrijkte pathways (C). Gebruikers kunnen verschillende weergaveopties selecteren en via het selectievak tussen verschillende clusters en modules navigeren. Klik hier om een grotere versie van deze figuur te bekijken.

% topeiwitten voor analyse # gesimuleerde modules # gedetecteerde modules # heroverde modules1 precisie2 terugroepactie3
Zeer dynamisch proteoom (bijv. tijdens T-celactivering): 6 gesimuleerde modules van 50% proteoom
2 6 2 2 1 0.33
5 6 2 2 1 0.33
10 6 3 3 1 0.5
20 6 4 4 1 0.67
50 6 6 6 1 1
100 6 8 5 0.63 0.83
Relatief stabiel proteoom (bijv. tijdens pathogenese van AD): 3 gesimuleerde modules van 2% proteoom
1 3 1 1 1 0.33
2 3 3 3 1 1
5 3 8 3 0.38 1
10 3 13 3 0.23 1
20 3 19 3 0.16 1
50 3 71 2 0.03 0.67
100 3 169 2 0.01 0.67
1 Een heroverde module is een gedetecteerde module waarvan het eigengen sterk correleert (Pearson R > 0,95) met een van de gesimuleerde eigengenen.
2precisie = # heroverde modules / # gedetecteerde modules
3recall = # heroverde modules / # gesimuleerde modules

Tabel 1: Simulatiestudies van co-expressie clusterdetectie.

PPI-netwerken Nee. van knooppunten Nee. van randen
BioPlex 3.0 gecombineerd (293T+HCT116) 14,551 1,67,399
InBio_Map_core_2016_09_12 17,429 6,08,166
STRING (v11.0) 18,954 5,87,482
Samengesteld PPI-netwerk 20,485 11,52,607

Tabel 2: Statistieken van humane eiwit-eiwit interactie (PPI) netwerken. PPI-netwerken worden gefilterd op edge score om een hoge kwaliteit te garanderen, waarbij de score cutoff wordt bepaald door de schaalvrije criteria het beste aan te passen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Hier introduceerden we onze JUMPn-software en het bijbehorende protocol, die in meerdere projecten zijn toegepast voor het ontleden van moleculaire mechanismen met behulp van diepe kwantitatieve proteomics-gegevens 25,26,27,30,64. De JUMPn-software en het JUMPn-protocol zijn volledig geoptimaliseerd, inclusief overweging van DE-eiwitten voor co-expressienetwerkanalyse, een compilatie van een uitgebreid en hoogwaardig PPI-netwerk, strenge statistische analyse (bijvoorbeeld door rekening te houden met het testen van meerdere hypothesen) met een gestroomlijnde en gebruiksvriendelijke interface. Meerdere eiwitmodules geïdentificeerd door JUMPn zijn gevalideerd door functionele experimentstudies25,27 of onafhankelijke patiëntcohorten26, die JUMPn illustreren als een effectief hulpmiddel voor het identificeren van belangrijke moleculen en routes die ten grondslag liggen aan diverse biologische processen.

Kritieke stappen van dit protocol omvatten het genereren van optimale resultaten van co-expressieclusters en PPI-modules, waarvoor mogelijk meerdere iteraties van parameterafstemming nodig zijn, evenals het uploaden van aangepast PPI-netwerk. In ons protocol bespraken we veelvoorkomende praktische scenario's, waaronder hoe om te gaan met het ontbreken van belangrijke clusters, een hoog percentage niet-toegewezen eiwitten, het samenvoegen van twee redundante clusters en het ontbreken van belangrijke eiwitten binnen PPI-modules. We raden de gebruiker aan om verschillende positieve controle-eiwitten te bereiden en hun aanwezigheid in de uiteindelijke co-expressieclusters te bevestigen. Soms wordt een positief besturingselement nooit opgenomen in de uiteindelijke PPI-modules vanwege een onvolledige PPI-netwerkdatabase. Om dit gedeeltelijk te verlichten, hebben we ons PPI-netwerk bijgewerkt met de nieuwste versies van BioPlex V362 en STRING V1160. Bovendien kunnen gebruikers met JUMPn aangepaste PPI-netwerken uploaden. Nieuwe interacties die zijn afgeleid van affiniteitszuivering-massaspectrometrie (AP-MS) experimenten met een belangrijk positief controle-eiwit als lokaas, kunnen bijvoorbeeld worden geïntegreerd met het huidige samengestelde PPI-netwerk voor meer aangepaste analyse.

Door gebruik te maken van het raamwerk van pathway enrichment analyse voor elke co-expressie eiwitcluster, kan JUMPn worden uitgebreid voor het afleiden van transcriptiefactor (TF) activiteit. De veronderstelling is dat als er een oververtegenwoordiging van doelgenen van een specifieke TF in een co-expressiecluster bestaat (d.w.z. deze doelen worden differentieel tot expressie gebracht en volgen hetzelfde expressiepatroon), de activiteit van die TF mogelijk wordt gewijzigd in experimentele omstandigheden omdat de doeleiwitrijkdom consistent wordt gewijzigd. Technisch gezien kan dit eenvoudig worden bereikt via JUMPn door de huidige pathway-database te vervangen door de TF-target database (bijvoorbeeld van het ENCODE-project65). Evenzo kan kinase-activiteit ook worden afgeleid door gebruik te maken van de kinase-substraatdatabase, waarbij diepe fosfoproteomica als input worden genomen. Als voorbeeld identificeerden we met succes ontregelde TF's en kinasen die ten grondslag liggen aan pathogenese van hersentumoren64. Inderdaad, het gebruik van de netwerkbenadering voor activiteitsinferentie is naar voren gekomen als een krachtige benadering voor het identificeren van ontregelde oorzaken voor menselijke ziekten66,67.

De JUMPn-software kan gemakkelijk worden toegepast op een breed scala aan gegevenstypen. Hoewel isobaar labelen gekwantificeerd proteoom als illustratief voorbeeld werd gebruikt, is hetzelfde protocol ook van toepassing op labelvrije gekwantificeerde proteomics-gegevens, evenals genoombrede expressieprofielen (bijvoorbeeld gekwantificeerd door RNA-seq of microarray; zie ons recente voorbeeld van het toepassen van JUMPn voor zowel gen- als eiwitexpressieprofielen27). Fosfoproteomics-gegevens kunnen ook door JUMPn worden genomen om co-uitgedrukte fosfosieten te identificeren, gevolgd door kinaseactiviteitsinferentie25. Daarnaast zullen ook interactoomgegevens die door de AP-MS-benadering worden gegenereerd, geschikt zijn, waarbij prooieiwitten die vergelijkbare aasinteractiesterkte en stoichiometrie volgen, co-expressieclusters vormen en verder overlappen met bekende PPI's voor gegevensinterpretatie68.

Er zijn beperkingen voor de huidige versie van JUMPn. Ten eerste is de installatieprocedure gebaseerd op de opdrachtregel en vereist basiskennis van de informatica. Dit belemmert een breder gebruik van JUMPn, vooral van biologen zonder computationele achtergrond. Een meer ideale implementatie is om JUMPn op een online server te publiceren. Ten tweede zijn de huidige databases mensgericht vanwege onze focus op menselijke ziektestudies. Merk op dat proteomics-gegevens gegenereerd door muizen ook zijn geanalyseerd door JUMPn met behulp van dergelijke mensgerichte databases25,27, ervan uitgaande dat de meeste PPI's worden bewaard over beide soorten69,70. Muisspecifieke signalering zal niet worden vastgelegd door deze aanpak, maar is niet van belang in die menselijke studies. Voor niet-zoogdiermodelsystemen (bijv. zebravissen, vliegen of gisten) moeten echter soortspecifieke databases worden opgesteld en geüpload naar JUMPn met behulp van de geavanceerde opties. Middelen van extra soorten kunnen worden verstrekt via toekomstige JUMPn-release. Ten derde kost de huidige stap van ontologie/ pathway-analyse veel tijd, die verder kan worden geoptimaliseerd door parallel computing.

Tot slot presenteren we de JUMPn-software en het PROTOCOL voor het verkennen van kwantitatieve proteomics-gegevens om co-uitgedrukte en potentieel fysiek interagerende eiwitmodules te identificeren en te visualiseren door middel van systeembiologische benadering. De belangrijkste kenmerken die JUMPn onderscheiden van andere 53,71,72 zijn: (i) JUMPn integreert en stroomlijnt vier belangrijke componenten van de pathway- en netwerkanalyse (figuur 1); (ii) Anders dan de meeste pathway-analysesoftware die een eenvoudige genenlijst als input neemt, gaat JUMPn uit van een kwantificeringsmatrix, waarmee kwantitatieve informatie naadloos kan worden geïntegreerd met in de literatuur gedocumenteerde paden en netwerken; (iii) Zowel co-expressie eiwitclusters als interactiemodules worden automatisch geannoteerd door bekende paden en gevisualiseerd via het R/shiny interacting platform met behulp van een gebruiksvriendelijke webbrowser; (iv) De eindresultaten zijn georganiseerd in drie tabellen die gemakkelijk kunnen worden gepubliceerd in Excel-indeling. We verwachten dus dat de JUMPn en dit protocol breed toepasbaar zullen zijn op veel studies voor het ontleden van mechanismen met behulp van kwantitatieve proteomics-gegevens.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteurs hebben niets te onthullen.

Acknowledgments

Financiële steun werd verleend door de National Institutes of Health (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 en U54NS110435) en ALSAC (American Lebanese Syrian Associated Charities). De MS-analyse werd uitgevoerd in het St. Jude Children's Research Hospital's Center of Proteomics and Metabolomics, dat gedeeltelijk werd ondersteund door NIH Cancer Center Support Grant (P30CA021765). De inhoud is uitsluitend de verantwoordelijkheid van de auteurs en vertegenwoordigt niet noodzakelijkerwijs de officiële standpunten van de National Institutes of Health.

Materials

Name Company Catalog Number Comments
MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7. Apple Inc. MacBook Pro 13'' Hardware used for software development and testing
Anoconda Anaconda, Inc. version 4.9.2 https://docs.anaconda.com/anaconda/install/
miniconda Anaconda, Inc. version 4.9.2 https://docs.conda.io/en/latest/miniconda.html
RStudio RStudio Public-benefit corporation version 4.0.3 https://www.rstudio.com/products/rstudio/download/
Shiny Server RStudio Public-benefit corporation https://shiny.rstudio.com/articles/shinyapps.html

DOWNLOAD MATERIALS LIST

References

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
  2. Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
  3. Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
  4. Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
  5. Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
  6. Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
  7. Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
  8. Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
  9. Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer's disease. Analytical Chemistry. 92, 7162-7170 (2020).
  10. Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
  11. Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
  12. Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
  13. Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
  14. Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
  15. Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
  16. Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
  17. Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
  18. Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
  19. High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
  20. Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
  21. Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
  22. Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
  23. Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
  24. Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell's functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
  25. Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
  26. Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer's disease progression. Neuron. 105, 975-991 (2020).
  27. Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
  28. Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer's disease. Cell Systems. 4, 60-72 (2017).
  29. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer's disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
  30. Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
  31. Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
  32. Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
  33. Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
  34. Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
  35. Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
  36. Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
  37. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
  38. Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
  39. Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
  40. Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, Anaconda. miniconda (2021). RStudio (2021) Shiny Server 2301-2319 (2021).
  41. JUMPn. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021).
  42. Anaconda. , Available from: https://docs.anaconda.com/anaconda/install/ (2021).
  43. miniconda. , Available from: https://docs.conda.io/en/latest/miniconda.html (2021).
  44. RStudio. , Available from: https://www.rstudio.com/products/rstudio/download/ (2021).
  45. Shiny Server. , Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021).
  46. Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
  47. R code. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021).
  48. Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
  49. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article 17 (2005).
  50. Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
  51. Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
  52. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
  53. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  54. Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
  55. FlyEn rich r. , Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021).
  56. JUMPn GitHub. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly_ (2021).
  57. Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
  58. Benjamini, Y., Hochberg, Y. Controlling the false discovery rate - a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
  59. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
  60. Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
  61. Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
  62. Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
  63. Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
  64. Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
  65. Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
  66. Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
  67. Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
  68. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
  69. Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
  70. Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
  71. Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
  72. Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

Tags

Biochemie Nummer 176
JUMPn: Een gestroomlijnde toepassing voor eiwit co-expressie clustering en netwerkanalyse in proteomics
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Vanderwall, D., Suresh, P., Fu, Y.,More

Vanderwall, D., Suresh, P., Fu, Y., Cho, J. H., Shaw, T. I., Mishra, A., High, A. A., Peng, J., Li, Y. JUMPn: A Streamlined Application for Protein Co-Expression Clustering and Network Analysis in Proteomics. J. Vis. Exp. (176), e62796, doi:10.3791/62796 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter