Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biochemistry

JUMPn: En strømlinet applikation til protein co-ekspressionsklynger og netværksanalyse i proteomics

Published: October 19, 2021 doi: 10.3791/62796

Summary

Vi præsenterer et systembiologisk værktøj JUMPn til at udføre og visualisere netværksanalyse for kvantitative proteomics-data med en detaljeret protokol, herunder dataforbehandling, co-ekspressionsklyngedannelse, vejberigelse og protein-protein interaktionsnetværksanalyse.

Abstract

Med de seneste fremskridt inden for massespektrometribaserede proteomics-teknologier er dyb profilering af hundredvis af proteomer blevet mere og mere mulig. Det er imidlertid en udfordring at udlede biologisk indsigt fra sådanne værdifulde datasæt. Her introducerer vi en systembiologisk baseret software JUMPn og dens tilhørende protokol til at organisere proteomet i protein-co-ekspressionsklynger på tværs af prøver og protein-protein interaktion (PPI) netværk forbundet med moduler (f.eks. Proteinkomplekser). Ved hjælp af R/Shiny-platformen strømliner JUMPn-softwaren analysen af co-ekspressionsklynger, pathwayberigelse og PPI-moduldetektion med integreret datavisualisering og en brugervenlig grænseflade. De vigtigste trin i protokollen inkluderer installation af JUMPn-softwaren, definitionen af differentielt udtrykte proteiner eller det (dys) regulerede proteom, bestemmelse af meningsfulde co-ekspressionsklynger og PPI-moduler og resultatvisualisering. Mens protokollen demonstreres ved hjælp af en isobarisk mærkningsbaseret proteomprofil, er JUMPn generelt anvendelig på en bred vifte af kvantitative datasæt (f.eks. Etiketfri proteomik). JUMPn-softwaren og -protokollen giver således et kraftfuldt værktøj til at lette biologisk fortolkning i kvantitativ proteomics.

Introduction

Massespektrometribaseret haglgeværproteomik er blevet nøglemetoden til analyse af proteomdiversitet af komplekse prøver1. Med de seneste fremskridt inden for massespektrometriinstrumentering 2,3, kromatografi 4,5, ionmobilitetsdetektion6, erhvervelsesmetoder (datauafhængig7 og dataafhængig erhvervelse8), kvantificeringsmetoder (multiplex isobarisk peptidmærkningsmetode, fx TMT 9,10 og etiketfri kvantificering11,12) og dataanalysestrategier / softwareudvikling 13,14,15,16,17,18, kvantificering af hele proteomet (f.eks. over 10,000 proteiner) er nu rutine 19,20,21. Men hvordan man får mekanistisk indsigt fra så dybe kvantitative datasæt er stadig udfordrende22. Indledende forsøg på at undersøge disse datasæt var overvejende afhængige af annotationen af individuelle elementer i dataene og behandlede hver komponent (protein) uafhængigt. Biologiske systemer og deres adfærd kan imidlertid ikke udelukkende forklares ved at undersøge individuelle komponenter23. Derfor er en systemtilgang, der placerer de kvantificerede biomolekyler i sammenhæng med interaktionsnetværk, afgørende for forståelsen af komplekse systemer og de tilknyttede processer såsom embryogenese, immunrespons og patogenese af humane sygdomme24.

Netværksbaseret systembiologi er opstået som et stærkt paradigme til analyse af store kvantitative proteomics-data 25,26,27,28,29,30,31,32,33. Konceptuelt kunne komplekse systemer som pattedyrceller modelleres som et hierarkisk netværk34,35, hvor hele systemet er repræsenteret i niveauer: først af et antal store komponenter, som hver især derefter iterativt modelleres af mindre delsystemer. Teknisk set kan strukturen af proteomdynamik præsenteres af indbyrdes forbundne netværk af co-udtrykte proteinklynger (fordi co-udtrykte gener / proteiner ofte deler lignende biologiske funktioner eller mekanismer for regulering36) og fysisk interagerende PPI-moduler37. Som et nyligt eksempel25 genererede vi tidsmæssige profiler af hele proteom og fosfoproteom under T-celleaktivering og brugte integrerende co-ekspressionsnetværk med PPI'er til at identificere funktionelle moduler, der formidler T-celle hvileudgang. Flere bioenergetiske relaterede moduler blev fremhævet og eksperimentelt valideret (f.eks. mitoribosom og komplekse IV-modul25 og et-kulstofmodul38). I et andet eksempel26 udvidede vi yderligere vores tilgang til at studere patogenesen af Alzheimers sygdom og prioriterede med succes sygdomsprogressionsassocierede proteinmoduler og molekyler. Det er vigtigt, at mange af vores upartiske opdagelser blev valideret af uafhængige patientkohorter26,29 og / eller sygdomsmusemodeller26. Disse eksempler illustrerede kraften i den systembiologiske tilgang til dissekering af molekylære mekanismer med kvantitativ proteomics og andre omics-integrationer.

Her introducerer vi JUMPn, en strømlinet software, der udforsker kvantitative proteomics-data ved hjælp af netværksbaserede systembiologiske tilgange. JUMPn fungerer som downstream-komponenten i den etablerede JUMP proteomics-softwarepakke 13,14,39 og har til formål at udfylde hullet fra individuelle proteinkvantificeringer til biologisk meningsfulde veje og proteinmoduler ved hjælp af systembiologimetoden. Ved at tage kvantificeringsmatrixen af differentielt udtrykte (eller de mest variable) proteiner som input sigter JUMPn mod at organisere proteomet i et lagdelt hierarki af proteinklynger, der er co-udtrykt på tværs af prøver og tæt forbundne PPI-moduler (f.eks. Proteinkomplekser), som yderligere kommenteres med offentlige vejdatabaser ved overrepræsentation (eller berigelse) analyse (figur 1). JUMPn er udviklet med R/Shiny platform40 til en brugervenlig grænseflade og integrerer tre store funktionelle moduler: co-expression clustering analyse, pathway enrichment analyse og PPI netværksanalyse (figur 1). Efter hver analyse visualiseres resultaterne automatisk og kan justeres via R/shiny widget-funktionerne og kan let downloades som publikationstabeller i Microsoft Excel-format. I den følgende protokol bruger vi kvantitative hele proteomdata som et eksempel og beskriver de vigtigste trin i brugen af JUMPn, herunder installation af JUMPn-softwaren, definitionen af differentielt udtrykte proteiner eller det (dys) regulerede proteom, co-ekspressionsnetværksanalyse og PPI-modulanalyse, resultatvisualisering og fortolkning og fejlfinding. JUMPn-software er frit tilgængelig på GitHub41.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

BEMÆRK: I denne protokol illustreres brugen af JUMPn ved at anvende et offentliggjort datasæt af hel proteomprofilering under B-celledifferentiering kvantificeret af TMT isobarisk etiketreagens27.

1. Opsætning af JUMPn software

BEMÆRK: Der er to muligheder for opsætning af JUMPn-softwaren: (i) installation på en lokal computer til personlig brug; og (ii) implementering af JUMPn på en ekstern skinnende server til flere brugere. Til lokal installation er en pc med internetadgang og ≥4 Gb RAM tilstrækkelig til at køre JUMPn-analyse for et datasæt med en lille stikprøvestørrelse (n < 30); større RAM (f.eks. 16 Gb) er nødvendig til analyse af store kohorter (f.eks. n = 200 prøver).

  1. Installer softwaren på en lokal computer. Efter installationen skal du lade webbrowseren starte JUMPn og lade analysen køre på den lokale computer.
    1. Installer anaconda42 eller miniconda43 ved at følge online instruktionerne.
    2. Download JUMPn kildekode41. Dobbeltklik for at pakke den downloadede fil ud JUMPn_v_1.0.0.zip; der oprettes en ny mappe med navnet JUMPn_v_1.0.0.
    3. Åbn kommandolinjeterminal. På Windows skal du bruge Anaconda Prompt. På MacOS skal du bruge det indbyggede Terminal-program.
    4. Opret JUMPn Conda-miljøet: Hent den absolutte sti til mappen JUMPn_v_1.0.0 (f.eks. /path/to/JUMPn_v_1.0.0). For at oprette og aktivere et tomt Conda-miljø skal du skrive følgende kommandoer på terminalen
      conda opret -p /sti/til/JUMPn_v_1.0.0/JUMPn -y
      conda aktiver /path/to/JUMPn_v_1.0.0/JUMPn
    5. Installer JUMPn-afhængigheder: Installer R (på terminalen, skriv conda install -c conda-forge r = 4.0.0 -y), skift den aktuelle mappe til mappen JUMPn_v_1.0.0 (på terminalen, skriv cd path/to/JUMPn_v_1.0.0), og installer afhængighedspakkerne (skriv Rscript bootstrap på terminalen. R)
    6. Start JUMPn i webbrowseren: Skift den aktuelle mappe til udførelsesmappen (på terminalen, skriv cd-udførelse) og start JUMPn (på terminalen, skriv R -e "skinnende::runApp()")
    7. Når ovenstående er udført, vises terminalskærmen Lytning på http://127.0.0.1:XXXX (her angiver XXXX 4 tilfældige tal). Kopier og indsæt http://127.0.0.1:XXXX i webbrowseren, hvor JUMPn-velkomstsiden vises (figur 2).
  2. Implementering på Skinnende server. Eksempler på Shiny Server inkluderer den kommercielle shinyapps.io server eller enhver institutionelt understøttet Shiny Servers.
    1. Download og installer RStudio efter instruktionerne44.
    2. Få installationstilladelsen til shiny server. For shinyapps.io server skal du konfigurere brugerkontoen ved at følge instruktionerne45. For institutional Shiny-server skal du kontakte serveradministratoren for at anmode om tilladelser.
    3. Download JUMPn-kildekoden41 til den lokale maskine; installation er ikke nødvendig. Åbn enten serveren. R eller ui. R-filer i RStudio, og klik på rullemenuen Publicer til server øverst til højre i RStudio IDE.
    4. Skriv serveradressen i panelet Udgiv til konto . Tryk på knappen Publicer . En vellykket implementering valideres ved automatisk omdirigering fra RStudio til den RShiny-server, hvor applikationen blev implementeret.

2. Demokørsel ved hjælp af et eksempeldatasæt

BEMÆRK: JUMPn tilbyder en demokørsel ved hjælp af det offentliggjorte B-celle proteomics datasæt. Demokørslen illustrerer en strømlinet arbejdsgang, der tager kvantificeringsmatrixen for differentielt udtrykte proteiner som input og udfører co-ekspressionsklynger, vejberigelse og PPI-netværksanalyse sekventielt.

  1. På JUMPn-startsiden (figur 2) skal du klikke på knappen Start analyse for at starte JUMPn-analyse.
  2. I nederste venstre hjørne af siden Start analyse (Figur 3) skal du klikke på knappen Upload Demo B Cell Proteomic Data ; der vises en dialogboks, der giver besked om succesen med dataoverførslen.
  3. I nederste højre hjørne af siden skal du klikke på knappen Send JUMPn-analyse for at starte demokørslen ved hjælp af standardparametre; der vises en statuslinje, der angiver analysens forløb. Vent, indtil statuslinjen er opfyldt (forventet 3 minutter).
  4. Når demokørslen er afsluttet, vises en dialogboks med succeskørselsmeddelelsen og den absolutte sti til resultatmappen. Klik på Fortsæt til Resultater for at fortsætte.
  5. Websiden vil først guide brugeren til resultaterne af co-expression cluster fra WGCNA. Klik på Vis resultater i dialogvinduet for at fortsætte.
  6. Find protein-co-ekspressionsmønstrene til venstre på siden Resultat Side 1: WGCNA Output . Klik på Vælg ekspressionsformat rulleliste for at navigere mellem to figurformater:
    1. Vælg Tendenser for at få vist tendensdiagrammet, hvor hver linje repræsenterer individuel proteinmængde på tværs af prøver. Farven på hver linje repræsenterer, hvor tæt ekspressionsmønsteret er på co-ekspressionsklyngens konsensus (dvs. "egengen" som defineret af WGCNA-algoritmen).
    2. Vælg Boxplot for at få vist mønstre for samtidig udtryk i boxplot-format for hvert eksempel.
  7. Se varmekortet for vej/ontologiberigelse til højre for WGCNA-outputsiden. De mest berigede veje for hver klynge vises sammen i et varmekort, hvor farveintensiteten afspejler den Benjamini-Hochberg-justerede p-værdi.
  8. Rul ned på websiden for at se ekspressionsmønsteret for de enkelte proteiner.
    1. Brug rullemenuen Vælg Co-Expression Cluster for at få vist proteiner fra hver klynge (standard er Cluster 1). Vælg et specifikt protein i tabellen, hvorpå søjlediagrammet under tabellen automatisk opdateres for at afspejle dets proteinmængde.
    2. Søg efter specifikke proteinnavne ved hjælp af søgefeltet i højre side af tabellen efter et bestemt protein.
  9. For at se PPI-resultater skal du klikke på Resultatside 2: PPI-output øverst.
  10. Klik på Vælg Co-Expression Cluster for at se resultaterne for en bestemt co-expression cluster (standard er cluster 1). Visningerne af alle figurpaneler på denne side opdateres for den nyligt valgte klynge.
  11. Se PPI-netværkene for den valgte co-expression cluster i panelet til venstre:
    1. Klik på rullelisten Vælg efter gruppe for at fremhæve de enkelte PPI-moduler i netværket. Klik på rullemenuen Vælg et netværkslayoutformat for at ændre netværkslayoutet (standard er af Fruchterman Reingold).
    2. Brug musen og pegefeltet til at udføre trin 2.11.3-2.11.5.
    3. Zoom ind eller zoom ud på PPI-netværket efter behov. Gennavnene på hver knude i netværket vises, når der zoomes tilstrækkeligt ind.
    4. Når der zoomes ind, skal du vælge og klikke på et bestemt protein for at fremhæve proteinet og dets netværksnaboer.
    5. Træk en bestemt knude (protein) i netværket for at ændre dens position i layoutet; derved kan netværkslayoutet omorganiseres af brugeren.
  12. I højre panel på PPI-resultatsiden kan du se oplysningerne på co-expression-klyngeniveau, der hjælper med at fortolke PPI-resultater:
    1. Få vist samtidighedsmønsteret for den valgte klynge som boxplot som standard.
    2. Klik på rullemenuen Vælg udtryksformat for at få flere oplysninger eller visninger som nævnt i trin 2.12.3-2.12.5.
    3. Vælg Tendenser for at få vist tendensafbildningen for det samtidige udtryksmønster.
    4. Vælg Pathway Barplot for at vise væsentligt forbedrede veje for co-expression-klyngen.
    5. Vælg Sticirkeldiagram for at vise væsentligt forbedrede veje for co-ekspressionsklyngen i cirkeldiagramformatet.
  13. Rul ned på resultatsiden Side 2: PPI Output webside for at se resultater på det enkelte PPI-modulniveau. Klik på rullemenuen Vælg modul for at vælge et specifikt PPI-modul til visning (Cluster1: Modul 1 vises som standard).
  14. Se PPI-modulet i venstre panel. Følg trin 2.11.2-2.11.5 for at manipulere netværksdisplayet.
  15. Se resultaterne af vej-/ontologiberigelsen i højre panel. Klik på vælg rullemenuen Pathway Annotation Style for at få flere oplysninger og visninger:
    1. Vælg Barplot for at få vist væsentligt forbedrede forløb for det valgte PPI-modul.
    2. Vælg Cirkeldiagram for at få vist væsentligt forbedrede veje for det valgte PPI-modul i formatet af et cirkeldiagram.
    3. Vælg Heatmap for at vise signifikant berigede veje og de tilknyttede gennavne fra det valgte PPI-modul.
    4. Vælg Tabel for at vise de detaljerede resultater af vejberigelse, herunder navnet på veje/ontologiudtryk, gennavne og P-værdien ved Fishers nøjagtige test.
  16. Få vist publikationstabellen i regnearksformat: Følg den absolutte sti (trykt øverst på begge resultatsider), og find publikationsregnearktabellen med navnet ComprehensiveSummaryTables.xlsx.

3. Forberedelse af inputfilen og upload til JUMPn

BEMÆRK: JUMPn tager som input kvantificeringsmatrixen for enten de differentielt udtrykte proteiner (overvåget metode) eller de mest variable proteiner (uovervåget metode). Hvis målet med projektet er at forstå proteiner ændret på tværs af flere tilstande (f.eks. Forskellige sygdomsgrupper eller tidsserieanalyse af biologisk proces), foretrækkes den overvågede metode til udførelse af DE-analyse; Ellers kan en uovervåget tilgang til udvælgelse af de mest variable proteiner anvendes til sonderende formål.

  1. Generer proteinkvantificeringstabellen med hvert protein som rækker og hver prøve som kolonner. Opnå dette via moderne massespektrometribaseret proteomics-softwarepakke (f.eks. JUMP-suite 13,14,39, Proteome Discoverer, Maxquant 15,46).
  2. Definer variablen proteom.
    1. Brug de statistiske analyseresultater fra proteomics-softwarepakken til at definere differentielt udtrykte (DE) proteiner (for eksempel med justeret p-værdi < 0,05).
    2. Alternativt kan brugere følge eksemplet R-kode47 for at definere enten DE eller de fleste variable proteiner.
  3. Formater inputfilen ved hjælp af det definerede variable proteom.
    BEMÆRK: Det krævede inputfilformat (Figur 4) indeholder en overskriftsrække; kolonnerne omfatter proteintilslutning (eller eventuelle unikke id'er), GN (officielle gensymboler), proteinbeskrivelse (eller brugeroplysninger) efterfulgt af proteinkvantificering af individuelle prøver.
    1. Følg rækkefølgen af de kolonner, der er angivet i trin 3.1, men kolonnenavnene på overskriften er fleksible for brugeren.
    2. For TMT (eller lignende) kvantificeret proteom skal du bruge den opsummerede TMT-reporterintensitet som inputkvantificeringsværdier. For etiketfrie data skal du enten bruge normaliserede spektraltællinger (f.eks. NSAF48) eller intensitetsbaseret metode (f.eks. LFQ-intensitet eller iBAQ-proteinintensitet rapporteret af Maxquant46).
    3. Manglende værdier er tilladt for JUMPn-analyse. Sørg for at mærke disse som NA i kvantificeringsmatrixen. Det anbefales dog kun at anvende proteiner med kvantificering i mere end 50% af prøverne.
    4. Gem den resulterende inputfil som .txt, .xlsx eller .csv format (alle tre understøttes af JUMPn).
  4. Upload inputfil:
    1. Klik på knappen Browser , og vælg inputfilen (Figur 3, venstre panel); filformatet (xlsx, csv og txt understøttes) registreres automatisk.
    2. Hvis inputfilen indeholder intensitetslignende kvantificeringsværdier (f.eks. dem, der genereres af JUMP suite39) eller forholdslignende (f.eks. fra Proteome Discoverer), skal du vælge Ja for indstillingen Udfør log2-transformation af data; Ellers er dataene muligvis allerede blevet logtransformeret, så vælg Nej for denne indstilling.

4. Analyse af klynger med fælles udtryk

BEMÆRK: Vores gruppe 25,26,27 og andre 28,29,31 har bevist, at WGCNA49 er en effektiv metode til co-ekspressionsklyngeanalyse af kvantitativ proteomik. JUMPn følger en 3-trins procedure for WGCNA-analyse25,50: (i) indledende definition af co-ekspressionsgen/ proteinklynger ved dynamisk træskæring51 baseret på den topologiske overlapningsmatrix (TOM; bestemt ved kvantificeringsligheder mellem gener / proteiner); ii) sammenlægning af lignende klynger for at reducere redundans (baseret på dendrogram af egengenligheder) og (iii) endelig tildeling af gener/proteiner til hver klynge, der overstiger den minimale Pearson-korrelationsafskæring.

  1. Konfigurer WGCNA-parametrene (Figur 3, midterpanel). Følgende tre parametre styrer henholdsvis de tre trin:
    1. Angiv mindste klyngestørrelse til 30. Denne parameter definerer det minimale antal proteiner, der kræves for hver co-ekspressionsklynge i det indledende trin (i) af TOM-baseret hybrid dynamisk træskæring. Jo større værdien er, desto mindre er antallet af klynger, der returneres af algoritmen.
    2. Indstil mindste klyngeafstand til 0,2. Forøgelse af denne værdi (f.eks. fra 0,2-0,3) kan medføre, at flere klynger flettes under trin ii), hvilket resulterer i et færre antal klynger.
    3. Indstil minimum kME som 0,7. Proteiner vil blive tildelt den mest korrelerede klynge defineret i trin (ii), men kun proteiner med Pearson-korrelation, der passerer denne tærskel, vil blive bevaret. Proteiner, der fejler i dette trin, vil ikke blive tildelt nogen klynge ('NA'-klynge for de mislykkede proteiner i den endelige rapport).
  2. Start analysen. Der er to måder at indsende klyngeanalysen for co-udtryk på:
    1. Klik på knappen Send JUMPn-analyse i nederste højre hjørne for at starte den omfattende analyse af WGCNA automatisk efterfulgt af PPI-netværksanalyse.
    2. Alternativt kan du vælge kun at udføre WGCNA-trinnet (især med henblik på parameterjustering; se trin 4.2.3-4.2.4):
    3. Klik på knappen Avancerede parametre nederst på siden Start analyse ; et nyt parametervindue vises. I den nederste widget skal du vælge Analysetilstand, vælge Kun WGCNA og derefter klikke på Afvis for at fortsætte.
    4. På siden Start analyse skal du klikke på knappen Send JUMPn-analyse .
    5. I begge tilfælde ovenfor vises en statuslinje ved indsendelse af analyse.
      BEMÆRK: Når analysen er færdig (typisk < 1 min for WGCNA Only-analyse og <3 min for omfattende analyse), vises en dialogboks med en succeskørselsmeddelelse og den absolutte sti til resultatmappen.
  3. WGCNA-resultaterne undersøges som illustreret i trin 2.4-2.8 (figur 5). Bemærk, at den absolutte sti til filen co_exp_clusters_3colums.txt er fremhævet øverst på resultatsiden: WGCNA-output for at registrere klyngemedlemskabet for hvert protein og bruge det som input til analysen af kun PPI .
  4. Fejlfinding. Følgende tre almindelige tilfælde diskuteres. Når parametrene er opdateret som beskrevet nedenfor, skal du følge trin 4.2.2-4.2.4 for at generere nye WGCNA-resultater.
    1. Hvis der forventes et vigtigt co-ekspressionsmønster fra dataene, men savnes af algoritmen, skal du følge trin 4.4.2-4.4.4
    2. En manglende klynge er især sandsynlig for små co-ekspressionsklynger, dvs. kun et begrænset antal (f.eks. <30) proteiner, der udviser dette mønster. Før genanalysen skal du undersøge inputfilen for proteinkvantificeringsmatrixen igen og lokalisere flere positive kontrolproteiner, der overholder det vigtige co-ekspressionsmønster.
    3. For at redde de små klynger skal du reducere minimal klyngestørrelsen (f.eks. 10; klyngestørrelse mindre end 10 er muligvis ikke robust og anbefales derfor ikke) og reducere minimal klyngeafstand (f.eks. 0,1; her er indstilling som 0 også tilladt, hvilket betyder, at automatisk klyngefletning springes over).
    4. Når du har udført co-expression clustering-trinnet med de opdaterede parametre, skal du først kontrollere, om klyngen er reddet fra Co-Expression Pattern Plots, og derefter kontrollere de positive kontroller ved at søge i deres proteintiltrædelser fra Detailed Protein Quantification (sørg for at vælge den relevante co-ekspressionsklynge fra rullemenuen i venstre side før søgningen).
      BEMÆRK: Flere gentagelser af parameterindstilling og genudsendelse kan være nødvendige for redningen.
    5. Hvis der er for mange proteiner, der ikke kan tildeles nogen klynge, skal du følge trin 4.4.6-4.4.7.
      BEMÆRK: Normalt kan en lille procentdel (typisk <10%) af proteiner ikke tildeles nogen klynge, da de kan være afvigende proteiner, der ikke fulgte nogen af de almindelige ekspressionsmønstre i datasættet. Men hvis en sådan procentdel er signifikant (f.eks. >30%), tyder det på, at der findes yderligere co-ekspressionsmønstre, som ikke kan ignoreres.
    6. Reducer både parametrene Minimal klyngestørrelse og Minimal klyngeafstand for at afhjælpe denne situation ved at registrere "nye" co-ekspressionsklynger.
    7. Derudover skal du reducere parameteren Minimal Pearson Correlation (kME) for at krympe disse 'NA cluster' proteiner.
      BEMÆRK: Tuning af denne parameter vil ikke generere nye klynger, men vil i stedet øge størrelsen af 'eksisterende' klynger ved at acceptere flere tidligere mislykkede proteiner med den nedre tærskel; Dette vil dog også øge heterogeniteten af hver klynge, da mere støjende proteiner nu er tilladt.
    8. To klynger har en meget lille forskel i mønstre; flet dem ind i én klynge ved at følge trin 4.4.9-4.4.11.
    9. Forøg parameteren Minimal klyngeafstand for at løse problemet.
    10. I nogle situationer kan algoritmen dog aldrig returnere det ønskede mønster; på et sådant øjeblik manuelt justere eller redigere klyngemedlemskab i filen co_exp_clusters_3colums.txt (fil fra trin 4.3) for at flette.
    11. Tag den efterredigerede fil som input til downstream PPI-netværksanalysen. I tilfælde af manuel redigering skal du begrunde kriterierne for klyngetildeling og registrere proceduren for manuel redigering.

5. Analyse af protein-proteininteraktionsnetværk

BEMÆRK: Ved at overlejre co-expression-klynger på PPI-netværket stratificeres hver co-ekspressionsklynge yderligere i mindre PPI-moduler. Analysen udføres for hver co-ekspressionsklynge og inkluderer to faser: I første fase overlejrer JUMPn proteiner fra co-ekspressionsklyngen til PPI-netværket og finder alle tilsluttede komponenter (dvs. flere klynger af tilsluttede noder / proteiner; som et eksempel, se figur 6A); derefter detekteres samfund eller moduler (af tæt forbundne noder) for hver tilsluttet komponent iterativt ved hjælp af tom-metoden (topological overlap matrix)52.

  1. Konfigurer parametre til PPI-netværksanalyse (Figur 3, højre panel).
    1. Indstil minimal PPI-modulstørrelse som 2. Denne parameter definerer den minimale størrelse af de frakoblede komponenter fra analysen i første fase. Enhver komponent, der er mindre end den angivne parameter, fjernes fra de endelige resultater.
    2. Indstil Maksimal PPI-modulstørrelse som 40. Store, frakoblede komponenter, der passerer denne tærskel, gennemgår anden fase TOM-baseret analyse. Analysen i anden fase vil yderligere opdele hver stor komponent i mindre moduler: hvert modul indeholder formodentlig proteiner tættere forbundet end den oprindelige komponent som helhed.
  2. Start analysen. Der er to måder at indsende PPI-netværksanalysen på:
    1. Tryk på knappen Send JUMPn-analyse for automatisk at udføre PPI-analysen efter WGCNA-analyse som standard.
    2. Du kan også overføre tilpassede resultater af co-ekspressionsklyngen og udføre PPI Only-analyse ved at følge trin 5.2.3-5.2.5.
    3. Forbered inputfilen ved at følge filens format co_exp_clusters_3colums.txt (se underafsnit 4.4).
    4. Klik på knappen Avancerede parametre nederst på siden Start analyse ; et nyt parametervindue vises. I den øverste session Upload Co-Expression Cluster Result for 'PPI Only' Analyse skal du klikke på Browser for at uploade inputfilen udarbejdet i trin 5.2.3.
    5. I den nederste widget skal du vælge analysetilstand, vælge kun PPI og derefter klikke på Afvis for at fortsætte. På siden Start analyse skal du klikke på knappen Send JUMPn-analyse .
  3. Når analysen er afsluttet (typisk <3 min), skal du undersøge PPI-resultaterne som illustreret i trin 2.10-2.15 (figur 6).
  4. Valgfrit avanceret trin) Juster PPI-modularisering ved at indstille parametre:
    1. Forøg parameteren Maksimal modulstørrelse for at tillade flere proteiner inkluderet i PPI-resultaterne. Upload tilpasset PPI-netværk for at dække udokumenterede interaktioner ved at følge trin 5.4.2-5.4.3.
    2. Klik på knappen Avancerede parametre nederst på siden Start analyse ; et nyt parametervindue vises. Forbered den tilpassede PPI-fil, som indeholder tre kolonner i formatet , C onnection og ; her præsenteres af de officielle gennavne på hvert protein.
    3. I Upload en PPI-database skal du klikke på knappen Gennemse for at uploade den tilpassede PPI-fil.

6. Analyse af vejberigelse

BEMÆRK: De JUMPn-afledte hierarkiske strukturer i både co-ekspressionsklynger og PPI-moduler indeni kommenteres automatisk med overrepræsenterede veje ved hjælp af Fishers nøjagtige test. De anvendte pathway / topologidatabaser inkluderer Gene Ontology (GO), KEGG, Hallmark og Reactome. Brugere kan bruge avancerede muligheder for at uploade tilpassede databaser til analysen (f.eks. i tilfælde af analyse af data fra ikke-menneskelige arter).

  1. Som standard startes analysen af forløbsberigelse automatisk med co-ekspressionsklynger og PPI-netværksanalyse.
  2. Se resultaterne af stiforbedringen:
    1. Følg trin 2.7, 2.12 og 2.15 for at visualisere forskellige formater på resultatsiderne. Få vist detaljerede resultater i regnearkspublikationstabellen i filen ComprehensiveSummaryTables.xlsx (trin 2.16).
  3. (Valgfrit avanceret trin) Upload tilpasset database til analyse af forløbsberigelse:
    1. Forbered genbaggrundsfilen, som typisk indeholder de officielle gennavne på alle gener af en art.
    2. Forbered ontologibiblioteksfilen ved at følge trin 6.3.3-6.3.4.
    3. Download ontologibibliotekets filer fra offentlige websteder, herunder EnrichR53 og MSigDB54. Download for eksempel ontologi fra Drosophila fra EnrichR-webstedet55.
    4. Rediger den downloadede fil til det ønskede format med to kolonner: stinavnet som den første kolonne og derefter de officielle gensymboler (adskilt af "/") som den anden kolonne. Det detaljerede filformat er beskrevet på hjælpesiden i JUMPn R skinnende software.
      BEMÆRK: Find eksempelfiler med genbaggrund og ontologibibliotek (ved hjælp af Drosophila som en forekomst) på JUMPn GitHub-webstedet56.
    5. Klik på knappen Avancerede parametre nederst på siden Start analyse; et nyt parametervindue vises.
    6. Find Upload en baggrundsfil til Pathway Enrichment Analysis-element , og klik på Browser for at uploade baggrundsfilen, der blev udarbejdet i trin 6.3.1. Vælg derefter den baggrund, der skal bruges til analyse af vejberigelse, i sessionen, klik på Brugerleveret baggrund.
    7. Find Upload en ontologibiblioteksfil til Pathway Enrichment Analysis-element , og klik på Browser for at uploade ontologibiblioteksfilen, der er udarbejdet i trin 6.3.2-6.3.4. Vælg derefter databaser til Pathway Enrichment Analysis i sessionen, klik på Brugerleveret database i .xlsx format.
  4. Klik på knappen Send JUMPn-analyse i nederste højre hjørne for at starte analysen ved hjælp af den tilpassede database.

7. Analyse af datasæt med stor stikprøvestørrelse

BEMÆRK: JUMPn understøtter analyse af datasæt med stor stikprøvestørrelse (op til 200 testede prøver). For at lette visualiseringen af en stor prøvestørrelse er der brug for en ekstra fil (kaldet "metafil"), der angiver eksempelgruppen, for at lette visningen af klyngeresultater for samudtryk.

  1. Forbered og upload metafil.
    1. Forbered metafilen, der angiver gruppeoplysninger (f.eks. kontrol- og sygdomsgrupper) for hver prøve i trin 7.1.2-7.1.3.
    2. Sørg for, at metafilen indeholder mindst to kolonner: kolonne 1 skal indeholde prøvenavnene, der er identiske med kolonnenavnene og rækkefølgen fra proteinkvantificeringsmatrixfilen (som udarbejdet i trin 3.3). Kolonne 2 og fremefter vil blive brugt til gruppetildeling for et vilkårligt antal funktioner, der er defineret af brugeren. Antallet af kolonner er fleksibelt.
    3. Sørg for, at den første række i metafilen indeholder kolonnenavnene for hver kolonne; fra anden række og fremefter skal individuelle prøveoplysninger om grupper eller andre træk (f.eks. køn, alder, behandling osv.) anføres.
    4. Upload metafilen ved at klikke på knappen Avancerede parametre nederst på siden Start analyse ; et nyt parametervindue vises. Fortsæt til trin 7.1.5
    5. Find Upload et metafilelement , og klik på Browser for at uploade baggrundsfilen. Hvis JUMPn registrerer det uventede format eller umatchede eksempelnavne, vises en fejlmeddelelse for yderligere formatering af metafilen (trin 7.1.1-7.1.3).
  2. Juster parametrene for klyngeanalyse af co-ekspression: Indstil Minimal Pearson Correlation som 0,2. Denne parameter skal lempes på grund af større prøvestørrelse.
  3. Klik på knappen Send JUMPn-analyse i nederste højre hjørne for at indsende analysen.
  4. Få vist analyseresultater: Alt dataoutput er det samme, bortset fra visning af klyngemønstrene for co-udtryk.
    1. På siden Resultater side 1: WGCNA Output skal du visualisere co-expression clusters som boxplots med prøver stratificeret af de brugerdefinerede eksempelgrupper eller funktioner. Hver prik i plottet repræsenterer egengenet (dvs. konsensusmønsteret for klyngen) beregnet af WGCNA-algoritmen.
    2. Hvis brugeren har angivet flere funktioner (f.eks. alder, køn, behandling osv.) til gruppering af prøverne, skal du klikke på rullelisten Vælg udtryksformat for at vælge en anden funktion til gruppering af prøverne.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Vi brugte vores offentliggjorte dybe proteomics datasæt 25,26,27,30 (figur 5 og figur 6) samt datasimuleringer57 (tabel 1) til at optimere og evaluere JUMPn-ydeevne. Til analyse af co-ekspressionsproteinklynger via WGCNA anbefaler vi at anvende proteiner, der er signifikant ændret på tværs af prøver som input (f.eks. differentielt udtrykte (DE) proteiner påvist ved statistisk analyse). Mens inkludering af ikke-DE-proteiner til analysen kan resultere i flere co-ekspressionsklynger returneret af programmet (på grund af større inputstørrelse), antager vi, at blanding af det reelle signal (f.eks. DE-proteinerne) med baggrunden (den resterende ikke-DE) til analyse på systemniveau kan fortynde signalet og maskere den underliggende netværksstruktur. For at teste dette blev simuleringsanalyse udført under to forskellige betingelser: i) meget dynamisk proteom (f.eks. 50% ændret i T-celleaktivering25) og ii) relativt stabilt proteom (f.eks. 2% proteom ændret i AD26). For det meget dynamiske proteom blev seks co-ekspressionsklynger simuleret fra 50% proteom efter samme klyngestørrelse og ekspressionsmønstre (dvs. egengener) af vores offentliggjorte resultater25. Tilsvarende simulerede vi for et relativt stabilt proteom tre klynger fra 2% proteom efter vores nylige AD proteomics-undersøgelse26. Som forventet øger forøgelsen af inputantallet af proteiner antallet af detekterede klynger (tabel 1). For det meget dynamiske proteom kan brug af alle proteiner som input fange de fleste af de sande klynger (5 ud af de 6 simulerede bona fide-klynger; 83% tilbagekaldelse) med 63% præcision (5 ud af de 8 returnerede klynger er sande positiver; dvs. de resterende 3 klynger er falske positive). For det relativt stabile proteom reducerer forøgelse af inputstørrelsen med ikke-DE-proteiner imidlertid præcisionen dramatisk (tabel 1). For eksempel detekteres 169 moduler ved hjælp af hele proteomet som input, hvoraf kun 2 er korrekte (1,2% præcision; de resterende 98,8% detekterede moduler er falske positiver). Disse resultater indikerer således, at valg af kun det ændrede proteom som input vil øge præcisionen af co-ekspressionsanalyse, især for relativt stabilt proteom.

Efter påvisning af co-ekspressionsproteinklynger vil hver klynge blive kommenteret af JUMPn ved hjælp af vejberigelsesanalysen (figur 1). Den nuværende version indeholder fire almindeligt anvendte pathway-databaser, herunder Gene Ontology (GO), KEGG, Hallmark og Reactome. Brugere kan også kompilere deres egen database i GMT-format54, som kan uploades til JUMPn. Integrering af flere databaser til analyse af vejberigelse kan give mere omfattende synspunkter; Størrelsen af forskellige pathway-databaser varierer dog betydeligt, hvilket kan fremkalde uønsket bias til visse (især store) databaser. To løsninger leveres inden for JUMPn. For det første justeres (eller straffes) nominelle p-værdier ved hjælp af en statistisk tilgang til multiple-hypotesetest ved hjælp af Benjamini-Hochberg-metoden58, hvor en større database kræver en mere signifikant nominel p-værdi for at nå det samme justerede p-niveau end det fra en lille database. For det andet fremhæver JUMPn den øverste signifikant berigede vej for hver database separat, således vises databasespecifikke topberigede veje altid.

I lighed med vejberigelsesanalyse blev et sammensat PPI-netværk kompileret ved at kombinere STRING59,60, BioPlex61,62 og InWeb_IM63 databaser. BioPlex-databasen blev oprettet ved hjælp af affinitetsrensning efterfulgt af massespektrometri i humane cellelinjer, mens STRING og InWeb indeholder information fra forskellige kilder. Derfor blev STRING- og InWeb-databaserne yderligere filtreret af edge-scoren for at sikre høj kvalitet, hvor cutoff bestemmes ved bedst at passe til de skalafrie kriterier24. Det endelige fusionerede PPI-netværk dækker mere end 20.000 humane gener med ~ 1.100.000 kanter (tabel 2). Dette omfattende interactome er inkluderet og offentliggjort i et bundt med vores JUMPn-software til følsom PPI-analyse.

Når analysen er færdig, genererer JUMPn regnearksfilen For publikationstabellen ComprehensiveSummaryTables.xlsx, der består af tre individuelle ark. Det første ark indeholder resultater af co-ekspressionsproteinklyngermed et protein pr. række: Den første kolonne angiver klyngemedlemskabet for hvert inputprotein, og de resterende kolonner kopieres fra brugerinputfilen, som indeholder proteintilslutning, gennavne, proteinbeskrivelse og kvantificering af individuelle prøver. Det andet ark indeholder resultater af vejberigelsesanalyse, der viser signifikante veje beriget i hver co-ekspressionsklynge. Denne tabel er først organiseret af forskellige vejdatabaser, derefter sorteret efter co-ekspressionsklynger, funktionelle veje, det samlede antal vejgener, det samlede antal gener i den enkelte klynge, de overlappede gennumre og navne, berigelsesfold, Fisher nøjagtige testafledte P-værdier og Benjamini-Hochberg falsk opdagelseshastighed. Det tredje ark indeholder resultater af PPI-modulanalyse med et PPI-modul pr. række; dets kolonner inkluderer modulnavnet (defineret af dets co-ekspressionsmedlemskab og modul-id, for eksempel Cluster1_Module1), de kortlagte proteiner og tal samt funktionelle veje, der er defineret ved at søge modulproteinerne mod vejdatabaserne.

Figure 1
Figur 1: Arbejdsgang for JUMPn. Kvantificeringsmatrixen for den øverste variabel af differentielt udtrykte (DE) proteiner tages som input, og proteiner grupperes i co-ekspressionsklynger af WGCNA-algoritmen. Hvert co-ekspression kommenteres derefter ved vejberigelsesanalyse og overlejres yderligere på protein-proteininteraktionsnetværket (PPI) til tæt forbundne proteinmodulidentifikationer. Klik her for at se en større version af denne figur.

Figure 2
Figur 2: JUMPn velkomstside. Klik her for at se en større version af denne figur.

Figure 3
Figur 3: Input side af JUMPn. Siden indeholder inputfiloverførselspanelet og parameterkonfigurationspaneler til henholdsvis co-ekspressionsklynger og PPI-netværksanalyse. Klik her for at se en større version af denne figur.

Figure 4
Figur 4: Eksempel på inputfil af kvantificeringsmatrix. Kolonnerne omfatter proteintilslutning (eller eventuelle unikke id'er), GN (officielle gensymboler), proteinbeskrivelse (eller brugeroplysninger) efterfulgt af proteinkvantificering af individuelle prøver. Klik her for at se en større version af denne figur.

Figure 5
Figur 5: Resultater af co-ekspressionsklynge rapporteret af JUMPn. Co-ekspressionsklyngemønstrene (A), topberiget vejvarmekort på tværs af klynger (B) og detaljeret proteinmængde for hver klynge er vist (C). Brugere kan vælge forskellige visningsindstillinger og navigere mellem forskellige klynger via valgfeltet. Klik her for at se en større version af denne figur.

Figure 6
Figur 6: PPI-netværksanalyseresultater rapporteret af JUMPn. Det globale intermodulnetværk vises (A) efterfulgt af et undernetværk af individuelle moduler (B) og dets væsentligt berigede veje (C). Brugere kan vælge forskellige visningsmuligheder og navigere mellem forskellige klynger og moduler via valgboksen. Klik her for at se en større version af denne figur.

% topproteiner til analyse # simulerede moduler # registrerede moduler # generhvervede moduler1 præcision2 tilbagekaldelse3
Meget dynamisk proteom (f.eks. under T-celleaktivering): 6 simulerede moduler fra 50% proteom
2 6 2 2 1 0.33
5 6 2 2 1 0.33
10 6 3 3 1 0.5
20 6 4 4 1 0.67
50 6 6 6 1 1
100 6 8 5 0.63 0.83
Relativt stabilt proteom (f.eks. under patogenese af AD): 3 simulerede moduler fra 2% proteom
1 3 1 1 1 0.33
2 3 3 3 1 1
5 3 8 3 0.38 1
10 3 13 3 0.23 1
20 3 19 3 0.16 1
50 3 71 2 0.03 0.67
100 3 169 2 0.01 0.67
1 Et genindfanget modul er et detekteret modul, hvis egengen stærkt korrelerer (Pearson R > 0,95) med et af de simulerede egengener.
2præcision = # genfangede moduler / # detekterede moduler
3tilbagekaldelse = # genfangede moduler / # simulerede moduler

Tabel 1: Simuleringsundersøgelser af detektion af co-ekspressionsklynger.

PPI-netværk Nej. antal noder Nej. af kanter
BioPlex 3.0 kombineret (293T+HCT116) 14,551 1,67,399
InBio_Map_core_2016_09_12 17,429 6,08,166
STRENG (v11.0) 18,954 5,87,482
Sammensat PPI-netværk 20,485 11,52,607

Tabel 2: Statistik over human protein-protein interaktion (PPI) netværk. PPI-netværk filtreres efter edge score for at sikre høj kvalitet, hvor scoreafskæringen bestemmes af, om de skalafrie kriterier passer bedst.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Her introducerede vi vores JUMPn-software og dens protokol, som er blevet anvendt i flere projekter til dissekering af molekylære mekanismer ved hjælp af dybe kvantitative proteomics-data 25,26,27,30,64. JUMPn-softwaren og -protokollen er blevet fuldt optimeret, herunder overvejelse af DE-proteiner til co-ekspressionsnetanalyse, en samling af omfattende PPI-netværk af høj kvalitet, streng statistisk analyse (f.eks. ved overvejelse af flere hypotesetest) med en strømlinet og brugervenlig grænseflade. Flere proteinmoduler identificeret af JUMPn er blevet valideret ved funktionelle eksperimentstudier25,27 eller uafhængige patientkohorter26, eksemplificerer JUMPn som et effektivt værktøj til at identificere nøglemolekyler og veje, der ligger til grund for forskellige biologiske processer.

Kritiske trin i denne protokol omfatter generering af optimale resultater af co-ekspressionsklynger og PPI-moduler, som kan kræve flere iterationer af parameterindstilling samt upload af tilpasset PPI-netværk. I vores protokol diskuterede vi almindelige praktiske scenarier, herunder hvordan man håndterer manglende vigtige klynger, en høj procentdel af ikke-tildelte proteiner, sammenlægning af to overflødige klynger og manglende vigtige proteiner inden for PPI-moduler. Vi anbefaler brugeren at forberede flere positive kontrolproteiner og bekræfte deres tilstedeværelse i de endelige co-ekspressionsklynger. Nogle gange vil en positiv kontrol aldrig blive inkluderet i de endelige PPI-moduler på grund af en ufuldstændig PPI-netværksdatabase. For delvist at afhjælpe dette har vi opdateret vores PPI-netværk med de nyeste versioner af BioPlex V362 og STRING V1160. Derudover giver JUMPn brugerne mulighed for at uploade tilpassede PPI-netværk. For eksempel kan nye interaktioner afledt af affinitetsrensningsmassespektrometri (AP-MS) eksperimenter ved hjælp af et vigtigt positivt kontrolprotein som agn integreres med det nuværende sammensatte PPI-netværk til mere tilpasset analyse.

Ved at anvende rammerne for vejberigelsesanalyse for hver co-ekspressionsproteinklynge kan JUMPn udvides til at udlede transkriptionsfaktor (TF) aktivitet. Antagelsen er, at hvis der findes en overrepræsentation af målgener for en specifik TF i en co-ekspressionsklynge (dvs. disse mål udtrykkes forskelligt og følger det samme ekspressionsmønster), ændres aktiviteten af denne TF potentielt på tværs af eksperimentelle betingelser, fordi dens målproteinmængde ændres konsekvent. Teknisk set kan dette simpelthen opnås via JUMPn ved at erstatte den nuværende pathway-database med TF-target-databasen (f.eks. fra ENCODE-projektet65). Tilsvarende kan kinaseaktivitet også udledes ved at udnytte kinase-substratdatabasen og tage dybe phosphoproteomics som input. Som et eksempel identificerede vi med succes dysregulerede TF'er og kinaser, der ligger til grund for hjernetumorpatogenese64. Faktisk har brug af netværkstilgangen til aktivitetsinferens vist sig som en stærk tilgang til identifikation af dysregulerede drivkræfter for menneskelige sygdomme66,67.

JUMPn-softwaren anvendes let på en lang række datatyper. Selvom isobarisk mærkning kvantificeret proteom blev brugt som et illustrativt eksempel, gælder den samme protokol også for etiketfrie kvantificerede proteomics-data samt genomdækkende ekspressionsprofiler (f.eks. kvantificeret af RNA-seq eller mikroarray; se vores nylige eksempel med anvendelse af JUMPn for både gen- og proteinekspressionsprofiler27). Phosphoproteomics-data kan også tages af JUMPn for at identificere co-udtrykte fosfositter efterfulgt af kinaseaktivitetsslutning25. Derudover vil interaktionsdata genereret af AP-MS-tilgangen også være passende, hvorved bytteproteiner, der følger lignende agninteraktionsstyrke og støkiometri, vil danne co-ekspressionsklynger og yderligere overlappe med kendte PPI'er til datafortolkning68.

Der findes begrænsninger for den aktuelle version af JUMPn. For det første er installationsproceduren kommandolinjebaseret og kræver grundlæggende viden om datalogi. Dette forhindrer bredere brug af JUMPn, især fra biologer uden beregningsmæssig baggrund. En mere ideel implementering er at offentliggøre JUMPn på en online server. For det andet er de nuværende databaser menneskecentrerede på grund af vores fokus på humane sygdomsundersøgelser. Bemærk, at proteomics-data genereret af mus også er blevet analyseret af JUMPn ved hjælp af sådanne menneskecentrerede databaser25,27, forudsat at de fleste PPI'er bevares på tværs af begge arter69,70. Musespecifik signalering vil ikke blive fanget af denne tilgang, men er ikke af interesse i disse menneskelige undersøgelser. For modelsystemer uden pattedyr (f.eks. zebrafisk, flue eller gær) bør artsspecifikke databaser imidlertid udarbejdes og uploades til JUMPn ved hjælp af de avancerede muligheder. Ressourcer af yderligere arter kan tilvejebringes via fremtidig JUMPn-udsætning. For det tredje tager det nuværende trin i ontologi / pathway-analyse betydelig tid, hvilket kan optimeres yderligere ved parallel computing.

Afslutningsvis præsenterer vi JUMPn-softwaren og -protokollen til udforskning af kvantitative proteomics-data for at identificere og visualisere co-udtrykte og potentielt fysisk interagerende proteinmoduler ved hjælp af systembiologisk tilgang. De vigtigste træk, der adskiller JUMPn fra andre 53,71,72, omfatter: (i) JUMPn integrerer og strømliner fire hovedkomponenter i vej- og netværksanalysen (figur 1); ii) I modsætning til de fleste pathway-analysesoftware, der tager en simpel genliste som input, starter JUMPn fra kvantificeringsmatrix, hvorved kvantitativ information problemfrit kan integreres med litteraturdokumenterede veje og netværk; iii) Både co-ekspressionsproteinklynger og interaktionsmoduler kommenteres automatisk af kendte veje og visualiseres via den R/skinnende interagerende platform ved hjælp af en brugervenlig webbrowser. (iv) De endelige resultater er organiseret i tre tabeller, der let kan offentliggøres i Excel-format. Således forventer vi, at JUMPn og denne protokol vil være bredt anvendelig til mange undersøgelser til dissekeringsmekanismer ved hjælp af kvantitative proteomics-data.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har intet at afsløre.

Acknowledgments

Finansieringsstøtte blev ydet af National Institutes of Health (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 og U54NS110435) og ALSAC (American Lebanese Syrian Associated Charities). MS-analysen blev udført i St. Jude Children's Research Hospital's Center of Proteomics and Metabolomics, som delvist blev støttet af NIH Cancer Center Support Grant (P30CA021765). Indholdet er udelukkende forfatternes ansvar og repræsenterer ikke nødvendigvis de officielle synspunkter fra National Institutes of Health.

Materials

Name Company Catalog Number Comments
MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7. Apple Inc. MacBook Pro 13'' Hardware used for software development and testing
Anoconda Anaconda, Inc. version 4.9.2 https://docs.anaconda.com/anaconda/install/
miniconda Anaconda, Inc. version 4.9.2 https://docs.conda.io/en/latest/miniconda.html
RStudio RStudio Public-benefit corporation version 4.0.3 https://www.rstudio.com/products/rstudio/download/
Shiny Server RStudio Public-benefit corporation https://shiny.rstudio.com/articles/shinyapps.html

DOWNLOAD MATERIALS LIST

References

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
  2. Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
  3. Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
  4. Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
  5. Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
  6. Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
  7. Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
  8. Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
  9. Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer's disease. Analytical Chemistry. 92, 7162-7170 (2020).
  10. Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
  11. Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
  12. Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
  13. Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
  14. Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
  15. Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
  16. Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
  17. Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
  18. Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
  19. High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
  20. Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
  21. Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
  22. Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
  23. Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
  24. Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell's functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
  25. Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
  26. Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer's disease progression. Neuron. 105, 975-991 (2020).
  27. Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
  28. Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer's disease. Cell Systems. 4, 60-72 (2017).
  29. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer's disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
  30. Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
  31. Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
  32. Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
  33. Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
  34. Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
  35. Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
  36. Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
  37. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
  38. Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
  39. Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
  40. Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, Anaconda. miniconda (2021). RStudio (2021) Shiny Server 2301-2319 (2021).
  41. JUMPn. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021).
  42. Anaconda. , Available from: https://docs.anaconda.com/anaconda/install/ (2021).
  43. miniconda. , Available from: https://docs.conda.io/en/latest/miniconda.html (2021).
  44. RStudio. , Available from: https://www.rstudio.com/products/rstudio/download/ (2021).
  45. Shiny Server. , Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021).
  46. Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
  47. R code. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021).
  48. Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
  49. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article 17 (2005).
  50. Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
  51. Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
  52. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
  53. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  54. Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
  55. FlyEn rich r. , Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021).
  56. JUMPn GitHub. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly_ (2021).
  57. Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
  58. Benjamini, Y., Hochberg, Y. Controlling the false discovery rate - a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
  59. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
  60. Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
  61. Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
  62. Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
  63. Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
  64. Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
  65. Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
  66. Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
  67. Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
  68. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
  69. Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
  70. Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
  71. Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
  72. Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

Tags

Biokemi udgave 176
JUMPn: En strømlinet applikation til protein co-ekspressionsklynger og netværksanalyse i proteomics
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Vanderwall, D., Suresh, P., Fu, Y.,More

Vanderwall, D., Suresh, P., Fu, Y., Cho, J. H., Shaw, T. I., Mishra, A., High, A. A., Peng, J., Li, Y. JUMPn: A Streamlined Application for Protein Co-Expression Clustering and Network Analysis in Proteomics. J. Vis. Exp. (176), e62796, doi:10.3791/62796 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter