Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biochemistry

JUMPn: En strömlinjeformad applikation för protein-samuttryckskluster och nätverksanalys inom proteomik

Published: October 19, 2021 doi: 10.3791/62796

Summary

Vi presenterar ett systembiologiskt verktyg JUMPn för att utföra och visualisera nätverksanalys för kvantitativa proteomikdata, med ett detaljerat protokoll inklusive databehandling, samuttryckskluster, vägberikning och protein-proteininteraktionsnätverksanalys.

Abstract

Med de senaste framstegen inom masspektrometribaserad proteomikteknik har djup profilering av hundratals proteomer blivit allt mer genomförbar. Att härleda biologiska insikter från sådana värdefulla datamängder är dock utmanande. Här introducerar vi en systembiologibaserad programvara JUMPn och dess tillhörande protokoll för att organisera proteomet i protein-samuttryckskluster över prover och protein-proteininteraktionsnätverk (PPI) anslutna med moduler (t.ex. proteinkomplex). Med hjälp av R/Shiny-plattformen effektiviserar JUMPn-programvaran analysen av klustring av samuttryck, vägberikning och PPI-moduldetektering, med integrerad datavisualisering och ett användarvänligt gränssnitt. Huvudstegen i protokollet inkluderar installation av JUMPn-programvaran, definitionen av differentiellt uttryckta proteiner eller det (dys) reglerade proteomet, bestämning av meningsfulla samuttryckskluster och PPI-moduler och resultatvisualisering. Medan protokollet demonstreras med hjälp av en isobar märkningsbaserad proteomprofil, är JUMPn i allmänhet tillämpligt på ett brett spektrum av kvantitativa datamängder (t.ex. etikettfri proteomik). JUMPn-programvaran och protokollet ger därmed ett kraftfullt verktyg för att underlätta biologisk tolkning inom kvantitativ proteomik.

Introduction

Masspektrometribaserad hagelgevärsproteomik har blivit det viktigaste tillvägagångssättet för att analysera proteomdiversitet hos komplexa prover1. Med de senaste framstegen inom masspektrometriinstrumentation 2,3, kromatografi 4,5, jonmobilitetsdetektering6, förvärvsmetoder (dataoberoende7 och databeroende förvärv8), kvantifieringsmetoder (multi-plex isobar peptidmärkningsmetod, t.ex. TMT 9,10 och etikettfri kvantifiering11,12) och dataanalysstrategier / mjukvaruutveckling 13,14,15,16,17,18, kvantifiering av hela proteomet (t.ex. över 10 000 proteiner) är nurutinmässigt 19,20,21. Men hur man får mekanistiska insikter från så djupa kvantitativa datamängder är fortfarande utmanande22. Initiala försök att undersöka dessa datamängder förlitade sig främst på anteckningen av enskilda element i data och behandlade varje komponent (protein) oberoende. Biologiska system och deras beteende kan emellertid inte enbart förklaras genom att undersöka enskilda komponenter23. Därför är en systemansats som placerar de kvantifierade biomolekylerna i samband med interaktionsnätverk avgörande för förståelsen av komplexa system och tillhörande processer såsom embryogenes, immunsvar och patogenes av mänskliga sjukdomar24.

Nätverksbaserad systembiologi har framstått som ett kraftfullt paradigm för att analysera storskaliga kvantitativa proteomikdata 25,26,27,28,29,30,31,32,33. Konceptuellt kan komplexa system som däggdjursceller modelleras som ett hierarkiskt nätverk34,35, där hela systemet representeras i nivåer: först av ett antal stora komponenter, som var och en sedan iterativt modelleras av mindre delsystem. Tekniskt sett kan strukturen för proteomdynamik presenteras av sammankopplade nätverk av samuttryckta proteinkluster (eftersom samuttryckta gener / proteiner ofta delar liknande biologiska funktioner eller mekanismer för reglering36) och fysiskt interagerande PPI-moduler37. Som ett nytt exempel25 genererade vi temporala profiler av hela proteom och fosfoproteom under T-cellaktivering och använde integrativa samuttrycksnätverk med PPI för att identifiera funktionella moduler som förmedlar T-cells quiescensutgång. Flera bioenergetiska relaterade moduler lyftes fram och validerades experimentellt (t.ex. mitoribosomen och komplexa IV-modulerna25 och en-kolmodulen38). I ett annat exempel26 utvidgade vi ytterligare vårt tillvägagångssätt för att studera patogenesen av Alzheimers sjukdom och prioriterade framgångsrikt sjukdomsprogressionsassocierade proteinmoduler och molekyler. Viktigt är att många av våra opartiska upptäckter validerades av oberoende patientkohorter26,29 och/eller sjukdomsmusmodeller26. Dessa exempel illustrerade kraften i den systembiologiska metoden för att dissekera molekylära mekanismer med kvantitativ proteomik och andra omics-integrationer.

Här introducerar vi JUMPn, en strömlinjeformad programvara som utforskar kvantitativa proteomikdata med hjälp av nätverksbaserade systembiologiska metoder. JUMPn fungerar som nedströmskomponenten i den etablerade JUMP-proteomik-programvarusviten 13,14,39 och syftar till att fylla gapet från enskilda proteinkvantifieringar till biologiskt meningsfulla vägar och proteinmoduler med hjälp av systembiologimetoden. Genom att ta kvantifieringsmatrisen för differentiellt uttryckta (eller de mest variabla) proteinerna som ingång, syftar JUMPn till att organisera proteomet i en skiktad hierarki av proteinkluster som uttrycks över prover och tätt anslutna PPI-moduler (t.ex. proteinkomplex), som ytterligare kommenteras med offentliga vägdatabaser genom överrepresentation (eller anrikning) analys (Figur 1). JUMPn är utvecklad med R/Shiny-plattformen40 för ett användarvänligt gränssnitt och integrerar tre huvudsakliga funktionella moduler: co-expression clustering analysis, pathway enrichment analysis och PPI network analysis (Figur 1). Efter varje analys visualiseras resultaten automatiskt och kan justeras via R/shiny-widgetfunktionerna och kan enkelt laddas ner som publikationstabeller i Microsoft Excel-format. I följande protokoll använder vi kvantitativa hela proteomdata som ett exempel och beskriver de viktigaste stegen för att använda JUMPn, inklusive installation av JUMPn-programvaran, definitionen av differentiellt uttryckta proteiner eller det (dys) reglerade proteomet, nätverksanalys med gemensamt uttryck och PPI-modulanalys, resultatvisualisering och tolkning och felsökning. JUMPn-programvaran är fritt tillgänglig på GitHub41.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

OBS: I detta protokoll illustreras användningen av JUMPn genom att använda en publicerad datauppsättning av hel proteomprofilering under B-celldifferentiering kvantifierad av TMT isobarisk etikettreagens27.

1. Installation av JUMPn-programvara

OBS: Två alternativ finns för att ställa in JUMPn-programvaran: (i) installation på en lokal dator för personligt bruk; och (ii) distribution av JUMPn på en glänsande fjärrserver för flera användare. För lokal installation är en persondator med internetåtkomst och ≥4 Gb RAM tillräcklig för att köra JUMPn-analys för en datauppsättning med en liten provstorlek (n < 30); större RAM (t.ex. 16 Gb) behövs för analys av stora kohorter (t.ex. n = 200 prover).

  1. Installera programvaran på en lokal dator. Efter installationen tillåter du webbläsaren att starta JUMPn och låter analysen köras på den lokala datorn.
    1. Installera anaconda42 eller miniconda43 enligt onlineinstruktionerna.
    2. Ladda ner JUMPn-källkoden41. Dubbelklicka för att packa upp den nedladdade filen JUMPn_v_1.0.0.zip; en ny mapp med namnet JUMPn_v_1.0.0 skapas.
    3. Öppna kommandoradsterminalen. I Windows använder du Anaconda Prompt. På MacOS använder du det inbyggda terminalprogrammet.
    4. Skapa JUMPn Conda-miljön: Hämta den absoluta sökvägen till mappen JUMPn_v_1.0.0 (t.ex. /path/to/JUMPn_v_1.0.0). För att skapa och aktivera en tom Conda-miljö skriver du följande kommandon på terminalen
      conda skapa -p /path/to/JUMPn_v_1.0.0/JUMPn -y
      conda aktivera /path/to/JUMPn_v_1.0.0/JUMPn
    5. Installera JUMPn-beroenden: Installera R (på terminalen skriver du conda install -c conda-forge r=4.0.0 -y), ändrar den aktuella katalogen till mappen JUMPn_v_1.0.0 (på terminalen skriver du cd path/to/JUMPn_v_1.0.0) och installerar beroendepaketen (på terminalen skriver du Rscript bootstrap. R)
    6. Starta JUMPn i webbläsaren: Ändra den aktuella katalogen till exekveringsmappen (på terminalen, skriv cd-körning) och starta JUMPn (på terminalen skriver du R -e "shiny::runApp()")
    7. När ovanstående har körts visas terminalskärmen Lyssna på http://127.0.0.1:XXXX (här anger XXXX 4 slumptal). Kopiera och klistra in http://127.0.0.1:XXXX i webbläsaren, där JUMPn välkomstsida visas (bild 2).
  2. Distribution på Shiny Server. Exempel på Shiny Server inkluderar kommersiell shinyapps.io server eller någon institutionellt stödd Shiny Servers.
    1. Ladda ner och installera RStudio enligt anvisningarna44.
    2. Hämta distributionsbehörigheten för Shiny Server. För shinyapps.io-servern konfigurerar du användarkontot genom att följa anvisningarna45. För glänsande institutionell server kontaktar du serveradministratören för att begära behörigheter.
    3. Ladda ner JUMPn-källkoden41 till den lokala datorn; installation är inte nödvändig. Öppna antingen servern. R eller användargränssnitt. R-filer i RStudio och klicka på listrutan Publicera på server längst upp till höger i RStudio IDE.
    4. I panelen Publicera på konto skriver du serveradressen. Tryck på knappen Publicera . Lyckad distribution verifieras vid automatisk omdirigering från RStudio till RShiny-servern där programmet distribuerades.

2. Demokörning med hjälp av en exempeldatamängd

JUMPn erbjuder en demokörning med den publicerade B-cellsproteomikdatauppsättningen. Demokörningen illustrerar ett strömlinjeformat arbetsflöde som tar kvantifieringsmatrisen för differentiellt uttryckta proteiner som indata och utför klustring av samuttryck, vägberikning och PPI-nätverksanalys sekventiellt.

  1. På JUMPn-hemsidan (figur 2) klickar du på knappen Påbörja analys för att starta JUMPn-analysen.
  2. I det nedre vänstra hörnet på sidan Påbörja analys (figur 3) klickar du på knappen Ladda upp demo B Cell Proteomic Data ; en dialogruta visas som meddelar att datauppladdningen har lyckats.
  3. I det nedre högra hörnet på sidan klickar du på knappen Skicka JUMPn-analys för att starta demokörningen med standardparametrar; en förloppsindikator visas som anger analysens gång. Vänta tills förloppsindikatorn är uppfylld (3 min förväntat).
  4. När demokörningen är klar visas en dialogruta med meddelandet om lyckad körning och den absoluta sökvägen till resultatmappen. Klicka på Fortsätt till resultat för att fortsätta.
  5. Webbsidan vägleder först användaren till WGCNA:s klusterresultat för samuttryck. Klicka på Visa resultat i dialogrutan för att fortsätta.
  6. Hitta proteinets samuttrycksmönster till vänster på sidan Resultatsida 1: WGCNA-utdata . Klicka på listrutan Välj uttrycksformat för att navigera mellan tvåsiffriga format:
    1. Välj Trender för att visa trenddiagrammet, där varje rad representerar individuellt proteinöverflöd över prover. Färgen på varje rad representerar hur nära uttrycksmönstret är konsensus för co-expression cluster (dvs. "egengene" enligt definitionen av WGCNA-algoritmen).
    2. Välj Boxplot om du vill visa mönster för samuttryck i boxplot-format för varje prov.
  7. Visa värmekartan för anrikning av väg/ontologi till höger på WGCNA-utdatasidan. De mest berikade vägarna för varje kluster visas tillsammans i en värmekarta, där färgintensiteten återspeglar Benjamini-Hochbergs justerade p-värde.
  8. Bläddra ner på webbsidan för att se uttrycksmönstret för enskilda proteiner.
    1. Använd listrutan Välj co-expression cluster för att visa proteiner från varje kluster (standard är Kluster 1). Välj ett specifikt protein i tabellen, på vilket stapeldiagrammet under tabellen uppdateras automatiskt för att återspegla dess proteinmängd.
    2. Sök efter specifika proteinnamn med hjälp av sökrutan till höger i tabellen efter ett specifikt protein.
  9. För att se PPI-resultat, klicka på Resultatsida 2: PPI-utdata högst upp.
  10. Klicka på Välj det samuttryckskluster som du vill visa resultatet för ett specifikt kluster för samuttryck (standard är kluster 1). Visningen av alla figurpaneler på den här sidan uppdateras för det nyligen valda klustret.
  11. Visa PPI-nätverken för det valda samuttrycksklustret på den vänstra bildpanelen:
    1. Klicka på listrutan Välj efter grupp för att markera enskilda PPI-moduler i nätverket. Klicka på listrutan Välj ett nätverkslayoutformat för att ändra nätverkslayouten (standard är av Fruchterman Reingold).
    2. Använd musen och styrplattan för att utföra steg 2.11.3-2.11.5.
    3. Zooma in eller zooma ut PPI-nätverket efter behov. Gennamnen för varje nod i nätverket visas när de zoomas in tillräckligt.
    4. När du zoomar in väljer du och klickar på ett visst protein för att markera det proteinet och dess nätverksgrannar.
    5. Dra en viss nod (protein) i nätverket för att ändra dess position i layouten; därmed kan nätverkslayouten omorganiseras av användaren.
  12. På den högra panelen på PPI-resultatsidan visar du information på klusternivå för samuttryck som underlättar tolkningen av PPI-resultat:
    1. Visa samuttrycksmönstret för det valda klustret som boxplot som standard.
    2. Klicka på listrutan Välj uttrycksformat för mer information eller visas enligt stegen 2.12.3-2.12.5.
    3. Välj Trender för att visa trenddiagrammet för mönstret för samuttryck.
    4. Välj Pathway Barplot för att visa betydligt berikade vägar för co-expression-klustret.
    5. Välj Cirkeldiagram för väg om du vill visa betydligt berikade vägar för samuttrycksklustret i cirkeldiagramformatet.
  13. Bläddra ner på sidan Resultatsida 2: PPI Output för att se resultat på den enskilda PPI-modulnivån. Klicka på listrutan Välj modul för att välja en specifik PPI-modul för visning (Cluster1: Modul 1 visas som standard).
  14. Visa PPI-modulen på den vänstra panelen. För att manipulera nätverksdisplayen, följ stegen 2.11.2-2.11.5.
  15. Visa anrikningsresultaten för vägen/ontologin i den högra panelen. Klicka på listrutan Välj vägenanteckningsstil för mer information och skärmar:
    1. Välj Barplot för att visa betydligt berikade vägar för den valda PPI-modulen.
    2. Välj Cirkeldiagram om du vill visa betydligt berikade vägar för den valda PPI-modulen i formatet för ett cirkeldiagram.
    3. Välj Heatmap för att visa signifikant berikade vägar och tillhörande gennamn från den valda PPI-modulen.
    4. Välj Tabell för att visa detaljerade resultat för anrikning av vägar, inklusive namnet på vägar/ontologitermer, gennamn och P-värdet med Fishers exakta test.
  16. Visa publikationstabellen i kalkylbladsformat: följ den absoluta sökvägen (tryckt överst på båda resultatsidorna) och leta reda på publikationskalkylarktabellen ComprehensiveSummaryTables.xlsx.

3. Förberedelse av inmatningsfilen och uppladdning till JUMPn

OBS: JUMPn tar som indata kvantifieringsmatrisen för antingen de differentiellt uttryckta proteinerna (övervakad metod) eller de mest variabla proteinerna (oövervakad metod). Om målet med projektet är att förstå proteiner som förändrats över flera tillstånd (t.ex. olika sjukdomsgrupper eller tidsserieanalys av biologisk process), är den övervakade metoden för att utföra DE-analys att föredra; annars kan ett oövervakat tillvägagångssätt för att välja de mest variabla proteinerna användas för det undersökande syftet.

  1. Generera proteinkvantifieringstabellen, med varje protein som rader och varje prov som kolumner. Uppnå detta via modern masspektrometribaserad proteomikprogramvara (t.ex. JUMP suite 13,14,39, Proteome Discoverer, Maxquant 15,46).
  2. Definiera variabeln proteom.
    1. Använd de statistiska analysresultaten från proteomics-programvarusviten för att definiera differentiellt uttryckta (DE) proteiner (till exempel med justerat p-värde < 0,05).
    2. Alternativt kan användare följa exemplet R-kod47 för att definiera antingen DE eller de flesta variabla proteiner.
  3. Formatera indatafilen med den definierade variabeln proteom.
    Det nödvändiga inmatningsfilformatet (bild 4) innehåller en rubrikrad; Kolumnerna innehåller proteinanslutning (eller unika ID), GN (officiella gensymboler), proteinbeskrivning (eller information som tillhandahålls av användaren), följt av proteinkvantifiering av enskilda prover.
    1. Följ ordningen på kolumnerna som anges i steg 3.1, men kolumnnamnen i rubriken är flexibla för användaren.
    2. För TMT (eller liknande) kvantifierat proteom, använd den sammanfattade TMT-reporterintensiteten som ingångskvantifieringsvärden. För etikettfria data, använd antingen normaliserade spektralantal (t.ex. NSAF48) eller intensitetsbaserad metod (t.ex. LFQ-intensitet eller iBAQ-proteinintensitet rapporterad av Maxquant46).
    3. Saknade värden tillåts för JUMPn-analys. Se till att märka dessa som NA i kvantifieringsmatrisen. Det rekommenderas dock att endast använda proteiner med kvantifiering i mer än 50% av proverna.
    4. Spara den resulterande indatafilen som .txt, .xlsx eller .csv format (alla tre stöds av JUMPn).
  4. Ladda upp indatafil:
    1. Klicka på webbläsarknappen och välj inmatningsfilen (figur 3, vänster panel); filformatet (xlsx, csv och txt stöds) identifieras automatiskt.
    2. Om indatafilen innehåller intensitetsliknande kvantifieringsvärden (t.ex. de som genereras av JUMP-svit39) eller förhållandeliknande (t.ex. från Proteome Discoverer), välj Ja för alternativet Kör Log2-Transformation av data; Annars kan data redan ha loggats, så välj Nej för det här alternativet.

4. Klustringsanalys för samuttryck

OBS: Vår grupp 25,26,27 och andra 28,29,31 har visat att WGCNA49 är en effektiv metod för co-expression clustering analys av kvantitativ proteomik. JUMPn följer en 3-stegs procedur för WGCNA-analys25,50: (i) initial definition av samuttrycksgen/proteinkluster genom dynamisk trädskärning51 baserat på den topologiska överlappningsmatrisen (TOM; bestämd av kvantifieringslikheter mellan gener/proteiner); ii) sammanslagning av liknande kluster för att minska redundansen (baserat på dendrogram av egengenlikheter), och (iii) slutlig tilldelning av gener/proteiner till varje kluster som överskrider den minimala Pearson-korrelationsavgränsningen.

  1. Konfigurera WGCNA-parametrarna (bild 3, mittpanelen). Följande tre parametrar styr de tre stegen:
    1. Ange minsta klusterstorlek som 30. Denna parameter definierar det minimala antalet proteiner som krävs för varje samuttryckskluster i det inledande steget (i) av TOM-baserad dynamisk hybridträdskärning. Ju större värde, desto mindre antal kluster som returneras av algoritmen.
    2. Ange minsta klusteravstånd som 0,2. Om du ökar det här värdet (t.ex. från 0,2–0,3) kan det orsaka fler klustersammanslagningar under steg (ii), vilket resulterar i ett färre antal kluster.
    3. Ställ in minsta kME som 0,7. Proteiner kommer att tilldelas det mest korrelerade klustret som definieras i steg (ii), men endast proteiner med Pearson-korrelation som passerar denna tröskel kommer att behållas. Proteiner som misslyckas i det här steget kommer inte att tilldelas något kluster ("NA"-kluster för de misslyckade proteinerna i slutrapporten).
  2. Initiera analysen. Det finns två sätt att skicka klustringsanalysen för samuttryck:
    1. Klicka på knappen Skicka JUMPn-analys i det nedre högra hörnet för att initiera den omfattande analysen av WGCNA automatiskt följt av PPI-nätverksanalys.
    2. Alternativt kan du välja att endast köra WGCNA-steget (särskilt för parameterjustering; se steg 4.2.3-4.2.4):
    3. Klicka på knappen Avancerade parametrar längst ner på sidan Påbörja analys ; ett nytt parameterfönster dyker upp. I den nedre widgeten , Välj analysläge, välj Endast WGCNA och klicka sedan på Avvisa för att fortsätta.
    4. På sidan Påbörja analys klickar du på knappen Skicka JUMPn-analys .
    5. I båda fallen ovan visas en förloppsindikator när analysen skickas in.
      När analysen är klar (vanligtvis < 1 min för WGCNA Only-analys och <3 min för omfattande analys) visas en dialogruta med ett meddelande om att körningen lyckades och den absoluta sökvägen till resultatmappen.
  3. Undersök WGCNA-resultaten enligt stegen 2.4–2.8 (figur 5). Observera att den absoluta sökvägen till filen co_exp_clusters_3colums.txt är markerad högst upp på resultatsidan: WGCNA-utdata för att registrera klustermedlemskapet för varje protein och använda det som indata för analysen endast PPI .
  4. Felsökning. Följande tre vanliga fall diskuteras. När parametrarna har uppdaterats enligt beskrivningen nedan följer du stegen 4.2.2–4.2.4 för att generera nya WGCNA-resultat.
    1. Om ett viktigt mönster för samuttryck förväntas från data men missas av algoritmen följer du stegen 4.4.2-4.4.4
    2. Ett saknat kluster är särskilt troligt för små samuttryckskluster, dvs. endast ett begränsat antal (t.ex. <30) proteiner som uppvisar detta mönster. Innan omanalysen, undersök indatafilen för proteinkvantifieringsmatrisen igen och lokalisera flera positiva kontrollproteiner som följer det viktiga samuttrycksmönstret.
    3. För att rädda de små klustren, minska den minimala klusterstorleken (t.ex. 10; klusterstorlek mindre än 10 kanske inte är robust och därmed inte rekommenderas) och minska det minimala klusteravståndet (t.ex. 0.1; här är inställningen som 0 också tillåten, vilket innebär att automatisk klustersammanslagning hoppas över).
    4. När du har kört klustringssteget för samuttryck med de uppdaterade parametrarna kontrollerar du först om klustret har räddats från mönsterdiagrammen för samuttryck och kontrollerar sedan de positiva kontrollerna genom att söka i deras proteinanslutningar från detaljerad proteinkvantifiering (se till att välja lämpligt samuttryckskluster från den nedrullningsbara widgeten till vänster före sökningen).
      Flera iterationer av parameterjustering och omkörning kan behövas för räddningen.
    5. Om det finns för många proteiner som inte kan tilldelas något kluster följer du stegen 4.4.6-4.4.7.
      OBS: Vanligtvis kan en liten andel (vanligtvis <10%) proteiner inte tilldelas något kluster eftersom de kan vara avvikande proteiner som inte följde något av de vanliga uttrycksmönstren i datasetet. Men om en sådan procentandel är signifikant (t.ex. >30%), tyder det på att det finns ytterligare samuttrycksmönster som inte kan ignoreras.
    6. Minska parametrarna minimal klusterstorlek och minimalt klusteravstånd för att lindra den här situationen genom att identifiera "nya" samuttryckskluster.
    7. Dessutom, minska parametern Minimal Pearson Correlation (kME) för att krympa dessa "NA-kluster" -proteiner.
      OBS: Att ställa in denna parameter kommer inte att generera nya kluster utan istället öka storleken på "befintliga" kluster genom att acceptera fler tidigare misslyckade proteiner med den lägre tröskeln; detta kommer emellertid också att öka heterogeniteten hos varje kluster, eftersom mer bullriga proteiner nu är tillåtna.
    8. Två kluster har en mycket liten skillnad i mönster; sammanfoga dem till ett kluster enligt stegen 4.4.9-4.4.11.
    9. Öka parametern Minimalt klusteravstånd för att lösa problemet.
    10. I vissa situationer kan algoritmen dock aldrig returnera det önskade mönstret; på ett sådant ögonblick justerar eller redigerar du klustermedlemskap manuellt i filen co_exp_clusters_3colums.txt (fil från steg 4.3) för att slå samman.
    11. Ta den efterredigerade filen som indata för nedströms PPI-nätverksanalys. Vid manuell redigering, motivera kriterierna för klustertilldelning och registrera proceduren för manuell redigering.

5. Analys av protein-proteininteraktionsnätverk

Genom att lägga över kluster för samuttryck i PPI-nätverket stratifieras varje samuttryckskluster ytterligare i mindre PPI-moduler. Analysen utförs för varje samuttryckskluster och inkluderar två steg: i det första steget lägger JUMPn proteiner från samuttrycksklustret på PPI-nätverket och hittar alla anslutna komponenter (dvs. flera kluster av anslutna noder / proteiner; som ett exempel, se figur 6A); sedan kommer samhällen eller moduler (av tätt anslutna noder) att detekteras för varje ansluten komponent iterativt med hjälp av den topologiska överlappningsmatrismetoden (TOM)52.

  1. Konfigurera parametrar för PPI-nätverksanalys (bild 3, höger panel).
    1. Ställ in minimal PPI-modulstorlek som 2. Denna parameter definierar den minimala storleken på de frånkopplade komponenterna från analysen i första steget. Alla komponenter som är mindre än den angivna parametern tas bort från slutresultatet.
    2. Ställ in Maximal PPI-modulstorlek som 40. Stora, frånkopplade komponenter som passerar denna tröskel kommer att genomgå tom-baserad analys i andra steget. Den andra stegsanalysen kommer att dela upp varje stor komponent ytterligare i mindre moduler: varje modul innehåller förmodligen proteiner som är tätare anslutna än den ursprungliga komponenten som helhet.
  2. Initiera analysen. Det finns två sätt att skicka in PPI-nätverksanalysen:
    1. Tryck på knappen Skicka JUMPn-analys för att automatiskt utföra PPI-analysen efter WGCNA-analys som standard.
    2. Du kan också ladda upp anpassade klusterresultat för samuttryck och utföra endast PPI-analys enligt steg 5.2.3–5.2.5.
    3. Förbered indatafilen genom att följa filens format co_exp_clusters_3colums.txt (se avsnitt 4.4).
    4. Klicka på knappen Avancerade parametrar längst ner på sidan Påbörja analys ; ett nytt parameterfönster dyker upp. I den övre sessionen Ladda upp co-expression cluster-resultat för analys av "endast PPI", klicka på Webbläsare för att ladda upp indatafilen som förberetts i steg 5.2.3.
    5. I den nedre widgeten, Välj analysläge, välj endast PPI och klicka sedan på Avvisa för att fortsätta. På sidan Påbörja analys klickar du på knappen Skicka JUMPn-analys .
  3. När analysen är klar (vanligtvis <3 min) undersöker du PPI-resultaten enligt stegen 2.10–2.15 (figur 6).
  4. Valfritt avancerat steg) Justera PPI-modularisering genom att ställa in parametrar:
    1. Öka parametern Maximal modulstorlek för att tillåta fler proteiner som ingår i PPI-resultaten. Ladda upp anpassat PPI-nätverk för att täcka odokumenterade interaktioner, följ stegen 5.4.2-5.4.3.
    2. Klicka på knappen Avancerade parametrar längst ner på sidan Påbörja analys ; ett nytt parameterfönster dyker upp. Förbered den anpassade PPI-filen, som innehåller tre kolumner i formatet , C onnection och ; här presenteras av de officiella gennamnen för varje protein.
    3. I Ladda upp en PPI-databas klickar du på knappen Bläddra för att ladda upp den anpassade PPI-filen.

6. Analys av anrikning av vägar

OBS: De JUMPn-härledda hierarkiska strukturerna för både samuttryckskluster och PPI-moduler inom kommenteras automatiskt med överrepresenterade vägar med hjälp av Fishers exakta test. De väg- / topologidatabaser som används inkluderar Gene Ontology (GO), KEGG, Hallmark och Reactome. Användare kan använda avancerade alternativ för att ladda upp anpassade databaser för analysen (t.ex. vid analys av data från icke-mänskliga arter).

  1. Som standard initieras vägberikningsanalysen automatiskt med klustring av samuttryck och PPI-nätverksanalys.
  2. Visa resultaten av vägberikning:
    1. Följ steg 2.7, 2.12 och 2.15 för att visualisera olika format på resultatsidorna. Visa detaljerade resultat i kalkylbladspubliceringstabellen i filen ComprehensiveSummaryTables.xlsx (steg 2.16).
  3. (Valfritt avancerat steg) Ladda upp anpassad databas för analys av vägberikning:
    1. Förbered genbakgrundsfilen, som vanligtvis innehåller de officiella gennamnen för alla gener av en art.
    2. Förbered ontologibiblioteksfilen enligt stegen 6.3.3-6.3.4.
    3. Ladda ner ontologibiblioteksfilerna från offentliga webbplatser inklusive EnrichR53 och MSigDB54. Ladda till exempel ner ontologi från Drosophila från EnrichR-webbplatsen55.
    4. Redigera den nedladdade filen för önskat format med två kolumner: vägnamnet som den första kolumnen och sedan de officiella gensymbolerna (separerade med "/") som den andra kolumnen. Det detaljerade filformatet beskrivs på hjälpsidan för JUMPn R glänsande programvara.
      Hitta exempelfiler med genbakgrund och ontologibibliotek (med Drosophila som instans) på JUMPn GitHub-webbplatsen56.
    5. Klicka på knappen Avancerade parametrar längst ner på sidan Påbörja analys; ett nytt parameterfönster dyker upp.
    6. Hitta Ladda upp en bakgrundsfil för Pathway Enrichment Analysis-objekt och klicka på Webbläsare för att ladda upp bakgrundsfilen som förberetts i steg 6.3.1. Välj sedan bakgrunden som ska användas för vägberikningsanalys i sessionen och klicka på Användartillhandahållen bakgrund.
    7. Hitta Ladda upp en ontologibiblioteksfil för Pathway Enrichment Analysis-objekt och klicka på Webbläsare för att ladda upp ontologibiblioteksfilen som förberetts i steg 6.3.2-6.3.4. Sedan i sessionen, Välj databaser för Pathway Enrichment Analysis, klicka på Användarlevererad databas i .xlsx format.
  4. Klicka på knappen Skicka JUMPn-analys i det nedre högra hörnet för att initiera analysen med hjälp av den anpassade databasen.

7. Analys av dataset med stor provstorlek

OBS: JUMPn stöder analys av dataset med stor provstorlek (upp till 200 testade prover). För att underlätta visualiseringen av en stor provstorlek behövs ytterligare en fil (med namnet "metafil") som anger exempelgruppen för att underlätta visningen av klustringsresultat för samuttryck.

  1. Förbered och ladda upp metafil.
    1. Förbered metafilen som anger gruppinformation (t.ex. kontroll- och sjukdomsgrupper) för varje prov enligt steg 7.1.2-7.1.3.
    2. Se till att metafilen innehåller minst två kolumner: kolumn 1 måste innehålla provnamnen som är identiska med kolumnnamnen och ordningen från matrisfilen för proteinkvantifiering (som bereds i steg 3.3); Kolumn 2 och framåt kommer att användas för grupptilldelning för valfritt antal funktioner som definieras av användaren. Antalet kolumner är flexibelt.
    3. Se till att den första raden i metafilen innehåller kolumnnamnen för varje kolumn. Från och med den andra raden bör individuell provinformation om grupper eller andra egenskaper (t.ex. kön, ålder, behandling etc.) listas.
    4. Ladda upp metafilen genom att klicka på knappen Avancerade parametrar längst ner på sidan Påbörja analys ; ett nytt parameterfönster dyker upp. Fortsätt till steg 7.1.5
    5. Hitta Ladda upp ett metafilobjekt och klicka på Webbläsare för att ladda upp bakgrundsfilen. Om det oväntade formatet eller de oöverträffade exempelnamnen upptäcks av JUMPn visas ett felmeddelande för ytterligare formatering av metafilen (steg 7.1.1-7.1.3).
  2. Justera parametrarna för klustringsanalys med samuttryck: ställ in Minimal Pearson-korrelation som 0,2. Denna parameter måste slappna av på grund av större provstorlek.
  3. Klicka på knappen Skicka JUMPn-analys i det nedre högra hörnet för att skicka in analysen.
  4. Visa analysresultat: alla datautdata är desamma förutom att visa klustermönstren för samuttryck.
    1. På sidan Resultatsida 1: WGCNA-utdata visualiserar du co-expression-klustren som boxplots med exempel som stratifieras av de användardefinierade exempelgrupperna eller funktionerna. Varje punkt i diagrammet representerar egengenen (dvs. klustrets konsensusmönster) beräknat av WGCNA-algoritmen.
    2. Om användaren tillhandahöll flera funktioner (t.ex. ålder, kön, behandling osv.) för att gruppera proverna klickar du på listrutan Välj uttrycksformat för att välja en annan funktion för att gruppera proverna.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Vi använde våra publicerade djupa proteomikdataset 25,26,27,30 (figur 5 och figur 6) samt datasimuleringar57 (tabell 1) för att optimera och utvärdera JUMPn-prestanda. För co-expression proteinklusteranalys via WGCNA rekommenderar vi att du använder proteiner som är signifikant förändrade mellan prover som indata (t.ex. differentiellt uttryckta (DE) proteiner detekterade genom statistisk analys). Även om inkludering av icke-DE-proteiner för analysen kan resultera i fler samuttryckskluster som returneras av programmet (på grund av större ingångsstorlek), antar vi att blandning av den verkliga signalen (t.ex. DE-proteinerna) med bakgrunden (den återstående icke-DE) för analys på systemnivå kan späda ut signalen och maskera den underliggande nätverksstrukturen. För att testa detta utfördes simuleringsanalys under två olika förhållanden: i) mycket dynamiskt proteom (t.ex. 50% förändrat i T-cellaktivering25) och ii) relativt stabilt proteom (t.ex. 2% proteom förändrat i AD26). För det mycket dynamiska proteomet simulerades sex samuttryckskluster från 50% proteom efter samma klusterstorlek och uttrycksmönster (dvs egengener) i våra publicerade resultat25. På samma sätt simulerade vi för ett relativt stabilt proteom tre kluster från 2% proteom efter vår senaste AD-proteomikstudie26. Som förväntat ökar antalet detekterade kluster genom att öka antalet inmatade proteiner (tabell 1). För det mycket dynamiska proteomet kan användning av alla proteiner som ingång fånga de flesta av de sanna klustren (5 av de 6 simulerade bona fide-klustren; 83% återkallelse) med 63% precision (5 av de 8 returnerade klustren är sanna positiva; dvs de återstående 3 klustren är falska positiva). För det relativt stabila proteomet minskar dock precisionen dramatiskt genom att öka ingångsstorleken med icke-DE-proteiner (tabell 1). Till exempel, med hela proteomet som ingång, detekteras 169 moduler, varav endast 2 är korrekta (1,2% precision; de återstående 98,8% detekterade modulerna är falska positiva). Dessa resultat indikerar således att valet av endast det förändrade proteomet som indata kommer att öka precisionen i samuttrycksanalys, särskilt för relativt stabilt proteom.

Efter detektion av proteinkluster med gemensamt uttryck kommer varje kluster att kommenteras av JUMPn med hjälp av väganrikningsanalysen (figur 1). Den nuvarande versionen innehåller fyra vanliga vägdatabaser, inklusive Gene Ontology (GO), KEGG, Hallmark och Reactome. Användare kan också sammanställa sin egen databas i GMT-format54, som kan laddas upp till JUMPn. Integrering av flera databaser för analys av vägberikning kan ge mer omfattande vyer. Storleken på olika vägdatabaser varierar dock avsevärt, vilket kan leda till oönskad partiskhet för vissa (särskilt stora) databaser. Två lösningar tillhandahålls inom JUMPn. För det första, med hjälp av en statistisk metod, justeras (eller straffas) nominella p-värden för multipelhypotestestning med Benjamini-Hochberg-metoden58, med en större databas som kräver ett mer signifikant nominellt p-värde för att nå samma justerade p-nivå än den från en liten databas. För det andra belyser JUMPn den bästa betydligt berikade vägen för varje databas separat, så databasspecifika toppberikade vägar visas alltid.

I likhet med vägberikningsanalys sammanställdes ett sammansatt PPI-nätverk genom att kombinera STRING59,60, BioPlex 61,62 och InWeb_IM63 databaser. BioPlex-databasen skapades med affinitetsrening följt av masspektrometri i mänskliga cellinjer, medan STRING och InWeb innehåller information från olika källor. Därför filtrerades STRING- och InWeb-databaserna ytterligare av kantpoängen för att säkerställa hög kvalitet, där cutoffen bestämdes genom att bäst passa de skalfriakriterierna 24. Det slutliga sammanslagna PPI-nätverket täcker mer än 20 000 mänskliga gener med ~ 1 100 000 kanter (tabell 2). Denna omfattande interaktion ingår och publiceras i ett paket med vår JUMPn-programvara för känslig PPI-analys.

När analysen är klar genererar JUMPn publikationstabellkalkylarkfilen ComprehensiveSummaryTables.xlsx, som består av tre enskilda ark. Det första arket innehåller resultat av proteinkluster med ett protein per rad: den första kolumnen anger klustermedlemskapet för varje ingångsprotein, och de återstående kolumnerna kopieras från användarinmatningsfilen, som innehåller proteinanslutning, gennamn, proteinbeskrivning och kvantifiering av enskilda prover. Det andra arket innehåller resultat av vägberikningsanalys, som visar signifikanta vägar berikade i varje samuttryckskluster. Denna tabell organiseras först av olika vägdatabaser, sorteras sedan efter samuttryckskluster, funktionella vägar, det totala antalet väggener, det totala antalet gener i det enskilda klustret, de överlappade gennumren och namnen, anrikningsveck, Fisher exakta test härledda P-värden och Benjamini-Hochberg falsk upptäcktshastighet. Det tredje arket innehåller resultat av PPI-modulanalys med en PPI-modul per rad; dess kolumner inkluderar modulnamnet (definierat av dess samuttrycksmedlemskap och modul-ID, till exempel Cluster1_Module1), de mappade proteinerna och siffrorna, samt funktionella vägar som definieras genom att söka i modulproteinerna mot vägdatabaserna.

Figure 1
Bild 1: Arbetsflöde för JUMPn. Kvantifieringsmatrisen för den översta variabeln av differentiellt uttryckta (DE) proteiner tas som ingång, och proteiner grupperas i samuttryckskluster av WGCNA-algoritmen. Varje samuttryck kommenteras sedan genom väganrikningsanalys och läggs vidare på protein-proteininteraktionsnätverket (PPI) för tätt anslutna proteinmodulidentifieringar. Klicka här för att se en större version av denna siffra.

Figure 2
Figur 2: JUMPn välkomstsida.

Figure 3
Bild 3: Indatasida för JUMPn. Sidan innehåller uppladdningspanelen för indatafiler och parameterkonfigurationspaneler för klustring av samuttryck respektive PPI-nätverksanalys. Klicka här för att se en större version av denna siffra.

Figure 4
Bild 4: Exempel på indatafil för kvantifieringsmatris. Kolumnerna inkluderar proteinanslutning (eller unika ID), GN (officiella gensymboler), proteinbeskrivning (eller information från användaren), följt av proteinkvantifiering av enskilda prover. Klicka här för att se en större version av denna siffra.

Figure 5
Bild 5: Klusterresultat för samuttryck som rapporterats av JUMPn. Klustringsmönstren för samuttryck (A), den översta berikade vägens värmekarta över kluster (B) och detaljerad proteinmängd för varje kluster visas (C). Användare kan välja olika visningsalternativ och navigera mellan olika kluster via valrutan. Klicka här för att se en större version av denna siffra.

Figure 6
Figur 6: Resultat från PPI-nätverksanalys som rapporterats av JUMPn. Det globala intermodulnätverket visas (A), följt av ett undernät av enskilda moduler (B) och dess signifikant berikade vägar (C). Användare kan välja olika visningsalternativ och navigera mellan olika kluster och moduler via urvalsrutan. Klicka här för att se en större version av denna siffra.

% toppproteiner för analys # simulerade moduler # upptäckta moduler # återerövrade moduler1 precision2 återkallelse3
Mycket dynamiskt proteom (t.ex. under T-cellaktivering): 6 simulerade moduler från 50% proteom
2 6 2 2 1 0.33
5 6 2 2 1 0.33
10 6 3 3 1 0.5
20 6 4 4 1 0.67
50 6 6 6 1 1
100 6 8 5 0.63 0.83
Relativt stabilt proteom (t.ex. under patogenes av AD): 3 simulerade moduler från 2% proteom
1 3 1 1 1 0.33
2 3 3 3 1 1
5 3 8 3 0.38 1
10 3 13 3 0.23 1
20 3 19 3 0.16 1
50 3 71 2 0.03 0.67
100 3 169 2 0.01 0.67
1 En återerövrad modul är en detekterad modul vars egengen starkt korrelerar (Pearson R > 0,95) med en av de simulerade egengenerna.
2precision = # återvunna moduler / # upptäckta moduler
3recall = # återerövrade moduler / # simulerade moduler

Tabell 1: Simuleringsstudier av detektering av samuttryckskluster.

PPI-nätverk Nej. Antal noder Nej. av kanter
BioPlex 3.0 kombinerad (293T+HCT116) 14,551 1,67,399
InBio_Map_core_2016_09_12 17,429 6,08,166
STRÄNG (v11.0) 18,954 5,87,482
Sammansatt PPI-nätverk 20,485 11,52,607

Tabell 2: Statistik över nätverk av human protein-proteininteraktion (PPI). PPI-nätverk filtreras efter kantpoäng för att säkerställa hög kvalitet, där poänggränsen bestäms genom att bäst passa de skalfria kriterierna.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Här introducerade vi vår JUMPn-programvara och dess protokoll, som har tillämpats i flera projekt för dissekering av molekylära mekanismer med hjälp av djupa kvantitativa proteomikdata 25,26,27,30,64. JUMPn-programvaran och protokollet har optimerats fullt ut, inklusive övervägande av DE-proteiner för samuttrycksnätverksanalys, en sammanställning av omfattande och högkvalitativt PPI-nätverk, strikt statistisk analys (t.ex. genom övervägande av flera hypotestester) med ett strömlinjeformat och användarvänligt gränssnitt. Flera proteinmoduler identifierade av JUMPn har validerats genom funktionella experimentstudier25,27 eller oberoende patientkohorter26, vilket exemplifierar JUMPn som ett effektivt verktyg för att identifiera nyckelmolekyler och vägar som ligger till grund för olika biologiska processer.

Kritiska steg i detta protokoll inkluderar generering av optimala resultat av co-expression-kluster och PPI-moduler, vilket kan kräva flera iterationer av parameterjustering, samt uppladdning av anpassat PPI-nätverk. I vårt protokoll diskuterade vi vanliga praktiska scenarier, inklusive hur man hanterar saknade viktiga kluster, en hög andel otilldelade proteiner, sammanslagning av två redundanta kluster och avsaknad av viktiga proteiner inom PPI-moduler. Vi rekommenderar användaren att förbereda flera positiva kontrollproteiner och bekräfta deras närvaro i de slutliga samuttrycksklustren. Ibland kommer en positiv kontroll aldrig att inkluderas i de slutliga PPI-modulerna på grund av en ofullständig PPI-nätverksdatabas. För att delvis lindra detta har vi uppdaterat vårt PPI-nätverk med de senaste versionerna av BioPlex V362 och STRING V1160. Dessutom tillåter JUMPn användare att ladda upp anpassade PPI-nätverk. Till exempel kan nya interaktioner härledda från affinitetsrening-masspektrometri (AP-MS) -experiment med ett viktigt positivt kontrollprotein som bete integreras med det nuvarande sammansatta PPI-nätverket för mer anpassad analys.

Genom att använda ramverket för väganrikningsanalys för varje proteinkluster med gemensamt uttryck kan JUMPn utökas för att härleda transkriptionsfaktoraktivitet (TF). Antagandet är att om det finns en överrepresentation av målgener för en specifik TF i ett samuttryckskluster (dvs. dessa mål uttrycks differentiellt och följer samma uttrycksmönster), förändras aktiviteten hos den TF potentiellt över experimentella förhållanden eftersom dess målproteinmängd ändras konsekvent. Tekniskt sett kan detta helt enkelt uppnås via JUMPn genom att ersätta den nuvarande vägdatabasen med TF-måldatabasen (t.ex. från ENCODE-projektet65). På samma sätt kan kinasaktivitet också härledas genom att utnyttja kinas-substratdatabasen och ta djupfosfoproteomik som indata. Som ett exempel identifierade vi framgångsrikt dysreglerade TF och kinaser som ligger till grund för hjärntumörpatogenes64. Att använda nätverksmetoden för aktivitetsinferens har faktiskt framstått som ett kraftfullt tillvägagångssätt för att identifiera dysreglerade drivkrafter för mänskliga sjukdomar66,67.

JUMPn-programvaran används enkelt på ett brett spektrum av datatyper. Även om isobar märkning kvantifierat proteom användes som ett illustrativt exempel, är samma protokoll tillämpligt även för etikettfria kvantifierade proteomikdata, liksom genomomfattande uttrycksprofiler (t.ex. kvantifierade med RNA-seq eller mikroarray; se vårt senaste exempel på att tillämpa JUMPn för både gen- och proteinuttrycksprofiler27). Fosfoproteomikdata kan också tas av JUMPn för att identifiera samuttryckta fosfositer, följt av kinasaktivitetsinferens25. Dessutom kommer interaktionsdata som genereras av AP-MS-metoden också att vara lämpliga, genom vilka bytesproteiner som följer liknande beteinteraktionsstyrka och stökiometri kommer att bilda kluster för samuttryck och ytterligare överlappas med kända protonpumpshämmare för datatolkning68.

Det finns begränsningar för den aktuella versionen av JUMPn. För det första är installationsproceduren kommandoradsbaserad och kräver grundläggande kunskaper om datavetenskap. Detta hindrar en bredare användning av JUMPn, särskilt från biologer utan beräkningsbakgrund. En mer idealisk implementering är att publicera JUMPn på en onlineserver. För det andra är de nuvarande databaserna människocentrerade på grund av vårt fokus på studier av mänskliga sjukdomar. Observera att proteomikdata som genereras av möss också har analyserats av JUMPn med hjälp av sådana människocentrerade databaser25,27, förutsatt att de flesta PPI bevaras över båda arterna69,70. Musspecifik signalering kommer inte att fångas upp av detta tillvägagångssätt men är inte av intresse för dessa studier på människa. För modellsystem som inte är däggdjur (t.ex. zebrafisk, fluga eller jäst) bör dock artspecifika databaser utarbetas och laddas upp till JUMPn med hjälp av de avancerade alternativen. Resurser för ytterligare arter kan tillhandahållas via framtida JUMPn-utsläpp. För det tredje tar det nuvarande steget i ontologi/väganalys betydande tid, vilket kan optimeras ytterligare genom parallell databehandling.

Sammanfattningsvis presenterar vi JUMPn-programvaran och protokollet för att utforska kvantitativa proteomikdata för att identifiera och visualisera samuttryckta och potentiellt fysiskt interagerande proteinmoduler med systembiologisk metod. De viktigaste funktionerna som skiljer JUMPn från andra 53,71,72 inkluderar: (i) JUMPn integrerar och effektiviserar fyra huvudkomponenter i väg- och nätverksanalysen (figur 1); (ii) Till skillnad från de flesta program för väganalys som tar en enkel genlista som indata, utgår JUMPn från kvantifieringsmatris, genom vilken kvantitativ information sömlöst kan integreras med litteraturdokumenterade vägar och nätverk; (iii) Både proteinkluster med gemensamt uttryck och interaktionsmoduler kommenteras automatiskt av kända vägar och visualiseras via R /glänsande interaktionsplattform med hjälp av en användarvänlig webbläsare; (iv) Slutresultaten är organiserade i tre tabeller som lätt kan publiceras i Excel-format. Således förväntar vi oss att JUMPn och detta protokoll kommer att vara allmänt tillämpliga på många studier för dissekeringsmekanismer med hjälp av kvantitativa proteomikdata.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Författarna har inget att avslöja.

Acknowledgments

Finansieringsstöd tillhandahölls av National Institutes of Health (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 och U54NS110435) och ALSAC (American Lebanese Syrian Associated Charities). MS-analysen utfördes i St. Jude Children's Research Hospital's Center of Proteomics and Metabolomics, som delvis stöddes av NIH Cancer Center Support Grant (P30CA021765). Innehållet är enbart författarnas ansvar och representerar inte nödvändigtvis de officiella åsikterna från National Institutes of Health.

Materials

Name Company Catalog Number Comments
MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7. Apple Inc. MacBook Pro 13'' Hardware used for software development and testing
Anoconda Anaconda, Inc. version 4.9.2 https://docs.anaconda.com/anaconda/install/
miniconda Anaconda, Inc. version 4.9.2 https://docs.conda.io/en/latest/miniconda.html
RStudio RStudio Public-benefit corporation version 4.0.3 https://www.rstudio.com/products/rstudio/download/
Shiny Server RStudio Public-benefit corporation https://shiny.rstudio.com/articles/shinyapps.html

DOWNLOAD MATERIALS LIST

References

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
  2. Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
  3. Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
  4. Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
  5. Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
  6. Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
  7. Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
  8. Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
  9. Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer's disease. Analytical Chemistry. 92, 7162-7170 (2020).
  10. Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
  11. Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
  12. Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
  13. Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
  14. Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
  15. Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
  16. Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
  17. Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
  18. Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
  19. High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
  20. Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
  21. Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
  22. Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
  23. Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
  24. Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell's functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
  25. Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
  26. Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer's disease progression. Neuron. 105, 975-991 (2020).
  27. Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
  28. Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer's disease. Cell Systems. 4, 60-72 (2017).
  29. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer's disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
  30. Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
  31. Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
  32. Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
  33. Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
  34. Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
  35. Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
  36. Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
  37. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
  38. Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
  39. Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
  40. Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, Anaconda. miniconda (2021). RStudio (2021) Shiny Server 2301-2319 (2021).
  41. JUMPn. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021).
  42. Anaconda. , Available from: https://docs.anaconda.com/anaconda/install/ (2021).
  43. miniconda. , Available from: https://docs.conda.io/en/latest/miniconda.html (2021).
  44. RStudio. , Available from: https://www.rstudio.com/products/rstudio/download/ (2021).
  45. Shiny Server. , Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021).
  46. Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
  47. R code. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021).
  48. Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
  49. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article 17 (2005).
  50. Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
  51. Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
  52. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
  53. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  54. Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
  55. FlyEn rich r. , Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021).
  56. JUMPn GitHub. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly_ (2021).
  57. Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
  58. Benjamini, Y., Hochberg, Y. Controlling the false discovery rate - a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
  59. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
  60. Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
  61. Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
  62. Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
  63. Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
  64. Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
  65. Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
  66. Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
  67. Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
  68. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
  69. Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
  70. Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
  71. Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
  72. Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

Tags

Biokemi utgåva 176
JUMPn: En strömlinjeformad applikation för protein-samuttryckskluster och nätverksanalys inom proteomik
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Vanderwall, D., Suresh, P., Fu, Y.,More

Vanderwall, D., Suresh, P., Fu, Y., Cho, J. H., Shaw, T. I., Mishra, A., High, A. A., Peng, J., Li, Y. JUMPn: A Streamlined Application for Protein Co-Expression Clustering and Network Analysis in Proteomics. J. Vis. Exp. (176), e62796, doi:10.3791/62796 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter