Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biochemistry

JUMPN: En strømlinjeformet applikasjon for klynger med proteinkouttrykk og nettverksanalyse i proteomikk

Published: October 19, 2021 doi: 10.3791/62796

Summary

Vi presenterer et systembiologiverktøy JUMPn for å utføre og visualisere nettverksanalyse for kvantitative proteomikkdata, med en detaljert protokoll inkludert dataforbehandling, kouttrykksklynge, baneberikelse og proteinproteininteraksjonsnettverksanalyse.

Abstract

Med nylige fremskritt innen massespektrometribaserte proteomiske teknologier, har dyp profilering av hundrevis av proteomer blitt stadig mer gjennomførbart. Det er imidlertid utfordrende å utlede biologisk innsikt fra slike verdifulle datasett. Her introduserer vi en systembiologisk programvare JUMPn, og den tilhørende protokollen for å organisere proteomet i proteinkouttrykksklynger på tvers av prøver og proteinproteininteraksjonsnettverk (PPI) forbundet med moduler (f.eks. proteinkomplekser). Ved hjelp av R / Shiny-plattformen effektiviserer JUMPn-programvaren analysen av co-expression-klynger, baneberikelse og PPI-moduldeteksjon, med integrert datavisualisering og et brukervennlig grensesnitt. Hovedtrinnene i protokollen inkluderer installasjon av JUMPn-programvaren, definisjonen av differensialt uttrykte proteiner eller (dys)regulert proteom, bestemmelse av meningsfulle co-expression-klynger og PPI-moduler, og resultatvisualisering. Mens protokollen demonstreres ved hjelp av en isobarisk merkingsbasert proteomprofil, gjelder JUMPn generelt for et bredt spekter av kvantitative datasett (f.eks. etikettfri proteomikk). JUMPn programvare og protokoll gir dermed et kraftig verktøy for å lette biologisk tolkning i kvantitativ proteomikk.

Introduction

Massespektrometribasert hagleproteomikk har blitt den viktigste tilnærmingen for å analysere proteommangfold av komplekse prøver1. Med nylige fremskritt innen massespektrometriinstrumentering 2,3, kromatografi 4,5, ionmobilitetsdeteksjon6, anskaffelsesmetoder (datauavhengig7 og dataavhengig oppkjøp8), kvantifiseringsmetoder (multi-plex isobarisk peptidmerkingsmetode, for eksempel TMT 9,10 og etikettfri kvantifisering11,12) og dataanalysestrategier / dataanalysestrategier programvareutvikling 13,14,15,16,17,18, kvantifisering av hele proteomet (f.eks. over 10,000 proteiner) er nå rutine 19,20,21. Men hvordan du får mekanistisk innsikt fra slike dype kvantitative datasett er fortsatt utfordrende22. De første forsøkene på å undersøke disse datasettene var hovedsakelig avhengige av merknaden av individuelle elementer i dataene, og behandlet hver komponent (protein) uavhengig. Biologiske systemer og deres oppførsel kan imidlertid ikke utelukkende forklares ved å undersøke individuelle komponenter23. Derfor er en systemtilnærming som plasserer de kvantifiserte biomolekylene i sammenheng med interaksjonsnettverk avgjørende for forståelsen av komplekse systemer og de tilknyttede prosessene som embryogenese, immunrespons og patogenese av menneskelige sykdommer24.

Nettverksbasert systembiologi har fremstått som et kraftig paradigme for å analysere store kvantitative proteomikkdata 25,26,27,28,29,30,31,32,33. Konseptuelt kan komplekse systemer som pattedyrceller modelleres som et hierarkisk nettverk34,35, der hele systemet er representert i nivåer: først av en rekke store komponenter, som hver deretter kursiv modelleres av mindre delsystemer. Teknisk sett kan strukturen av proteomdynamikk presenteres av sammenkoblede nettverk av sam-uttrykte proteinklynger (fordi co-uttrykte gener / proteiner ofte deler lignende biologiske funksjoner eller mekanismer for regulering36) og fysisk samhandler PPI-moduler37. Som et nylig eksempel25 genererte vi temporale profiler av hele proteom og fosfoproteom under T-celleaktivering og brukte integrative samuttrykksnettverk med PPIer for å identifisere funksjonelle moduler som formidler T-celle passivitetsutgang. Flere bioenergetiske moduler ble fremhevet og eksperimentelt validert (f.eks. mitoribosome og komplekse IV-moduler25, og ettkarbonmodulen38). I et annet eksempel26 utvidet vi videre vår tilnærming til å studere patogenesen av Alzheimers sykdom, og prioriterte vellykket sykdomsprogresjon tilknyttede proteinmoduler og molekyler. Det er viktig at mange av våre objektive funn ble validert av uavhengige pasientkohorter26,29 og/eller sykdomsmusmodeller26. Disse eksemplene illustrerte kraften i systembiologisk tilnærming for dissekering av molekylære mekanismer med kvantitativ proteomikk og andre omics integrasjoner.

Her introduserer vi JUMPn, en strømlinjeformet programvare som utforsker kvantitative proteomiske data ved hjelp av nettverksbaserte systembiologiske tilnærminger. JUMPn fungerer som nedstrømskomponenten i den etablerte JUMP proteomics programvarepakken 13,14,39, og tar sikte på å fylle gapet fra individuelle protein kvantifiseringer til biologisk meningsfulle veier og proteinmoduler ved hjelp av systemene biologi tilnærming. Ved å ta kvantifiseringsmatrisen av differensialt uttrykte (eller de mest variable) proteinene som inngang, tar JUMPn sikte på å organisere proteomet i et lagdelt hierarki av proteinklynger som uttrykkes på tvers av prøver og tett tilkoblede PPI-moduler (f.eks. proteinkomplekser), som ytterligere kommenteres med offentlige veidatabaser ved overrepresentasjon (eller berikelse) analyse (figur 1). JUMPn er utviklet med R/Shiny platform40 for et brukervennlig grensesnitt og integrerer tre hovedfunksjonsmoduler: kouttrykksklyngeanalyse, baneberikelsesanalyse og PPI-nettverksanalyse (figur 1). Etter hver analyse visualiseres resultatene automatisk og kan justeres via R /shiny widget-funksjonene og kan enkelt lastes ned som publikasjonstabeller i Microsoft Excel-format. I følgende protokoll bruker vi kvantitative hele proteomdata som eksempel og beskriver de viktigste trinnene for bruk av JUMPn, inkludert installasjon av JUMPn-programvaren, definisjonen av differensialt uttrykte proteiner eller (dys)regulert proteom, kouttrykksnettverksanalyse og PPI-modulanalyse, resultatvisualisering og tolkning og feilsøking. JUMPn-programvare er fritt tilgjengelig på GitHub41.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

MERK: I denne protokollen er bruken av JUMPn illustrert ved å bruke et publisert datasett for hel proteomprofilering under B-celledifferensiering kvantifisert av TMT isobarisk etikettreagens27.

1. Oppsett av JUMPn-programvare

MERK: To alternativer er gitt for å sette opp JUMPn-programvaren: (i) installasjon på en lokal datamaskin for personlig bruk; og (ii) distribusjon av JUMPn på en ekstern Shiny Server for flere brukere. For lokal installasjon er en personlig datamaskin med Internett-tilgang og ≥4 Gb RAM tilstrekkelig til å kjøre JUMPn-analyse for et datasett med liten utvalgsstørrelse (n < 30); større RAM (f.eks. 16 Gb) er nødvendig for analyse av store kohorter (f.eks. n = 200 prøver).

  1. Installer programvaren på en lokal datamaskin. Etter installasjonen, la nettleseren starte JUMPn og la analysen kjøre på den lokale datamaskinen.
    1. Installer anaconda42 eller miniconda43 ved å følge instruksjonene på nettet.
    2. Last ned JUMPn-kildekoden41. Dobbeltklikk for å pakke ut den nedlastede filen JUMPn_v_1.0.0.zip; Det opprettes en ny mappe med navnet JUMPn_v_1.0.0.
    3. Åpne kommandolinjeterminalen. Bruk Anaconda-ledeteksten i Windows. Bruk det innebygde Terminal-programmet på MacOS.
    4. Opprett JUMPn Conda-miljøet: Hent den absolutte banen til JUMPn_v_1.0.0-mappen (for eksempel /path/to/JUMPn_v_1.0.0). Hvis du vil opprette og aktivere et tomt Conda-miljø, skriver du inn følgende kommandoer på terminalen
      conda opprette -p /path/to/JUMPn_v_1.0.0/JUMPn -y
      conda aktivere /path/to/JUMPn_v_1.0.0/JUMPn
    5. Installer JUMPn-avhengigheter: Installer R (på terminalen skriver du inn conda install -c conda-forge r=4.0.0 -y), endrer gjeldende mappe til mappen JUMPn_v_1.0.0 (på terminalen skriver du inn cd-bane/til/JUMPn_v_1.0.0) og installerer avhengighetspakkene (på terminalen skriver du inn Rscript bootstrap. R)
    6. Start JUMPn i nettleseren: Endre gjeldende katalog til utførelsesmappen (skriv inn cd-kjøring på terminalen) og start JUMPn (på terminalen skriver du inn R -e "shiny::runApp()")
    7. Når ovennevnte er utført, vil terminalskjermen vises Lytte på http://127.0.0.1:XXXX (her indikerer XXXX 4 tilfeldige tall). Kopier og lim inn http://127.0.0.1:XXXX i nettleseren, der JUMPn velkomstside vises (figur 2).
  2. Distribusjon på Shiny Server. Eksempler på Shiny Server inkluderer den kommersielle shinyapps.io-serveren eller noen institusjonelt støttede Shiny Servers.
    1. Last ned og installer RStudio i følge instruksjonene44.
    2. Få distribusjonstillatelsen for Shiny Server. For shinyapps.io-serveren konfigurerer du brukerkontoen ved å følge instruksjonene45. For institusjonell Shiny-server kontakter du serveradministratoren for å be om tillatelser.
    3. Last ned JUMPn-kildekoden41 til den lokale maskinen. installasjon er ikke nødvendig. Åpne enten serveren. R eller ui. R-filer i RStudio og klikk på rullegardinmenyen Publiser på server øverst til høyre på RStudio IDE.
    4. Skriv inn serveradressen i panelet Publiser til konto . Trykk Publiser-knappen . Vellykket distribusjon valideres ved automatisk omadressering fra RStudio til RShiny-serveren der programmet ble distribuert.

2. Demokjøring ved hjelp av et eksempeldatasett

MERK: JUMPn tilbyr en demokjøring ved hjelp av det publiserte B-celleproteomikkdatasettet. Demokjøringen illustrerer en strømlinjeformet arbeidsflyt som tar kvantifiseringsmatrisen av differensialt uttrykte proteiner som inndata og utfører kouttrykksklynger, baneberikelse og PPI-nettverksanalyse sekvensielt.

  1. På JUMPns hjemmeside (figur 2) klikker du på Start analyse-knappen for å starte JUMPn-analysen.
  2. Nederst til venstre på startanalysesiden (figur 3) klikker du på knappen Last opp demo B-celleproteomiske data . Det vises en dialogboks som varsler om at dataopplastingen er fullført.
  3. Nederst til høyre på siden klikker du på Send JUMPn Analysis-knappen for å starte demokjøringen ved hjelp av standardparametere; Det vises en fremdriftslinje som angir analyseforløpet. Vent til fremdriftslinjen er oppfylt (3 minutter forventet).
  4. Når demokjøringen er fullført, vises en dialogboks med meldingen om vellykket kjøring og den absolutte banen til resultatmappen. Klikk Fortsett til resultater for å fortsette.
  5. Websiden vil først lede brukeren til co-expression-klyngeresultatene av WGCNA. Klikk på Vis resultater i dialogvinduet for å fortsette.
  6. Finn mønstrene for proteinkouttrykk til venstre på resultatsiden 1: WGCNA Output . Klikk rullegardinlisten Velg uttrykksformat for å navigere mellom to figurformater:
    1. Velg Trender for å vise trendplottet, der hver linje representerer individuell proteinoverflod på tvers av prøver. Fargen på hver linje representerer hvor nært uttrykksmønsteret er konsensus for kouttrykksklyngen (dvs. "eigengene" som definert av WGCNA-algoritmen).
    2. Velg Boxplot for å vise kouttrykksmønstre i boxplot-format for hvert eksempel.
  7. Se varmekartet for bane/ontologi til høyre for WGCNA-utdatasiden. De mest berikede banene for hver klynge vises sammen i et varmekart, med fargeintensiteten som reflekterer Benjamini-Hochberg-justert p-verdi.
  8. Bla nedover på websiden for å vise uttrykksmønsteret for individuelle proteiner.
    1. Bruk rullegardinlisten Velg Kouttrykksklyngen for å vise proteiner fra hver klynge (standard er klynge 1). Velg et bestemt protein i tabellen, som barplottet under bordet automatisk oppdateres for å gjenspeile proteinoverflod.
    2. Søk i spesifikke proteinnavn ved hjelp av søkeboksen på høyre side av tabellen etter et bestemt protein.
  9. For å se PPI-resultater, klikk på resultatsiden 2: PPI Output øverst.
  10. Klikk Velg kouttrykksklyngen for å vise resultatene for en bestemt kouttrykksklynge (standard er sektorgruppe 1). Visningene av alle figurpanelene på denne siden vil bli oppdatert for den nylig valgte klyngen.
  11. Vis PPI-nettverkene for den valgte kouttrykksklyngen i det venstre figurpanelet:
    1. Klikk rullegardinlisten Velg etter gruppe for å utheve individuelle PPI-moduler i nettverket. Klikk rullegardinlisten Velg et nettverksoppsettformat for å endre nettverksoppsettet (standard er av Fruchterman Reingold).
    2. Bruk musen og styreflaten til å utføre trinn 2.11.3-2.11.5.
    3. Zoom inn eller zoom ut PPI-nettverket etter behov. Gennavnene til hver node i nettverket vises når de zoomes tilstrekkelig inn.
    4. Når zoomet inn, velg og klikk et bestemt protein for å markere proteinet og nettverks naboene.
    5. Dra en bestemt node (protein) i nettverket for å endre plasseringen i oppsettet. Dermed kan nettverksoppsettet omorganiseres av brukeren.
  12. På panelet til høyre på PPI-resultatsiden kan du vise informasjon på klyngenivå for kouttrykk som hjelper til med tolkning av PPI-resultater:
    1. Vis kouttrykksmønsteret for den valgte sektorgruppen som boxplot som standard.
    2. Klikk rullegardinlisten Velg uttrykksformat hvis du vil ha mer informasjon eller vises som nevnt i trinn 2.12.3-2.12.5.
    3. Velg Trender for å vise trender for samuttrykksmønsteret.
    4. Velg Pathway Barplot for å vise betydelig berikede baner for kouttrykksklyngen.
    5. Velg Banesirkeltegning for å vise betydelig berikede baner for kouttrykksklyngen i sirkeltegningsformatet.
  13. Rull nedover nettsiden Resultatside 2: PPI Output for å vise resultater på det individuelle PPI-modulnivået. Klikk på rullegardinlisten Velg modul for å velge en bestemt PPI-modul for visning (Cluster1: Module 1 vises som standard).
  14. Vis PPI-modulen på panelet til venstre. Hvis du vil manipulere nettverksvisningen, følger du trinn 2.11.2-2.11.5.
  15. Se resultatene av sti/ontologiberikelse på panelet til høyre. Klikk rullegardinlisten Velg banemerknadsstil for mer informasjon og visninger:
    1. Velg Barplot for å vise betydelig berikede baner for den valgte PPI-modulen.
    2. Velg Sirkeltegning for å vise betydelig berikede baner for den valgte PPI-modulen i formatet til en sirkeltegning.
    3. Velg Varmekart for å vise betydelig berikede veier og tilhørende gennavn fra den valgte PPI-modulen.
    4. Velg Tabell for å vise de detaljerte resultatene av baneberikelse, inkludert navnet på stier/ontologi-termer, gennavn og P-verdien etter Fishers eksakte test.
  16. Vis publikasjonstabellen i regnearkformat: Følg den absolutte banen (trykt øverst på begge resultatsidene), og finn regnearktabellen ComprehensiveSummaryTables for publikasjonen, .xlsx.

3. Utarbeidelse av inndatafilen og opplasting til JUMPn

MERK: JUMPn tar som inngang kvantifiseringsmatrisen til enten differensialt uttrykte proteiner (overvåket metode) eller de mest variable proteinene (uovervåket metode). Hvis målet med prosjektet er å forstå proteiner endret på tvers av flere tilstander (f.eks. ulike sykdomsgrupper eller tidsserieanalyse av biologisk prosess), foretrekkes den overvåkede metoden for å utføre DE-analyse; Ellers kan en ikke-overvåket tilnærming for å velge de mest variable proteinene brukes til utforskende formål.

  1. Generer protein kvantifiseringstabellen, med hvert protein som rader og hver prøve som kolonner. Oppnå dette via moderne massespektrometribasert proteomikkprogramvarepakke (f.eks. JUMP suite 13,14,39, Proteome Discoverer, Maxquant 15,46).
  2. Definer variabelproteomen.
    1. Bruk de statistiske analyseresultatene fra programvarepakken for proteomikk til å definere differensialt uttrykte (DE) proteiner (for eksempel med justert p-verdi < 0,05).
    2. Alternativt kan brukere følge eksemplet R-kode47 for å definere enten DE eller de fleste variable proteiner.
  3. Formater inndatafilen ved hjelp av den definerte variabelproteomen.
    MERK: Det nødvendige inndatafilformatet (figur 4) inneholder en overskriftsrad. kolonnene inkluderer proteintiltredelse (eller unike ID-er), GN (offisielle gensymboler), proteinbeskrivelse (eller brukerinformasjon), etterfulgt av protein kvantifisering av individuelle prøver.
    1. Følg rekkefølgen på kolonnene som er angitt i trinn 3.1, men kolonnenavnene i overskriften er fleksible for brukeren.
    2. For TMT (eller lignende) kvantifisert proteom bruker du den summerte TMT-reporterintensiteten som inngangskvartifiseringsverdier. For etikettfrie data, bruk enten normaliserte spektraltall (f.eks. NSAF48) eller intensitetsbasert metode (f.eks. LFQ-intensitet eller iBAQ-proteinintensitet rapportert av Maxquant46).
    3. Manglende verdier er tillatt for JUMPn-analyse. Sørg for å merke disse som NA i kvantifiseringsmatrisen. Det anbefales imidlertid å bare bruke proteiner med kvantifisering i mer enn 50% av prøvene.
    4. Lagre den resulterende inndatafilen som .txt-, .xlsx- eller .csv-format (alle tre støttes av JUMPn).
  4. Last opp inndatafil:
    1. Klikk på Nettleser-knappen og velg inndatafilen (figur 3, venstre panel); Filformatet (xlsx, csv og txt støttes) oppdages automatisk.
    2. Hvis inndatafilen inneholder intensitetslignende kvantifiseringsverdier (f.eks. verdier generert av JUMP suite39) eller ratio-lignende (f.eks. fra Proteome Discoverer), velger du Ja for alternativet Utfør log2-transformasjon av data. Hvis ikke, kan det hende at dataene allerede er logg transformert, så velg Nei for dette alternativet.

4. Analyse av kouttrykksklynger

MERK: Vår gruppe 25,26,27 og andre 28,29,31 har vist WGCNA49 en effektiv metode for co-expression clustering analyse av kvantitativ proteomikk. JUMPn følger en 3-trinns prosedyre for WGCNA-analyse25,50: (i) første definisjon av co-expression gen/ protein klynger ved dynamisk treskjæring51 basert på topologisk overlapping matrise (TOM; bestemt av kvantifisering likheter blant gener / proteiner); (ii) sammenslåing av lignende klynger for å redusere redundans (basert på dendrogram av egengengene likheter); og (iii) endelig tildeling av gener/proteiner til hver klynge som overskrider den minimale Pearson-korrelasjonskutten.

  1. Konfigurer WGCNA-parameterne (figur 3, midtre panel). Følgende tre parametere kontrollerer henholdsvis de tre trinnene:
    1. Angi minimum klyngestørrelse som 30. Denne parameteren definerer det minimale antallet proteiner som kreves for hver kouttrykksklynge i det første trinnet (i) av TOM-basert hybrid dynamisk treskjæring. Jo større verdi, jo mindre antall klynger som returneres av algoritmen.
    2. Angi minimum klyngeavstand som 0,2. Hvis du øker denne verdien (for eksempel fra 0,2-0,3), kan det føre til flere klyngesammenslåinger i trinn (ii), noe som resulterer i færre klynger.
    3. Angi minimum kME som 0,7. Proteiner vil bli tildelt den mest korrelerte klyngen definert i trinn (ii), men bare proteiner med Pearson-korrelasjon som passerer denne terskelen vil bli beholdt. Proteiner som mislykkes i dette trinnet, tilordnes ikke til noen klynge ('NA' klynge for de mislykkede proteinene i sluttrapporten).
  2. Start analysen. Du kan sende inn klyngeanalysen for samtidige uttrykk på to måter:
    1. Klikk på Send JUMPn Analysis-knappen nederst til høyre for å starte den omfattende analysen av WGCNA automatisk etterfulgt av PPI-nettverksanalyse.
    2. Alternativt kan du velge å utføre WGCNA-trinnet bare (spesielt med det formål å justere parametere; se trinn 4.2.3-4.2.4):
    3. Klikk på Avanserte parametere-knappen nederst på Start analyse-siden ; Et nytt parametervindu dukker opp. I det nederste kontrollprogrammet, Velg analysemodus, velg Bare WGCNA, og klikk deretter på Lukk for å fortsette.
    4. Start analyse-siden klikker du på Send JUMPn-analyse-knappen .
    5. I begge tilfeller ovenfor vises en fremdriftslinje ved analyseinnsending.
      MERK: Når analysen er fullført (vanligvis < 1 min for bare WGCNA-analyse og <3 min for omfattende analyse), vises en dialogboks med en melding om vellykket kjøring og den absolutte banen til resultatmappen.
  3. Undersøk WGCNA-resultatene som vist i trinn 2.4-2.8 (figur 5). Legg merke til at den absolutte banen til filen co_exp_clusters_3colums.txt er uthevet øverst på resultatsiden: WGCNA Output for å registrere klyngemedlemskapet for hvert protein og bruke det som inndata for PPI Only-analysen .
  4. Feilsøking. Følgende tre vanlige saker diskuteres. Når parameterne er oppdatert som beskrevet nedenfor, følger du trinn 4.2.2-4.2.4 for å generere nye WGCNA-resultater.
    1. Hvis det forventes ett viktig samuttrykksmønster fra dataene, men som algoritmen går glipp av, følger du trinn 4.4.2-4.4.4
    2. En manglende klynge er spesielt sannsynlig for små samuttrykksklynger, det vil si bare et begrenset antall (f.eks. <30) proteiner som viser dette mønsteret. Før re-analysen, re-undersøke inngangsfilen av protein kvantifisering matrise og finne flere positive kontroll proteiner som holder seg til det viktige co-uttrykk mønster.
    3. For å redde de små klyngene, reduser minimal klyngestørrelse (f.eks. 10; klyngestørrelse mindre enn 10 anbefales kanskje ikke robust, og reduser minimal klyngeavstand (f.eks. 0,1; her er det også tillatt å angi 0, noe som betyr at automatisk klyngesammenslåing vil bli hoppet over).
    4. Etter å ha utført kouttrykksklyngetrinnet med de oppdaterte parametrene, må du først sjekke om klyngen er reddet fra Co-Expression Pattern Plots, og deretter sjekke de positive kontrollene ved å søke i proteintilgangene fra Detailed Protein Quantification (sørg for å velge riktig co-expression-klynge fra rullegardinmenyen på venstre side før søket).
      MERK: Flere gjentakelser av parameterjustering og reprise kan være nødvendig for redning.
    5. Hvis det er for mange proteiner som ikke kan tilordnes noen klynge, følger du trinn 4.4.6-4.4.7.
      MERK: Vanligvis kan en liten prosentandel (vanligvis <10%) proteiner ikke tilordnes noen klynge, da de kan være ytre proteiner som ikke fulgte noen av de vanlige uttrykksmønstrene til datasettet. Hvis en slik prosentandel imidlertid er signifikant (f.eks. >30 %), antyder den at det finnes flere samuttrykksmønstre som ikke kan ignoreres.
    6. Reduser både parameterne Minimal klyngestørrelse og Minimal klyngeavstand for å redusere denne situasjonen ved å oppdage "nye" kouttrykksklynger.
    7. I tillegg kan du redusere parameteren Minimal Pearson Correlation (kME) for å redusere disse 'NA-klynge'-proteinene.
      MERK: Hvis du justerer denne parameteren, genereres ikke nye klynger, men størrelsen på eksisterende klynger økes ved å godta flere tidligere mislykkede proteiner med lavere terskelverdi. Dette vil imidlertid også øke heterogeniteten til hver klynge, ettersom mer støyende proteiner nå er tillatt.
    8. To klynger har en svært liten forskjell i mønstre; slå dem sammen til én klynge ved å følge trinn 4.4.9-4.4.11.
    9. Øk parameteren Minimal klyngeavstand for å løse problemet.
    10. Men i noen situasjoner kan algoritmen aldri returnere ønsket mønster; På et slikt øyeblikk kan du manuelt justere eller redigere klyngemedlemskap i filen co_exp_clusters_3colums.txt (fil fra trinn 4.3) for å slå sammen.
    11. Ta den post-redigerte filen som inndata for nedstrøms PPI-nettverksanalyse. Hvis du redigerer manuelt, justerer du kriteriene for klyngetilordning og registrerer prosedyren for manuell redigering.

5. Analyse av proteinproteininteraksjonsnettverk

MERK: Ved å legge co-expression-klynger over PPI-nettverket, blir hver kouttrykksklynge ytterligere stratifisert i mindre PPI-moduler. Analysen utføres for hver kouttrykksklynge og inkluderer to trinn: I første fase legger JUMPn proteiner fra co-expression-klyngen inn i PPI-nettverket og finner alle tilkoblede komponenter (dvs. flere klynger av tilkoblede noder / proteiner; som et eksempel, se figur 6A); Deretter oppdages lokalsamfunn eller moduler (av tett tilkoblede noder) for hver tilkoblede komponent iterativt ved hjelp av den topologiske overlappingsmatrisen (TOM) metode52.

  1. Konfigurer parametere for PPI-nettverksanalyse (figur 3, høyre panel).
    1. Angi minimal PPI-modulstørrelse som 2. Denne parameteren definerer minimumsstørrelsen på de frakoblede komponentene fra første faseanalyse. Alle komponenter som er mindre enn den angitte parameteren, fjernes fra sluttresultatet.
    2. Angi maksimal PPI-modulstørrelse som 40. Store, frakoblede komponenter som passerer denne terskelen, vil gjennomgå TOM-basert analyse i andre fase. Den andre faseanalysen vil videre dele hver store komponent i mindre moduler: hver modul inneholder antagelig proteiner tettere forbundet enn den opprinnelige komponenten som helhet.
  2. Start analysen. Du kan sende inn PPI-nettverksanalysen på to måter:
    1. Trykk på Send JUMPn-analyse-knappen for å utføre PPI-analysen automatisk etter WGCNA-analyse som standard.
    2. Du kan også laste opp tilpassede kouttrykksklyngeresultater og utføre bare PPI-analyser ved å følge trinn 5.2.3-5.2.5.
    3. Klargjør inndatafilen ved å følge formatet til filen co_exp_clusters_3colums.txt (se underpunkt 4.4).
    4. Klikk på Avanserte parametere-knappen nederst på Start analyse-siden ; Et nytt parametervindu dukker opp. I den øvre økten Last opp kouttrykksklyngeresultat for 'Bare PPI'-analyse, klikk på Nettleser for å laste opp inndatafilen utarbeidet av trinn 5.2.3.
    5. I den nederste widgeten, Velg analysemodus, velg bare PPI, og klikk deretter på Lukk for å fortsette. På Start analyse-siden klikker du på Send JUMPn-analyse-knappen .
  3. Når analysen er fullført (vanligvis <3 min), undersøker du PPI-resultatene som vist i trinn 2.10-2.15 (figur 6).
  4. Valgfritt avansert trinn) Juster PPI-modularisering ved å justere parametere:
    1. Øk parameteren Maximal Module Size for å tillate flere proteiner inkludert i PPI-resultatene. Last opp et tilpasset PPI-nettverk for å dekke udokumenterte samhandlinger ved å følge trinn 5.4.2-5.4.3.
    2. Klikk på Avanserte parametere-knappen nederst på Start analyse-siden ; Et nytt parametervindu dukker opp. Forbered den tilpassede PPI-filen, som inneholder tre kolonner i formatet , C-onneksjon og ; her presenteres av de offisielle gennavnene til hvert protein.
    3. I Last opp en PPI-database klikker du på Bla gjennom-knappen for å laste opp den tilpassede PPI-filen.

6. Analyse av veiberikelse

MERK: De JUMPn-avledede hierarkiske strukturene til både samuttrykksklynger og PPI-moduler i blir automatisk kommentert med overrepresenterte veier ved hjelp av Fishers eksakte test. Banen/topologidatabasene som brukes inkluderer Gene Ontology (GO), KEGG, Hallmark og Reactome. Brukere kan bruke avanserte alternativer for å laste opp tilpassede databaser for analysen (f.eks. når det gjelder å analysere data fra ikke-menneskelige arter).

  1. Som standard startes baneberikelsesanalysen automatisk med kouttrykksklynger og PPI-nettverksanalyse.
  2. Se resultatene av stiberikelse:
    1. Følg trinn 2.7, 2.12 og 2.15 for å visualisere forskjellige formater på resultatsidene. Vis detaljerte resultater i publikasjonstabellen for regneark i filen ComprehensiveSummaryTables.xlsx (trinn 2.16).
  3. (Valgfritt avansert trinn) Last opp tilpasset database for baneberikelsesanalyse:
    1. Forbered genbakgrunnsfilen, som vanligvis inneholder de offisielle gennavnene til alle gener av en art.
    2. Klargjør ontologibibliotekfilen ved å følge trinn 6.3.3-6.3.4.
    3. Last ned ontologibibliotekfilene fra offentlige nettsteder, inkludert EnrichR53 og MSigDB54. Last for eksempel ned ontologi fra Drosophila fra EnrichR-nettstedet55.
    4. Rediger den nedlastede filen for det nødvendige formatet med to kolonner: banenavnet som den første kolonnen, og deretter de offisielle gensymbolene (atskilt med "/") som den andre kolonnen. Det detaljerte filformatet er beskrevet på hjelpesiden til JUMPn R skinnende programvare.
      MERK: Finn eksempelfiler av genbakgrunn og ontologibibliotek (ved hjelp av Drosophila som forekomst) på JUMPn GitHub-nettstedet56.
    5. Klikk på Avanserte parametere-knappen nederst på Start analyse-siden; Et nytt parametervindu dukker opp.
    6. Finn Last opp en bakgrunnsfil for Pathway Enrichment Analysis element og klikk på Nettleser for å laste opp bakgrunnsfilen forberedt på trinn 6.3.1. Deretter i økten, Velg bakgrunnen som skal brukes til baneberikelsesanalyse, klikk på Brukerlevert bakgrunn.
    7. Finn Last opp en Ontology Library File for Pathway Enrichment Analysis element og klikk på Nettleser for å laste opp ontologi bibliotekfilen utarbeidet på trinn 6.3.2-6.3.4. Deretter klikker du på Brukerlevert database i .xlsx-format i økten, Velg databaser for baneberikelsesanalyse.
  4. Klikk på Send JUMPn Analyse-knappen nederst til høyre for å starte analysen ved hjelp av den tilpassede databasen.

7. Analyse av datasett med stor utvalgsstørrelse

MERK: JUMPn støtter analyse av datasett med stor prøvestørrelse (opptil 200 prøver testet). For å lette visualiseringen av en stor utvalgsstørrelse er det nødvendig med en tilleggsfil (kalt "metafil") som angir eksempelgruppen for å lette visningen av kouttrykksklyngeresultater.

  1. Klargjør og last opp metafil.
    1. Klargjør metafilen som angir gruppeinformasjon (f.eks. kontroll- og sykdomsgrupper) for hvert utvalg ved å følge trinn 7.1.2-7.1.3.
    2. Kontroller at metafilen inneholder minst to kolonner: Kolonne 1 må inneholde prøvenavnene som er identiske med kolonnenavnene og rekkefølgen fra matrisefilen for protein kvantifisering (som utarbeidet i trinn 3.3); Kolonne 2 og fremover brukes til gruppetilordning for et hvilket som helst antall funksjoner som er definert av brukeren. Antall kolonner er fleksibelt.
    3. Kontroller at den første raden i metafilen inneholder kolonnenavnene for hver kolonne. fra og med den andre raden, bør individuell utvalgsinformasjon for grupper eller andre funksjoner (f.eks. kjønn, alder, behandling osv.) føres opp.
    4. Last opp metafilen ved å klikke på Avanserte parametere-knappen nederst på Start analyse-siden ; Et nytt parametervindu dukker opp. Gå videre til trinn 7.1.5
    5. Finn Last opp et Meta File-element og klikk på Nettleser for å laste opp bakgrunnsfilen. Hvis JUMPns uventede format eller unike eksempelnavn oppdages, vises en feilmelding for videre formatering av metafilen (trinn 7.1.1-7.1.3).
  2. Juster parameterne for klyngeanalyse for samtidig uttrykk: Angi Minimal Pearson-korrelasjon som 0,2. Denne parameteren må være avslappet på grunn av større utvalgsstørrelse.
  3. Klikk på Send inn JUMPn-analyse-knappen nederst til høyre for å sende inn analysen.
  4. Resultat av visningsanalyse: Alle datautdataene er de samme, bortsett fra å vise klyngemønstrene for fellesuttrykk.
    1. På siden Resultater side 1: WGCNA Output visualiserer du kouttrykksklyngene som boxplots med eksempler som er stratifisert av de brukerdefinerte eksempelgruppene eller funksjonene. Hver prikk i plottet representerer eigengene (dvs. klyngens konsensusmønster) beregnet av WGCNA-algoritmen.
    2. Hvis brukeren har gitt flere funksjoner (f.eks. alder, kjønn, behandling osv.) for å gruppere prøvene, klikker du rullegardinlisten Velg uttrykksformat for å velge en annen funksjon for gruppering av eksemplene.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Vi brukte våre publiserte dype proteomikkdatasett 25,26,27,30 (figur 5 og figur 6) samt datasimuleringer57 (tabell 1) for å optimalisere og evaluere JUMPn-ytelse. For co-expression protein clustering analyse via WGCNA, anbefaler vi å bruke proteiner betydelig endret på tvers av prøver som inngang (f.eks, differensialt uttrykt (DE) proteiner oppdaget ved statistisk analyse). Selv om det å inkludere ikke-DE-proteiner for analysen kan resultere i flere co-expression-klynger som returneres av programmet (på grunn av større inngangsstørrelse), antar vi at blanding av det virkelige signalet (f.eks. DE-proteinene) med bakgrunnen (de resterende ikke-DE) for systemnivåanalyse kan fortynne signalet og maskere den underliggende nettverksstrukturen. For å teste dette ble simuleringsanalyse utført under to forskjellige forhold: i) svært dynamisk proteom (f.eks. 50% endret i T-celleaktivering25) og ii) relativt stabil proteom (f.eks. 2% proteom endret i26 e.Kr.). For det svært dynamiske proteomet ble seks kouttrykksklynger simulert fra 50 % proteom etter samme klyngestørrelse og uttrykksmønstre (dvs. egengengene) av våre publiserte resultater25. På samme måte, for en relativt stabil proteom, simulerte vi tre klynger fra 2% proteom etter vår nylige AD-proteomikkstudie26. Som forventet øker økningen i antall proteiner antall påvist sektorgrupper (tabell 1). For den svært dynamiske proteomen kan bruk av alle proteiner som inngang fange opp de fleste av de sanne klyngene (5 av de 6 simulerte bona fide-klyngene; 83% tilbakekalling) med 63% presisjon (5 av de 8 returnerte klyngene er sanne positiver; det vil si at de resterende 3 klyngene er falske positiver). For det relativt stabile proteomet reduserer imidlertid inngangsstørrelsen med ikke-DE-proteiner presisjonen dramatisk (tabell 1). For eksempel, ved å bruke hele proteomet som inngang, oppdages 169 moduler, hvorav bare 2 er riktige (1,2% presisjon; de resterende 98,8% oppdagede modulene er falske positiver). Disse resultatene indikerer dermed at å velge bare den endrede proteomen som inngang vil øke presisjonen til samuttrykksanalyse, spesielt for relativt stabil proteom.

Etter påvisning av proteinklynger med kouttrykk vil hver klynge bli kommentert av JUMPn ved hjelp av baneberikelsesanalysen (figur 1). Den nåværende versjonen inneholder fire ofte brukte banedatabaser, inkludert Gene Ontology (GO), KEGG, Hallmark og Reactome. Brukere kan også kompilere sin egen database i GMT format54, som kan lastes opp til JUMPn. Integrering av flere databaser for veiberikelsesanalyse kan gi mer omfattende visninger. Størrelsene på forskjellige veidatabaser varierer imidlertid betydelig, noe som kan føre til uønskede skjevheter i visse (spesielt store) databaser. To løsninger leveres innen JUMPn. For det første justeres nominelle p-verdier (eller straffes) for multihypotesetesting ved Benjamini-Hochberg-metoden58, med en større database som krever en mer signifikant nominell p-verdi for å nå samme justerte p-nivå enn det fra en liten database. For det andre fremhever JUMPn den øverste betydelig berikede banen for hver database separat, og dermed vises alltid databasespesifikke toppberikede veier.

I likhet med baneberikelsesanalyse ble et sammensatt PPI-nettverk kompilert ved å kombinere STRING59,60, BioPlex61,62 og InWeb_IM63 databaser. BioPlex-databasen ble opprettet ved hjelp av affinitetsrensing etterfulgt av massespektrometri i menneskelige cellelinjer, mens STRING og InWeb inneholder informasjon fra ulike kilder. Derfor ble STRING- og InWeb-databasene videre filtrert etter kantresultatet for å sikre høy kvalitet, med avskjæringen bestemt ved best å tilpasse de skalafrie kriteriene24. Det endelige fusjonerte PPI-nettverket dekker mer enn 20 000 menneskelige gener med ~1 100 000 kanter (tabell 2). Denne omfattende interactome er inkludert og publisert i en pakke med vår JUMPn programvare for sensitiv PPI analyse.

Når analysen er fullført, genererer JUMPn regnearkfilen ComprehensiveSummaryTables for publikasjonstabeller.xlsx, som består av tre enkeltark. Det første arket inneholder resultater av co-expression protein klynger med ett protein per rad: den første kolonnen indikerer klyngemedlemskapet til hvert inngangsprotein, og de resterende kolonnene kopieres fra brukerinndatafilen, som inneholder proteintiltredelse, gennavn, proteinbeskrivelse og kvantifisering av individuelle prøver. Det andre arket inneholder resultater av baneberikelsesanalyse, som viser betydelige veier beriket i hver kouttrykksklynge. Denne tabellen er først organisert etter forskjellige veidatabaser, deretter sortert etter co-expression-klynger, funksjonelle veier, totalt antall veigener, totalt antall gener i den enkelte klynge, overlappende gennumre og navn, berikelsesfold, Fisher eksakt test avledet P-verdier og Benjamini-Hochberg falsk oppdagelsesrate. Det tredje arket inneholder resultater av PPI-modulanalyse med en PPI-modul per rad; Kolonnene inkluderer modulnavnet (definert av medlemsmedlemskapet og modul-IDen, for eksempel Cluster1_Module1), de tilordnede proteinene og tallene, samt funksjonelle veier som defineres ved å søke i modulproteinene mot banedatabasene.

Figure 1
Figur 1: Arbeidsflyt for JUMPn. Kvantifiseringsmatrise av den øverste variabelen av differensialt uttrykte (DE) proteiner tas som inngang, og proteiner grupperes i co-expression-klynger av WGCNA-algoritmen. Hvert samuttrykk blir deretter kommentert av baneberikelsesanalyse og videre lagt over proteinproteininteraksjonsnettverket (PPI) for tett tilkoblede proteinmodulidentifikasjoner. Klikk her for å se en større versjon av denne figuren.

Figure 2
Figur 2: JUMPn velkomstside. Klikk her for å se en større versjon av denne figuren.

Figure 3
Figur 3: Inndataside for JUMPn. Siden inneholder henholdsvis opplastingspanelet for inndatafilen og parameterkonfigurasjonspaneler for klynger med kouttrykk og PPI-nettverksanalyse. Klikk her for å se en større versjon av denne figuren.

Figure 4
Figur 4: Eksempel på inndatafil for kvantifiseringsmatrise. Kolonner inkluderer proteintiltredelse (eller unike ID-er), GN (offisielle gensymboler), proteinbeskrivelse (eller brukerinformasjon), etterfulgt av protein kvantifisering av individuelle prøver. Klikk her for å se en større versjon av denne figuren.

Figure 5
Figur 5: Kouttrykksklyngeresultater rapportert av JUMPn. Kouttrykksklyngemønstrene (A), toppberiket banevarmekart på tvers av klynger (B) og detaljert proteinoverflod for hver klynge vises (C). Brukere kan velge forskjellige visningsalternativer og navigere mellom forskjellige klynger via valgboksen. Klikk her for å se en større versjon av denne figuren.

Figure 6
Figur 6: Resultater fra PPI-nettverksanalyse rapportert av JUMPn. Det globale intermodulnettverket vises (A), etterfulgt av et delnettverk av individuelle moduler (B) og dets betydelig berikede veier (C). Brukere kan velge forskjellige visningsalternativer og navigere mellom forskjellige klynger og moduler via valgboksen. Klikk her for å se en større versjon av denne figuren.

% toppproteiner for analyse # simulerte moduler # oppdaget moduler # gjenerobrede moduler1 presisjon2 tilbakekalling3
Svært dynamisk proteom (f.eks. under T-celleaktivering): 6 simulerte moduler fra 50 % proteom
2 6 2 2 1 0.33
5 6 2 2 1 0.33
10 6 3 3 1 0.5
20 6 4 4 1 0.67
50 6 6 6 1 1
100 6 8 5 0.63 0.83
Relativt stabil proteom (f.eks. under patogenese av AD): 3 simulerte moduler fra 2 % proteom
1 3 1 1 1 0.33
2 3 3 3 1 1
5 3 8 3 0.38 1
10 3 13 3 0.23 1
20 3 19 3 0.16 1
50 3 71 2 0.03 0.67
100 3 169 2 0.01 0.67
1 En gjenfanget modul er en oppdaget modul hvis egengengene svært korrelerer (Pearson R > 0,95) med en av de simulerte eigengenes.
2presisjon = # gjenfanget moduler / # oppdagede moduler
3tilbakekalling = # gjenfangstmoduler / # simulerte moduler

Tabell 1: Simuleringsstudier av kouttrykksklyngedeteksjon.

PPI-nettverk Nei. av noder Nei. av kanter
BioPlex 3.0 kombinert (293T+HCT116) 14,551 1,67,399
InBio_Map_core_2016_09_12 17,429 6,08,166
STRING (v11.0) 18,954 5,87,482
Sammensatt PPI-nettverk 20,485 11,52,607

Tabell 2: Statistikk over humane proteinproteininteraksjonsnettverk (PPI). PPI-nettverk filtreres etter kantpoengsum for å sikre høy kvalitet, og poengsumkuttet bestemmes ved å tilpasse de skalafrie kriteriene best mulig.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Her introduserte vi jumpn-programvaren vår og dens protokoll, som har blitt brukt i flere prosjekter for dissekering av molekylære mekanismer ved hjelp av dype kvantitative proteomikkdata 25,26,27,30,64. JUMPn-programvaren og -protokollen er fullt optimalisert, inkludert vurdering av DE-proteiner for kouttrykksnettverksanalyse, en samling av omfattende og høykvalitets PPI-nettverk, streng statistisk analyse (f.eks. ved vurdering av flere hypotesetesting) med et strømlinjeformet og brukervennlig grensesnitt. Flere proteinmoduler identifisert av JUMPn har blitt validert av funksjonelle eksperimentstudier25,27 eller uavhengige pasientkohorter26, som eksemplifiserer JUMPn som et effektivt verktøy for å identifisere viktige molekyler og veier som ligger til grunn for ulike biologiske prosesser.

Kritiske trinn i denne protokollen inkluderer generering av optimale resultater av kouttrykksklynger og PPI-moduler, som kan kreve flere gjentakelser av parameterjustering, samt opplasting av tilpasset PPI-nettverk. I vår protokoll diskuterte vi vanlige praktiske scenarier, inkludert hvordan man håndterer manglende viktige klynger, en høy prosentandel av ikke-tilordnede proteiner, sammenslåing av to redundante klynger og manglende viktige proteiner i PPI-moduler. Vi anbefaler brukeren å forberede flere positive kontrollproteiner og bekrefte deres tilstedeværelse i de endelige samuttrykksklyngene. Noen ganger vil en positiv kontroll aldri bli inkludert i de endelige PPI-modulene på grunn av en ufullstendig PPI-nettverksdatabase. For delvis å lindre dette har vi oppdatert PPI-nettverket vårt med de nyeste versjonene av BioPlex V362 og STRING V1160. I tillegg tillater JUMPn brukere å laste opp tilpassede PPI-nettverk. For eksempel kan nye interaksjoner avledet fra affinitetsrensing-massespektrometri (AP-MS) eksperimenter ved hjelp av et viktig positivt kontrollprotein som agn integreres med det nåværende sammensatte PPI-nettverket for mer tilpasset analyse.

Ved å bruke rammeverket for baneberikelsesanalyse for hver co-expression proteinklynge, kan JUMPn utvides for å utlede transkripsjonsfaktor (TF) aktivitet. Forutsetningen er at hvis det finnes en overrepresentasjon av målgener av en bestemt TF i en co-expression-klynge (dvs. disse målene er differensialt uttrykt og følger samme uttrykksmønster), endres aktiviteten til at TF potensielt endres på tvers av eksperimentelle forhold fordi målproteinoverflodet endres konsekvent. Teknisk sett kan dette enkelt oppnås via JUMPn ved å erstatte den nåværende banedatabasen med TF-måldatabasen (f.eks. fra ENCODE-prosjektet65). På samme måte kan kinaseaktivitet også utledes ved å utnytte kinase-substratdatabasen, og ta dyp fosfoproteomikk som inngang. Som et eksempel identifiserte vi vellykket dysregulerte TFer og kinases underliggende hjernesvulstpatogenese64. Faktisk har bruk av nettverkstilnærmingen for aktivitetsinferens dukket opp som en kraftig tilnærming for å identifisere dysregulerte drivere for menneskelige sykdommer66,67.

JUMPn-programvaren brukes lett på et bredt spekter av datatyper. Selv om isobarisk merking av kvantifiserte proteomer ble brukt som et illustrerende eksempel, gjelder den samme protokollen også for etikettfrie kvantifiserte proteomikkdata, samt genomomfattende uttrykksprofiler (f.eks. kvantifisert av RNA-seq eller mikroarray; se vårt nylige eksempel på bruk av JUMPn for både gen- og proteinuttrykksprofiler27). Fosfoproteomikadata kan også tas av JUMPn for å identifisere co-uttrykte fosforer, etterfulgt av kinaseaktivitet inferens25. I tillegg vil interaktivitetsdata generert av AP-MS-tilnærmingen også være hensiktsmessige, der byttedyrproteiner som følger lignende agninteraksjonsstyrke og stoichiometri vil danne co-expression-klynger og ytterligere overlappet med kjente PPIer for datatolkning68.

Det finnes begrensninger for gjeldende versjon av JUMPn. For det første er installasjonsprosedyren kommandolinjebasert og krever grunnleggende kunnskap om informatikk. Dette hindrer bredere bruk av JUMPn, spesielt fra biologer uten beregningsbakgrunn. En mer ideell implementering er å publisere JUMPn på en online server. For det andre er de nåværende databasene menneskesentriske på grunn av vårt fokus på studier av menneskelige sykdommer. Merk at proteomikkdata generert av mus også har blitt analysert av JUMPn ved hjelp av slike menneskesentriske databaser25,27, forutsatt at de fleste PPIer er bevart på tvers av begge artene69,70. Musespesifikk signalisering vil ikke bli fanget opp av denne tilnærmingen, men er ikke av interesse for de menneskelige studiene. For ikke-pattedyrmodellsystemer (f.eks. sebrafisk, fly eller gjær) bør imidlertid artsspesifikke databaser utarbeides og lastes opp til JUMPn ved hjelp av de avanserte alternativene. Ressurser av flere arter kan gis via fremtidig JUMPn-utslipp. For det tredje tar det nåværende trinnet med ontologi / baneanalyse betydelig tid, noe som kan optimaliseres ytterligere ved parallell databehandling.

Til slutt presenterer vi JUMPn-programvaren og protokollen for å utforske kvantitative proteomikkdata for å identifisere og visualisere sam-uttrykte og potensielt fysisk interagerende proteinmoduler ved systembiologisk tilnærming. De viktigste funksjonene som skiller JUMPn fra andre 53,71,72 inkluderer: (i) JUMPn integrerer og effektiviserer fire hovedkomponenter i banen og nettverksanalysen (figur 1); (ii) Forskjellig fra de fleste veianalyseprogrammer som tar en enkel genliste som innspill, starter JUMPn fra kvantifiseringsmatrise, hvoretter kvantitativ informasjon sømløst kan integreres med litteraturdokumenterte veier og nettverk; (iii) Både co-expression proteinklynger og interaksjonsmoduler blir automatisk kommentert av kjente veier, og visualisert via R / skinnende samhandlende plattform ved hjelp av en brukervennlig nettleser; (iv) Endelige resultater er organisert i tre tabeller som er lett å publisere i Excel-format. Dermed forventer vi at JUMPn og denne protokollen vil være mye anvendelig for mange studier for dissekeringsmekanismer ved hjelp av kvantitative proteomiske data.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har ingenting å avsløre.

Acknowledgments

Støtten ble gitt av National Institutes of Health (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 og U54NS110435) og ALSAC (American Lebanese Syrian Associated Charities). MS-analysen ble utført i St. Jude Children's Research Hospital's Center of Proteomics and Metabolomics, som delvis ble støttet av NIH Cancer Center Support Grant (P30CA021765). Innholdet er utelukkende forfatternes ansvar og representerer ikke nødvendigvis de offisielle synspunktene til National Institutes of Health.

Materials

Name Company Catalog Number Comments
MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7. Apple Inc. MacBook Pro 13'' Hardware used for software development and testing
Anoconda Anaconda, Inc. version 4.9.2 https://docs.anaconda.com/anaconda/install/
miniconda Anaconda, Inc. version 4.9.2 https://docs.conda.io/en/latest/miniconda.html
RStudio RStudio Public-benefit corporation version 4.0.3 https://www.rstudio.com/products/rstudio/download/
Shiny Server RStudio Public-benefit corporation https://shiny.rstudio.com/articles/shinyapps.html

DOWNLOAD MATERIALS LIST

References

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
  2. Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
  3. Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
  4. Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
  5. Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
  6. Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
  7. Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
  8. Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
  9. Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer's disease. Analytical Chemistry. 92, 7162-7170 (2020).
  10. Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
  11. Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
  12. Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
  13. Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
  14. Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
  15. Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
  16. Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
  17. Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
  18. Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
  19. High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
  20. Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
  21. Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
  22. Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
  23. Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
  24. Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell's functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
  25. Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
  26. Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer's disease progression. Neuron. 105, 975-991 (2020).
  27. Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
  28. Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer's disease. Cell Systems. 4, 60-72 (2017).
  29. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer's disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
  30. Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
  31. Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
  32. Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
  33. Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
  34. Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
  35. Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
  36. Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
  37. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
  38. Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
  39. Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
  40. Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, Anaconda. miniconda (2021). RStudio (2021) Shiny Server 2301-2319 (2021).
  41. JUMPn. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021).
  42. Anaconda. , Available from: https://docs.anaconda.com/anaconda/install/ (2021).
  43. miniconda. , Available from: https://docs.conda.io/en/latest/miniconda.html (2021).
  44. RStudio. , Available from: https://www.rstudio.com/products/rstudio/download/ (2021).
  45. Shiny Server. , Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021).
  46. Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
  47. R code. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021).
  48. Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
  49. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article 17 (2005).
  50. Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
  51. Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
  52. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
  53. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  54. Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
  55. FlyEn rich r. , Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021).
  56. JUMPn GitHub. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly_ (2021).
  57. Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
  58. Benjamini, Y., Hochberg, Y. Controlling the false discovery rate - a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
  59. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
  60. Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
  61. Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
  62. Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
  63. Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
  64. Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
  65. Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
  66. Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
  67. Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
  68. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
  69. Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
  70. Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
  71. Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
  72. Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

Tags

Biokjemi utgave 176
JUMPN: En strømlinjeformet applikasjon for klynger med proteinkouttrykk og nettverksanalyse i proteomikk
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Vanderwall, D., Suresh, P., Fu, Y.,More

Vanderwall, D., Suresh, P., Fu, Y., Cho, J. H., Shaw, T. I., Mishra, A., High, A. A., Peng, J., Li, Y. JUMPn: A Streamlined Application for Protein Co-Expression Clustering and Network Analysis in Proteomics. J. Vis. Exp. (176), e62796, doi:10.3791/62796 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter