Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biochemistry

JUMPn: un'applicazione semplificata per il clustering di co-espressione proteica e l'analisi di rete in proteomica

Published: October 19, 2021 doi: 10.3791/62796

Summary

Presentiamo uno strumento di biologia dei sistemi JUMPn per eseguire e visualizzare l'analisi di rete per i dati quantitativi di proteomica, con un protocollo dettagliato che include la pre-elaborazione dei dati, il clustering di co-espressione, l'arricchimento del percorso e l'analisi della rete di interazione proteina-proteina.

Abstract

Con i recenti progressi nelle tecnologie di proteomica basate sulla spettrometria di massa, la profilazione profonda di centinaia di proteomi è diventata sempre più fattibile. Tuttavia, ricavare informazioni biologiche da set di dati così preziosi è una sfida. Qui introduciamo un software basato sulla biologia dei sistemi JUMPn e il suo protocollo associato per organizzare il proteoma in cluster di co-espressione proteica attraverso campioni e reti di interazione proteina-proteina (PPI) collegate da moduli (ad esempio, complessi proteici). Utilizzando la piattaforma R/Shiny, il software JUMPn semplifica l'analisi del clustering di co-espressione, dell'arricchimento del percorso e del rilevamento dei moduli PPI, con la visualizzazione dei dati integrata e un'interfaccia user-friendly. Le fasi principali del protocollo includono l'installazione del software JUMPn, la definizione di proteine differenzialmente espresse o del proteoma (dis)regolato, la determinazione di cluster di co-espressione significativi e moduli PPI e la visualizzazione dei risultati. Mentre il protocollo è dimostrato utilizzando un profilo proteoma basato sull'etichettatura isobarica, JUMPn è generalmente applicabile a una vasta gamma di set di dati quantitativi (ad esempio, proteomica senza etichette). Il software e il protocollo JUMPn forniscono quindi un potente strumento per facilitare l'interpretazione biologica nella proteomica quantitativa.

Introduction

La proteomica del fucile a pompa basata sulla spettrometria di massa è diventata l'approccio chiave per analizzare la diversità del proteoma di campioni complessi1. Con i recenti progressi nella strumentazione di spettrometria di massa 2,3, cromatografia 4,5, rilevamento della mobilità ionica6, metodi di acquisizione (acquisizione 7 indipendente dai dati e acquisizione dipendente dai dati8), approcci di quantificazione (metodo di etichettatura dei peptidi isobarici multiplex, ad esempio TMT 9,10 e quantificazione senza etichetta11,12) e strategie di analisi dei dati. sviluppo software 13,14,15,16,17,18, quantificazione dell'intero proteoma (ad esempio, oltre 10.000 proteine) è ora di routine 19,20,21. Tuttavia, come ottenere approfondimenti meccanicistici da set di dati quantitativi così profondi è ancora impegnativo22. I tentativi iniziali di indagare su questi set di dati si basavano prevalentemente sull'annotazione di singoli elementi dei dati, trattando ogni componente (proteina) in modo indipendente. Tuttavia, i sistemi biologici e il loro comportamento non possono essere spiegati esclusivamente esaminando i singoli componenti23. Pertanto, un approccio sistemico che colloca le biomolecole quantificate nel contesto delle reti di interazione è essenziale per la comprensione dei sistemi complessi e dei processi associati come l'embriogenesi, la risposta immunitaria e la patogenesi delle malattie umane24.

La biologia dei sistemi basata sulla rete è emersa come un potente paradigma per l'analisi dei dati quantitativi di proteomica su larga scala 25,26,27,28,29,30,31,32,33. Concettualmente, sistemi complessi come le cellule di mammifero potrebbero essere modellati come una rete gerarchica34,35, in cui l'intero sistema è rappresentato in livelli: prima da un numero di componenti di grandi dimensioni, ognuno dei quali poi modellato iterativamente da sottosistemi più piccoli. Tecnicamente, la struttura della dinamica del proteoma può essere presentata da reti interconnesse di cluster proteici co-espressi (perché geni/proteine co-espressi spesso condividono funzioni biologiche simili o meccanismi di regolazione36) e moduli PPI fisicamente interagenti37. Come esempio recente25, abbiamo generato profili temporali di proteoma intero e fosfoproteoma durante l'attivazione delle cellule T e utilizzato reti di co-espressione integrative con PPI per identificare moduli funzionali che mediano l'uscita di quiescenza delle cellule T. Sono stati evidenziati e convalidati sperimentalmente più moduli correlati alla bioenergetica (ad esempio, il mitoribosoma e i moduli IV complessi25 e il modulo a un carbonio38). In un altro esempio26, abbiamo ulteriormente esteso il nostro approccio per studiare la patogenesi della malattia di Alzheimer e abbiamo dato priorità con successo ai moduli e alle molecole proteiche associate alla progressione della malattia. È importante sottolineare che molte delle nostre scoperte imparziali sono state convalidate da coorti di pazienti indipendenti26,29 e / o modelli murini di malattia26. Questi esempi hanno illustrato la potenza dell'approccio di biologia dei sistemi per sezionare i meccanismi molecolari con la proteomica quantitativa e altre integrazioni omiche.

Qui presentiamo JUMPn, un software semplificato che esplora i dati quantitativi di proteomica utilizzando approcci di biologia dei sistemi basati sulla rete. JUMPn funge da componente a valle della suite software di proteomica JUMP13,14,39 e mira a colmare il divario dalle singole quantificazioni proteiche a percorsi biologicamente significativi e moduli proteici utilizzando l'approccio della biologia dei sistemi. Prendendo la matrice di quantificazione delle proteine differenzialmente espresse (o le più variabili) come input, JUMPn mira a organizzare il proteoma in una gerarchia a più livelli di cluster proteici co-espressi tra campioni e moduli PPI densamente connessi (ad esempio, complessi proteici), che sono ulteriormente annotati con database di percorsi pubblici mediante analisi di sovrarappresentazione (o arricchimento) (Figura 1). JUMPn è sviluppato con la piattaforma R/Shiny40 per un'interfaccia user-friendly e integra tre principali moduli funzionali: analisi di clustering di co-espressione, analisi di arricchimento del percorso e analisi della rete PPI (Figura 1). Dopo ogni analisi, i risultati vengono visualizzati automaticamente e sono regolabili tramite le funzioni widget R/shiny e facilmente scaricabili come tabelle di pubblicazione in formato Microsoft Excel. Nel seguente protocollo, utilizziamo i dati quantitativi dell'intero proteoma come esempio e descriviamo i passaggi principali dell'utilizzo di JUMPn, inclusa l'installazione del software JUMPn, la definizione di proteine differenzialmente espresse o il proteoma (dis)regolato, l'analisi della rete di co-espressione e l'analisi del modulo PPI, la visualizzazione e l'interpretazione dei risultati e le riprese dei problemi. Il software JUMPn è disponibile gratuitamente su GitHub41.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

NOTA: In questo protocollo, l'uso di JUMPn è illustrato utilizzando un set di dati pubblicato di profilazione dell'intero proteoma durante la differenziazione delle cellule B quantificata dal reagente isobarico dell'etichetta TMT27.

1. Configurazione del software JUMPn

NOTA: per la configurazione del software JUMPn sono disponibili due opzioni: (i) installazione su un computer locale per uso personale; e (ii) distribuzione di JUMPn su un Shiny Server remoto per più utenti. Per l'installazione locale, un personal computer con accesso a Internet e ≥4 Gb di RAM è sufficiente per eseguire l'analisi JUMPn per un set di dati con una dimensione del campione ridotta (n < 30); per l'analisi di coorte di grandi dimensioni è necessaria una RAM più grande (ad esempio, 16 Gb) (ad esempio, n = 200 campioni).

  1. Installare il software in un computer locale. Dopo l'installazione, consentire al browser Web di avviare JUMPn e lasciare che l'analisi venga eseguita sul computer locale.
    1. Installare anaconda42 o miniconda43 seguendo le istruzioni online.
    2. Scarica il codice sorgente JUMPn41. Fare doppio clic per decomprimere il file scaricato JUMPn_v_1.0.0.zip; verrà creata una nuova cartella denominata JUMPn_v_1.0.0.
    3. Apri il terminale della riga di comando. In Windows, utilizzare il prompt di Anaconda. Su MacOS, usa l'applicazione Terminale integrata.
    4. Creare l'ambiente JUMPn Conda: ottenere il percorso assoluto della cartella JUMPn_v_1.0.0 (ad esempio, /path/to/JUMPn_v_1.0.0). Per creare e attivare un ambiente Conda vuoto digitare i seguenti comandi sul terminale
      conda create -p /path/to/JUMPn_v_1.0.0/JUMPn -y
      conda activate /path/to/JUMPn_v_1.0.0/JUMPn
    5. Installare le dipendenze JUMPn: Installare R (sul terminale, digitare conda install -c conda-forge r=4.0.0 -y), modificare la directory corrente nella cartella JUMPn_v_1.0.0 (sul terminale, digitare cd path/to/JUMPn_v_1.0.0) e installare i pacchetti di dipendenza (sul terminale, digitare Rscript bootstrap. R)
    6. Avvia JUMPn sul browser web: cambia la directory corrente nella cartella di esecuzione (sul terminale, digita cd execution) e avvia JUMPn (sul terminale, digita R -e "shiny::runApp()")
    7. Una volta eseguito quanto sopra, la schermata del terminale verrà visualizzata In ascolto su http://127.0.0.1:XXXX (qui XXXX indica 4 numeri casuali). Copiare e incollare http://127.0.0.1:XXXX nel browser Web, in cui verrà visualizzata la pagina di benvenuto di JUMPn (Figura 2).
  2. Distribuzione su Shiny Server. Esempi di Shiny Server includono il server commerciale shinyapps.io o qualsiasi server Shiny supportato istituzionalmente.
    1. Scarica e installa RStudio seguendo le istruzioni44.
    2. Ottenere l'autorizzazione di distribuzione per Shiny Server. Per il server shinyapps.io, configurare l'account utente seguendo le istruzioni45. Per il server Shiny istituzionale, contattare l'amministratore del server per richiedere le autorizzazioni.
    3. Scaricare il codice sorgente JUMPn41 sul computer locale; l'installazione non è necessaria. Aprire il server. R o ui. R in RStudio e fai clic sul menu a discesa Pubblica su server in alto a destra dell'IDE di RStudio.
    4. Nel pannello Pubblica su account , digitate l'indirizzo del server. Premere il pulsante Pubblica . La corretta distribuzione viene convalidata in caso di reindirizzamento automatico da RStudio al server RShiny in cui è stata distribuita l'applicazione.

2. Esecuzione della demo utilizzando un set di dati di esempio

NOTA: JUMPn offre un'esecuzione demo utilizzando il set di dati di proteomica delle cellule B pubblicato. L'esecuzione della demo illustra un flusso di lavoro semplificato che prende la matrice di quantificazione delle proteine differenzialmente espresse come input ed esegue il clustering di co-espressione, l'arricchimento del percorso e l'analisi della rete PPI in sequenza.

  1. Nella home page di JUMPn (Figura 2), fare clic sul pulsante Inizia analisi per avviare l'analisi JUMPn.
  2. Nell'angolo in basso a sinistra della pagina Inizia analisi (Figura 3), fare clic sul pulsante Carica dati proteomici B Cell Demo ; apparirà una finestra di dialogo che notifica l'esito positivo del caricamento dei dati.
  3. Nell'angolo in basso a destra della pagina, fai clic sul pulsante Invia analisi JUMPn per avviare l'esecuzione della demo utilizzando i parametri predefiniti; apparirà una barra di avanzamento che denota il corso dell'analisi. Attendere fino a quando la barra di avanzamento non è soddisfatta (3 minuti previsti).
  4. Al termine dell'esecuzione della demo, verrà visualizzata una finestra di dialogo con il messaggio di esecuzione riuscita e il percorso assoluto della cartella dei risultati. Clicca su Continua ai risultati per continuare.
  5. La pagina Web guiderà innanzitutto l'utente ai risultati del cluster di coespressione di WGCNA. Fare clic su Visualizza risultati nella finestra di dialogo per continuare.
  6. Trova i modelli di co-espressione proteica a sinistra della pagina dei risultati 1: Output WGCNA . Fare clic sulla casella a discesa Seleziona formato espressione per spostarsi tra due formati di figure:
    1. Selezionare Tendenze per visualizzare il grafico delle tendenze, con ogni riga che rappresenta l'abbondanza di proteine individuali tra i campioni. Il colore di ogni riga rappresenta quanto sia vicino il modello di espressione al consenso del cluster di co-espressione (cioè "autogene" come definito dall'algoritmo WGCNA).
    2. Selezionare Boxplot per visualizzare i modelli di coespressione in formato boxplot per ogni campione.
  7. Visualizza la mappa di calore dell'arricchimento del percorso/ontologia a destra della pagina di output di WGCNA. I percorsi più arricchiti per ciascun cluster sono visualizzati insieme in una mappa di calore, con l'intensità del colore che riflette il valore p regolato da Benjamini-Hochberg.
  8. Scorrere verso il basso la pagina Web per visualizzare il modello di espressione per le singole proteine.
    1. Utilizzare la casella a discesa Selezionare il cluster di co-espressione per visualizzare le proteine di ciascun cluster (l'impostazione predefinita è Cluster 1). Seleziona una proteina specifica nella tabella, su cui il grafico a barre sotto la tabella verrà automaticamente aggiornato per riflettere la sua abbondanza proteica.
    2. Cerca nomi di proteine specifiche utilizzando la casella di ricerca sul lato destro della tabella per una proteina specifica.
  9. Per visualizzare i risultati PPI, fare clic sulla pagina dei risultati 2: Output PPI in alto.
  10. Fare clic su Seleziona il cluster di co-espressione per visualizzare i risultati per uno specifico cluster di co-espressione (l'impostazione predefinita è il cluster 1). Le visualizzazioni di tutti i pannelli delle figure in questa pagina verranno aggiornate per il cluster appena selezionato.
  11. Visualizzare le reti PPI per il cluster di coespressione selezionato nel pannello di sinistra:
    1. Fare clic sulla casella a discesa Seleziona per gruppo per evidenziare i singoli moduli PPI all'interno della rete. Fare clic sulla casella a discesa Seleziona un formato di layout di rete per modificare il layout di rete (l'impostazione predefinita è di Fruchterman Reingold).
    2. Utilizzare il mouse e il trackpad per eseguire i passaggi 2.11.3-2.11.5.
    3. Ingrandire o rimpicciolire la rete PPI in base alle esigenze. I nomi dei geni di ciascun nodo della rete verranno mostrati quando vengono ingranditi a sufficienza.
    4. Quando si esegue lo zoom avanti, selezionare e fare clic su una determinata proteina per evidenziare quella proteina e i suoi vicini di rete.
    5. Trascinare un determinato nodo (proteina) nella rete per cambiarne la posizione nel layout; in tal modo il layout di rete può essere riorganizzato dall'utente.
  12. Nel pannello di destra della pagina dei risultati PPI visualizzare le informazioni a livello di cluster di coespressione che facilitano l'interpretazione dei risultati PPI:
    1. Visualizzare il modello di coespressione del cluster selezionato come boxplot per impostazione predefinita.
    2. Fare clic sulla casella a discesa Seleziona il formato dell'espressione per ulteriori informazioni o visualizzazioni come indicato nei passaggi 2.12.3-2.12.5.
    3. Selezionare Tendenze per visualizzare il grafico delle tendenze per il modello di coespressione.
    4. Selezionare Pathway Barplot per mostrare percorsi significativamente arricchiti per il cluster di co-espressione.
    5. Selezionate Diagramma cerchio percorso (Pathway Circle Plot ) per visualizzare percorsi significativamente arricchiti per il cluster di coespressione nel formato di grafico cerchio.
  13. Scorrere verso il basso la pagina Web Dei risultati 2: Output PPI per visualizzare i risultati a livello di singolo modulo PPI. Fare clic sulla casella a discesa Seleziona il modulo per selezionare un modulo PPI specifico per la visualizzazione (Cluster1: Modulo 1 viene visualizzato per impostazione predefinita).
  14. Visualizza il modulo PPI sul pannello di sinistra. Per manipolare la visualizzazione di rete, attenersi alla procedura 2.11.2-2.11.5.
  15. Visualizza i risultati dell'arricchimento del percorso/ontologia sul pannello di destra. Fare clic sulla casella a discesa Seleziona lo stile di annotazione del percorso per ulteriori informazioni e visualizzare:
    1. Selezionare Barplot per mostrare percorsi significativamente arricchiti per il modulo PPI selezionato.
    2. Selezionate Plot cerchio (Circle Plot ) per visualizzare percorsi significativamente arricchiti per il modulo PPI selezionato nel formato di un grafico circolare.
    3. Selezionare Heatmap per mostrare i percorsi significativamente arricchiti e i nomi dei geni associati dal modulo PPI selezionato.
    4. Selezionare Tabella per visualizzare i risultati dettagliati dell'arricchimento del percorso, inclusi il nome dei termini di pathways/ontologia, i nomi dei geni e il valore P dal test esatto di Fisher.
  16. Visualizzare la tabella di pubblicazione in formato foglio di calcolo: seguire il percorso assoluto (stampato nella parte superiore di entrambe le pagine dei risultati) e trovare la tabella del foglio di calcolo di pubblicazione denominata ComprehensiveSummaryTables.xlsx.

3. Preparazione del file di input e caricamento su JUMPn

NOTA: JUMPn prende come input la matrice di quantificazione delle proteine differenzialmente espresse (metodo supervisionato) o delle proteine più variabili (metodo non supervisionato). Se l'obiettivo del progetto è comprendere le proteine cambiate in più condizioni (ad esempio, diversi gruppi di malattie o analisi di serie temporali del processo biologico), è preferibile il metodo supervisionato per eseguire l'analisi DE; in caso contrario, un approccio non supervisionato di selezione delle proteine più variabili può essere utilizzato a scopo esplorativo.

  1. Generare la tabella di quantificazione delle proteine, con ogni proteina come righe e ogni campione come colonne. Raggiungi questo obiettivo attraverso la moderna suite software di proteomica basata sulla spettrometria di massa (ad esempio, JUMP suite 13,14,39, Proteome Discoverer, Maxquant15,46).
  2. Definire il proteoma variabile.
    1. Utilizzare i risultati dell'analisi statistica forniti dalla suite di software di proteomica per definire le proteine differenzialmente espresse (DE) (ad esempio, con valore p aggiustato < 0,05).
    2. In alternativa, gli utenti possono seguire l'esempio R codice47 per definire DE o la maggior parte delle proteine variabili.
  3. Formattare il file di input utilizzando il proteoma variabile definito.
    NOTA: il formato di file di input richiesto (Figura 4) include una riga di intestazione; le colonne includono l'adesione alle proteine (o eventuali ID univoci), GN (simboli genetici ufficiali), descrizione delle proteine (o qualsiasi informazione fornita dall'utente), seguita dalla quantificazione proteica dei singoli campioni.
    1. Seguire l'ordine delle colonne specificato nel passaggio 3.1, ma i nomi delle colonne dell'intestazione sono flessibili per l'utente.
    2. Per il proteoma quantificato TMT (o simile), utilizzare l'intensità del reporter TMT riepilogata come valori di quantificazione dell'input. Per i dati privi di etichette, utilizzare conteggi spettrali normalizzati (ad esempio, NSAF48) o metodo basato sull'intensità (ad esempio, intensità LFQ o intensità della proteina iBAQ riportata da Maxquant46).
    3. I valori mancanti sono consentiti per l'analisi JUMPn. Assicurarsi di etichettarli come NA nella matrice di quantificazione. Tuttavia, si raccomanda di utilizzare proteine con quantificazione solo in oltre il 50% dei campioni.
    4. Salvare il file di input risultante in formato .txt, .xlsx o .csv (tutti e tre sono supportati da JUMPn).
  4. Carica file di input:
    1. Fare clic sul pulsante Browser e selezionare il file di input (Figura 3, pannello di sinistra); il formato di file (xlsx, csv e txt sono supportati) verrà rilevato automaticamente.
    2. Se il file di input contiene valori di quantificazione simili all'intensità (ad esempio, quelli generati dalla suite JUMP39) o simili al rapporto (ad esempio, da Proteome Discoverer), selezionare per l'opzione Esegui log2-trasformazione dei dati; in caso contrario, i dati potrebbero essere già stati trasformati nel registro, quindi selezionare No per questa opzione.

4. Analisi del clustering di co-espressione

NOTA: Il nostro gruppo 25,26,27 e altri 28,29,31 hanno dimostrato WGCNA 49 un metodo efficace per l'analisi del clustering di co-espressione della proteomica quantitativa. JUMPn segue una procedura in 3 fasi per l'analisi WGCNA25,50: (i) definizione iniziale di cluster gene/proteina di co-espressione mediante taglio dinamico dell'albero51 basato sulla matrice di sovrapposizione topologica (TOM; determinato dalle somiglianze di quantificazione tra geni/proteine); ii) fusione di cluster simili per ridurre la ridondanza (sulla base del dendrogramma delle somiglianze degli autogeni); e (iii) assegnazione finale di geni/proteine a ciascun cluster che superano il limite minimo di correlazione di Pearson.

  1. Configurare i parametri WGCNA (Figura 3, pannello centrale). I tre parametri seguenti controllano rispettivamente i tre passaggi:
    1. Impostare la dimensione minima del cluster su 30. Questo parametro definisce il numero minimo di proteine richieste per ogni cluster di co-espressione nella fase iniziale (i) del taglio dinamico dinamico ibrido basato su TOM. Maggiore è il valore, minore è il numero di cluster restituiti dall'algoritmo.
    2. Impostare la distanza minima del cluster su 0,2. L'aumento di questo valore (ad esempio, da 0,2 a 0,3) può causare una maggiore fusione di cluster durante il passaggio (ii), con conseguente riduzione del numero di cluster.
    3. Impostare il kME minimo su 0,7. Le proteine saranno assegnate al cluster più correlato definito nel passaggio (ii), ma solo le proteine con correlazione di Pearson che supera questa soglia saranno mantenute. Le proteine che falliscono in questa fase non saranno assegnate a nessun cluster (cluster 'NA' per le proteine fallite nel rapporto finale).
  2. Avviare l'analisi. Esistono due modi per inviare l'analisi del clustering di coespressione:
    1. Fare clic sul pulsante Invia analisi JUMPn nell'angolo in basso a destra per avviare automaticamente l'analisi completa di WGCNA seguita dall'analisi della rete PPI.
    2. In alternativa, selezionare per eseguire solo il passaggio WGCNA (in particolare ai fini dell'ottimizzazione dei parametri; vedere i passaggi 4.2.3-4.2.4):
    3. Fare clic sul pulsante Parametri avanzati nella parte inferiore della pagina Inizia analisi ; verrà visualizzata una nuova finestra dei parametri. Nel widget in basso, Seleziona modalità di analisi, seleziona Solo WGCNA, quindi fai clic su Ignora per continuare.
    4. Nella pagina Inizia analisi , fare clic sul pulsante Invia analisi JUMPn .
    5. In entrambi i casi sopra, una barra di avanzamento apparirà al momento dell'invio dell'analisi.
      NOTA: al termine dell'analisi (in genere < 1 minuto per l'analisi solo WGCNA e <3 minuti per l'analisi completa), verrà visualizzata una finestra di dialogo con un messaggio di esecuzione riuscita e il percorso assoluto della cartella dei risultati.
  3. Esaminare i risultati del WGCNA come illustrato nei passaggi 2.4-2.8 (Figura 5). Si noti che il percorso assoluto del file co_exp_clusters_3colums.txt è evidenziato nella parte superiore della pagina dei risultati: WGCNA Output per registrare l'appartenenza al cluster di ciascuna proteina e utilizzarla come input per l'analisi PPI Only .
  4. Risoluzione dei problemi. Vengono discussi i seguenti tre casi comuni. Una volta aggiornati i parametri come illustrato di seguito, seguire i passaggi 4.2.2-4.2.4 per generare nuovi risultati WGCNA.
    1. Se dall'algoritmo è previsto un importante modello di co-espressione ma non è stato raggiunto dall'algoritmo, seguire i passaggi 4.4.2-4.4.4
    2. Un cluster mancante è particolarmente probabile per piccoli cluster di co-espressione, cioè solo un numero limitato (ad esempio, <30) di proteine che presentano questo modello. Prima della nuova analisi, riesaminare il file di input della matrice di quantificazione delle proteine e individuare diverse proteine di controllo positive che aderiscono a quell'importante modello di co-espressione.
    3. Per salvare i cluster di piccole dimensioni, ridurre la dimensione minima del cluster (ad esempio, 10; la dimensione del cluster inferiore a 10 potrebbe non essere robusta, quindi non consigliata) e diminuire la distanza minima del cluster (ad esempio, 0,1; qui è consentita anche l'impostazione come 0, il che significa che l'unione automatica del cluster verrà saltata).
    4. Dopo aver eseguito il passaggio di clustering di co-espressione con i parametri aggiornati, in primo luogo, verificare se il cluster viene salvato dai grafici del modello di co-espressione, quindi controllare i controlli positivi cercando le loro accessioni proteiche da Detailed Protein Quantification (assicurarsi di selezionare il cluster di co-espressione appropriato dal widget a discesa sul lato sinistro prima della ricerca).
      NOTA: per il ripristino potrebbero essere necessarie più iterazioni di ottimizzazione ed esecuzione dei parametri.
    5. Se ci sono troppe proteine che non possono essere assegnate a nessun cluster, seguire i passaggi 4.4.6-4.4.7.
      NOTA: Di solito, una piccola percentuale (in genere <10%) di proteine potrebbe non essere assegnata a nessun cluster in quanto potrebbero essere proteine anomale che non hanno seguito nessuno dei modelli di espressione comuni del set di dati. Tuttavia, se tale percentuale è significativa (ad esempio, >30%), suggerisce che esistono ulteriori modelli di co-espressione che non possono essere ignorati.
    6. Ridurre i parametri Dimensione minima cluster e Distanza minima cluster per alleviare questa situazione rilevando "nuovi" cluster di coespressione.
    7. Inoltre, ridurre il parametro Minimal Pearson Correlation (kME) per ridurre queste proteine "NA cluster".
      NOTA: l'ottimizzazione di questo parametro non genererà nuovi cluster, ma aumenterà invece la dimensione dei cluster "esistenti" accettando più proteine precedentemente fallite con la soglia inferiore; tuttavia, ciò aumenterà anche l'eterogeneità di ciascun cluster, poiché ora sono consentite proteine più rumorose.
    8. Due cluster hanno una differenza molto minore di modelli; unirli in un unico cluster seguendo i passaggi 4.4.9-4.4.11.
    9. Aumentare il parametro Minimal Cluster Distance per risolvere il problema.
    10. Tuttavia, in alcune situazioni, l'algoritmo potrebbe non restituire mai il modello desiderato; in un istante del genere, regolare o modificare manualmente l'appartenenza al cluster nel file co_exp_clusters_3colums.txt (file dal passaggio 4.3) da unire.
    11. Prendi il file post-modificato come input per l'analisi della rete PPI a valle. In caso di modifica manuale, giustificare i criteri di assegnazione del cluster e registrare la procedura di modifica manuale.

5. Analisi della rete di interazione proteina-proteina

NOTA: sovrapponendo cluster di coespressione alla rete PPI, ogni cluster di coespressione viene ulteriormente stratificato in moduli PPI più piccoli. L'analisi viene eseguita per ogni cluster di co-espressione e comprende due fasi: nella prima fase, JUMPn sovrappone le proteine del cluster di co-espressione alla rete PPI e trova tutti i componenti collegati (cioè più cluster di nodi/proteine connessi; ad esempio, vedi Figura 6A); quindi, comunità o moduli (di nodi densamente connessi) verranno rilevati per ciascun componente connesso iterativamente utilizzando il metodo TOM (Topological Overlap Matrix)52.

  1. Configurare i parametri per l'analisi della rete PPI (Figura 3, pannello di destra).
    1. Impostare La dimensione minima del modulo PPI su 2. Questo parametro definisce la dimensione minima dei componenti disconnessi dall'analisi della prima fase. Qualsiasi componente più piccolo del parametro specificato verrà rimosso dai risultati finali.
    2. Impostare la dimensione massima del modulo PPI su 40. I componenti di grandi dimensioni e disconnessi che superano questa soglia saranno sottoposti a un'analisi basata su TOM di seconda fase. L'analisi del secondo stadio dividerà ulteriormente ogni componente di grandi dimensioni in moduli più piccoli: ogni modulo contiene presumibilmente proteine più densamente connesse rispetto al componente originale nel suo complesso.
  2. Avviare l'analisi. Esistono due modi per inviare l'analisi della rete PPI:
    1. Premere il pulsante Invia analisi JUMPn per eseguire automaticamente l'analisi PPI dopo l'analisi WGCNA per impostazione predefinita.
    2. In alternativa, caricare i risultati del cluster di coespressione personalizzati ed eseguire l'analisi solo PPI seguendo i passaggi 5.2.3-5.2.5.
    3. Preparare il file di input seguendo il formato del file co_exp_clusters_3colums.txt (vedere la sottosezione 4.4).
    4. Fare clic sul pulsante Parametri avanzati nella parte inferiore della pagina Inizia analisi ; verrà visualizzata una nuova finestra dei parametri. Nella sessione superiore Upload Co-Expression Cluster Result for 'PPI Only' Analysis, fare clic su Browser per caricare il file di input preparato al passaggio 5.2.3.
    5. Nel widget in basso, Seleziona modalità di analisi, seleziona Solo PPI, quindi fai clic su Ignora per continuare. Nella pagina Inizia analisi , fare clic sul pulsante Invia analisi JUMPn .
  3. Una volta terminata l'analisi (in genere <3 min), esaminare i risultati PPI come illustrato nei passaggi 2.10-2.15 (Figura 6).
  4. Passaggio avanzato opzionale) Regolare la modularizzazione PPI regolando i parametri:
    1. Aumentare il parametro Maximal Module Size per consentire più proteine incluse nei risultati PPI. Carica una rete PPI personalizzata per coprire le interazioni non documentate, seguendo i passaggi 5.4.2-5.4.3.
    2. Fare clic sul pulsante Parametri avanzati nella parte inferiore della pagina Inizia analisi ; verrà visualizzata una nuova finestra dei parametri. Preparare il file PPI personalizzato, che contiene tre colonne nel formato , C onnection e ; qui sono presentati dai nomi ufficiali dei geni di ciascuna proteina.
    3. In Carica un database PPI, fare clic sul pulsante Sfoglia per caricare il file PPI personalizzato.

6. Analisi dell'arricchimento del percorso

NOTA: le strutture gerarchiche derivate da JUMPn di entrambi i cluster di co-espressione e i moduli PPI all'interno vengono automaticamente annotate con percorsi sovrarappresentati utilizzando il test esatto di Fisher. I database pathway/topologici utilizzati includono Gene Ontology (GO), KEGG, Hallmark e Reactome. Gli utenti possono utilizzare opzioni avanzate per caricare database personalizzati per l'analisi (ad esempio, nel caso di analisi di dati di specie non umane).

  1. Per impostazione predefinita, l'analisi dell'arricchimento del percorso viene avviata automaticamente con il clustering di co-espressione e l'analisi della rete PPI.
  2. Visualizza i risultati dell'arricchimento del percorso:
    1. Seguire i passaggi 2.7, 2.12 e 2.15 per visualizzare formati diversi nelle pagine dei risultati. Visualizzare i risultati dettagliati nella tabella di pubblicazione del foglio di calcolo nel file ComprehensiveSummaryTables.xlsx (passaggio 2.16).
  3. (Passaggio avanzato opzionale) Carica un database personalizzato per l'analisi dell'arricchimento del percorso:
    1. Preparare il file di base del gene, che in genere contiene i nomi ufficiali dei geni di tutti i geni di una specie.
    2. Preparare il file della libreria di ontologia seguendo i passaggi 6.3.3-6.3.4.
    3. Scarica i file della libreria di ontologia da siti Web pubblici, tra cui EnrichR53 e MSigDB54. Ad esempio, scarica l'ontologia da Drosophila dal sito Web EnrichR55.
    4. Modifica il file scaricato per il formato richiesto con due colonne: il nome del percorso come prima colonna e quindi i simboli genetici ufficiali (separati da "/") come seconda colonna. Il formato di file dettagliato è descritto nella pagina di aiuto del software JUMPn R shiny.
      NOTA: trova file di esempio di background genetico e libreria di ontologia (usando Drosophila come istanza) nel sito JUMPn GitHub56.
    5. Fare clic sul pulsante Parametri avanzati nella parte inferiore della pagina Inizia analisi; verrà visualizzata una nuova finestra dei parametri.
    6. Trova Carica un file in background per l'elemento Analisi arricchimento percorso e fai clic su Browser per caricare il file in background preparato al passaggio 6.3.1. Quindi, nella sessione, selezionare Lo sfondo da utilizzare per l'analisi dell'arricchimento del percorso, fare clic su Sfondo fornito dall'utente.
    7. Trova Carica un file di libreria di ontologia per l'elemento analisi dell'arricchimento del percorso e fai clic su Browser per caricare il file della libreria di ontologia preparato ai passaggi 6.3.2-6.3.4. Quindi, nella sessione, selezionare Database per l'analisi dell'arricchimento del percorso, fare clic su Database fornito dall'utente in formato .xlsx.
  4. Fare clic sul pulsante Invia analisi JUMPn nell'angolo in basso a destra per avviare l'analisi utilizzando il database personalizzato.

7. Analisi di dataset con campione di grandi dimensioni

NOTA: JUMPn supporta l'analisi di set di dati con campioni di grandi dimensioni (fino a 200 campioni testati). Per facilitare la visualizzazione di un campione di grandi dimensioni, è necessario un file aggiuntivo (denominato "meta file") che specifichi il gruppo di esempio per facilitare la visualizzazione dei risultati del clustering di coespressione.

  1. Prepara e carica il meta file.
    1. Preparare il meta file che specifica le informazioni sui gruppi (ad esempio, gruppi di controllo e di malattia) per ciascun campione seguendo i passaggi 7.1.2-7.1.3.
    2. Assicurarsi che il meta file contenga almeno due colonne: la colonna 1 deve contenere i nomi dei campioni identici ai nomi delle colonne e l'ordine del file della matrice di quantificazione delle proteine (come preparato nel passaggio 3.3); La colonna 2 in poi verrà utilizzata per l'assegnazione di gruppo per qualsiasi numero di funzionalità definite dall'utente. Il numero di colonne è flessibile.
    3. Assicurarsi che la prima riga del meta file contenga i nomi delle colonne per ogni colonna; dalla seconda riga in poi, dovrebbero essere elencate le informazioni sui singoli campioni di gruppi o altre caratteristiche (ad esempio, sesso, età, trattamento, ecc.).
    4. Carica il meta file facendo clic sul pulsante Parametri avanzati nella parte inferiore della pagina Inizia analisi ; verrà visualizzata una nuova finestra dei parametri. Procedere al passaggio 7.1.5
    5. Trova carica un elemento Meta File e fai clic su Browser per caricare il file in background. Se JUMPn rileva il formato imprevisto o nomi di esempio non corrispondenti, verrà visualizzato un messaggio di errore per un'ulteriore formattazione del meta file (passaggi 7.1.1-7.1.3).
  2. Regolare i parametri per l'analisi del clustering di co-espressione: impostare Correlazione minima di Pearson su 0,2. Questo parametro deve essere allentato a causa della maggiore dimensione del campione.
  3. Fare clic sul pulsante Invia analisi JUMPn nell'angolo in basso a destra per inviare l'analisi.
  4. Visualizza i risultati dell'analisi: tutti i dati in uscita sono uguali ad eccezione della visualizzazione dei modelli di cluster di coespressione.
    1. Nella pagina Risultati Pagina 1: Output WGCNA visualizzare i cluster di coespressione come boxplot con esempi stratificati dai gruppi di campioni o dalle funzionalità definiti dall'utente. Ogni punto nel grafico rappresenta l'autogene (cioè il modello di consenso del cluster) calcolato dall'algoritmo WGCNA.
    2. Se l'utente ha fornito più funzionalità (ad esempio, età, sesso, trattamento, ecc.) per raggruppare i campioni, fare clic sulla casella a discesa Seleziona il formato dell'espressione per selezionare un'altra funzionalità per raggruppare i campioni.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Abbiamo utilizzato i nostri set di dati di proteomica profondapubblicati 25,26,27,30 (Figure 5 e Figura 6) e le simulazioni di dati57 (Tabella 1) per ottimizzare e valutare le prestazioni di JUMPn. Per l'analisi del clustering proteico di co-espressione tramite WGCNA, si consiglia di utilizzare proteine significativamente modificate tra i campioni come input (ad esempio, proteine differenzialmente espresse (DE) rilevate dall'analisi statistica). Mentre l'inclusione di proteine non DE per l'analisi può comportare più cluster di co-espressione restituiti dal programma (a causa di maggiori dimensioni di input), ipotizziamo che la miscelazione del segnale reale (ad esempio, le proteine DE) con lo sfondo (il restante non-DE) per l'analisi a livello di sistema possa diluire il segnale e mascherare la struttura della rete sottostante. Per testare questo, l'analisi di simulazione è stata eseguita in due diverse condizioni: i) proteoma altamente dinamico (ad esempio, alterato al 50% nell'attivazione delle cellule T25) e ii) proteoma relativamente stabile (ad esempio, il proteoma del 2% è cambiato in AD26). Per il proteoma altamente dinamico, sei cluster di co-espressione sono stati simulati dal 50% di proteoma seguendo le stesse dimensioni del cluster e gli stessi modelli di espressione (cioè gli autogeni) dei nostri risultati pubblicati25. Allo stesso modo, per un proteoma relativamente stabile, abbiamo simulato tre cluster dal proteoma al 2% seguendo il nostro recente studio di proteomica AD26. Come previsto, l'aumento del numero di proteine in ingresso aumenta il numero di cluster rilevati (Tabella 1). Per il proteoma altamente dinamico, l'uso di tutte le proteine come input può catturare la maggior parte dei cluster reali (5 dei 6 cluster in buona fede simulati; richiamo dell'83%) con una precisione del 63% (5 degli 8 cluster restituiti sono veri positivi; cioè, i restanti 3 cluster sono falsi positivi). Tuttavia, per il proteoma relativamente stabile, l'aumento della dimensione di input con proteine non DE riduce drasticamente la precisione (Tabella 1). Ad esempio, utilizzando l'intero proteoma come input, vengono rilevati 169 moduli, di cui solo 2 sono corretti (precisione dell'1,2%; il restante 98,8% dei moduli rilevati sono falsi positivi). Questi risultati indicano quindi che la scelta del solo proteoma modificato come input aumenterà la precisione dell'analisi di co-espressione, specialmente per il proteoma relativamente stabile.

Dopo la rilevazione di cluster proteici di co-espressione, ogni cluster sarà annotato da JUMPn utilizzando l'analisi di arricchimento del percorso (Figura 1). La versione attuale include quattro database di percorsi comunemente usati, tra cui Gene Ontology (GO), KEGG, Hallmark e Reactome. Gli utenti possono anche compilare il proprio database in formato GMT54, che può essere caricato in JUMPn. L'integrazione di più database per l'analisi dell'arricchimento del percorso può fornire viste più complete; tuttavia, le dimensioni dei diversi database pathway variano in modo significativo, il che può indurre distorsioni indesiderate a determinati database (specialmente grandi). Due soluzioni sono fornite all'interno di JUMPn. In primo luogo, utilizzando un approccio statistico, i valori nominali di p vengono aggiustati (o penalizzati) per il test di ipotesi multiple con il metodo Benjamini-Hochberg58, con un database più grande che richiede un valore p nominale più significativo per raggiungere lo stesso livello p aggiustato rispetto a quello di un piccolo database. In secondo luogo, JUMPn evidenzia separatamente il percorso più importante arricchito per ciascun database, quindi vengono sempre visualizzati i percorsi arricchiti principali specifici del database.

Simile all'analisi di arricchimento del percorso, una rete PPI composita è stata compilata combinando STRING59,60, BioPlex 61,62 e InWeb_IM63 database. Il database BioPlex è stato creato utilizzando la purificazione dell'affinità seguita dalla spettrometria di massa nelle linee cellulari umane, mentre STRING e InWeb contengono informazioni provenienti da varie fonti. Pertanto, i database STRING e InWeb sono stati ulteriormente filtrati in base al punteggio edge per garantire un'alta qualità, con il cutoff determinato dal meglio adattato ai criteri senza scala24. L'ultima rete PPI unita copre più di 20.000 geni umani con ~ 1.100.000 bordi (Tabella 2). Questo interattoma completo è incluso e pubblicato in un bundle con il nostro software JUMPn per l'analisi PPI sensibile.

Al termine dell'analisi, JUMPn genera il file di foglio di calcolo della tabella di pubblicazione ComprehensiveSummaryTables.xlsx, costituito da tre singoli fogli. Il primo foglio contiene i risultati dei cluster proteici di co-espressione con una proteina per riga: la prima colonna indica l'appartenenza al cluster di ciascuna proteina di input e le colonne rimanenti vengono copiate dal file di input dell'utente, che contiene l'adesione della proteina, i nomi dei geni, la descrizione della proteina e la quantificazione dei singoli campioni. Il secondo foglio contiene i risultati dell'analisi dell'arricchimento del percorso, mostrando percorsi significativi arricchiti in ciascun cluster di co-espressione. Questa tabella è prima organizzata da diversi database di pathway, quindi ordinata per cluster di co-espressione, percorsi funzionali, il numero totale di geni pathway, il numero totale di geni nel singolo cluster, i numeri e i nomi dei geni sovrapposti, la piega di arricchimento, i valori P derivati dal test esatto di Fisher e il tasso di falsa scoperta di Benjamini-Hochberg. Il terzo foglio contiene i risultati dell'analisi del modulo PPI con un modulo PPI per riga; le sue colonne includono il nome del modulo (definito dalla sua appartenenza alla co-espressione e dall'ID del modulo, ad esempio , Cluster1_Module1), le proteine e i numeri mappati, nonché i percorsi funzionali definiti cercando le proteine del modulo rispetto ai database dei percorsi.

Figure 1
Figura 1: Flusso di lavoro di JUMPn. La matrice di quantificazione della variabile superiore delle proteine differenzialmente espresse (DE) viene presa come input e le proteine sono raggruppate in cluster di co-espressione dall'algoritmo WGCNA. Ogni co-espressione viene quindi annotata mediante analisi di arricchimento del percorso e ulteriormente sovrapposta alla rete di interazione proteina-proteina (PPI) per l'identificazione di moduli proteici densamente connessi. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 2
Figura 2: Pagina di benvenuto di JUMPn. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 3
Figura 3: Pagina di input di JUMPn. La pagina include il pannello di caricamento del file di input e i pannelli di configurazione dei parametri per il clustering di co-espressione e l'analisi della rete PPI, rispettivamente. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 4
Figura 4: Esempio di file di input della matrice di quantificazione. Le colonne includono l'adesione alle proteine (o eventuali ID univoci), GN (simboli genetici ufficiali), descrizione delle proteine (o qualsiasi informazione fornita dall'utente), seguita dalla quantificazione proteica dei singoli campioni. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 5
Figura 5: Risultati dei cluster di coespressione riportati da JUMPn. Vengono mostrati i modelli di clustering di co-espressione (A), la mappa di calore del percorso arricchito in alto tra i cluster (B) e l'abbondanza dettagliata di proteine per ciascun cluster (C). Gli utenti possono selezionare varie opzioni di visualizzazione e navigare tra diversi cluster tramite la casella di selezione. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 6
Figura 6: Risultati dell'analisi della rete PPI riportati da JUMPn. Viene mostrata la rete globale inter-modulo (A), seguita da una sottorete di singoli moduli (B) e dai suoi percorsi significativamente arricchiti (C). Gli utenti possono selezionare varie opzioni di visualizzazione e navigare tra diversi cluster e moduli tramite la casella di selezione. Fare clic qui per visualizzare una versione più grande di questa figura.

% proteine superiori per l'analisi # moduli simulati # moduli rilevati # moduli ricatturati1 precisione2 richiamo3
Proteoma altamente dinamico (ad esempio, durante l'attivazione delle cellule T): 6 moduli simulati dal 50% di proteoma
2 6 2 2 1 0.33
5 6 2 2 1 0.33
10 6 3 3 1 0.5
20 6 4 4 1 0.67
50 6 6 6 1 1
100 6 8 5 0.63 0.83
Proteoma relativamente stabile (ad esempio, durante la patogenesi dell'AD): 3 moduli simulati dal proteoma al 2%
1 3 1 1 1 0.33
2 3 3 3 1 1
5 3 8 3 0.38 1
10 3 13 3 0.23 1
20 3 19 3 0.16 1
50 3 71 2 0.03 0.67
100 3 169 2 0.01 0.67
1 Un modulo ricatturato è un modulo rilevato il cui autogene è altamente correlato (Pearson R > 0,95) con uno degli autogeni simulati.
2precisione = # moduli ricatturati / # moduli rilevati
3richiamo = # moduli ricatturati / # moduli simulati

Tabella 1: Studi di simulazione del rilevamento di cluster di co-espressione.

Reti PPI Lol · di Nodi Lol · di bordi
BioPlex 3.0 combinato (293T+HCT116) 14,551 1,67,399
InBio_Map_core_2016_09_12 17,429 6,08,166
STRINGA (v11.0) 18,954 5,87,482
Rete PPI composita 20,485 11,52,607

Tabella 2: Statistiche delle reti di interazione proteina-proteina umana (PPI). Le reti PPI sono filtrate in base al punteggio edge per garantire un'alta qualità, con il cutoff del punteggio determinato dal meglio che si adatta ai criteri senza scala.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Qui abbiamo introdotto il nostro software JUMPn e il suo protocollo, che sono stati applicati in più progetti per la dissezione di meccanismi molecolari utilizzando dati quantitativi profondidi proteomica 25,26,27,30,64. Il software e il protocollo JUMPn sono stati completamente ottimizzati, compresa la considerazione delle proteine DE per l'analisi della rete di co-espressione, una compilazione di una rete PPI completa e di alta qualità, un'analisi statistica rigorosa (ad esempio, prendendo in considerazione test di ipotesi multiple) con un'interfaccia semplificata e intuitiva. Molteplici moduli proteici identificati da JUMPn sono stati convalidati da studi di esperimenti funzionali25,27 o coorti di pazienti indipendenti26, esemplificando JUMPn come strumento efficace per identificare molecole chiave e percorsi alla base di diversi processi biologici.

I passaggi critici di questo protocollo includono la generazione di risultati ottimali di cluster di co-espressione e moduli PPI, che possono richiedere più iterazioni di ottimizzazione dei parametri, nonché il caricamento di una rete PPI personalizzata. Nel nostro protocollo, abbiamo discusso scenari pratici comuni, tra cui come gestire la mancanza di cluster importanti, un'alta percentuale di proteine non assegnate, la fusione di due cluster ridondanti e la mancanza di proteine importanti all'interno dei moduli PPI. Raccomandiamo all'utente di preparare diverse proteine di controllo positive e confermare la loro presenza nei cluster di co-espressione finale. A volte un controllo positivo non sarà mai incluso nei moduli PPI finali a causa di un database di rete PPI incompleto. Per alleviare parzialmente questo, abbiamo aggiornato la nostra rete PPI con le ultime versioni di BioPlex V362 e STRING V1160. Inoltre, JUMPn consente agli utenti di caricare reti PPI personalizzate. Ad esempio, nuove interazioni derivate da esperimenti di purificazione di affinità-spettrometria di massa (AP-MS) che utilizzano un'importante proteina di controllo positivo come esca possono essere integrate con l'attuale rete PPI composita per un'analisi più personalizzata.

Utilizzando il quadro di analisi dell'arricchimento del percorso per ciascun cluster proteico di co-espressione, JUMPn può essere esteso per dedurre l'attività del fattore di trascrizione (TF). L'ipotesi è che se esiste una sovrarappresentazione di geni bersaglio di uno specifico TF in un cluster di co-espressione (cioè, questi bersagli sono espressi in modo differenziale e seguono lo stesso modello di espressione), l'attività di quel TF è potenzialmente alterata in tutte le condizioni sperimentali perché la sua abbondanza di proteine bersaglio viene modificata in modo coerente. Tecnicamente, questo può essere ottenuto semplicemente tramite JUMPn sostituendo l'attuale database dei percorsi con il database TF-target (ad esempio, dal progetto ENCODE65). Allo stesso modo, l'attività della chinasi può anche essere dedotta sfruttando il database del substrato chinasico, prendendo come input la fosfoproteomica profonda. Ad esempio, abbiamo identificato con successo TF e chinasi disregolate alla base della patogenesi del tumore al cervello64. In effetti, l'utilizzo dell'approccio di rete per l'inferenza dell'attività è emerso come un approccio potente per identificare i driver disregolati per le malattie umane66,67.

Il software JUMPn è facilmente applicabile a una vasta gamma di tipi di dati. Anche se il proteoma quantificato con etichettatura isobarica è stato usato come esempio illustrativo, lo stesso protocollo è applicabile anche per i dati di proteomica quantificati senza etichetta, così come per i profili di espressione a livello di genoma (ad esempio, quantificati da RNA-seq o microarray; vedi il nostro recente esempio di applicazione di JUMPn per entrambi i profili di espressione genica e proteica27). I dati fosfoproteomici potrebbero anche essere presi da JUMPn per identificare fosfositi co-espressi, seguiti dall'inferenza dell'attività chinasica25. Inoltre, saranno appropriati anche i dati interattomici generati dall'approccio AP-MS, con i quali le proteine preda che seguono la forza di interazione dell'esca e la stechiometria simili formeranno cluster di co-espressione e si sovrapporranno ulteriormente agli IPP noti per l'interpretazione dei dati68.

Esistono limitazioni per la versione corrente di JUMPn. Innanzitutto, la procedura di installazione è basata su riga di comando e richiede conoscenze di base dell'informatica. Ciò ostacola un uso più ampio di JUMPn, specialmente da parte di biologi senza background computazionale. Un'implementazione più ideale consiste nel pubblicare JUMPn su un server online. In secondo luogo, gli attuali database sono incentrati sull'uomo a causa della nostra attenzione agli studi sulle malattie umane. Si noti che i dati di proteomica generati dai topi sono stati analizzati anche da JUMPn utilizzando tali database incentrati sull'uomo25,27, supponendo che la maggior parte degli IPP siano conservati in entrambe le specie69,70. La segnalazione specifica del topo non sarà catturata da questo approccio, ma non è di interesse in quegli studi sull'uomo. Tuttavia, per i sistemi modello non mammiferi (ad esempio, zebrafish, mosca o lievito), i database specifici per specie dovrebbero essere preparati e caricati su JUMPn utilizzando le opzioni avanzate. Le risorse di specie aggiuntive possono essere fornite tramite il futuro rilascio di JUMPn. In terzo luogo, l'attuale fase dell'analisi ontologica / pathway richiede molto tempo, che può essere ulteriormente ottimizzato dal calcolo parallelo.

In conclusione, presentiamo il software e il protocollo JUMPn per esplorare i dati quantitativi di proteomica per identificare e visualizzare moduli proteici co-espressi e potenzialmente fisicamente interagenti mediante l'approccio di biologia dei sistemi. Le caratteristiche chiave che distinguono JUMPn dagli altri 53,71,72 includono: (i) JUMPn integra e semplifica quattro componenti principali dell'analisi del percorso e della rete (Figura 1); (ii) A differenza della maggior parte dei software di analisi dei percorsi che prendono come input un semplice elenco di geni, JUMPn parte dalla matrice di quantificazione, mediante la quale le informazioni quantitative possono essere perfettamente integrate con percorsi e reti documentati in letteratura; (iii) Sia i cluster proteici di co-espressione che i moduli di interazione sono automaticamente annotati da percorsi noti e visualizzati tramite la piattaforma interagente R/shiny utilizzando un browser web di facile utilizzo; (iv) I risultati finali sono organizzati in tre tabelle che sono facilmente pubblicabili in formato Excel. Pertanto, ci aspettiamo che il JUMPn e questo protocollo saranno ampiamente applicabili a molti studi per i meccanismi di dissezione utilizzando dati quantitativi di proteomica.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non hanno nulla da rivelare.

Acknowledgments

Il sostegno finanziario è stato fornito dal National Institutes of Health (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 e U54NS110435) e ALSAC (American Lebanese Syrian Associated Charities). L'analisi della SM è stata effettuata nel Centro di Proteomica e Metabolomica del St. Jude Children's Research Hospital, che è stato parzialmente supportato dal NIH Cancer Center Support Grant (P30CA021765). Il contenuto è di esclusiva responsabilità degli autori e non rappresenta necessariamente le opinioni ufficiali del National Institutes of Health.

Materials

Name Company Catalog Number Comments
MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7. Apple Inc. MacBook Pro 13'' Hardware used for software development and testing
Anoconda Anaconda, Inc. version 4.9.2 https://docs.anaconda.com/anaconda/install/
miniconda Anaconda, Inc. version 4.9.2 https://docs.conda.io/en/latest/miniconda.html
RStudio RStudio Public-benefit corporation version 4.0.3 https://www.rstudio.com/products/rstudio/download/
Shiny Server RStudio Public-benefit corporation https://shiny.rstudio.com/articles/shinyapps.html

DOWNLOAD MATERIALS LIST

References

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
  2. Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
  3. Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
  4. Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
  5. Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
  6. Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
  7. Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
  8. Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
  9. Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer's disease. Analytical Chemistry. 92, 7162-7170 (2020).
  10. Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
  11. Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
  12. Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
  13. Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
  14. Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
  15. Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
  16. Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
  17. Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
  18. Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
  19. High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
  20. Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
  21. Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
  22. Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
  23. Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
  24. Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell's functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
  25. Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
  26. Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer's disease progression. Neuron. 105, 975-991 (2020).
  27. Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
  28. Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer's disease. Cell Systems. 4, 60-72 (2017).
  29. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer's disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
  30. Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
  31. Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
  32. Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
  33. Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
  34. Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
  35. Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
  36. Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
  37. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
  38. Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
  39. Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
  40. Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, Anaconda. miniconda (2021). RStudio (2021) Shiny Server 2301-2319 (2021).
  41. JUMPn. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021).
  42. Anaconda. , Available from: https://docs.anaconda.com/anaconda/install/ (2021).
  43. miniconda. , Available from: https://docs.conda.io/en/latest/miniconda.html (2021).
  44. RStudio. , Available from: https://www.rstudio.com/products/rstudio/download/ (2021).
  45. Shiny Server. , Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021).
  46. Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
  47. R code. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021).
  48. Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
  49. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article 17 (2005).
  50. Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
  51. Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
  52. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
  53. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  54. Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
  55. FlyEn rich r. , Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021).
  56. JUMPn GitHub. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly_ (2021).
  57. Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
  58. Benjamini, Y., Hochberg, Y. Controlling the false discovery rate - a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
  59. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
  60. Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
  61. Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
  62. Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
  63. Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
  64. Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
  65. Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
  66. Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
  67. Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
  68. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
  69. Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
  70. Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
  71. Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
  72. Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

Tags

Biochimica Numero 176
JUMPn: un'applicazione semplificata per il clustering di co-espressione proteica e l'analisi di rete in proteomica
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Vanderwall, D., Suresh, P., Fu, Y.,More

Vanderwall, D., Suresh, P., Fu, Y., Cho, J. H., Shaw, T. I., Mishra, A., High, A. A., Peng, J., Li, Y. JUMPn: A Streamlined Application for Protein Co-Expression Clustering and Network Analysis in Proteomics. J. Vis. Exp. (176), e62796, doi:10.3791/62796 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter