Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biochemistry

JUMPn: Uma aplicação simplificada para agrupamento de co-expressão de proteínas e análise de rede em proteômica

Published: October 19, 2021 doi: 10.3791/62796

Summary

Apresentamos uma ferramenta de biologia de sistemas JUMPn para realizar e visualizar análises de rede para dados quantitativos de proteômica, com um protocolo detalhado que inclui pré-processamento de dados, agrupamento de co-expressão, enriquecimento de caminhos e análise de rede de interação proteína-proteína.

Abstract

Com os recentes avanços nas tecnologias de proteômica baseadas em espectrometria de massa, o perfil profundo de centenas de proteomes tornou-se cada vez mais viável. No entanto, obter insights biológicos de tais conjuntos de dados valiosos é um desafio. Aqui introduzimos um software baseado em biologia de sistemas JUMPn, e seu protocolo associado para organizar o proteome em clusters de co-expressão de proteínas em amostras e redes de interação proteína-proteína (PPI) conectadas por módulos (por exemplo, complexos proteicos). Usando a plataforma R/Shiny, o software JUMPn simplifica a análise de agrupamento de co-expressão, enriquecimento de caminhos e detecção de módulos PPI, com visualização integrada de dados e interface amigável. As principais etapas do protocolo incluem a instalação do software JUMPn, a definição de proteínas expressas diferencialmente ou o proteome (dis)regulado, determinação de clusters de co-expressão significativos e módulos PPI, e visualização de resultados. Embora o protocolo seja demonstrado usando um perfil proteome baseado em rotulagem isobáica, o JUMPn é geralmente aplicável a uma ampla gama de conjuntos de dados quantitativos (por exemplo, proteômica livre de rótulos). O software e o protocolo JUMPn fornecem assim uma poderosa ferramenta para facilitar a interpretação biológica em proteômica quantitativa.

Introduction

A proteômica de espingarda baseada em espectrometria em massa tornou-se a abordagem chave para analisar a diversidade de proteomes de amostras complexas1. Com os recentes avanços na instrumentação de espectrometria de massa 2,3, cromatografia 4,5, detecção de mobilidade de íons6, métodos de aquisição (independente de dados7 e aquisição dependente de dados8), abordagens de quantificação (método de rotulagem de peptídeo isobárico multi-plex, por exemplo, TMT 9,10 e quantificação sem rótulo 11,12) e método de estratégia de análise de dados/ desenvolvimento de software 13,14,15,16,17,18, quantificação de todo o proteome (por exemplo, mais de 10.000 proteínas) é agora rotina 19,20,21. No entanto, como obter insights mecanicistas a partir de conjuntos de dados quantitativos tão profundos ainda é desafiador22. As tentativas iniciais de investigação desses conjuntos de dados dependiam predominantemente da anotação de elementos individuais dos dados, tratando cada componente (proteína) de forma independente. No entanto, os sistemas biológicos e seu comportamento não podem ser explicados unicamente examinando componentes individuais23. Portanto, uma abordagem de sistemas que coloca as biomoléculas quantificadas no contexto das redes de interação é essencial para a compreensão de sistemas complexos e dos processos associados, como embriogênese, resposta imune e patogênese das doenças humanas24.

A biologia de sistemas baseados em rede emergiu como um poderoso paradigma para a análise de dados quantitativos de proteômica em larga escala 25,26,27,28,29,30,31,32,33. Conceitualmente, sistemas complexos como células mamíferas poderiam ser modelados como uma rede hierárquica34,35, na qual todo o sistema é representado em níveis: primeiro por um número de componentes grandes, cada um dos quais então iterativamente modelado por subsistemas menores. Tecnicamente, a estrutura da dinâmica proteome pode ser apresentada por redes interconectadas de aglomerados proteicos co-expressos (porque genes/proteínas co-expressos geralmente compartilham funções biológicas ou mecanismos de regulação36) e módulos PPI interagindo fisicamente37. Como exemplo recente25, geramos perfis temporais de proteome e fosfomésomo durante a ativação de células T e usamos redes integrativas de co-expressão com PPIs para identificar módulos funcionais que mediam a saída de quiescência de células T. Múltiplos módulos relacionados ao bioenergetic foram destacados e validados experimentalmente (por exemplo, os módulos IV mitoribosome ecomplexos 25 e o módulo de um carbono38). Em outro exemplo26, ampliamos ainda mais nossa abordagem para estudar a patogênese da doença de Alzheimer, e priorizamos com sucesso a progressão da doença, módulos e moléculas associadas à progressão da doença. É importante ressaltar que muitas de nossas descobertas imparcial foram validadas por coortes independentes de pacientes26,29 e/ou modelos de camundongos26. Esses exemplos ilustraram o poder da abordagem da biologia dos sistemas para dissecar mecanismos moleculares com proteômica quantitativa e outras integrações omicais.

Aqui introduzimos o JUMPn, um software simplificado que explora dados quantitativos de proteômica usando abordagens de biologia de sistemas baseados em rede. A JUMPn serve como o componente a jusante do conjunto de software de proteômica JUMPestabelecido 13,14,39, e tem como objetivo preencher a lacuna desde quantificações proteicas individuais até caminhos biologicamente significativos e módulos proteicos usando a abordagem biológica dos sistemas. Ao tomar a matriz de quantificação de proteínas de PPI expressos diferencialmente (ou a mais variável) como entrada, a JUMPn pretende organizar o proteome em uma hierarquia hierárquica de aglomerados proteicos co-expressos entre amostras e módulos PPI densamente conectados (por exemplo, complexos proteicos), que são ainda mais anotados com bancos de dados de vias públicas por análise de super-representação (ou enriquecimento) (Figura 1). O JUMPn é desenvolvido com a plataforma R/Shiny40 para uma interface fácil de usar e integra três módulos funcionais principais: análise de clustering de co-expressão, análise de enriquecimento de caminhos e análise de rede PPI (Figura 1). Após cada análise, os resultados são visualizados automaticamente e são ajustáveis através das funções de widget R/shiny e prontamente para download como tabelas de publicação no formato Microsoft Excel. No protocolo a seguir, utilizamos dados de proteome completo quantitativo como exemplo e descrevemos os principais passos do uso do JUMPn, incluindo a instalação do software JUMPn, a definição de proteínas expressas diferencialmente ou o proteome (dis)regulado, análise de rede de co-expressão e análise de módulos PPI, visualização e interpretação de resultados e soluções de problemas. O software JUMPn está disponível gratuitamente no GitHub41.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

NOTA: Neste protocolo, o uso do JUMPn é ilustrado utilizando um conjunto de dados publicado de perfil proteome inteiro durante a diferenciação de células B quantificada pelo reagente de etiqueta isobáica TMT27.

1. Configuração do software JUMPn

NOTA: Duas opções são fornecidas para configurar o software JUMPn: (i) instalação em um computador local para uso pessoal; e (ii) implantação de JUMPn em um servidor brilhante remoto para vários usuários. Para instalação local, um computador pessoal com acesso à Internet e ≥4 Gb de RAM é suficiente para executar a análise JUMPn para um conjunto de dados com um pequeno tamanho de amostra (n < 30); RAM maior (por exemplo, 16 Gb) é necessário para análise de coorte de grande porte (por exemplo, n = 200 amostras).

  1. Instale o software em um computador local. Após a instalação, permita que o navegador da Web inicie o JUMPn e deixe a análise ser executada no computador local.
    1. Instale anaconda42 ou miniconda43 seguindo as instruções on-line.
    2. Baixe o código-fonte JUMPn41. Clique duas vezes para descompactar o arquivo baixado JUMPn_v_1.0.0.zip; uma nova pasta chamada JUMPn_v_1.0.0 será criada.
    3. Terminal da linha de comando aberto. No Windows, use o Anaconda Prompt. No MacOS, use o aplicativo Terminal integrado.
    4. Crie o ambiente JUMPn Conda: Obtenha o caminho absoluto da pasta JUMPn_v_1.0.0 (por exemplo, /path/to/JUMPn_v_1.0.0). Para criar e ativar um ambiente Conda vazio digite os seguintes comandos no terminal
      conda criar -p /path/to/JUMPn_v_1.0.0/JUMPn -y
      conda ativar /path/to/JUMPn_v_1.0.0/JUMPn
    5. Instale as dependências do JUMPn: Instale R (no terminal, tipo conda-forge r=4.0.0 -y), altere o diretório atual para a pasta JUMPn_v_1.0.0 (no terminal, digite o caminho do CD/to/JUMPn_v_1.0.0) e instale os pacotes de dependência (no terminal, tipo Rscript bootstrap. R)
    6. Inicie o JUMPn no navegador da Web: Altere o diretório atual para a pasta de execução (no terminal, digite execução de CD) e inicie o JUMPn (no terminal, tipo R -e "brilhante::runApp()")
    7. Uma vez executado o acima, a tela do terminal aparecerá Ouvindo em http://127.0.0.1:XXXX (aqui XXXX indica 4 números aleatórios). Copie e cole http://127.0.0.1:XXXX no navegador da Web, no qual a página de boas-vindas da JUMPn aparecerá (Figura 2).
  2. Implantação no Servidor Brilhante. Exemplos de Servidor Brilhante incluem o servidor de shinyapps.io comercial ou quaisquer servidores brilhantes suportados institucionalmente.
    1. Baixe e instale o RStudio seguindo a instrução44.
    2. Obtenha a permissão de implantação para o Servidor Brilhante. Para o servidor shinyapps.io, configure a conta do usuário seguindo a instrução45. Para o servidor Brilhante institucional, entre em contato com o administrador do servidor para solicitar permissões.
    3. Baixe o código-fonte JUMPn41 para a máquina local; a instalação não é necessária. Abra ou o servidor. R ou ui. Arquivos R no RStudio e clique no menu suspenso publicar para servidor no canto superior direito do IDE RStudio.
    4. No painel Publicar para Conta , digite o endereço do servidor. Pressione o botão Publicar . A implantação bem-sucedida é validada mediante redirecionamento automático do RStudio para o servidor RShiny, onde o aplicativo foi implantado.

2. Demo executado usando um conjunto de dados de exemplo

NOTA: A JUMPn oferece uma demonstração usando o conjunto de dados de proteômica de células B publicado. A execução de demonstração ilustra um fluxo de trabalho simplificado que toma a matriz de quantificação de proteínas expressas diferencialmente como entrada e realiza agrupamento de co-expressão, enriquecimento de caminhos e análise de rede PPI sequencialmente.

  1. Na página inicial do JUMPn (Figura 2), clique no botão Iniciar análise para iniciar a análise do JUMPn.
  2. No canto inferior esquerdo da página Análise de Início (Figura 3), clique no botão Upload Demo B Cell Proteomic Data ; uma caixa de diálogo aparecerá notificando o sucesso do upload de dados.
  3. No canto inferior direito da página, clique no botão Enviar análise JUMPn para iniciar a execução de demonstração usando parâmetros padrão; uma barra de progresso aparecerá que denota o curso da análise. Aguarde até que a barra de progresso seja cumprida (3 min esperados).
  4. Uma vez terminado a execução da demonstração, uma caixa de diálogo aparecerá com a mensagem de execução de sucesso e o caminho absoluto para a pasta de resultado. Clique em Continuar para resultados para continuar.
  5. A página da Web guiará primeiro o usuário para os resultados do cluster de co-expressão pelo WGCNA. Clique em Exibir resultados na janela de diálogo para continuar.
  6. Encontre os padrões de co-expressão de proteínas à esquerda da página de resultado 1: WGCNA Output . Clique na caixa de seleção do formato de expressão para navegar entre dois formatos de figura:
    1. Selecione Tendências para exibir o enredo de tendências, com cada linha representando abundância de proteínas individuais entre as amostras. A cor de cada linha representa o quão próximo o padrão de expressão está do consenso do cluster de co-expressão (ou seja, "eigengene" definido pelo algoritmo WGCNA).
    2. Selecione Boxplot para exibir padrões de co-expressão em formato boxplot para cada amostra.
  7. Veja o mapa de calor do enriquecimento de caminhos/ontologia à direita da página de saída WGCNA. As vias mais enriquecidas para cada cluster são exibidas juntas em um mapa de calor, com a intensidade da cor refletindo o valor p ajustado de Benjamini-Hochberg.
  8. Role para baixo na página da Web para visualizar o padrão de expressão de proteínas individuais.
    1. Use a caixa de retirada Selecione o cluster de co-expressão para visualizar proteínas de cada cluster (padrão é Cluster 1). Selecione uma proteína específica na tabela, sobre a qual o gráfico da barra abaixo da tabela será atualizado automaticamente para refletir sua abundância proteica.
    2. Pesquise nomes de proteínas específicos usando a caixa de pesquisa no lado direito da tabela para obter uma proteína específica.
  9. Para ver os resultados do PPI, clique na Página de Resultados 2: Saída do PPI na parte superior.
  10. Clique em Selecionar o cluster de co-expressão para exibir os resultados de um cluster específico de co-expressão (o padrão é o cluster 1). As exibições de todos os painéis de figuras nesta página serão atualizadas para o cluster recém-selecionado.
  11. Veja as redes PPI para o cluster de co-expressão selecionado no painel de figuras esquerdas:
    1. Clique na caixa de subsistência Select by Group para destacar módulos PPI individuais dentro da rede. Clique na caixa de seleção de formato de rede para alterar o layout da rede (o padrão é de Fruchterman Reingold).
    2. Use o mouse e o trackpad para executar as etapas 2.11.3-2.11.5.
    3. Amplie ou amplie a rede PPI conforme necessário. Os nomes genéticos de cada nó na rede serão mostrados quando ampliados o suficiente.
    4. Quando ampliado, selecione e clique em uma determinada proteína para destacar essa proteína e seus vizinhos de rede.
    5. Arraste um certo nó (proteína) na rede para alterar sua posição no layout; assim, o layout da rede pode ser reorganizado pelo usuário.
  12. No painel direito da página de resultado do PPI, visualize as informações de nível de cluster de co-expressão que auxiliam na interpretação dos resultados do PPI:
    1. Exibir o padrão de co-expressão do cluster selecionado como boxplot por padrão.
    2. Clique na caixa de entrega do Formato de Expressão para obter mais informações ou exibições conforme mencionado nas etapas 2.12.3-2.12.5.
    3. Selecione Tendências para mostrar o gráfico de tendências para o padrão de co-expressão.
    4. Selecione Pathway Barplot para mostrar caminhos significativamente enriquecidos para o cluster de co-expressão.
    5. Selecione Pathway Circle Plot para mostrar caminhos significativamente enriquecidos para o cluster de co-expressão no formato de plot do círculo.
  13. Role para baixo a página de resultado 2: PPI Output webpage para exibir resultados no nível do módulo PPI individual. Clique na caixa de entrada do módulo 'Selecionar' , para selecionar um módulo PPI específico para exibição (Cluster1: O Módulo 1 é mostrado por padrão).
  14. Veja o módulo PPI no painel esquerdo. Para manipular o visor de rede, siga os passos 2.11.2-2.11.5.
  15. Veja os resultados de enriquecimento de caminhos/ontologia no painel direito. Clique na caixa de entrega do Estilo de Anotação do Caminho para obter mais informações e exibir:
    1. Selecione Barplot para mostrar caminhos significativamente enriquecidos para o módulo PPI selecionado.
    2. Selecione Circle Plot para mostrar caminhos significativamente enriquecidos para o módulo PPI selecionado no formato de um gráfico de círculo.
    3. Selecione o Heatmap para mostrar caminhos significativamente enriquecidos e os nomes de genes associados do módulo PPI selecionado.
    4. Selecione Tabela para mostrar os resultados detalhados de enriquecimento da via, incluindo o nome de termos de caminhos/ontologia, nomes de genes e o valor P pelo teste exato de Fisher.
  16. Veja a tabela de publicação em formato de planilha: siga o caminho absoluto (impresso na parte superior das duas páginas de resultados) e encontre a tabela de planilha de publicação chamada ComprehensiveSummaryTables.xlsx.

3. Preparação do arquivo de entrada e upload para JUMPn

NOTA: JUMPn toma como entrada a matriz de quantificação das proteínas expressas diferencialmente (método supervisionado) ou das proteínas mais variáveis (método não supervisionado). Se o objetivo do projeto é entender as proteínas alteradas em múltiplas condições (por exemplo, diferentes grupos de doenças ou análise em série temporal do processo biológico), é preferido o método supervisionado de realização da análise DE; caso contrário, uma abordagem não supervisionada de selecionar as proteínas mais variáveis pode ser usada para fins exploratórios.

  1. Gerar a tabela de quantificação de proteínas, com cada proteína como linhas e cada amostra como colunas. Consiga isso através do moderno pacote de software de software proteômico baseado em espectrometria de massa moderno (por exemplo, suíte JUMP 13,14,39, Proteome Discoverer, Maxquant 15,46).
  2. Defina o proteome variável.
    1. Utilize os resultados da análise estatística fornecidos pelo conjunto de software de proteômica para definir proteínas de DE expressos diferencialmente (por exemplo, com valor p ajustado < 0,05).
    2. Alternativamente, os usuários podem seguir o exemplo R code47 para definir tanto DE quanto a maioria das proteínas variáveis.
  3. Formate o arquivo de entrada usando o proteome variável definido.
    NOTA: O formato de arquivo de entrada necessário (Figura 4) inclui uma linha de cabeçalho; as colunas incluem adesão de proteínas (ou quaisquer IDs exclusivos), GN (símbolos genéticos oficiais), descrição da proteína (ou qualquer informação fornecida pelo usuário), seguida pela quantificação proteica de amostras individuais.
    1. Siga a ordem das colunas especificadas na etapa 3.1, mas os nomes das colunas do cabeçalho são flexíveis para o usuário.
    2. Para mMT (ou similar) proteome quantificado, use a intensidade resumida do repórter TMT como valores de quantificação de entrada. Para dados sem rótulos, use contagens espectrais normalizadas (por exemplo, NSAF48) ou método baseado em intensidade (por exemplo, intensidade de LFQ ou intensidade de proteína iBAQ relatada por Maxquant46).
    3. Valores perdidos são permitidos para análise de JUMPn. Certifique-se de rotulá-los como NA na matriz de quantificação. No entanto, recomenda-se usar apenas proteínas com quantificação em mais de 50% das amostras.
    4. Salve o arquivo de entrada resultante como .txt, .xlsx ou .csv formato (todos os três são suportados pela JUMPn).
  4. Upload de arquivo de entrada:
    1. Clique no botão Navegador e selecione o arquivo de entrada (Figura 3, painel esquerdo); o formato do arquivo (xlsx, csv e txt são suportados) será detectado automaticamente.
    2. Se o arquivo de entrada contiver valores de quantificação semelhantes à intensidade (por exemplo, aqueles gerados pelo conjunto JUMP39) ou proporções (por exemplo, do Proteome Discoverer), selecione Sim para a Opção executar Log2-Transformation of Data Option; caso contrário, os dados podem já ter sido transformados em log, então selecione Não para esta opção.

4. Análise de agrupamento de co-expressão

NOTA: Nosso grupo 25,26,27 e outros 28,29,31 provaram o WGCNA49 um método eficaz para a análise de agrupamento de co-expressão de proteômica quantitativa. A JUMPn segue um procedimento de 3 etapas para a análise do WGCNA25,50: (i) definição inicial de aglomerados genéticos/proteicos de co-expressão por corte dinâmico de árvores51 com base na matriz de sobreposição topológica (TOM; determinada por semelhanças de quantificação entre genes/proteínas); (ii) fusão de clusters semelhantes para reduzir a redundância (com base no dendrograma das similaridades do eigengene); e (iii) atribuição final de genes/proteínas a cada aglomerado que exceda o corte mínimo de correlação de Pearson.

  1. Configure os parâmetros WGCNA (Figura 3, painel médio). Os três parâmetros a seguir controlam as três etapas, respectivamente:
    1. Defina o tamanho mínimo do cluster como 30. Este parâmetro define o número mínimo de proteínas necessárias para cada aglomerado de co-expressão na etapa inicial (i) do corte dinâmico híbrido baseado em TOM. Quanto maior o valor, menor o número de clusters devolvidos pelo algoritmo.
    2. Definir a distância mínima do cluster como 0,2. O aumento desse valor (por exemplo, de 0,2 para 0,3) pode causar mais fusão de clusters durante a etapa (ii), resultando em um número menor de clusters.
    3. Definir kME mínimo como 0,7. As proteínas serão atribuídas ao cluster mais correlacionado definido na etapa (ii), mas apenas proteínas com correlação de Pearson passando por esse limiar serão mantidas. As proteínas que falharem nesta etapa não serão atribuídas a nenhum cluster (cluster'NA' para as proteínas falhadas no relatório final).
  2. Inicie a análise. Existem duas maneiras de submeter a análise de agrupamento de co-expressão:
    1. Clique no botão Enviar análise JUMPn no canto inferior direito para iniciar a análise abrangente do WGCNA automaticamente seguido pela análise de rede PPI.
    2. Alternativamente, selecione executar apenas a etapa WGCNA (especialmente para fins de ajuste de parâmetros; veja as etapas 4.2.3-4.2.4):
    3. Clique no botão Parâmetros Avançados na parte inferior da página Análise de Início ; uma nova janela de parâmetros aparecerá. No widget inferior, selecione Modo de Análise, selecione WGCNA Somente e clique em Descartar para continuar.
    4. Na página Análise de Início , clique no botão Enviar análise JUMPn .
    5. Em ambos os casos acima, uma barra de progresso aparecerá após a submissão da análise.
      NOTA: Uma vez concluída a análise (tipicamente < 1 min para análise apenas do WGCNA e <3 min para análise abrangente), uma caixa de diálogo aparecerá com uma mensagem de execução de sucesso e o caminho absoluto para a pasta de resultado.
  3. Examine os resultados do WGCNA conforme ilustrado nas etapas 2.4-2.8 (Figura 5). Observe que o caminho absoluto para o arquivo co_exp_clusters_3colums.txt é destacado no topo da Página de Resultados: WGCNA Output para registrar a adesão de cluster de cada proteína e usá-la como entrada para a análise apenas do PPI .
  4. Solucionando problemas. São discutidos os três casos comuns a seguir. Uma vez atualizados os parâmetros conforme discutido abaixo, siga as etapas 4.2.2-4.2.4 para gerar novos resultados do WGCNA.
    1. Se um importante padrão de co-expressão é esperado a partir dos dados, mas perdido pelo algoritmo, siga os passos 4.4.2-4.4.4.4
    2. Um aglomerado ausente é especialmente provável para pequenos clusters de co-expressão, ou seja, apenas um número limitado (por exemplo, <30) de proteínas que exibem esse padrão. Antes da re-análise, reexamine o arquivo de entrada da matriz de quantificação proteica e localize várias proteínas de controle positivas que aderem a esse importante padrão de co-expressão.
    3. Para resgatar os pequenos clusters, diminua o Tamanho do Cluster Mínimo (por exemplo, 10; tamanho de cluster inferior a 10 não pode ser robusto, portanto, não recomendado), e diminua a Distância Mínima de Cluster (por exemplo, 0,1; aqui também é permitido a configuração como 0, o que significa que a fusão automática de clusters será ignorada).
    4. Depois de executar a etapa de agrupamento de co-expressão com os parâmetros atualizados, primeiro, verifique se o cluster é resgatado das Parcelas de Padrão de Co-Expressão e, em seguida, verifique os controles positivos pesquisando suas adesões proteicas a partir de Quantificação de Proteína detalhada (certifique-se de selecionar o cluster de co-expressão apropriado do widget de esquerda antes da pesquisa).
      NOTA: Podem ser necessárias várias iterações de ajuste de parâmetros e reprises para o resgate.
    5. Se houver muitas proteínas que não podem ser atribuídas a qualquer aglomerado, siga as etapas 4.4.6-4.4.7.
      NOTA: Normalmente, uma pequena porcentagem (tipicamente <10%) das proteínas pode não ser atribuída a qualquer aglomerado, pois essas podem ser proteínas mais estranhas que não seguiram nenhum dos padrões comuns de expressão do conjunto de dados. No entanto, se esse percentual é significativo (por exemplo, >30%), sugere que existem padrões adicionais de co-expressão que não podem ser ignorados.
    6. Diminua tanto os parâmetros de distância do cluster mínimo quanto os de distância mínima do cluster para aliviar essa situação, detectando "novos" clusters de co-expressão.
    7. Além disso, diminua o parâmetro Minimal Pearson Correlation (kME) para encolher essas proteínas 'na cluster'.
      NOTA: A sintonia deste parâmetro não gerará novos clusters, mas aumentará o tamanho dos clusters 'existentes', aceitando proteínas com falha mais prévia com o limiar inferior; no entanto, isso também aumentará a heterogeneidade de cada aglomerado, uma vez que proteínas mais ruidosas são agora permitidas.
    8. Dois clusters têm uma diferença muito pequena de padrões; mesclá-los em um cluster seguindo as etapas 4.4.9-4.4.11.
    9. Aumente o parâmetro Distância do Cluster Mínimo para resolver o problema.
    10. No entanto, em algumas situações, o algoritmo pode nunca retornar o padrão desejado; em tal instante, ajuste manualmente ou edite a adesão ao cluster no arquivo co_exp_clusters_3colums.txt (arquivo da etapa 4.3) para mesclar.
    11. Tome o arquivo pós-editado como entrada para a análise de rede PPI a jusante. Em caso de edição manual, justifique os critérios de atribuição do cluster e regise o procedimento de edição manual.

5. Análise da rede de interação proteína-proteína

NOTA: Ao sobrepor clusters de co-expressão na rede PPI, cada cluster de co-expressão é ainda mais estratificado em módulos PPI menores. A análise é realizada para cada cluster de co-expressão e inclui dois estágios: no primeiro estágio, o JUMPn sobrepõe proteínas do cluster de co-expressão para a rede PPI e encontra todos os componentes conectados (ou seja, múltiplos clusters de nós/proteínas conectados; como exemplo, ver Figura 6A); em seguida, comunidades ou módulos (de nódulos densamente conectados) serão detectados para cada componente conectado iterativamente usando o método52 da matriz de sobreposição topológica (TOM).

  1. Configure parâmetros para análise de rede PPI (Figura 3, painel direito).
    1. Ajuste o tamanho do módulo PPI mínimo como 2. Este parâmetro define o tamanho mínimo dos componentes desconectados da análise do primeiro estágio. Qualquer componente menor do que o parâmetro especificado será removido dos resultados finais.
    2. Defina o tamanho do módulo Maximal PPI como 40. Componentes grandes e desconectados que passam por esse limiar passarão por uma análise baseada em TOM de segundo estágio. A análise do segundo estágio dividirá ainda mais cada componente grande em módulos menores: cada módulo presumivelmente contém proteínas mais densamente conectadas do que o componente original como um todo.
  2. Inicie a análise. Existem duas maneiras de enviar a análise da rede PPI:
    1. Aperte o botão Enviar análise JUMPn para executar automaticamente a análise do PPI após a análise do WGCNA por padrão.
    2. Alternativamente, carregue resultados personalizados do cluster de co-expressão e realize a análise apenas do PPI seguindo as etapas 5.2.3-5.2.5.
    3. Prepare o arquivo de entrada seguindo o formato do arquivo co_exp_clusters_3colums.txt (ver subseção 4.4).
    4. Clique no botão Parâmetros Avançados na parte inferior da página Análise de Início ; uma nova janela de parâmetros aparecerá. Na sessão superior Upload Co-Expression Cluster Result for 'PPI Only' Analysis, clique em Navegador para carregar o arquivo de entrada preparado pela etapa 5.2.3.
    5. No widget inferior, selecione o modo de análise, selecione apenas PPI e clique em Descartar para continuar. Na página Análise de Início , clique no botão Enviar análise JUMPn .
  3. Uma vez concluída a análise (tipicamente <3 min), examine os resultados do PPI como ilustrados nas etapas 2.10-2.15 (Figura 6).
  4. Etapa avançada opcional) Ajuste a modularização do PPI por meio de parâmetros de ajuste:
    1. Aumente o parâmetro Maximal Module Size para permitir mais proteínas incluídas nos resultados do PPI. Carregue a rede PPI personalizada para cobrir interações não documentadas, seguindo as etapas 5.4.2-5.4.3.
    2. Clique no botão Parâmetros Avançados na parte inferior da página Análise de Início ; uma nova janela de parâmetros aparecerá. Prepare o arquivo PPI personalizado, que contém três colunas no formato de , onnection C e ; aqui são apresentados pelos nomes genéticos oficiais de cada proteína.
    3. No Upload de um banco de dados PPI, clique no botão Procurar para carregar o arquivo PPI personalizado.

6. Análise de enriquecimento de caminhos

NOTA: As estruturas hierárquicas derivadas do JUMPn de ambos os clusters de co-expressão e módulos PPI dentro são automaticamente anotadas com vias sobre-representadas usando o teste exato de Fisher. Os bancos de dados de pathway/topology usados incluem Gene Ontology (GO), KEGG, Hallmark e Reactome. Os usuários podem usar opções avançadas para carregar bancos de dados personalizados para a análise (por exemplo, no caso de analisar dados de espécies não humanas).

  1. Por padrão, a análise de enriquecimento de vias é iniciada automaticamente com agrupamento de co-expressão e análise de rede PPI.
  2. Veja os resultados do enriquecimento do caminho:
    1. Siga os passos 2.7, 2.12 e 2.15 para visualizar diferentes formatos nas páginas de resultado. Veja resultados detalhados na tabela de publicação de planilhas no arquivo ComprehensiveSummaryTables.xlsx (etapa 2.16).
  3. (Etapa avançada opcional) Carregar banco de dados personalizado para análise de enriquecimento de caminhos:
    1. Prepare o arquivo de fundo genético, que normalmente contém os nomes genéticos oficiais de todos os genes de uma espécie.
    2. Prepare o arquivo da biblioteca de ontologia seguindo as etapas 6.3.3-6.3.4.
    3. Baixe os arquivos da biblioteca de ontologia de sites públicos, incluindo EnrichR53 e MSigDB54. Por exemplo, baixe ontologia de Drosophila do site EnrichR55.
    4. Edite o arquivo baixado para o formato necessário com duas colunas: o nome da via como a primeira coluna e, em seguida, os símbolos genéticos oficiais (separados por "/") como a segunda coluna. O formato detalhado do arquivo é descrito na página Ajuda do software relizado JUMPn R.
      NOTA: Encontre arquivos de exemplo de fundo genético e biblioteca de ontologia (usando Drosophila como exemplo) no site JUMPn GitHub56.
    5. Clique no botão Parâmetros Avançados na parte inferior da página Análise de Início; uma nova janela de parâmetros aparecerá.
    6. Encontre upload de um arquivo em segundo plano para o item Análise de Enriquecimento de Caminhos e clique no Navegador para carregar o arquivo em segundo plano preparado na etapa 6.3.1. Em seguida, na sessão, selecione o plano de fundo a ser usado para análise de enriquecimento de caminhos, clique em Fundo Fornecido pelo Usuário.
    7. Encontre upload de um arquivo da biblioteca de ontologia para o item Análise de Enriquecimento de Caminhos e clique no Navegador para carregar o arquivo da biblioteca de ontologia preparado nas etapas 6.3.2-6.3.4. Em seguida, na sessão, selecione bancos de dados para análise de enriquecimento de caminhos, clique em Banco de Dados Fornecido pelo Usuário em .xlsx Formato.
  4. Clique no botão Enviar análise JUMPn no canto inferior direito para iniciar a análise usando o banco de dados personalizado.

7. Análise do conjunto de dados com grande tamanho amostral

NOTA: JUMPn suporta análise de conjunto de dados com grande tamanho amostral (até 200 amostras testadas). Para facilitar a visualização de um grande tamanho de amostra, um arquivo adicional (chamado "meta file") que especifica o grupo de amostra é necessário para facilitar a exibição dos resultados de agrupamento de co-expressão.

  1. Prepare e carregue o meta- arquivo.
    1. Prepare o meta-arquivo que especifica informações de grupo (por exemplo, grupos de controle e doenças) para cada amostra seguindo as etapas 7.1.2-7.1.3.
    2. Certifique-se de que o arquivo meta contém pelo menos duas colunas: a coluna 1 deve conter os nomes da amostra idênticos aos nomes da coluna e a ordem do arquivo da matriz de quantificação de proteínas (conforme preparado na etapa 3.3); A coluna 2 em diante será usada para atribuição de grupo para qualquer número de recursos definidos pelo usuário. O número de colunas é flexível.
    3. Certifique-se de que a primeira linha do arquivo meta contenha os nomes das colunas para cada coluna; a partir da segunda linha em diante, devem ser listadas informações individuais de amostras de grupos ou outras características (por exemplo, sexo, idade, tratamento, etc.)
    4. Carregue o meta arquivo clicando no botão Parâmetros Avançados na parte inferior da página Análise de Início ; uma nova janela de parâmetros aparecerá. Prossiga para a etapa 7.1.5
    5. Encontre carregar um item meta arquivo e clique em Navegador para carregar o arquivo em segundo plano. Se o formato inesperado ou nomes de amostras incomparáveis forem detectados pelo JUMPn, uma mensagem de erro aparecerá para maior formatação do arquivo meta (etapas 7.1.1-7.1.3).
  2. Ajuste os parâmetros para análise de agrupamento de co-expressão: ajuste a correlação mínima de Pearson como 0,2. Este parâmetro precisa ser relaxado devido ao maior tamanho da amostra.
  3. Clique no botão Enviar análise JUMPn no canto inferior direito para enviar a análise.
  4. Ver os resultados da análise: toda a saída de dados é a mesma, exceto por exibir os padrões de cluster de co-expressão.
    1. Na página resultados página 1: WGCNA Output , visualize os clusters de co-expressão como boxplots com amostras estratificadas pelos grupos ou recursos amostrais definidos pelo usuário. Cada ponto na trama representa o eigengene (ou seja, o padrão de consenso do cluster) calculado pelo algoritmo WGCNA.
    2. Se o usuário forneceu vários recursos (por exemplo, idade, sexo, tratamento, etc.) para agrupar as amostras, clique na caixa de seleção do formato de expressão para selecionar outro recurso para agrupar as amostras.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Utilizamos nossos conjuntos de dados de proteômica profunda publicados 25,26,27,30 (Figuras 5 e Figura 6), bem como simulações de dados57 (Tabela 1) para otimizar e avaliar o desempenho do JUMPn. Para a análise de agrupamento de proteínas de co-expressão via WGCNA, recomendamos a utilização de proteínas significativamente alteradas entre as amostras como a entrada (por exemplo, proteínas expressas diferencialmente (DE) detectadas pela análise estatística). Embora a inclusão de proteínas não-DE para a análise possa resultar em mais clusters de co-expressão devolvidos pelo programa (devido ao maior tamanho de entrada), temos a hipótese de que a mistura do sinal real (por exemplo, as proteínas DE) com o fundo (o restante não-DE) para análise em nível de sistemas pode diluir o sinal e mascarar a estrutura da rede subjacente. Para testar isso, a análise de simulação foi realizada em duas condições diferentes: i) proteome altamente dinâmico (por exemplo, 50% alterado na ativação de células T25) e ii) proteome relativamente estável (por exemplo, 2% de proteome alterado em AD26). Para o proteome altamente dinâmico, seis clusters de co-expressão foram simulados a partir de 50% de proteome seguindo o mesmo tamanho de cluster e padrões de expressão (ou seja, eigengenes) de nossos resultados publicados25. Da mesma forma, para um proteome relativamente estável, simulamos três clusters de 2% de proteome após nosso recente estudo de proteômica AD26. Como esperado, o aumento do número de proteínas aumenta o número de aglomerados detectados (Tabela 1). Para o proteome altamente dinâmico, usar todas as proteínas como entrada pode capturar a maioria dos verdadeiros clusters (5 dos 6 clusters simulados de boa fé; 83% de recall) com 63% de precisão (5 dos 8 clusters retornados são verdadeiros positivos; ou seja, os 3 clusters restantes são falsos positivos). No entanto, para o proteome relativamente estável, o aumento do tamanho da entrada com proteínas não-DE reduz drasticamente a precisão (Tabela 1). Por exemplo, utilizando todo o proteome como entrada, são detectados 169 módulos, dos quais apenas 2 estão corretos (1,2% de precisão; os 98,8% restantes detectados módulos são falsos positivos). Esses resultados indicam, assim, que escolher apenas o proteome alterado como entrada aumentará a precisão da análise de co-expressão, especialmente para proteome relativamente estável.

Após a detecção de aglomerados proteicos de co-expressão, cada cluster será anotado pela JUMPn utilizando a análise de enriquecimento da via (Figura 1). A versão atual inclui quatro bancos de dados de caminho comumente usados, incluindo Gene Ontology (GO), KEGG, Hallmark e Reactome. Os usuários também podem compilar seu próprio banco de dados no formatoGMT 54, que pode ser carregado no JUMPn. A integração de várias bases de dados para análise de enriquecimento de caminhos pode fornecer visões mais abrangentes; no entanto, os tamanhos de diferentes bancos de dados de vias variam significativamente, o que pode induzir viés indesejado a certas bases de dados (especialmente grandes). Duas soluções são fornecidas dentro da JUMPn. Em primeiro lugar, utilizando uma abordagem estatística, os valores p nominais são ajustados (ou penalizados) para testes de múltiplas hipóteses pelo método Benjamini-Hochberg58, com um banco de dados maior exigindo um valor p nominal mais significativo para atingir o mesmo nível p ajustado do que o de um pequeno banco de dados. Em segundo lugar, a JUMPn destaca o caminho superior significativamente enriquecido para cada banco de dados separadamente, assim, as vias enriquecidas de topo específicas do banco de dados são sempre exibidas.

Semelhante à análise de enriquecimento de caminhos, uma rede PPI composta foi compilada combinando string 59,60, BioPlex61,62 e InWeb_IM63 bancos de dados. O banco de dados BioPlex foi criado usando purificação de afinidade seguido de espectrometria de massa em linhas de células humanas, enquanto o STRING e o InWeb contêm informações de várias fontes. Portanto, os bancos de dados STRING e InWeb foram ainda mais filtrados pelo escore de borda para garantir alta qualidade, com o corte determinado pela melhor adaptação dos critériossem escala 24. A rede PPI fundida final cobre mais de 20.000 genes humanos com ~1.100.000 bordas (Tabela 2). Este interactome abrangente é incluído e publicado em um pacote com nosso software JUMPn para análise sensível do PPI.

Após o término da análise, a JUMPn gera o arquivo de planilha de publicação ComprehensiveSummaryTables.xlsx, composto por três folhas individuais. A primeira folha contém resultados de aglomerados proteicos de co-expressão com uma proteína por linha: a primeira coluna indica a adesão ao cluster de cada proteína de entrada, e as colunas restantes são copiadas do arquivo de entrada do usuário, que contém a adesão de proteínas, nomes genéticos, descrição da proteína e quantificação de amostras individuais. A segunda folha contém resultados da análise de enriquecimento da via, exibindo caminhos significativos enriquecidos em cada aglomerado de co-expressão. Esta tabela é primeiramente organizada por diferentes bancos de dados de vias, depois classificada por clusters de co-expressão, vias funcionais, o número total de genes de via, o número total de genes no cluster individual, os números e nomes de genes sobrepostos, a dobra de enriquecimento, os valores P derivados do teste exato de Fisher e a taxa de descoberta falsa de Benjamini-Hochberg. A terceira folha contém resultados da análise do módulo PPI com um módulo PPI por linha; suas colunas incluem o nome do módulo (definido por sua co-expressão de associação e ID do módulo, por exemplo, Cluster1_Module1), as proteínas e números mapeados, bem como caminhos funcionais que são definidos pela pesquisa das proteínas do módulo contra os bancos de dados da via.

Figure 1
Figura 1: Fluxo de trabalho da JUMPn. A matriz de quantificação da variável superior das proteínas expressas diferencialmente (DE) são tomadas como entrada, e as proteínas são agrupadas em clusters de co-expressão pelo algoritmo WGCNA. Cada co-expressão é então anotada pela análise de enriquecimento de caminhos e ainda mais sobreposta à rede de interação proteína-proteína (PPI) para identificações de módulos proteicos densamente conectados. Clique aqui para ver uma versão maior desta figura.

Figure 2
Figura 2: PÁGINA de boas-vindas jumpn. Clique aqui para ver uma versão maior desta figura.

Figure 3
Figura 3: Página de entrada do JUMPn. A página inclui o painel de upload de arquivos de entrada e os painéis de configuração de parâmetros para agrupamento de co-expressão e análise de rede PPI, respectivamente. Clique aqui para ver uma versão maior desta figura.

Figure 4
Figura 4: Exemplo de arquivo de entrada da matriz de quantificação. As colunas incluem adesão de proteínas (ou quaisquer IDs exclusivos), GN (símbolos genéticos oficiais), descrição da proteína (ou qualquer informação fornecida pelo usuário), seguida pela quantificação proteica de amostras individuais. Clique aqui para ver uma versão maior desta figura.

Figure 5
Figura 5: Resultados do cluster de co-expressão relatados pela JUMPn. Os padrões de agrupamento de co-expressão (A), o mapa de calor da via enriquecida superior entre os clusters (B) e a abundância de proteínas detalhada para cada cluster são mostrados (C). Os usuários podem selecionar várias opções de exibição e navegar entre diferentes clusters através da caixa de seleção. Clique aqui para ver uma versão maior desta figura.

Figure 6
Figura 6: Resultados de análise de rede do PPI relatados pela JUMPn. A rede inter-módulo global é mostrada (A), seguida por uma sub-rede de módulos individuais (B) e suas vias significativamente enriquecidas (C). Os usuários podem selecionar várias opções de exibição e navegar entre diferentes clusters e módulos através da caixa de seleção. Clique aqui para ver uma versão maior desta figura.

% proteínas superiores para análise # módulos simulados # módulos detectados # módulos recapturados1 precisão2 recordar3
Proteome altamente dinâmico (por exemplo, durante a ativação de células T): 6 módulos simulados a partir de 50% de proteome
2 6 2 2 1 0.33
5 6 2 2 1 0.33
10 6 3 3 1 0.5
20 6 4 4 1 0.67
50 6 6 6 1 1
100 6 8 5 0.63 0.83
Proteome relativamente estável (por exemplo, durante a patogênese de AD): 3 módulos simulados a partir de 2% de proteome
1 3 1 1 1 0.33
2 3 3 3 1 1
5 3 8 3 0.38 1
10 3 13 3 0.23 1
20 3 19 3 0.16 1
50 3 71 2 0.03 0.67
100 3 169 2 0.01 0.67
1 Um módulo recapturado é um módulo detectado cujo eigengene altamente correlaciona (Pearson R > 0,95) com um dos eigengenes simulados.
2precisão = # módulos recapturados / módulos detectados
3recall = # módulos recapturados / Módulos simulados

Tabela 1: Estudos de simulação de detecção de cluster de co-expressão.

Redes PPI Não. de Nodes Não. de Bordas
BioPlex 3.0 combinado (293T+HCT116) 14,551 1,67,399
InBio_Map_core_2016_09_12 17,429 6,08,166
STRING (v11.0) 18,954 5,87,482
Rede PPI composta 20,485 11,52,607

Tabela 2: Estatísticas das redes de interação proteína-proteína humana (PPI). As redes PPI são filtradas por pontuação de borda para garantir alta qualidade, com o corte de pontuação determinado pela melhor adaptação dos critérios livres de escala.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Aqui introduzimos nosso software JUMPn e seu protocolo, que foram aplicados em vários projetos para dissecar mecanismos moleculares usando dados de proteômica quantitativa profunda 25,26,27,30,64. O software e o protocolo JUMPn foram totalmente otimizados, incluindo a consideração de proteínas DE para análise de rede de co-expressão, uma compilação de rede PPI abrangente e de alta qualidade, análise estatística rigorosa (por exemplo, por consideração de múltiplos testes de hipóteses) com uma interface simplificada e amigável. Múltiplos módulos proteicos identificados pela JUMPn foram validados por estudos de experimentos funcionais25,27 ou coortes independentes de pacientes26, exemplificando o JUMPn como uma ferramenta eficaz para identificar moléculas-chave e caminhos subjacentes a diversos processos biológicos.

As etapas críticas deste protocolo incluem a geração de resultados ideais de clusters de co-expressão e módulos PPI, que podem exigir múltiplas iterações de ajuste de parâmetros, bem como upload de rede PPI personalizada. Em nosso protocolo, discutimos cenários práticos comuns, incluindo como lidar com a falta de clusters importantes, uma alta porcentagem de proteínas não assinadas, fusão de dois clusters redundantes e falta de proteínas importantes dentro de módulos PPI. Recomendamos ao usuário que prepare várias proteínas de controle positivas e confirme sua presença nos clusters finais de co-expressão. Às vezes, um controle positivo nunca será incluído nos módulos finais do PPI devido a um banco de dados de rede PPI incompleto. Para aliviar parcialmente isso, atualizamos nossa rede PPI com as versões mais recentes do BioPlex V362 e STRING V1160. Além disso, a JUMPn permite que os usuários carreguem redes PPI personalizadas. Por exemplo, novas interações derivadas de experimentos de espectrometria de massa de afinidade (AP-MS) usando uma importante proteína de controle positivo, pois a isca pode ser integrada com a atual rede composta de PPI para análise mais personalizada.

Utilizando a estrutura da análise de enriquecimento de caminhos para cada cluster proteico de co-expressão, o JUMPn pode ser estendido para inferir a atividade do fator de transcrição (TF). A suposição é que se existe uma representação excessiva de genes-alvo de um TF específico em um cluster de co-expressão (ou seja, esses alvos são expressos diferencialmente e seguem o mesmo padrão de expressão), a atividade desse TF é potencialmente alterada em condições experimentais porque sua abundância de proteínas alvo é alterada consistentemente. Tecnicamente, isso pode ser simplesmente alcançado via JUMPn substituindo o banco de dados de caminhos atual pelo banco de dados de destino TF (por exemplo, a partir do projeto ENCODE65). Da mesma forma, a atividade de quinase também pode ser inferida aproveitando o banco de dados de substratos da quinase, tomando fosfoproteômica profunda como entrada. Como exemplo, identificamos com sucesso TFs e quinases subjacentes ao tumor cerebral64. De fato, o uso da abordagem da rede para a inferência da atividade emergiu como uma abordagem poderosa para identificar motoristas desregulados para doenças humanas66,67.

O software JUMPn é prontamente aplicado a uma ampla gama de tipos de dados. Embora a rotulagem isobáica de proteome quantificado tenha sido usada como exemplo ilustrativo, o mesmo protocolo é aplicável também para dados de proteômica quantificada sem rótulos, bem como perfis de expressão em todo o genoma (por exemplo, quantificados por RNA-seq ou microarray; veja nosso exemplo recente de aplicação de JUMPn para perfis de expressão genética e proteica27). Os dados de fosfoproteomia também poderiam ser tomados pela JUMPn para identificar fosfosites co-expressos, seguidos pela inferência de atividade de quinase25. Além disso, os dados interactome gerados pela abordagem AP-MS também serão apropriados, pelos quais proteínas de presas que seguem força de interação de isca semelhante e estequiometria formarão clusters de co-expressão e se sobrepõem ainda mais com PPIs conhecidos para interpretação de dados68.

Existem limitações para a versão atual do JUMPn. Primeiro, o procedimento de instalação é baseado em linha de comando e requer conhecimento básico da ciência da computação. Isso dificulta o uso mais amplo do JUMPn, especialmente de biólogos sem fundo computacional. Uma implementação mais ideal é publicar o JUMPn em um servidor online. Em segundo lugar, os bancos de dados atuais são centrados no ser humano por causa do nosso foco em estudos sobre doenças humanas. Observe que os dados de proteômica gerados por camundongos também foram analisados pela JUMPn usando tais bases de dados centradas no homem25,27, assumindo que a maioria dos PPIs são conservados em ambas as espécies69,70. A sinalização específica do rato não será capturada por essa abordagem, mas não é de interesse nesses estudos humanos. No entanto, para sistemas de modelos não-mamíferos (por exemplo, zebrafish, mosca ou levedura), bancos de dados específicos para espécies devem ser preparados e enviados para a JUMPn usando as opções avançadas. Os recursos de espécies adicionais podem ser fornecidos através da futura liberação da JUMPn. Em terceiro lugar, o passo atual da ontologia/análise de caminhos leva tempo significativo, que pode ser otimizado ainda mais pela computação paralela.

Em conclusão, apresentamos o software e protocolo JUMPn para explorar dados quantitativos de proteômica para identificar e visualizar módulos proteicos co-expressos e potencialmente interagindo fisicamente por meio da abordagem de biologia de sistemas. As principais características que distinguem o JUMPn dos outros 53,71,72 incluem: (i) A JUMPn integra e agiliza quatro componentes principais da análise de vias e redes (Figura 1); (ii) Diferente da maioria dos softwares de análise de caminhos que têm uma simples lista genética como entrada, o JUMPn parte da matriz de quantificação, pela qual as informações quantitativas podem ser perfeitamente integradas com caminhos e redes documentadas pela literatura; (iii) Tanto os clusters proteicos de co-expressão quanto os módulos de interação são automaticamente anotados por vias conhecidas e visualizados através da plataforma de interação R/shiny usando um navegador web fácil de usar; (iv) Os resultados finais são organizados em três tabelas que são prontamente publicáveis no formato Excel. Assim, esperamos que o JUMPn e este protocolo sejam amplamente aplicáveis a muitos estudos para dissecação de mecanismos utilizando dados quantitativos de proteômica.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Os autores não têm nada a revelar.

Acknowledgments

O apoio ao financiamento foi fornecido pelos Institutos Nacionais de Saúde (NIH) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 e U54NS110435) e ALSAC (American Libanbanese Syrian Associated Charities). A análise de MS foi realizada no Centro de Proteômica e Metabolômica do Hospital de Pesquisa Infantil de São Judas, que foi parcialmente apoiado pelo NIH Cancer Center Support Grant (P30CA021765). O conteúdo é de responsabilidade exclusiva dos autores e não representa necessariamente as opiniões oficiais dos Institutos Nacionais de Saúde.

Materials

Name Company Catalog Number Comments
MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7. Apple Inc. MacBook Pro 13'' Hardware used for software development and testing
Anoconda Anaconda, Inc. version 4.9.2 https://docs.anaconda.com/anaconda/install/
miniconda Anaconda, Inc. version 4.9.2 https://docs.conda.io/en/latest/miniconda.html
RStudio RStudio Public-benefit corporation version 4.0.3 https://www.rstudio.com/products/rstudio/download/
Shiny Server RStudio Public-benefit corporation https://shiny.rstudio.com/articles/shinyapps.html

DOWNLOAD MATERIALS LIST

References

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
  2. Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
  3. Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
  4. Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
  5. Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
  6. Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
  7. Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
  8. Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
  9. Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer's disease. Analytical Chemistry. 92, 7162-7170 (2020).
  10. Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
  11. Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
  12. Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
  13. Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
  14. Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
  15. Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
  16. Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
  17. Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
  18. Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
  19. High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
  20. Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
  21. Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
  22. Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
  23. Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
  24. Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell's functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
  25. Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
  26. Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer's disease progression. Neuron. 105, 975-991 (2020).
  27. Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
  28. Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer's disease. Cell Systems. 4, 60-72 (2017).
  29. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer's disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
  30. Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
  31. Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
  32. Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
  33. Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
  34. Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
  35. Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
  36. Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
  37. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
  38. Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
  39. Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
  40. Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, Anaconda. miniconda (2021). RStudio (2021) Shiny Server 2301-2319 (2021).
  41. JUMPn. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021).
  42. Anaconda. , Available from: https://docs.anaconda.com/anaconda/install/ (2021).
  43. miniconda. , Available from: https://docs.conda.io/en/latest/miniconda.html (2021).
  44. RStudio. , Available from: https://www.rstudio.com/products/rstudio/download/ (2021).
  45. Shiny Server. , Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021).
  46. Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
  47. R code. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021).
  48. Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
  49. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article 17 (2005).
  50. Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
  51. Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
  52. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
  53. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  54. Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
  55. FlyEn rich r. , Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021).
  56. JUMPn GitHub. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly_ (2021).
  57. Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
  58. Benjamini, Y., Hochberg, Y. Controlling the false discovery rate - a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
  59. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
  60. Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
  61. Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
  62. Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
  63. Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
  64. Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
  65. Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
  66. Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
  67. Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
  68. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
  69. Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
  70. Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
  71. Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
  72. Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

Tags

Bioquímica Edição 176
JUMPn: Uma aplicação simplificada para agrupamento de co-expressão de proteínas e análise de rede em proteômica
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Vanderwall, D., Suresh, P., Fu, Y.,More

Vanderwall, D., Suresh, P., Fu, Y., Cho, J. H., Shaw, T. I., Mishra, A., High, A. A., Peng, J., Li, Y. JUMPn: A Streamlined Application for Protein Co-Expression Clustering and Network Analysis in Proteomics. J. Vis. Exp. (176), e62796, doi:10.3791/62796 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter