Biology

Gerando a Exibição de Regulação Transcricional de Recursos Transcriptômicos para Tarefa de Previsão e Detecção de Biomarcadores Escuros em Pequenos Conjuntos de Dados

Published: March 1, 2024 doi: 10.3791/66030

Kewei Li¹, Yusi Fan¹, Yaqing Liu¹, Hongmei Liu², Gongyou Zhang², Meiyu Duan¹, Lan Huang¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²School of Biology and Engineering, Guizhou Medical University

Summary

Aqui, apresentamos um protocolo para converter dados transcriptômicos em uma visão mqTrans, permitindo a identificação de biomarcadores escuros. Embora não expressos diferencialmente em análises transcriptômicas convencionais, esses biomarcadores exibem expressão diferencial na visão mqTrans. A abordagem serve como uma técnica complementar aos métodos tradicionais, revelando biomarcadores antes negligenciados.

Abstract

O transcriptoma representa os níveis de expressão de muitos genes em uma amostra e tem sido amplamente utilizado em pesquisas biológicas e na prática clínica. Os pesquisadores geralmente se concentraram em biomarcadores transcriptômicos com representações diferenciais entre um grupo fenotípico e um grupo controle de amostras. Este estudo apresentou uma estrutura de aprendizagem de rede de atenção gráfica multitarefa (GAT) para aprender as complexas interações intergênicas das amostras de referência. Um modelo de referência demonstrativo foi pré-treinado nas amostras saudáveis (HealthModel), que poderia ser usado diretamente para gerar a visão de regulação transcricional quantitativa baseada em modelo (mqTrans) dos transcriptomas de teste independentes. A visão mqTrans gerada dos transcriptomas foi demonstrada por tarefas de predição e detecção de biomarcadores escuros. O termo cunhado "biomarcador escuro" surgiu de sua definição de que um biomarcador escuro apresentava representação diferencial na visão mqTrans, mas nenhuma expressão diferencial em seu nível de expressão original. Um biomarcador escuro sempre foi negligenciado nos estudos tradicionais de detecção de biomarcadores devido à ausência de expressão diferencial. O código-fonte e o manual do pipeline HealthModelPipe podem ser baixados do http://www.healthinformaticslab.org/supp/resources.php.

Introduction

O transcriptoma consiste na expressão de todos os genes de uma amostra e pode ser perfilado por tecnologias de alto rendimento, como microarray e RNA-seq¹. Os níveis de expressão de um gene em um conjunto de dados são chamados de característica transcriptômica, e a representação diferencial de uma característica transcriptômica entre os grupos fenótipo e controle define esse gene como um biomarcador desse fenótipo ^2,3. Biomarcadores transcriptômicos têm sido extensivamente utilizados em investigações de diagnóstico de^doenças4, mecanismo^biológico5, análise de^sobrevida6,7, etc.

Os padrões de atividade gênica nos tecidos sadios carregam informações cruciais sobre as vidas ^8,9. Esses padrões oferecem insights inestimáveis e funcionam como referências ideais para a compreensão das complexas trajetórias de desenvolvimento das doenças^{benignas10,11} e^letais12. Os genes interagem entre si, e os transcriptomas representam os níveis finais de expressão após suas complicadas interações. Tais padrões são formulados como rede de regulação transcricional¹³ e rede de metabolismo¹⁴, etc. A expressão de RNAs mensageiros (mRNAs) pode ser regulada transcricionalmente por fatores de transcrição (FTs) e RNAs não codificadores intergênicos longos (lincRNAs)15,16,17. A análise convencional de expressão diferencial ignorou interações gênicas tão complexas com a suposição de independência inter-características^18,19.

Avanços recentes em redes neurais de grafos (GNNs) demonstram um potencial extraordinário na extração de informações importantes de dados baseados em OMIC para estudos de câncer²⁰, por exemplo, identificando módulos de co-expressão²¹. A capacidade inata dos GNNs os torna ideais para modelar as intrincadas relações e dependências entre genes^22,23.

Estudos biomédicos geralmente se concentram em prever com precisão um fenótipo contra o grupo controle. Tais tarefas são comumente formuladas como classificações binárias 24,25,26. Aqui, os dois rótulos de classe são tipicamente codificados como 1 e 0, verdadeiro e falso, ou mesmo positivo e negativo²⁷.

Este estudo teve como objetivo fornecer um protocolo fácil de usar para gerar a visão de regulação transcricional (mqTrans) de um conjunto de dados do transcriptoma baseado no modelo de referência de rede grafo-atenção (GAT) pré-treinado. O framework GAT multitarefa de um trabalho publicado^{anteriormente26} foi usado para transformar características transcriptômicas para características mqTrans. Um grande conjunto de dados de transcriptomas saudáveis da plataforma Xena²⁸ da Universidade da Califórnia, Santa Cruz (UCSC) foi usado para pré-treinar o modelo de referência (HealthModel), que mediu quantitativamente as regulamentações de transcrição dos fatores regulatórios (FTs e lincRNAs) para os mRNAs alvo. A visualização mqTrans gerada pode ser usada para construir modelos de previsão e detectar biomarcadores escuros. Este protocolo utiliza o conjunto de dados de pacientes com adenocarcinoma de cólon (COAD) do banco de dados The Cancer Genome Atlas (TCGA)²⁹ como exemplo ilustrativo. Nesse contexto, os pacientes nos estágios I ou II são categorizados como amostras negativas, enquanto aqueles nos estágios III ou IV são considerados positivos. As distribuições de biomarcadores escuros e tradicionais entre os 26 tipos de câncer TCGA também são comparadas.

Descrição do pipeline HealthModel
A metodologia empregada neste protocolo baseia-se no referencial previamente^publicado26, conforme descrito na Figura 1. Para começar, os usuários precisam preparar o conjunto de dados de entrada, alimentá-lo no pipeline HealthModel proposto e obter recursos mqTrans. Instruções detalhadas de preparação de dados são fornecidas na seção 2 da seção de protocolo. Posteriormente, os usuários têm a opção de combinar os recursos do mqTrans com os recursos transcriptômicos originais ou prosseguir apenas com os recursos do mqTrans gerados. O conjunto de dados produzido é então submetido a um processo de seleção de recursos, com os usuários tendo a flexibilidade de escolher seu valor preferido para k em validação cruzada k-fold para classificação. A principal métrica de avaliação utilizada neste protocolo é a acurácia.

O HealthModel²⁶ categoriza as características transcriptômicas em três grupos distintos: TF (Transcription Factor), lincRNA (Long Intergenic non-coding RNA) e mRNA (RNA mensageiro). As características dos FT são definidas com base nas anotações disponíveis no Atlas de Proteínas Humanas^30,31. Este trabalho utiliza as anotações de lincRNAs do conjunto de dados GTEx³². Genes pertencentes às vias de terceiro nível no banco de dados KEGG³³ são considerados como características de RNAm. É importante notar que, se uma característica de RNAm exibe funções regulatórias para um gene alvo, conforme documentado no banco de dados TRRUST³⁴, ela é reclassificada na classe TF.

Este protocolo também gera manualmente os dois arquivos de exemplo para as IDs de gene de fatores regulatórios (regulatory_geneIDs.csv) e mRNA alvo (target_geneIDs.csv). A matriz de distância par a par entre as características regulatórias (FTs e lincRNAs) é calculada pelos coeficientes de correlação de Pearson e agrupada pela popular ferramenta de análise de rede de coexpressão gênica ponderada (WGCNA)³⁶ (adjacent_matrix.csv). Os usuários podem utilizar diretamente o pipeline HealthModel junto com esses arquivos de configuração de exemplo para gerar a exibição mqTrans de um conjunto de dados transcriptômico.

Detalhes técnicos do HealthModel
HealthModel representa as intrincadas relações entre FTs e lincRNAs como um grafo, com as características de entrada servindo como os vértices denotados por V e uma matriz de borda intervértice designada como E. Cada amostra é caracterizada por características regulatórias K , simbolizadas como V^K×1. Especificamente, o conjunto de dados abrangeu 425 FTs e 375 lincRNAs, resultando em uma dimensionalidade da amostra de K = 425 + 375 = 800. Para estabelecer a matriz de borda E, este trabalho empregou a popular ferramenta WGCNA³⁵. O peso par a par ligando dois vértices representados como Equation 1 e Equation 2 , é determinado pelo coeficiente de correlação de Pearson. A rede de regulação gênica exibe uma topologia livre de escalas³⁶, caracterizada pela presença de genes hub com papéis funcionais fundamentais. Calculamos a correlação entre duas feições ou vértices, e , usando a medida de sobreposição topológica (TOM) da seguinte forma:

Equation 3 (1)

Equation 4 (2)

O β de limite suave é calculado usando a função 'pickSoft Threshold' do pacote WGCNA. A função exponencial de potência a_ij é aplicada, onde Equation 5 representa um gene excluindo i e j, e Equation 6 representa a conectividade de vértices. O WGCNA agrupa os perfis de expressão das características transcriptômicas em múltiplos módulos usando uma medida de dissimilaridade comumente empregada ( Equation 7 ³⁷.

O framework HealthModel foi originalmente projetado como uma arquitetura de aprendizagem multitarefa²⁶. Este protocolo utiliza apenas a tarefa de pré-treinamento do modelo para a construção da visão transcriptômica mqTrans. O usuário pode optar por refinar ainda mais o HealthModel pré-treinado sob a rede de atenção gráfica multitarefa com amostras transcriptômicas específicas de tarefas adicionais.

Detalhes técnicos da seleção e classificação de recursos
O pool de seleção de recursos implementa onze algoritmos de seleção de recursos (FS). Entre eles, três são algoritmos FS baseados em filtro: selecionando os melhores recursos K usando o Coeficiente de Informação Máxima (SK_mic), selecionando os recursos K com base no FPR do MIC (SK_fpr) e selecionando os recursos K com a maior taxa de descoberta falsa do MIC (SK_fdr). Além disso, três algoritmos FS baseados em árvore avaliam características individuais usando uma árvore de decisão com o índice de Gini (DT_gini), árvores de decisão adaptativas impulsionadas (AdaBoost) e floresta aleatória (RF_fs). O pool também incorpora dois métodos wrapper: eliminação de feições recursivas com o classificador vetorial de suporte linear (RFE_SVC) e eliminação de recursos recursivos com o classificador de regressão logística (RFE_LR). Finalmente, dois algoritmos de incorporação são incluídos: classificador linear SVC com os valores de importância de característica L1 (lSVC_L1) mais bem classificados e classificador de regressão logística com os valores de importância de característica L1 (LR_L1).

O pool de classificadores emprega sete classificadores diferentes para construir modelos de classificação. Esses classificadores compreendem máquina de vetor de suporte linear (SVC), Gaussian Naïve Bayes (GNB), classificador de regressão logística (LR), k-vizinho mais próximo, com k definido como 5 por padrão (KNN), XGBoost, floresta aleatória (RF) e árvore de decisão (DT).

A divisão aleatória do conjunto de dados no trem: subconjuntos de teste pode ser definida na linha de comando. O exemplo demonstrado usa a razão trem: teste = 8: 2.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Observação : o protocolo a seguir descreve os detalhes do procedimento analítico de informática e comandos Python dos módulos principais. A Figura 2 ilustra os três passos principais com exemplos de comandos utilizados neste protocolo e remete a trabalhos publicados^{anteriormente26,38} para maiores detalhes técnicos. Faça o seguinte protocolo em uma conta de usuário normal em um sistema de computador e evite usar a conta de administrador ou root. Este é um protocolo computacional e não tem fatores biomédicos perigosos.

1. Preparar o ambiente Python

Crie um ambiente virtual.
1. Este estudo utilizou a linguagem de programação Python e um ambiente virtual Python (VE) com Python 3.7. Siga estas etapas (Figura 3A):
  conda create -n healthmodel python=3.7
  conda create é o comando para criar um novo VE. O parâmetro -n especifica o nome do novo ambiente, neste caso, healthmodel. E python=3.7 especifica a versão do Python a ser instalada. Escolha qualquer nome preferido e versão do Python que suporte o comando acima.
2. Depois de executar o comando, a saída é semelhante à Figura 3B. Digite y e aguarde a conclusão do processo.
Ativar o ambiente virtual
1. Na maioria dos casos, ative o VE criado com o seguinte comando (Figura 3C):
  conda ativar healthmodel
2. Siga as instruções específicas da plataforma para a ativação do VE, se algumas plataformas exigirem que o usuário carregue os arquivos de configuração específicos da plataforma para ativação.
Instalar PyTorch 1.13.1
1. PyTorch é um pacote Python popular para algoritmos de inteligência artificial (IA). Use o PyTorch 1.13.1, baseado na plataforma de programação CUDA 11.7 GPU, como exemplo. Encontre outras versões em https://pytorch.org/get-started/previous-versions/. Use o seguinte comando (Figura 3D):
  pip3 instalar tocha torchvision torchaudio
  Observação : usando PyTorch versão 1.12 ou mais recente é altamente recomendado. Caso contrário, instalar o pacote necessário torch_geometric pode ser um desafio, como observado no site oficial da torch_geometric: https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html.
Instalar pacotes adicionais para tocha-geométrica
1. Seguindo as diretrizes em https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html, instale os seguintes pacotes: torch_scatter, torch_sparse, torch_cluster e torch_spline_conv usando o comando (Figura 3E):
  pip install pyg_lib torch_scatter torch_sparse torch_cluster torch_spline_conv -f https://data.pyg.org/whl/torch-1.13.0+cu117.html
Instale o pacote tocha-geométrico .
1. Este estudo requer uma versão específica, 2.2.0, do pacote tocha-geométrico . Execute o comando (Figura 3F):
  pip instalar torch_geometric==2.2.0
Instale outros pacotes.
1. Pacotes como pandas geralmente estão disponíveis por padrão. Caso contrário, instale-os usando o comando pip. Por exemplo, para instalar pandas e xgboost, execute:
  pip instalar pandas
  pip instalar xgboost

2. Usando o HealthModel pré-treinado para gerar os recursos do mqTrans

Faça o download do código e do modelo pré-treinado.
1. Baixe o código e o HealthModel pré-treinado no site: http://www.healthinformaticslab.org/supp/resources.php, que é chamado de HealthModel-mqTrans-v1-00.tar.gz (Figura 4A). O arquivo baixado pode ser descompactado para um caminho especificado pelo usuário. A formulação detalhada e os dados de apoio do protocolo implementado podem ser encontrados em²⁶.
Introduza os parâmetros para executar HealthModel.
1. Em primeiro lugar, altere o diretório de trabalho para a pasta HealthModel-mqTrans na linha de comando. Use a seguinte sintaxe para executar o código:
  Python main.py
  Os detalhes sobre cada parâmetro e as pastas de dados, modelo e saída são os seguintes:
  pasta de dados: Esta é a pasta de dados de origem e cada arquivo de dados está no formato csv. Essa pasta de dados tem dois arquivos (consulte descrições detalhadas nas etapas 2.3 e 2.4). Esses arquivos precisam ser substituídos por dados pessoais.
  data.csv: O arquivo de matriz transcriptômica. A primeira linha lista os IDs de recurso (ou gene) e a primeira coluna fornece os IDs de exemplo. A lista de genes inclui os fatores regulatórios (FTs e lincRNAs) e os genes de RNAm regulados.
  label.csv: O arquivo de rótulo de exemplo. A primeira coluna lista os IDs de exemplo e a coluna com o nome "label" fornece o rótulo de exemplo.
  pasta model: A pasta para salvar informações sobre o modelo:
  HealthModel.pth: O HealthModel pré-treinado.
  regulatory_geneIDs.csv: As identificações gênicas reguladoras utilizadas neste estudo.
  target_geneIDs.csv: Os genes-alvo utilizados neste estudo.
  adjacent_matrix.csv: A matriz adjacente de genes reguladores.
  pasta de saída: Os arquivos de saída são gravados nesta pasta, criada pelo código.
  test_target.csv: Valor de expressão gênica de genes-alvo após normalização e imputação Z.
  pred_target.csv: Valor predito de expressão gênica de genes-alvo.
  mq_target.csv: Valor predito de expressão gênica de genes-alvo.
Prepare o arquivo de matriz transcriptômica no formato csv.
1. Cada linha representa uma amostra e cada coluna representa um gene (Figura 4B). Nomeie o arquivo de matriz de dados transcriptômicos como data.csv na pasta de dados .
  Observação : esse arquivo pode ser gerado salvando manualmente uma matriz de dados no formato .csv de software como o Microsoft Excel. A matriz transcriptômica também pode ser gerada por programação computacional.
Prepare o arquivo de rótulo no formato csv.
1. Semelhante ao arquivo de matriz transcriptômica, nomeie o arquivo de rótulo como label.csv na pasta de dados (Figura 4C).
  Observação : a primeira coluna fornece os nomes de exemplo e o rótulo de classe de cada exemplo é fornecido na coluna intitulada rótulo. O valor 0 na coluna do rótulo significa que esta amostra é negativa, 1 significa uma amostra positiva.
Gere os recursos mqTrans.
1. Execute o comando a seguir para gerar os recursos mqTrans e obter as saídas mostradas na Figura 4D. Os recursos mqTrans são gerados como o arquivo ./output/mq_targets.csv, e o arquivo label é salvo novamente como o arquivo ./output/label.csv. Para a conveniência de análises adicionais, os valores de expressão originais dos genes de RNAm também são extraídos como o arquivo ./output/ test_target.csv.
  python ./Get_mqTrans/código/main.py ./data ./Get_mqTrans/modelo ./output

3. Selecione os recursos do mqTrans

Sintaxe do código de seleção de recurso
1. Em primeiro lugar, altere o diretório de trabalho para a pasta HealthModel-mqTrans . Use a seguinte sintaxe:
  python ./FS_classification/testMain.py
  Os detalhes de cada parâmetro são os seguintes:
  in-data-file: O arquivo de dados de entrada
  in-label-file: O rótulo do arquivo de dados de entrada
  pasta de saída: Dois arquivos de saída são salvos nessa pasta, incluindo Output-score.xlsx (o método de seleção de recursos e a precisão do classificador correspondente) e Output-SelectedFeatures.xlsx (os nomes de recursos selecionados para cada algoritmo de seleção de recursos).
  1. select_feature_number: selecione o número de recursos, variando de 1 ao número dos recursos do arquivo de dados.
  2. test_size: Defina a proporção da amostra de teste para dividir. Por exemplo, 0,2 significa que o conjunto de dados de entrada é dividido aleatoriamente nos subconjuntos de teste: trem pela proporção de 0,8:0,2.
  3. combine: Se true, combine dois arquivos de dados juntos para a seleção de recursos, ou seja, os valores de expressão originais e os recursos mqTrans. Se false, use apenas um arquivo de dados para a seleção de recursos, ou seja, os valores de expressão originais ou os recursos mqTrans.
  4. combinar arquivo: se combinar for true, forneça esse nome de arquivo para salvar a matriz de dados combinada.
    NOTA: Este pipeline visa demonstrar como os recursos mqTrans gerados são executados em tarefas de classificação e usa diretamente o arquivo gerado pela seção 2 para as operações a seguir.
Execute o algoritmo de seleção de recursos para a seleção de recursos mqTrans.
1. Ative combinar =False se o usuário selecionar recursos mqTrans ou recursos originais.
2. Em primeiro lugar, selecione 800 recursos originais e divida o conjunto de dados em trem: test=0.8:0.2:
  python ./FS_classification/testMain.py ./output/test_target.csv ./output/label.csv ./result 800 0.2 Falso
3. Turn combine =True, se o usuário quiser combinar os recursos mqTrans com os valores de expressão originais para selecionar recursos. Aqui, o exemplo demonstrativo é selecionar 800 recursos e dividir o conjunto de dados em trem: test=0.8:0.2:
  python ./FS_classification/testMain.py ./output/mq_targets.csv ./output/label.csv ./result_combine 800 0.2 True ./output/test_target.csv
  NOTA: A Figura 5 mostra as informações de saída. Os arquivos suplementares necessários para este protocolo estão em HealthModel-mqTrans-v1-00.tar pasta (Arquivo de codificação suplementar 1).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Avaliação da visão mqTrans do conjunto de dados transcriptômicos
O código de teste usa onze algoritmos de seleção de recursos (FS) e sete classificadores para avaliar como a visão mqTrans gerada do conjunto de dados transcriptômicos contribui para a tarefa de classificação (Figura 6). O conjunto de dados do teste consiste em 317 adenocarcinoma de cólon (COAD) do banco de dados The Cancer Genome Atlas (TCGA)²⁹. Os pacientes com COAD nos estádios I ou II são considerados como amostras negativas, enquanto aqueles nos estágios III ou IV são os positivos.

Onze algoritmos FS são implementados no código de teste. Existem três algoritmos FS baseados em filtro, incluindo, selecionar K melhores recursos por MIC (SK_mic), selecionar K recursos pelo FPR de MIC (SK_fpr) e selecionar K recursos pelo FDR mais alto de MIC (SK_fpr). Três algoritmos FS baseados em árvore avaliam as características individuais por uma árvore de decisão com índice de gini (DT_gini), as árvores de decisão adaptativas impulsionadas (AdaBoost) e a floresta aleatória (RF_fs), respectivamente. O pool FS do código de teste também avalia dois wrappers: eliminação de recursos recursivos (RFE) com o classificador de vetores de suporte linear (SVC)(RFE_SVC) e RFE com o classificador de regressão logística (RFE_LR), e dois algoritmos de incorporação: classificador linear SVC com os valores de importância de característica L1 (lSVC_L1) mais bem classificados e classificador de regressão logística com os valores de importância de característica L1 (LR_L1).

O código de teste constrói os modelos de classificação usando sete classificadores, incluindo máquina de vetor de suporte linear (SVC), Gaussian Naïve Bayes (GNB), classificador de regressão logística (LR), k-nearest neighbor, k-5 por padrão (KNN), XGBoost, floresta aleatória (RF) e árvore de decisão (DT).

A Figura 6 mostra a precisão máxima de teste das características mqTrans, as características originais de mRNA e o subconjunto combinado das características mRNA e mqTrans recomendadas por cada algoritmo FS.

Os subconjuntos de características combinadas (mRNA+mqTrans) alcançaram a maior precisão de 0,7656 no método "SK_fpr" FS, melhor do que os tipos de características individuais mqTrans (0,7188) e mRNA original (0,7188). Padrões semelhantes podem ser observados para os outros algoritmos de FS. O usuário pode verificar os recursos selecionados no arquivo de saída Output-SelectedFeatures.csv.

Detectando os biomarcadores escuros
Estudos prévios mostraram a existência de genes indiferencialmente expressos com valores de mqTrans significativamente representados diferencialmente entre os grupos fenotípico e controle 26,38,39. Esses genes são chamados de biomarcadores escuros porque os estudos tradicionais de detecção de biomarcadores os ignoram por suas expressões indiferenciais. A função de análise estatística t.test no Microsoft Excel pode ser usada para definir um recurso que é diferencialmente expresso se seu valor de p estatístico for menor que 0,05.

Entre as 3062 feições com os valores de mqTrans gerados, foram detectados 221 biomarcadores escuros (Figura 7). O terceiro ENSG00000163697 gênico (APBB2, Amyloid Beta Precursor Protein Binding Family B Member 2) apresenta valores de mqTrans significativamente representados diferencialmente (mqTrans.P = 2,03 x ^10-4), enquanto seu nível de expressão original não apresenta expressão diferencial (mRNA.P = 3,80 x ^10-1). A palavra-chave APBB2 atingiu 27 publicações na base de dados PubMed⁴⁰, mas nenhuma conexão com o cólon ou intestino foi detectada.

Outro gene ENSG00000048052 (HDAC9, Histone Deacetylase 9) tem os valores de mqTrans diferencialmente representados (mqTrans.P = 6,09 x ^10-3), mantendo praticamente as mesmas distribuições normais entre os grupos fenotípico e controle (mRNA.P = 9,62 x ^10-1). A palavra-chave HDAC9 atingiu 417 publicações na base de dados PubMed. Três estudos também mencionaram as palavras-chave "cólon" ou "intestino" nos resumos 41,42,43. Mas, nenhum deles investigou os papéis da HDAC9 no câncer de cólon.

Os dados sugerem a necessidade de avaliações adicionais desses biomarcadores escuros a partir de suas atividades pós-transcrição, por exemplo, os níveis de proteína traduzida ^44,45.

Distribuições pan-câncer de biomarcadores escuros e tradicionais relacionados ao metabolismo
Os biomarcadores tradicionais relacionados ao metabolismo foram examinados e comparados com biomarcadores escuros em 26 tipos de câncer no conjunto de dados TCGA³⁸. Ambas as categorias de biomarcadores foram submetidas à avaliação estatística para discernir os níveis de significância entre os estádios iniciais (estádios I e II) e tardios (estádios III e IV) do câncer. Essa avaliação empregou o teste t de Student para valores de p, posteriormente corrigidos para testes múltiplos usando taxas de descoberta falsa (FDRs). Dados detalhados para cada um dos 26 tipos de câncer são fornecidos na Figura 8.

Genes com valores de p corrigidos por FDR abaixo de 0,05 foram classificados como biomarcadores tradicionais. Em contraste, biomarcadores escuros foram definidos como aqueles com valores de p corrigidos por FDR abaixo de 0,05 no corte mqTrans, enquanto simultaneamente não exibiam diferenças estatisticamente significativas nos níveis de expressão.

A Figura 9 revela uma escassez geral de biomarcadores escuros em comparação com os biomarcadores tradicionais na maioria dos tipos de câncer. Exceções dignas de nota incluem BRCA, MESO e TGCT, que manifestam maior prevalência de biomarcadores escuros. É revelado que vários fatores, incluindo fatores de transcrição, padrões de metilação, mutações gênicas e condições ambientais, poderiam modular a desregulação transcricional desses biomarcadores escuros. Maior complexidade pode surgir devido à sobreposição de transcritos de RNA não-codificantes que poderiam confundir os níveis de expressão de biomarcadores escuros. Desregulações transcricionais de alguns biomarcadores escuros foram suportadas por seus níveis proteicos diferenciais^44,45. Os biomarcadores escuros são frequentemente negligenciados em estudos tradicionais e apresentam caminhos intrigantes para futuras investigações mecanicistas.

Figura 1: Uma visão geral dos módulos HealthModel e seleção de recursos neste protocolo. Substitua os algoritmos específicos no pool de seleção de recursos e no pool de classificadores se o usuário estiver familiarizado com a programação Python. Clique aqui para ver uma versão maior desta figura.

Figura 2: Fluxo de código completo para este protocolo. (A) Preparar o ambiente Python. Para começar, crie um ambiente virtual e instale pacotes essenciais. Para obter instruções abrangentes, consulte a Seção 1. (B) Gerar recursos mqTrans. Obtenha recursos mqTrans executando o código fornecido passo a passo. Explicações detalhadas podem ser encontradas na Seção 2. (C) Selecione mqTrans Features. Esta seção se concentra na avaliação dos recursos do mqTrans. Consulte a Seção 3 para obter detalhes detalhados. Clique aqui para ver uma versão maior desta figura.

Figura 3: Preparar ambiente para Python. (A) O comando para criar healthmodel. (B) Digite y durante o processo de criação do VE. (C) O comando mais comum para ativar o VE. (D) O comando para a instalação da tocha 1.13.1. (E) Instalar bibliotecas adicionais para o pacote tocha-geométrico . (F) Instalar pacote tocha-geométrico . Clique aqui para ver uma versão maior desta figura.

Figura 4: Execute o HealthModel para obter o recurso mqTrans. (A) Faça o download do código. (B) O exemplo de arquivo de dados. Cada coluna tem todos os valores de um fator regulatório, e o primeiro item é o ID do gene. Cada linha fornece os valores de uma determinada amostra, com o primeiro item sendo o nome da amostra. (C) O exemplo de um arquivo de rótulo. A primeira coluna fornece os nomes de exemplo e o rótulo de classe de cada amostra é fornecido na coluna intitulada rótulo. O valor 0 na coluna do rótulo significa que esta amostra está viva, 1 significa morta. (D) as saídas de mqTrans. Clique aqui para ver uma versão maior desta figura.

Figura 5: Execute o algoritmo de seleção de recursos para o recurso mqTrans. Os resultados do algoritmo de seleção de recursos são mostrados ao usuário. Clique aqui para ver uma versão maior desta figura.

Figura 6: A precisão máxima do conjunto de teste de cada algoritmo de seleção de recursos. O eixo horizontal lista os algoritmos de seleção de recursos e o eixo vertical fornece os valores de precisão. Os histogramas mostram os dados experimentais dos três cenários, ou seja, mqTrans, mRNA, mRNA+mqTrans. Clique aqui para ver uma versão maior desta figura.

Figura 7: Top 50 biomarcadores escuros com os menores valores de p na visualização mqTrans. A coluna "Biomarcador escuro" dá os nomes dos biomarcadores escuros. As colunas "mRNA.P" e "mqTrans.P" são os valores de p do teste t estatístico entre os grupos fenotípico e controle. As cores de fundo dos valores-p são coloridas entre os valores-p 1,00 (azul) e 0,00 (vermelho), e a cor branca representa p-valor = 0,05. Clique aqui para ver uma versão maior desta figura.

Figura 8: Os detalhes dos 26 cânceres no Atlas do Genoma do Câncer (TCGA) em diferentes estágios. As colunas "Coorte" e "Tecido da doença" descrevem o grupo de pacientes e os tecidos com doença para cada conjunto de dados. As últimas quatro colunas apresentam o número de amostras nos estágios de desenvolvimento I, II, III e IV, respectivamente. Clique aqui para ver uma versão maior desta figura.

Figura 9: O número de biomarcadores escuros e biomarcadores tradicionais em 26 cânceres. O eixo horizontal lista os 26 tipos de câncer. O eixo vertical fornece os números de biomarcadores escuros e biomarcadores tradicionais para esses tipos de câncer. Clique aqui para ver uma versão maior desta figura.

Arquivo de codificação suplementar 1: HealthModel-mqTrans-v1-00.tar Clique aqui para baixar este arquivo.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

A seção 2 (Use o HealthModel pré-treinado para gerar os recursos mqTrans) do protocolo é a etapa mais crítica dentro desse protocolo. Depois de preparar o ambiente de trabalho computacional na seção 1, a seção 2 gera a visualização mqTrans de um conjunto de dados transcriptômicos baseado no modelo de referência grande pré-treinado. A seção 3 é um exemplo demonstrativo da seleção dos recursos mqTrans gerados para detecções de biomarcadores e tarefas de previsão. Os usuários podem realizar outras análises transcriptômicas neste conjunto de dados mqTrans usando suas próprias ferramentas ou códigos.

A estrutura HealthModel original pode refinar ainda mais o HealthModel pré-treinado usando a arquitetura multitarefa, conforme descrito em²⁶. Este protocolo se concentra na utilização do modelo de referência pré-treinado para gerar a visualização mqTrans de um conjunto de dados transcriptômicos.

O modelo de referência padrão pré-treinado foi estabelecido nas amostras saudáveis e pode não ser uma boa escolha para algumas tarefas específicas, por exemplo, a investigação entre os cânceres primário e metastático. A velocidade computacional também é lenta para um grande conjunto de dados transcriptômicos.

O significado deste protocolo é fornecer uma visão complementar do mqTrans do tipo de dados OMIC mais abundantemente disponível, ou seja, transcriptoma. Biomarcadores escuros podem ser revelados a partir de genes indiferencialmente expressos ignorados pela análise transcriptômica convencional. Um estudo recente detectou sete biomarcadores escuros de câncer de cólon metastático (mCC) com base em três coortes independentes de 805 amostras no total^{de 44}. Biomarcadores escuros receberam investigações limitadas em laboratório úmido devido às suas expressões indiferenciais. No entanto, um dos biomarcadores escuros mCC detectados YTHDC2 codifica o domínio YTH da proteína contendo 2, cujos níveis de proteína foram positivamente correlacionados com o status de metástase de células de câncer gástrico humano⁴⁶ e câncer de cólon⁴⁷. Novos conhecimentos biológicos de biomarcadores escuros ainda precisam ser resolvidos por meio de tecnologias in vitro e in vivo.

Este protocolo foi projetado para ser totalmente modular. Modelos de referência pré-treinados em outros grandes conjuntos de dados, como cânceres primários, facilitarão a investigação de metástases tumorais. Este protocolo também será explorado para aplicações em outros domínios da vida, incluindo plantas, fungos e micróbios.

A eficiência computacional deste protocolo é planejada para ser melhorada através de paralelização e otimização algorítmica.

Este protocolo descreve o procedimento para transformar um conjunto de dados transcriptômicos em uma nova visualização mqTrans, e os valores mqTrans transformados de um gene medem quantitativamente as mudanças de regulação da transcrição em comparação com as amostras de referência. Um modelo padrão foi pré-treinado nos transcriptomas saudáveis e liberado como o HealthModel de referência.

O código-fonte de duas tarefas a jusante é fornecido para facilitar a fácil utilização deste protocolo por pesquisadores biomédicos. Os dados experimentais mostram que as características mqTrans transformadas podem melhorar as tarefas de predição usando apenas os níveis de expressão originais. A visão mqTrans também pode desvendar as conexões fenotípicas latentes de alguns biomarcadores escuros sem expressões diferenciais nos dados transcriptômicos originais.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Os autores não têm nada a revelar.

Acknowledgments

Este trabalho foi apoiado pela Equipe de Inovação Tecnológica Sênior e Júnior (20210509055RQ), Projetos Provinciais de Ciência e Tecnologia de Guizhou (ZK2023-297), pela Fundação de Ciência e Tecnologia da Comissão de Saúde da Província de Guizhou (gzwkj2023-565), pelo Projeto de Ciência e Tecnologia do Departamento de Educação da Província de Jilin (JJKH20220245KJ e JJKH20220226SK), pela Fundação Nacional de Ciências Naturais da China (U19A2061), pelo Laboratório Chave Provincial de Jilin de Computação Inteligente de Big Data (20180622002JC), e os Fundos de Pesquisa Fundamental para as Universidades Centrais, JLU. Estendemos nosso mais sincero agradecimento ao editor de revisão e aos três revisores anônimos por suas críticas construtivas, que foram fundamentais para aumentar substancialmente o rigor e a clareza deste protocolo.

Materials

Name	Company	Catalog Number	Comments
Anaconda	Anaconda	version 2020.11	Python programming platform
Computer	N/A	N/A	Any general-purpose computers satisfy the requirement
GPU card	N/A	N/A	Any general-purpose GPU cards with the CUDA computing library
pytorch	Pytorch	version 1.13.1	Software
torch-geometric	Pytorch	version 2.2.0	Software