Biology

Génération de la vue de régulation transcriptionnelle des caractéristiques transcriptomiques pour la tâche de prédiction et la détection de biomarqueurs sombres sur de petits ensembles de données

Published: March 1, 2024 doi: 10.3791/66030

Kewei Li¹, Yusi Fan¹, Yaqing Liu¹, Hongmei Liu², Gongyou Zhang², Meiyu Duan¹, Lan Huang¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²School of Biology and Engineering, Guizhou Medical University

Summary

Ici, nous introduisons un protocole de conversion des données transcriptomiques en une vue mqTrans, permettant l’identification de biomarqueurs sombres. Bien qu’ils ne soient pas exprimés de manière différentielle dans les analyses transcriptomiques conventionnelles, ces biomarqueurs présentent une expression différentielle dans la vue mqTrans. L’approche sert de technique complémentaire aux méthodes traditionnelles, dévoilant des biomarqueurs jusque-là négligés.

Abstract

Le transcriptome représente les niveaux d’expression de nombreux gènes dans un échantillon et a été largement utilisé dans la recherche biologique et la pratique clinique. Les chercheurs se sont généralement concentrés sur les biomarqueurs transcriptomiques avec des représentations différentielles entre un groupe phénotypique et un groupe témoin d’échantillons. Cette étude a présenté un cadre d’apprentissage multitâche graph-attention network (GAT) pour apprendre les interactions intergéniques complexes des échantillons de référence. Un modèle de référence démonstratif a été pré-entraîné sur les échantillons sains (HealthModel), qui a pu être directement utilisé pour générer la vue de régulation transcriptionnelle quantitative basée sur le modèle (mqTrans) des transcriptomes de test indépendants. La vue mqTrans générée des transcriptomes a été démontrée par des tâches de prédiction et la détection de biomarqueurs sombres. Le terme inventé « biomarqueur sombre » découle de sa définition selon laquelle un biomarqueur sombre présentait une représentation différentielle dans la vue mqTrans mais pas d’expression différentielle dans son niveau d’expression d’origine. Un biomarqueur sombre a toujours été négligé dans les études traditionnelles de détection de biomarqueurs en raison de l’absence d’expression différentielle. Le code source et le manuel du pipeline HealthModelPipe peuvent être téléchargés à partir de http://www.healthinformaticslab.org/supp/resources.php.

Introduction

Le transcriptome est constitué de l’expression de tous les gènes d’un échantillon et peut être profilé par des technologies à haut débit telles que les puces à ADN et le séquençage de l’ARN¹. Les niveaux d’expression d’un gène dans un ensemble de données sont appelés une caractéristique transcriptomique, et la représentation différentielle d’une caractéristique transcriptomique entre le phénotype et le groupe témoin définit ce gène comme un biomarqueur de ce phénotype ^2,3. Les biomarqueurs transcriptomiques ont été largement utilisés dans les enquêtes sur le diagnostic de la maladie⁴, le mécanisme biologique⁵ et l’analyse de survie⁶^, ⁷, etc.

Les modèles d’activité des gènes dans les tissus sains transportent des informations cruciales sur la vie ^8,9. Ces modèles offrent des informations précieuses et constituent des références idéales pour comprendre les trajectoires développementales complexes des troubles bénins^10,11 et des maladies mortelles¹². Les gènes interagissent les uns avec les autres, et les transcriptomes représentent les niveaux d’expression finaux après leurs interactions compliquées. De tels modèles sont formulés comme le réseau de régulation transcriptionnelle¹³ et le réseau métabolique¹⁴, etc. L’expression des ARN messagers (ARNm) peut être régulée transcriptionnellement par des facteurs de transcription (TF) et de longs ARN intergéniques non codants (ARNlinc)15,16,17. L’analyse conventionnelle de l’expression différentielle a ignoré ces interactions complexes entre les gènes avec l’hypothèse de l’indépendance inter-caractéristiques^18,19.

Les progrès récents dans les réseaux neuronaux à graphes (GNN) démontrent un potentiel extraordinaire dans l’extraction d’informations importantes à partir de données OMIC pour les études sur le cancer²⁰, par exemple, l’identification de modules de co-expression²¹. La capacité innée des GNN les rend idéaux pour modéliser les relations et les dépendances complexes entre les gènes^22,23.

Les études biomédicales se concentrent souvent sur la prédiction précise d’un phénotype par rapport au groupe témoin. De telles tâches sont généralement formulées sous forme de classifications binaires 24,25,26. Ici, les deux étiquettes de classe sont généralement codées comme 1 et 0, vrai et faux, ou même positif et négatif²⁷.

Cette étude visait à fournir un protocole facile à utiliser pour générer la vue de régulation transcriptionnelle (mqTrans) d’un ensemble de données de transcriptomes basé sur le modèle de référence du réseau d’attention graphique pré-entraîné (GAT). Le cadre GAT multitâche d’un travail précédemment publié²⁶ a été utilisé pour transformer les caractéristiques transcriptomiques en caractéristiques mqTrans. Un grand ensemble de données de transcriptomes sains provenant de la plate-forme Xena²⁸ de l’Université de Californie à Santa Cruz (UCSC) a été utilisé pour pré-entraîner le modèle de référence (HealthModel), qui a mesuré quantitativement les régulations de transcription des facteurs régulateurs (TF et ARNlinc) aux ARNm cibles. La vue mqTrans générée pourrait être utilisée pour construire des modèles de prédiction et détecter des biomarqueurs sombres. Ce protocole utilise l’ensemble de données de patients atteints d’adénocarcinome du côlon (COAD) de la base de données²⁹ de l’Atlas du génome du cancer (TCGA) à titre d’exemple. Dans ce contexte, les patients des stades I ou II sont classés comme des échantillons négatifs, tandis que ceux des stades III ou IV sont considérés comme des échantillons positifs. Les distributions des biomarqueurs sombres et traditionnels dans les 26 types de cancer TCGA sont également comparées.

Description du pipeline HealthModel
La méthodologie employée dans ce protocole est basée sur le cadre²⁶ publié précédemment, comme indiqué à la figure 1. Pour commencer, les utilisateurs doivent préparer le jeu de données d’entrée, l’introduire dans le pipeline HealthModel proposé et obtenir des fonctionnalités mqTrans. Des instructions détaillées pour la préparation des données sont fournies à la section 2 de la section sur le protocole. Par la suite, les utilisateurs ont la possibilité de combiner les caractéristiques mqTrans avec les caractéristiques transcriptomiques d’origine ou de procéder uniquement avec les caractéristiques mqTrans générées. Le jeu de données produit est ensuite soumis à un processus de sélection de caractéristiques, les utilisateurs ayant la possibilité de choisir leur valeur préférée pour k dans la validation croisée k fois pour la classification. La principale mesure d’évaluation utilisée dans ce protocole est la précision.

HealthModel²⁶ classe les caractéristiques transcriptomiques en trois groupes distincts : TF (facteur de transcription), lincRNA (long ARN intergénique non codant) et ARNm (ARN messager). Les caractéristiques TF sont définies sur la base des annotations disponibles dans l’Atlas des protéines humaines^30,31. Ce travail utilise les annotations des ARNlinc du jeu de données GTEx³². Les gènes appartenant aux voies de troisième niveau de la base de données KEGG³³ sont considérés comme des caractéristiques de l’ARNm. Il convient de noter que si une caractéristique de l’ARNm présente des rôles régulateurs pour un gène cible, comme documenté dans la base de données TRRUST³⁴, elle est reclassée dans la classe TF.

Ce protocole génère également manuellement les deux fichiers d’exemple pour les identifiants de gènes des facteurs de régulation (regulatory_geneIDs.csv) et de l’ARNm cible (target_geneIDs.csv). La matrice de distance par paires entre les caractéristiques régulatrices (TF et ARNlinc) est calculée par les coefficients de corrélation de Pearson et regroupée par l’outil populaire WGCNA (Weighted Geme Co-Expression Network Analysis)³⁶ (adjacent_matrix.csv). Les utilisateurs peuvent utiliser directement le pipeline HealthModel avec ces exemples de fichiers de configuration pour générer la vue mqTrans d’un jeu de données transcriptomique.

Détails techniques de HealthModel
HealthModel représente les relations complexes entre les TF et les lincRNAs sous la forme d’un graphique, les entités en entrée servant de sommets notés V et une matrice d’arêtes inter-sommets désignée par E. Chaque échantillon est caractérisé par des caractéristiques régulatrices K , symbolisées par V^K×1. Plus précisément, l’ensemble de données comprenait 425 TF et 375 ARNlinc, ce qui donne une dimensionnalité de l’échantillon de K = 425 + 375 = 800. Pour établir la matrice d’arête E, ce travail a utilisé l’outil populaire WGCNA³⁵. Le poids par paire reliant deux sommets représentés par Equation 1 et Equation 2 , est déterminé par le coefficient de corrélation de Pearson. Le réseau de régulation des gènes présente une topologie sans échelle³⁶, caractérisée par la présence de gènes pivots ayant des rôles fonctionnels pivots. Nous calculons la corrélation entre deux entités ou sommets, Equation 1 et Equation 2 , à l’aide de la mesure de chevauchement topologique (TOM) comme suit :

Equation 3 (1)

Equation 4 (2)

Le β de seuil souple est calculé à l’aide de la fonction « pickSoft Threshold » du package WGCNA. La fonction exponentielle de puissance a_ij est appliquée, où Equation 5 représente un gène excluant i et j, et Equation 6 représente la connectivité du sommet. WGCNA regroupe les profils d’expression des caractéristiques transcriptomiques en plusieurs modules à l’aide d’une mesure de dissimilarité couramment utilisée ( Equation 7 ³⁷.

Le cadre HealthModel a été conçu à l’origine comme une architecture d’apprentissage multitâche²⁶. Ce protocole utilise uniquement la tâche de pré-entraînement du modèle pour la construction de la vue transcriptomique mqTrans. L’utilisateur peut choisir d’affiner davantage le HealthModel pré-entraîné dans le cadre du réseau d’attention graphique multitâche avec des échantillons transcriptomiques supplémentaires spécifiques à la tâche.

Détails techniques de la sélection et de la classification des caractéristiques
Le pool de sélection de caractéristiques implémente onze algorithmes de sélection de caractéristiques (FS). Parmi eux, trois sont des algorithmes FS basés sur des filtres : la sélection de K meilleures caractéristiques à l’aide du coefficient d’information maximal (SK_mic), la sélection de K caractéristiques en fonction du FPR de MIC (SK_fpr) et la sélection de K entités avec le taux de fausses découvertes le plus élevé de MIC (SK_fdr). De plus, trois algorithmes FS basés sur des arbres évaluent les caractéristiques individuelles à l’aide d’un arbre de décision avec l’indice de Gini (DT_gini), d’arbres de décision adaptatifs boostés (AdaBoost) et d’une forêt aléatoire (RF_fs). Le pool intègre également deux méthodes d’encapsulation : l’élimination de caractéristiques récursives avec le classificateur de vecteurs de support linéaire (RFE_SVC) et l’élimination de caractéristiques récursives avec le classificateur de régression logistique (RFE_LR). Enfin, deux algorithmes d’incorporation sont inclus : le classificateur SVC linéaire avec les valeurs d’importance des caractéristiques L1 les mieux classées (lSVC_L1) et le classificateur de régression logistique avec les valeurs d’importance des caractéristiques L1 les mieux classées (LR_L1).

Le pool de classificateurs utilise sept classificateurs différents pour créer des modèles de classification. Ces classificateurs comprennent la machine à vecteurs de support linéaire (SVC), le bayésien naïf gaussien (GNB), le classificateur de régression logistique (LR), le k plus proche voisin, avec k défini sur 5 par défaut (KNN), XGBoost, la forêt aléatoire (RF) et l’arbre de décision (DT).

La division aléatoire du jeu de données en sous-ensembles train : test peut être définie dans la ligne de commande. L’exemple illustré utilise le rapport de train : test = 8 : 2.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

REMARQUE : Le protocole suivant décrit les détails de la procédure d’analyse informatique et des commandes Python des principaux modules. La figure 2 illustre les trois étapes principales avec des exemples de commandes utilisées dans ce protocole et se réfère aux travaux précédemment publiés^26,38 pour plus de détails techniques. Effectuez le protocole suivant sous un compte d’utilisateur normal dans un système informatique et évitez d’utiliser le compte administrateur ou root. Il s’agit d’un protocole informatique qui ne comporte aucun facteur de danger biomédical.

1. Préparer l’environnement Python

Créez un environnement virtuel.
1. Cette étude a utilisé le langage de programmation Python et un environnement virtuel Python (VE) avec Python 3.7. Procédez comme suit (Figure 3A) :
  conda create -n healthmodel python=3.7
  conda create est la commande permettant de créer un nouveau VE. Le paramètre -n spécifie le nom du nouvel environnement, dans ce cas, healthmodel. Et python=3.7 spécifie la version de Python à installer. Choisissez le nom et la version de Python prenant en charge la commande ci-dessus.
2. Après l’exécution de la commande, le résultat est similaire à celui de la figure 3B. Entrez y et attendez que le processus se termine.
Activer l’environnement virtuel
1. Dans la plupart des cas, activez l’EV créé à l’aide de la commande suivante (Figure 3C) :
  Conda Activate HealthModel
2. Suivez les instructions spécifiques à la plate-forme pour l’activation de l’EV, si certaines plates-formes exigent que l’utilisateur télécharge les fichiers de configuration spécifiques à la plate-forme pour l’activation.
Installer PyTorch 1.13.1
1. PyTorch est un package Python populaire pour les algorithmes d’intelligence artificielle (IA). Utilisez PyTorch 1.13.1, basé sur la plate-forme de programmation GPU CUDA 11.7, comme exemple. Retrouvez d’autres versions sur https://pytorch.org/get-started/previous-versions/. Utilisez la commande suivante (Figure 3D) :
  Torche d’installation PIP3 torcheTorche de visionaudio
  REMARQUE : L’utilisation de la version 1.12 ou ultérieure de PyTorch est fortement recommandée. Sinon, l’installation du torch_geometric de package requis peut être difficile, comme indiqué sur le site officiel de torch_geometric : https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html.
Installer des paquets supplémentaires pour torch-geometric
1. En suivant les instructions de la https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html, installez les packages suivants : torch_scatter, torch_sparse, torch_cluster et torch_spline_conv à l’aide de la commande (Figure 3E) :
  pip install pyg_lib torch_scatter torch_sparse torch_cluster torch_spline_conv -f https://data.pyg.org/whl/torch-1.13.0+cu117.html
Installez le paquet géométrique de la torche .
1. Cette étude nécessite une version spécifique, 2.2.0, de l’ensemble géométrique de la torche . Exécutez la commande (Figure 3F) :
  pip install torch_geometric==2.2.0
Installez d’autres paquets.
1. Les paquets comme pandas sont généralement disponibles par défaut. Si ce n’est pas le cas, installez-les à l’aide de la commande pip. Par exemple, pour installer pandas et xgboost, exécutez :
  pip installer pandas
  pip install xgboost

2. Utilisation du HealthModel pré-entraîné pour générer les fonctionnalités mqTrans

Téléchargez le code et le modèle pré-entraîné.
1. Téléchargez le code et le HealthModel pré-entraîné à partir du site Web : http://www.healthinformaticslab.org/supp/resources.php, qui est nommé HealthModel-mqTrans-v1-00.tar.gz (Figure 4A). Le fichier téléchargé peut être décompressé dans un chemin spécifié par l’utilisateur. La formulation détaillée et les données à l’appui du protocole mis en œuvre se trouvent au^{point 26}.
Introduisez les paramètres d’exécution de HealthModel.
1. Tout d’abord, remplacez le répertoire de travail par le dossier HealthModel-mqTrans dans la ligne de commande. Utilisez la syntaxe suivante pour exécuter le code :
  python main.py
  Les détails concernant chaque paramètre et les dossiers de données, de modèle et de sortie sont les suivants :
  dossier de données : il s’agit du dossier de données source, et chaque fichier de données est au format csv. Ce dossier de données contient deux fichiers (voir les descriptions détaillées aux étapes 2.3 et 2.4). Ces fichiers doivent être remplacés par des données personnelles.
  data.csv : Le fichier de matrice transcriptomique. La première ligne répertorie les ID de caractéristiques (ou de gènes) et la première colonne donne les ID d’échantillon. La liste des gènes comprend les facteurs régulateurs (TF et ARNlinc) et les gènes d’ARNm régulés.
  label.csv : exemple de fichier d’étiquettes. La première colonne répertorie les ID d’échantillon, et la colonne portant le nom « étiquette » donne l’étiquette de l’échantillon.
  model folder : dossier permettant d’enregistrer les informations sur le modèle :
  HealthModel.pth : HealthModel pré-entraîné.
  regulatory_geneIDs.csv : Les identifiants des gènes régulateurs utilisés dans cette étude.
  target_geneIDs.csv : Les gènes cibles utilisés dans cette étude.
  adjacent_matrix.csv : La matrice adjacente des gènes régulateurs.
  dossier de sortie : les fichiers de sortie sont écrits dans ce dossier, créé par le code.
  test_target.csv : La valeur d’expression génique des gènes cibles après la normalisation et l’imputation Z.
  pred_target.csv : La valeur prédite de l’expression génique des gènes cibles.
  mq_target.csv : La valeur prédite de l’expression génique des gènes cibles.
Préparez le fichier de matrice transcriptomique au format csv.
1. Chaque ligne représente un échantillon et chaque colonne représente un gène (figure 4B). Nommez le fichier Datamatrix transcriptomique comme data.csv dans le dossier de données .
  REMARQUE : Ce fichier peut être généré en enregistrant manuellement une matrice de données au format .csv à partir d’un logiciel tel que Microsoft Excel. La matrice transcriptomique peut également être générée par programmation informatique.
Préparez le fichier d’étiquettes au format csv.
1. Comme pour le fichier de matrice transcriptomique, nommez le fichier d’étiquettes comme label.csv dans le dossier de données (Figure 4C).
  REMARQUE : La première colonne donne les noms des échantillons, et l’étiquette de classe de chaque échantillon est donnée dans la colonne intitulée étiquette. La valeur 0 dans la colonne d’étiquette signifie que cet échantillon est négatif, 1 signifie qu’il s’agit d’un échantillon positif.
Générez les fonctionnalités mqTrans.
1. Exécutez la commande suivante pour générer les entités mqTrans et obtenir les sorties illustrées à la Figure 4D. Les entités mqTrans sont générées sous la forme du fichier ./output/mq_targets.csv et le fichier d’étiquettes est réenregistré sous le nom de fichier ./output/label.csv. Pour faciliter une analyse plus approfondie, les valeurs d’expression originales des gènes de l’ARNm sont également extraites sous forme de fichier ./output/ test_target.csv.
  python ./Get_mqTrans/code/main.py ./data ./Get_mqTrans/model ./output

3. Sélectionnez les fonctionnalités de mqTrans

Syntaxe du code de sélection de l’entité
1. Tout d’abord, remplacez le répertoire de travail par le dossier HealthModel-mqTrans . Utilisez la syntaxe suivante :
  python ./FS_classification/testMain.py
  Les détails de chaque paramètre sont les suivants :
  in-data-file : Le fichier de données d’entrée
  in-label-file : l’étiquette du fichier de données d’entrée
  Dossier de sortie : deux fichiers de sortie sont enregistrés dans ce dossier, y compris Output-score.xlsx (la méthode de sélection des entités et la précision du classifieur correspondant) et Output-SelectedFeatures.xlsx (les noms des entités sélectionnées pour chaque algorithme de sélection d’entités).
  1. select_feature_number : sélectionnez le nombre d’entités, allant de 1 au nombre d’entités du fichier de données.
  2. test_size : Définissez le rapport de l’échantillon de test à diviser. Par exemple, 0,2 signifie que le jeu de données en entrée est divisé de manière aléatoire dans les sous-ensembles train : test selon un rapport de 0,8 :0,2.
  3. combine : si la valeur est true, combine deux fichiers de données pour la sélection des entités, c’est-à-dire les valeurs de l’expression d’origine et les entités mqTrans. Si la valeur est false, il suffit d’utiliser un fichier de données pour la sélection des entités, c’est-à-dire les valeurs de l’expression d’origine ou les entités mqTrans.
  4. combine file : si combine a la valeur true, indiquez ce nom de fichier pour enregistrer la matrice de données combinée.
    REMARQUE : Ce pipeline vise à démontrer comment les fonctionnalités mqTrans générées se comportent sur les tâches de classification, et il utilise directement le fichier généré par la section 2 pour les opérations suivantes.
Exécutez l’algorithme de sélection des caractéristiques pour la sélection des caractéristiques mqTrans.
1. Turn combine =False si l’utilisateur sélectionne des fonctions mqTrans ou des fonctions d’origine.
2. Tout d’abord, sélectionnez 800 entités d’origine et divisez le jeu de données en train : test=0.8 :0.2 :
  python ./FS_classification/testMain.py ./output/test_target.csv ./output/label.csv ./result 800 0.2 False
3. Transformez combine =True, si l’utilisateur souhaite combiner les entités mqTrans avec les valeurs d’expression d’origine pour sélectionner des entités. Ici, l’exemple démonstratif consiste à sélectionner 800 entités et à diviser le jeu de données en train : test=0.8 :0.2 :
  python ./FS_classification/testMain.py ./output/mq_targets.csv ./output/label.csv ./result_combine 800 0.2 True ./output/test_target.csv
  REMARQUE : La figure 5 montre les informations de sortie. Les fichiers supplémentaires requis pour ce protocole se trouvent dans HealthModel-mqTrans-v1-00.tar dossier (Fichier de codage supplémentaire 1).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Évaluation de la vue mqTrans de l’ensemble de données transcriptomiques
Le code de test utilise onze algorithmes de sélection de caractéristiques (FS) et sept classificateurs pour évaluer comment la vue mqTrans générée de l’ensemble de données transcriptomiques contribue à la tâche de classification (Figure 6). L’ensemble de données de test se compose de 317 adénocarcinomes du côlon (COAD) provenant de la base de données²⁹ de l’Atlas du génome du cancer (TCGA). Les patients COAD aux stades I ou II sont considérés comme les échantillons négatifs, tandis que ceux aux stades III ou IV sont les échantillons positifs.

Onze algorithmes FS sont implémentés dans le code de test. Il existe trois algorithmes FS basés sur des filtres, notamment sélectionner les K meilleures caractéristiques par MIC (SK_mic), sélectionner K caractéristiques par le FPR de MIC (SK_fpr) et sélectionner K caractéristiques par le FDR le plus élevé de MIC (SK_fpr). Trois algorithmes FS basés sur des arbres évaluent les caractéristiques individuelles par un arbre de décision avec indice de Gini (DT_gini), les arbres de décision adaptatifs boostés (AdaBoost) et la forêt aléatoire (RF_fs), respectivement. Le pool FS du code de test évalue également l’élimination des caractéristiques récursives (RFE) de deux wrappers avec le classificateur de vecteurs de support linéaire (SVC)(RFE_SVC) et RFE avec le classificateur de régression logistique (RFE_LR), et deux algorithmes d’incorporation : le classificateur SVC linéaire avec les valeurs d’importance des caractéristiques L1 les mieux classées (lSVC_L1) et le classificateur de régression logistique avec les valeurs d’importance des caractéristiques L1 les mieux classées (LR_L1).

Le code de test construit les modèles de classification à l’aide de sept classificateurs, y compris la machine à vecteurs de support linéaire (SVC), le bayésien naïf gaussien (GNB), le classificateur de régression logistique (LR), le k-plus proche voisin, k-5 par défaut (KNN), XGBoost, la forêt aléatoire (RF) et l’arbre de décision (DT).

La figure 6 montre la précision maximale du test des caractéristiques mqTrans, des caractéristiques d’ARNm d’origine et du sous-ensemble combiné des caractéristiques de l’ARNm et de la mqTrans recommandées par chaque algorithme du service fixe.

Les sous-ensembles de caractéristiques combinés (ARNm + mqTrans) ont atteint la plus grande précision de 0,7656 sur la méthode FS « SK_fpr », meilleure que les types de caractéristiques individuels mqTrans (0,7188) et ARNm d’origine (0,7188). Des modèles similaires peuvent être observés pour les autres algorithmes du service fixe. L’utilisateur peut vérifier les entités sélectionnées dans le fichier de sortie Output-SelectedFeatures.csv.

Détecter les biomarqueurs sombres
Des études antérieures ont montré l’existence de gènes exprimés de manière indifférenciée avec des valeurs mqTrans significativement représentées de manière différentielle entre le groupe phénotypique et le groupe témoin 26,38,39. Ces gènes sont appelés biomarqueurs sombres parce que les études traditionnelles de détection de biomarqueurs les ignorent par leurs expressions indifférenciées. La fonction d’analyse statistique t.test de Microsoft Excel peut être utilisée pour définir une caractéristique qui est exprimée de manière différentielle si sa valeur de p statistique est inférieure à 0,05.

Parmi les 3062 caractéristiques avec les valeurs mqTrans générées, 221 biomarqueurs sombres ont été détectés (Figure 7). Le troisième gène ENSG00000163697 (APBB2, Amyloid Beta Precursor Protein Binding Family B Member 2) présente des valeurs mqTrans significativement représentées de manière différentielle (mqTrans.P = 2,03 x ^10-4) alors que son niveau d’expression d’origine ne montre aucune expression différentielle (ARNm.P = 3,80 x ^10-1). Le mot-clé APBB2 a atteint 27 publications dans la base de données PubMed⁴⁰, mais aucun lien avec le côlon ou l’intestin n’a été détecté.

Un autre gène ENSG00000048052 (HDAC9, Histone désacétylase 9) a les valeurs mqTrans représentées différentiellement (mqTrans.P = 6,09 x ^10-3) tout en maintenant pratiquement les mêmes distributions normales entre le groupe phénotypique et le groupe témoin (ARNm.P = 9,62 x ^10-1). Le mot-clé HDAC9 a atteint 417 publications dans la base de données PubMed. Trois études ont également mentionné les mots-clés « côlon » ou « intestin » dans les résumés 41,42,43. Mais aucun d’entre eux n’a étudié les rôles de HDAC9 dans le cancer du côlon.

Les données ont suggéré la nécessité d’évaluations plus poussées de ces biomarqueurs sombres à partir de leurs activités post-transcriptionnelles, par exemple, les niveaux de protéines traduites^44,45.

Distributions pancancéreuses des biomarqueurs sombres et traditionnels liés au métabolisme
Les biomarqueurs traditionnels liés au métabolisme ont été criblés et comparés à des biomarqueurs foncés dans 26 types de cancer dans l’ensemble de données TCGA³⁸. Les deux catégories de biomarqueurs ont fait l’objet d’une évaluation statistique afin de discerner les niveaux de signification entre les stades précoces (stades I et II) et tardifs (stades III et IV) du cancer. Cette évaluation a utilisé les tests t de Student pour les valeurs p, corrigés par la suite pour les tests multiples à l’aide de taux de fausses découvertes (FDR). Des données détaillées pour chacun des 26 types de cancer sont présentées à la figure 8.

Les gènes dont les valeurs p corrigées par le FDR sont inférieures à 0,05 ont été classés comme biomarqueurs traditionnels. En revanche, les biomarqueurs foncés ont été définis comme ceux dont les valeurs p corrigées par FDR sont inférieures à 0,05 dans la vue mqTrans tout en ne présentant aucune différence statistiquement significative dans les niveaux d’expression.

La figure 9 révèle une rareté générale des biomarqueurs sombres par rapport aux biomarqueurs traditionnels pour la plupart des types de cancer. Parmi les exceptions notables, citons les gènes BRCA, MESO et TGCT, qui manifestent une plus grande prévalence de biomarqueurs sombres. Il est révélé que divers facteurs, y compris les facteurs de transcription, les modèles de méthylation, les mutations génétiques et les conditions environnementales, pourraient moduler la dérégulation transcriptionnelle de ces biomarqueurs sombres. Une complexité supplémentaire peut survenir en raison du chevauchement des transcrits d’ARN non codants qui pourraient confondre les niveaux d’expression des biomarqueurs sombres. Les dérèglements de transcription de certains biomarqueurs sombres ont été soutenus par leurs niveaux différentiels de protéines^44,45. Les biomarqueurs sombres sont souvent négligés dans les études traditionnelles et présentent des pistes intrigantes pour de futures études mécanistiques.

Figure 1 : Vue d’ensemble des modules HealthModel et de sélection de fonctionnalités dans ce protocole. Remplacez les algorithmes spécifiques dans le pool de sélection d’entités et le pool de classificateurs si l’utilisateur est familiarisé avec la programmation Python. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 2 : Flux de code complet pour ce protocole. (a) Préparez l’environnement Python. Pour commencer, créez un environnement virtuel et installez les packages essentiels. Pour obtenir des instructions détaillées, reportez-vous à la section 1. (b) Générer des fonctionnalités mqTrans. Obtenez les fonctionnalités mqTrans en exécutant le code fourni étape par étape. Des explications détaillées se trouvent à la section 2. (C) Sélectionnez les fonctionnalités mqTrans. Cette section se concentre sur l’évaluation des fonctionnalités de mqTrans. Reportez-vous à la section 3 pour plus de détails. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 3 : Préparer l’environnement pour Python. (A) Commande permettant de créer un modèle d’intégrité. (B) Entrez y pendant le processus de création de l’EV. (C) La commande la plus courante pour activer le VE. (D) La commande d’installation de la torche 1.13.1. (E) Installer des bibliothèques supplémentaires pour le paquet géométrique torche. (F) Installez l’ensemble géométrique de la torche. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 4 : Exécutez HealthModel pour obtenir la fonctionnalité mqTrans. (A) Téléchargez le code. (B) L’exemple d’un fichier de données. Chaque colonne contient toutes les valeurs d’un facteur régulateur, et le premier élément est l’ID du gène. Chaque ligne donne les valeurs d’un échantillon donné, le premier élément étant le nom de l’échantillon. (C) L’exemple d’un fichier d’étiquettes. La première colonne donne les noms des échantillons, et l’étiquette de classe de chaque échantillon est donnée dans la colonne intitulée label. La valeur 0 dans la colonne d’étiquette signifie que cet échantillon est actif, 1 signifie qu’il est mort. (D) les sorties de mqTrans. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 5 : Exécutez l’algorithme de sélection d’entités pour la fonction mqTrans. Les résultats de l’algorithme de sélection des caractéristiques sont affichés à l’utilisateur. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 6 : Précision maximale de l’ensemble de test de chaque algorithme de sélection de caractéristiques. L’axe horizontal répertorie les algorithmes de sélection des caractéristiques et l’axe vertical donne les valeurs des précisions. Les histogrammes montrent les données expérimentales des trois paramètres, c’est-à-dire mqTrans, mRNA, mRNA+mqTrans. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 7 : Top 50 des biomarqueurs sombres avec les plus petites valeurs de p dans la vue mqTrans. La colonne « Biomarqueur foncé » donne les noms des biomarqueurs foncés. Les colonnes « ARNm.P » et « mqTrans.P » sont les valeurs p statistiques du test t entre le groupe phénotypique et le groupe témoin. Les couleurs d’arrière-plan des valeurs de p sont colorées entre les valeurs de p 1,00 (bleu) et 0,00 (rouge), et la couleur blanche représente la valeur de p = 0,05. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 8 : Les détails des 26 cancers de l’Atlas du génome du cancer (TCGA) à différents stades. Les colonnes « Cohorte » et « Tissu pathologique » décrivent le groupe de patients et les tissus atteints de la maladie pour chaque ensemble de données. Les quatre dernières colonnes indiquent le nombre d’échantillons aux stades de développement I, II, III et IV, respectivement. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 9 : Le nombre de biomarqueurs sombres et de biomarqueurs traditionnels dans 26 cancers. L’axe horizontal énumère les 26 types de cancer. L’axe vertical donne le nombre de biomarqueurs sombres et de biomarqueurs traditionnels pour ces types de cancer. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Fichier de codage supplémentaire 1 : HealthModel-mqTrans-v1-00.tar Veuillez cliquer ici pour télécharger ce fichier.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

La section 2 (Utiliser le HealthModel pré-entraîné pour générer les fonctionnalités mqTrans) du protocole est l’étape la plus critique de ce protocole. Après avoir préparé l’environnement de travail de calcul de la section 1, la section 2 génère la vue mqTrans d’un jeu de données transcriptomiques basé sur le modèle de référence de grande taille pré-entraîné. La section 3 est un exemple démonstratif de sélection des caractéristiques mqTrans générées pour les tâches de détection et de prédiction de biomarqueurs. Les utilisateurs peuvent effectuer d’autres analyses transcriptomiques sur cet ensemble de données mqTrans en utilisant leurs propres outils ou codes.

L’infrastructure HealthModel d’origine permet d’affiner davantage le HealthModel pré-entraîné à l’aide de l’architecture multitâche, comme décrit à la^{section 26}. Ce protocole se concentre sur l’utilisation du modèle de référence pré-entraîné pour générer la vue mqTrans d’un ensemble de données transcriptomiques.

Le modèle de référence pré-entraîné par défaut a été établi sur les échantillons sains et peut ne pas être un bon choix pour certaines tâches spécifiques, par exemple, l’investigation entre les cancers primitifs et métastatiques. La vitesse de calcul est également lente pour un grand ensemble de données transcriptomiques.

L’importance de ce protocole est de fournir une vue mqTrans complémentaire du type de données OMIC le plus abondamment disponible, c’est-à-dire le transcriptome. Des biomarqueurs sombres peuvent être révélés à partir des gènes exprimés de manière indifférenciée et ignorés par l’analyse transcriptomique conventionnelle. Une étude récente a détecté sept biomarqueurs sombres du cancer du côlon métastatique (CCM) sur la base de trois cohortes indépendantes de 805 échantillons sur^{un total de 44}. Les biomarqueurs foncés ont fait l’objet d’études limitées en laboratoire humide en raison de leur expression non différentielle. Cependant, l’un des biomarqueurs sombres mCC détectés YTHDC2 code pour le domaine de la protéine YTH contenant 2, dont les niveaux de protéines ont été observés comme étant positivement corrélés avec l’état des métastases des cellules cancéreuses gastriques humaines⁴⁶ et des cancers du côlon⁴⁷. De nouvelles connaissances biologiques sur les biomarqueurs sombres restent à résoudre grâce à des technologies in vitro et in vivo.

Ce protocole est conçu pour être entièrement modulaire. Des modèles de référence pré-entraînés sur d’autres grands ensembles de données tels que les cancers primitifs faciliteront l’investigation des métastases tumorales. Ce protocole sera également exploré pour des applications dans d’autres domaines de la vie, notamment les plantes, les champignons et les microbes.

L’efficacité de calcul de ce protocole devrait être améliorée grâce à la parallélisation et à l’optimisation algorithmique.

Ce protocole décrit la procédure de transformation d’un ensemble de données transcriptomiques en une nouvelle vue mqTrans, et les valeurs mqTrans transformées d’un gène mesurent quantitativement les changements de régulation de la transcription par rapport aux échantillons de référence. Un modèle par défaut a été pré-entraîné sur les transcriptomes sains et publié en tant que HealthModel de référence.

Le code source de deux tâches en aval est fourni pour faciliter l’utilisation de ce protocole par les chercheurs biomédicaux. Les données expérimentales montrent que les caractéristiques transformées de mqTrans pourraient améliorer les tâches de prédiction en utilisant uniquement les niveaux d’expression d’origine. La vue mqTrans peut également dévoiler les connexions phénotypiques latentes de certains biomarqueurs sombres sans expressions différentielles dans les données transcriptomiques originales.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs n’ont rien à divulguer.

Acknowledgments

Ce travail a été soutenu par l’équipe d’innovation technologique senior et junior (20210509055RQ), les projets scientifiques et technologiques de la province du Guizhou (ZK2023-297), la Fondation pour la science et la technologie de la Commission de la santé de la province du Guizhou (gzwkj2023-565), le projet scientifique et technologique du Département de l’éducation de la province du Jilin (JJKH20220245KJ et JJKH20220226SK), la Fondation nationale des sciences naturelles de Chine (U19A2061), le Laboratoire clé de la province du Jilin pour l’informatique intelligente des mégadonnées (20180622002JC) et le Fonds de recherche fondamentale pour les universités centrales, JLU. Nous adressons notre plus sincère gratitude à l’éditeur de la revue et aux trois examinateurs anonymes pour leurs critiques constructives, qui ont contribué à améliorer considérablement la rigueur et la clarté de ce protocole.

Materials

Name	Company	Catalog Number	Comments
Anaconda	Anaconda	version 2020.11	Python programming platform
Computer	N/A	N/A	Any general-purpose computers satisfy the requirement
GPU card	N/A	N/A	Any general-purpose GPU cards with the CUDA computing library
pytorch	Pytorch	version 1.13.1	Software
torch-geometric	Pytorch	version 2.2.0	Software