Biology

Generación de la vista de regulación transcripcional de características transcriptómicas para la tarea de predicción y la detección de biomarcadores oscuros en conjuntos de datos pequeños

Published: March 1, 2024 doi: 10.3791/66030

Kewei Li¹, Yusi Fan¹, Yaqing Liu¹, Hongmei Liu², Gongyou Zhang², Meiyu Duan¹, Lan Huang¹, Fengfeng Zhou¹

¹College of Computer Science and Technology, and Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education, Jilin University, ²School of Biology and Engineering, Guizhou Medical University

Summary

Aquí, presentamos un protocolo para convertir datos transcriptómicos en una vista mqTrans, lo que permite la identificación de biomarcadores oscuros. Si bien no se expresan diferencialmente en los análisis transcriptómicos convencionales, estos biomarcadores exhiben una expresión diferencial en la vista mqTrans. El enfoque sirve como una técnica complementaria a los métodos tradicionales, revelando biomarcadores que antes se pasaban por alto.

Abstract

El transcriptoma representa los niveles de expresión de muchos genes en una muestra y se ha utilizado ampliamente en la investigación biológica y la práctica clínica. Por lo general, los investigadores se centraron en biomarcadores transcriptómicos con representaciones diferenciales entre un grupo fenotípico y un grupo de control de muestras. Este estudio presentó un marco de aprendizaje multitarea de la red de atención gráfica (GAT) para aprender las complejas interacciones intergénicas de las muestras de referencia. Se entrenó previamente un modelo de referencia demostrativo en las muestras sanas (HealthModel), que podría usarse directamente para generar la vista de regulación transcripcional cuantitativa basada en modelos (mqTrans) de los transcriptomas de prueba independientes. La vista mqTrans generada de los transcriptomas se demostró mediante tareas de predicción y detección de biomarcadores oscuros. El término acuñado "biomarcador oscuro" se deriva de su definición de que un biomarcador oscuro mostraba una representación diferencial en la vista mqTrans, pero no una expresión diferencial en su nivel de expresión original. Un biomarcador oscuro siempre se pasó por alto en los estudios tradicionales de detección de biomarcadores debido a la ausencia de expresión diferencial. El código fuente y el manual de la canalización HealthModelPipe se pueden descargar desde http://www.healthinformaticslab.org/supp/resources.php.

Introduction

El transcriptoma consiste en la expresión de todos los genes en una muestra y puede ser perfilado por tecnologías de alto rendimiento como microarrays y RNA-seq¹. Los niveles de expresión de un gen en un conjunto de datos se denominan característica transcriptómica, y la representación diferencial de una característica transcriptómica entre el fenotipo y los grupos control define a este gen como un biomarcador de este fenotipo ^2,3. Los biomarcadores transcriptómicos se han utilizado ampliamente en las investigaciones del diagnóstico de enfermedades⁴, el mecanismo biológico⁵ y el análisis de supervivencia ^6,7, etc.

Los patrones de actividad de los genes en los tejidos sanos contienen información crucial sobre las vidas ^8,9. Estos patrones ofrecen información invaluable y actúan como referencias ideales para comprender las complejas trayectorias de desarrollo de los trastornos benignos^10,11 y las enfermedades letales¹². Los genes interactúan entre sí, y los transcriptomas representan los niveles finales de expresión después de sus complicadas interacciones. Tales patrones se formulan como la red de regulación transcripcional¹³ y la red metabólica¹⁴, etc. Las expresiones de ARN mensajeros (ARNm) pueden ser reguladas transcripcionalmente por factores de transcripción (TF) y ARN intergénicos largos no codificantes (lincRNAs)15,16,17. El análisis convencional de la expresión diferencial ignoró estas complejas interacciones génicas con el supuesto de independencia entre características^18,19.

Los avances recientes en las redes neuronales de grafos (GNN) demuestran un potencial extraordinario en la extracción de información importante de los datos basados en OMIC para estudios de cáncer²⁰, por ejemplo, la identificación de módulos de coexpresión²¹. La capacidad innata de las GNN las hace ideales para modelar las intrincadas relaciones y dependencias entre los genes^22,23.

Los estudios biomédicos a menudo se centran en predecir con precisión un fenotipo en comparación con el grupo de control. Tales tareas se formulan comúnmente como clasificaciones binarias 24,25,26. Aquí, las dos etiquetas de clase se codifican normalmente como 1 y 0, verdadero y falso, o incluso positivo y negativo²⁷.

Este estudio tuvo como objetivo proporcionar un protocolo fácil de usar para generar la vista de regulación transcripcional (mqTrans) de un conjunto de datos de transcriptoma basado en el modelo de referencia de la red de atención de grafos (GAT) preentrenado. Se utilizó el marco GAT multitarea de un trabajo publicado anteriormente²⁶ para transformar las características transcriptómicas en las características mqTrans. Se utilizó un gran conjunto de datos de transcriptomas sanos de la plataforma Xena²⁸ de la Universidad de California, Santa Cruz (UCSC) para preentrenar el modelo de referencia (HealthModel), que midió cuantitativamente las regulaciones de transcripción desde los factores reguladores (TF y lincRNAs) hasta los ARNm diana. La vista mqTrans generada podría utilizarse para construir modelos de predicción y detectar biomarcadores oscuros. Este protocolo utiliza el conjunto de datos de pacientes con adenocarcinoma de colon (COAD) de la base de datos del Atlas del Genoma del Cáncer (TCGA)²⁹ como ejemplo ilustrativo. En este contexto, los pacientes en estadios I o II se clasifican como muestras negativas, mientras que los que se encuentran en estadios III o IV se consideran muestras positivas. También se comparan las distribuciones de los biomarcadores oscuros y tradicionales en los 26 tipos de cáncer TCGA.

Descripción de la canalización de HealthModel
La metodología empleada en este protocolo se basa en el marco²⁶ publicado anteriormente, como se describe en la Figura 1. Para comenzar, los usuarios deben preparar el conjunto de datos de entrada, introducirlo en la canalización propuesta de HealthModel y obtener características de mqTrans. Las instrucciones detalladas de preparación de datos se proporcionan en la sección 2 de la sección de protocolo. Posteriormente, los usuarios tienen la opción de combinar las características de mqTrans con las características transcriptómicas originales o continuar solo con las características de mqTrans generadas. A continuación, el conjunto de datos producido se somete a un proceso de selección de características, en el que los usuarios tienen la flexibilidad de elegir su valor preferido para k en la validación cruzada de k-fold para la clasificación. La principal métrica de evaluación utilizada en este protocolo es la precisión.

HealthModel²⁶ clasifica las características transcriptómicas en tres grupos distintos: TF (factor de transcripción), lincRNA (ARN intergénico largo no codificante) y ARNm (ARN mensajero). Las características de TF se definen en función de las anotaciones disponibles en el Atlas de Proteínas Humanas^30,31. Este trabajo utiliza las anotaciones de lincRNAs del conjunto de datos GTEx³². Los genes que pertenecen a las vías de tercer nivel en la base de datos KEGG³³ se consideran características de ARNm. Vale la pena señalar que si una característica de ARNm exhibe funciones reguladoras para un gen diana, como se documenta en la base de datos TRRUST³⁴, se reclasifica en la clase TF.

Este protocolo también genera manualmente los dos archivos de ejemplo para las identificaciones de genes de los factores reguladores (regulatory_geneIDs.csv) y el ARNm diana (target_geneIDs.csv). La matriz de distancia por pares entre las características reguladoras (TFs y lincRNAs) se calcula mediante los coeficientes de correlación de Pearson y se agrupa mediante la popular herramienta de análisis de redes de coexpresión génica ponderada (WGCNA)³⁶ (adjacent_matrix.csv). Los usuarios pueden utilizar directamente la canalización HealthModel junto con estos archivos de configuración de ejemplo para generar la vista mqTrans de un conjunto de datos transcriptómicos.

Detalles técnicos de HealthModel
HealthModel representa las intrincadas relaciones entre TF y lincRNAs como un grafo, con las características de entrada que sirven como los vértices denotados por V y una matriz de borde entre vértices designada como E. Cada muestra se caracteriza por características reguladoras K, simbolizadas como V^K×1. En concreto, el conjunto de datos abarcó 425 TF y 375 lincRNAs, lo que dio como resultado una dimensionalidad de la muestra de K = 425 + 375 = 800. Para establecer la matriz de bordes E, en este trabajo se empleó la popular herramienta WGCNA³⁵. El peso por pares que une dos vértices representados como Equation 1 y Equation 2 , está determinado por el coeficiente de correlación de Pearson. La red reguladora de genes exhibe una topología libre de escala³⁶, caracterizada por la presencia de genes centrales con roles funcionales fundamentales. Calculamos la correlación entre dos características o vértices, Equation 1 y Equation 2 , utilizando la medida de superposición topológica (TOM) de la siguiente manera:

Equation 3 (1)

Equation 4 (2)

El β de umbral suave se calcula utilizando la función 'pickSoft Threshold' del paquete WGCNA. Se aplica la función exponencial de potencia a_ij , donde Equation 5 representa un gen excluyendo i y j, y Equation 6 representa la conectividad de los vértices. WGCNA agrupa los perfiles de expresión de las características transcriptómicas en múltiples módulos utilizando una medida de disimilitud comúnmente empleada ( Equation 7 ³⁷.

El marco HealthModel se diseñó originalmente como una arquitectura de aprendizaje multitarea²⁶. Este protocolo solo utiliza la tarea de preentrenamiento del modelo para la construcción de la vista transcriptómica mqTrans. El usuario puede optar por refinar aún más el HealthModel previamente entrenado en la red de atención de grafos multitarea con muestras transcriptómicas adicionales específicas de la tarea.

Detalles técnicos de la selección y clasificación de características
El grupo de selección de características implementa once algoritmos de selección de características (FS). Entre ellos, tres son algoritmos de FS basados en filtros: selección de K mejores características utilizando el Coeficiente de Información Máxima (SK_mic), selección de K características basadas en el FPR de MIC (SK_fpr) y selección de K características con la tasa de falso descubrimiento más alta de MIC (SK_fdr). Además, tres algoritmos FS basados en árboles evalúan características individuales utilizando un árbol de decisión con el índice de Gini (DT_gini), árboles de decisión potenciados adaptativos (AdaBoost) y bosque aleatorio (RF_fs). El grupo también incorpora dos métodos contenedores: la eliminación de características recursivas con el clasificador de vectores de soporte lineal (RFE_SVC) y la eliminación de características recursivas con el clasificador de regresión logística (RFE_LR). Por último, se incluyen dos algoritmos de incrustación: el clasificador SVC lineal con los valores de importancia de la característica L1 mejor clasificados (lSVC_L1) y el clasificador de regresión logística con los valores de importancia de la característica L1 mejor clasificados (LR_L1).

El grupo de clasificadores emplea siete clasificadores diferentes para crear modelos de clasificación. Estos clasificadores comprenden la máquina de vectores de soporte lineal (SVC), Gaussian Naïve Bayes (GNB), el clasificador de regresión logística (LR), el k-vecino más cercano, con k establecido en 5 de forma predeterminada (KNN), XGBoost, bosque aleatorio (RF) y árbol de decisión (DT).

La división aleatoria del conjunto de datos en los subconjuntos train: test se puede establecer en la línea de comandos. En el ejemplo demostrado se utiliza la relación de train: test = 8:2.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

NOTA: El siguiente protocolo describe los detalles del procedimiento analítico informático y los comandos de Python de los módulos principales. La Figura 2 ilustra los tres pasos principales con comandos de ejemplo utilizados en este protocolo y se refieren a los trabajos publicados anteriormente^26,38 para obtener más detalles técnicos. Realice el siguiente protocolo en una cuenta de usuario normal en un sistema informático y evite usar la cuenta de administrador o raíz. Este es un protocolo computacional y no tiene factores biomédicos peligrosos.

1. Preparar el entorno de Python

Crear un entorno virtual.
1. En este estudio se utilizó el lenguaje de programación Python y un entorno virtual (VE) Python con Python 3.7. Siga estos pasos (Figura 3A):
  Conda create -n healthmodel python=3.7
  conda create es el comando para crear un nuevo VE. El parámetro -n especifica el nombre del nuevo entorno, en este caso, healthmodel. Y python=3.7 especifica la versión de Python que se va a instalar. Elija cualquier nombre preferido y una versión de Python que admita el comando anterior.
2. Después de ejecutar el comando, el resultado es similar al de la figura 3B. Ingrese y y espere a que se complete el proceso.
Activar el entorno virtual
1. En la mayoría de los casos, active el VE creado con el siguiente comando (Figura 3C):
  Conda Activate HealthModel
2. Siga las instrucciones específicas de la plataforma para la activación de VE, si algunas plataformas requieren que el usuario cargue los archivos de configuración específicos de la plataforma para la activación.
Instalar PyTorch 1.13.1
1. PyTorch es un popular paquete de Python para algoritmos de inteligencia artificial (IA). Utilice PyTorch 1.13.1, basado en la plataforma de programación de GPU CUDA 11.7, como ejemplo. Encuentre otras versiones en https://pytorch.org/get-started/previous-versions/. Utilice el siguiente comando (Figura 3D):
  PIP3 Instalar antorcha de visiónAudio
  NOTA: Se recomienda encarecidamente el uso de PyTorch versión 1.12 o posterior. De lo contrario, instalar el paquete requerido torch_geometric puede ser un desafío, como se indica en el sitio web oficial de torch_geometric: https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html.
Instalación de paquetes adicionales para torch-geometric
1. Siguiendo las instrucciones de https://pytorch-geometric.readthedocs.io/en/latest/install/installation.html, instale los siguientes paquetes: torch_scatter, torch_sparse, torch_cluster y torch_spline_conv mediante el comando (Figura 3E):
  pip install pyg_lib torch_scatter torch_sparse torch_cluster torch_spline_conv -f https://data.pyg.org/whl/torch-1.13.0+cu117.html
Instale el paquete antorcha-geométrica .
1. Este estudio requiere una versión específica, 2.2.0, del paquete antorcha-geométrica . Ejecute el comando (Figura 3F):
  pip install torch_geometric==2.2.0
Instale otros paquetes.
1. Los paquetes como pandas suelen estar disponibles de forma predeterminada. Si no es así, instálelos usando el comando pip. Por ejemplo, para instalar pandas y xgboost, ejecute:
  PIP Install Pandas
  pip install xgboost

2. Uso del HealthModel previamente entrenado para generar las características de mqTrans

Descargue el código y el modelo previamente entrenado.
1. Descargue el código y el HealthModel previamente entrenado desde el sitio web: http://www.healthinformaticslab.org/supp/resources.php, que se denomina HealthModel-mqTrans-v1-00.tar.gz (Figura 4A). El archivo descargado se puede descomprimir a una ruta especificada por el usuario. La formulación detallada y los datos de apoyo del protocolo implementado se pueden encontrar en²⁶.
Introduzca los parámetros para ejecutar HealthModel.
1. En primer lugar, cambie el directorio de trabajo a la carpeta HealthModel-mqTrans en la línea de comandos. Use la siguiente sintaxis para ejecutar el código:
  Python main.py
  Los detalles relativos a cada parámetro y a las carpetas de datos, modelo y salida son los siguientes:
  carpeta de datos: Esta es la carpeta de datos de origen y cada archivo de datos está en formato csv. Esta carpeta de datos tiene dos archivos (consulte las descripciones detalladas en los pasos 2.3 y 2.4). Estos archivos deben ser reemplazados por datos personales.
  data.csv: El archivo de matriz transcriptómica. En la primera fila se enumeran los identificadores de características (o genes) y en la primera columna se muestran los identificadores de muestra. La lista de genes incluye los factores reguladores (TF y lincRNAs) y los genes de ARNm regulados.
  label.csv: El archivo de etiqueta de ejemplo. La primera columna enumera los identificadores de muestra y la columna con el nombre "label" proporciona la etiqueta de ejemplo.
  carpeta del modelo: La carpeta para guardar información sobre el modelo:
  HealthModel.pth: el HealthModel previamente entrenado.
  regulatory_geneIDs.csv: Las identificaciones de genes reguladores utilizados en este estudio.
  target_geneIDs.csv: Los genes diana utilizados en este estudio.
  adjacent_matrix.csv: La matriz adyacente de genes reguladores.
  Carpeta de salida: Los archivos de salida se escriben en esta carpeta, creada por el código.
  test_target.csv: El valor de expresión génica de los genes diana después de la normalización e imputación de Z.
  pred_target.csv: El valor de expresión génica predicho de los genes diana.
  mq_target.csv: El valor de expresión génica predicho de los genes diana.
Prepare el archivo de matriz transcriptómica en formato csv.
1. Cada fila representa una muestra y cada columna representa un gen (Figura 4B). Asigne al archivo de matriz de datos transcriptómicos el nombre data.csv en la carpeta de datos .
  NOTA: Este archivo se puede generar guardando manualmente una matriz de datos en el formato .csv de un software como Microsoft Excel. La matriz transcriptómica también puede ser generada por programación informática.
Prepare el archivo de etiqueta en formato csv.
1. De forma similar al archivo de matriz transcriptómica, asigne al archivo de etiquetas el nombre label.csv en la carpeta de datos (Figura 4C).
  NOTA: La primera columna proporciona los nombres de las muestras, y la etiqueta de clase de cada muestra se proporciona en la columna titulada etiqueta. El valor 0 en la columna de la etiqueta significa que esta muestra es negativa, 1 significa una muestra positiva.
Genere las características de mqTrans.
1. Ejecute el siguiente comando para generar las características de mqTrans y obtener los resultados que se muestran en la Figura 4D. Las características de mqTrans se generan como el archivo ./output/mq_targets.csv, y el archivo de etiquetas se vuelve a guardar como el archivo ./output/label.csv. Para facilitar un análisis posterior, los valores de expresión originales de los genes de ARNm también se extraen como archivo ./output/ test_target.csv.
  python ./Get_mqTrans/code/main.py ./data ./Get_mqTrans/model ./output

3. Seleccione las características de mqTrans

Sintaxis del código de selección de características
1. En primer lugar, cambie el directorio de trabajo a la carpeta HealthModel-mqTrans . Utilice la siguiente sintaxis:
  python ./FS_classification/testMain.py
  Los detalles de cada parámetro son los siguientes:
  in-data-file: El archivo de datos de entrada
  in-label-file: La etiqueta del archivo de datos de entrada
  Carpeta de salida: En esta carpeta se guardan dos archivos de salida, incluidos Output-score.xlsx (el método de selección de características y la precisión del clasificador correspondiente) y Output-SelectedFeatures.xlsx (los nombres de características seleccionadas para cada algoritmo de selección de características).
  1. select_feature_number: seleccione el número de entidades, que va desde 1 hasta el número de entidades del archivo de datos.
  2. test_size: Establezca la proporción de la muestra de prueba que se va a dividir. Por ejemplo, 0,2 significa que el conjunto de datos de entrada se divide aleatoriamente en los subconjuntos de prueba train: test en la proporción de 0,8:0,2.
  3. combine: Si es true, combine dos archivos de datos para la selección de características, es decir, los valores de expresión originales y las características de mqTrans. Si es falso, utilice un archivo de datos para la selección de características, es decir, los valores de expresión originales o las características de mqTrans.
  4. combine file: Si combine es true, proporcione este nombre de archivo para guardar la matriz de datos combinada.
    NOTA: Esta canalización tiene como objetivo demostrar cómo se comportan las características de mqTrans generadas en las tareas de clasificación, y utiliza directamente el archivo generado por la sección 2 para las siguientes operaciones.
Ejecute el algoritmo de selección de características para la selección de características de mqTrans.
1. Gire combinar =False si el usuario selecciona características de mqTrans o características originales.
2. En primer lugar, seleccione 800 características originales y divida el conjunto de datos en train: test=0.8:0.2:
  python ./FS_classification/testMain.py ./output/test_target.csv ./output/label.csv ./result 800 0.2 False
3. Gire combine =True, si el usuario desea combinar las características de mqTrans con los valores de expresión originales para seleccionar características. Aquí, el ejemplo demostrativo es seleccionar 800 características y dividir el conjunto de datos en train: test=0.8:0.2:
  python ./FS_classification/testMain.py ./output/mq_targets.csv ./output/label.csv ./result_combine 800 0.2 True ./output/test_target.csv
  NOTA: La Figura 5 muestra la información de salida. Los archivos suplementarios necesarios para este protocolo se encuentran en HealthModel-mqTrans-v1-00.tar carpeta (Archivo de codificación suplementaria 1).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Evaluación de la vista mqTrans del conjunto de datos transcriptómicos
El código de prueba utiliza once algoritmos de selección de características (FS) y siete clasificadores para evaluar cómo la vista mqTrans generada del conjunto de datos transcriptómicos contribuye a la tarea de clasificación (Figura 6). El conjunto de datos de prueba consta de 317 adenocarcinomas de colon (COAD) de la base de datos The Cancer Genome Atlas (TCGA)²⁹. Los pacientes con COAD en estadios I o II se consideran las muestras negativas, mientras que los pacientes en estadios III o IV son las positivas.

Se implementan once algoritmos FS en el código de prueba. Hay tres algoritmos de FS basados en filtros, que incluyen, seleccionar K mejores características por MIC (SK_mic), seleccionar K características por el FPR de MIC (SK_fpr) y seleccionar K características por el FDR más alto de MIC (SK_fpr). Tres algoritmos FS basados en árboles evalúan las características individuales mediante un árbol de decisión con índice de Gini (DT_gini), los árboles de decisión potenciados adaptativos (AdaBoost) y el bosque aleatorio (RF_fs), respectivamente. El grupo de servicios fijos del código de prueba también evalúa dos contenedores: eliminación de características recursivas (RFE) con el clasificador de vectores de soporte lineal (SVC)(RFE_SVC) y RFE con el clasificador de regresión logística (RFE_LR), y dos algoritmos de incrustación: clasificador SVC lineal con los valores de importancia de características L1 mejor clasificados (lSVC_L1) y clasificador de regresión logística con los valores de importancia de características L1 mejor clasificados (LR_L1).

El código de prueba construye los modelos de clasificación utilizando siete clasificadores, que incluyen máquina de vectores de soporte lineal (SVC), Bayes naïve gaussiano (GNB), clasificador de regresión logística (LR), k-vecino más cercano, k-5 por defecto (KNN), XGBoost, bosque aleatorio (RF) y árbol de decisión (DT).

La Figura 6 muestra la precisión máxima de la prueba de las características de mqTrans, las características originales de ARNm y el subconjunto combinado de las características de ARNm y mqTrans recomendadas por cada algoritmo FS.

Los subconjuntos de características combinadas (ARNm+mqTrans) han logrado la mayor precisión de 0,7656 en el método FS "SK_fpr", mejor que los tipos de características individuales mqTrans (0,7188) y ARNm original (0,7188). Se pueden observar patrones similares para los otros algoritmos del servicio fijo. El usuario puede comprobar las entidades seleccionadas en el archivo de salida Output-SelectedFeatures.csv.

Detección de los biomarcadores oscuros
Estudios previos mostraron la existencia de genes expresados indiferencialmente con valores de mqTrans significativamente representados diferencialmente entre los grupos fenotípico y control 26,38,39. Estos genes se denominan biomarcadores oscuros porque los estudios tradicionales de detección de biomarcadores los ignoran por sus expresiones no diferenciales. La función de análisis estadístico t.test en Microsoft Excel se puede utilizar para definir una característica que se expresa diferencialmente si su valor p estadístico es menor que 0,05.

Entre las 3062 características con los valores de mqTrans generados, se detectaron 221 biomarcadores oscuros (Figura 7). El gen ENSG00000163697 de tercer rango (APBB2, Amyloid Beta Precursor Protein Binding Family B Member 2) muestra valores de mqTrans significativamente representados diferencialmente (mqTrans.P = 2,03 x ^10-4), mientras que su nivel de expresión original no muestra expresión diferencial (mRNA.P = 3,80 x ^10-1). La palabra clave APBB2 llegó a 27 publicaciones en la base de datos PubMed⁴⁰, pero no se detectaron conexiones con el colon o el intestino.

Otro gen ENSG00000048052 (HDAC9, histona desacetilasa 9) tiene los valores de mqTrans representados diferencialmente (mqTrans.P = 6,09 x ^10-3) manteniendo prácticamente las mismas distribuciones normales entre los grupos fenotípico y control (mRNA.P = 9,62 x ^10-1). La palabra clave HDAC9 alcanzó las 417 publicaciones en la base de datos PubMed. Tres estudios también mencionaron las palabras clave "colon" o "intestino" en los resúmenes 41,42,43. Sin embargo, ninguno de ellos investigó el papel de HDAC9 en el cáncer de colon.

Los datos sugirieron la necesidad de realizar más evaluaciones de estos biomarcadores oscuros a partir de sus actividades de posttranscripción, por ejemplo, los niveles de proteínas traducidas^44,45.

Distribuciones pancancerosas de biomarcadores oscuros y tradicionales relacionados con el metabolismo
Los biomarcadores tradicionales relacionados con el metabolismo se examinaron y compararon con biomarcadores oscuros en 26 tipos de cáncer en el conjunto de datos de TCGA³⁸. Ambas categorías de biomarcadores se sometieron a una evaluación estadística para discernir los niveles de significación en los estadios de cáncer temprano (estadios I y II) y tardío (estadios III y IV). En esta evaluación se emplearon las pruebas t de Student para los valores p, posteriormente corregidos para múltiples pruebas utilizando tasas de falso descubrimiento (FDR). En la Figura 8 se proporcionan datos detallados para cada uno de los 26 tipos de cáncer.

Los genes que arrojaron valores de p corregidos por FDR por debajo de 0,05 se clasificaron como biomarcadores tradicionales. Por el contrario, los biomarcadores oscuros se definieron como aquellos con valores p corregidos por FDR por debajo de 0,05 en la vista mqTrans y, al mismo tiempo, no mostraron diferencias estadísticamente significativas en los niveles de expresión.

La figura 9 revela una escasez general de biomarcadores oscuros en comparación con los biomarcadores tradicionales en la mayoría de los tipos de cáncer. Entre las excepciones destacables se encuentran BRCA, MESO y TGCT, que manifiestan una mayor prevalencia de biomarcadores oscuros. Se revela que varios factores, incluidos los factores de transcripción, los patrones de metilación, las mutaciones genéticas y las condiciones ambientales, podrían modular la desregulación transcripcional de estos biomarcadores oscuros. Puede surgir una mayor complejidad debido a la superposición de transcripciones de ARN no codificantes que podrían confundir los niveles de expresión de los biomarcadores oscuros. Las desregulaciones de la transcripción de algunos biomarcadores oscuros fueron apoyadas por sus niveles diferenciales de proteínas^44,45. Los biomarcadores oscuros a menudo se pasan por alto en los estudios tradicionales y presentan vías intrigantes para futuras investigaciones mecanicistas.

Figura 1: Descripción general de los módulos HealthModel y de selección de características de este protocolo. Reemplace los algoritmos específicos en el grupo de selección de características y el grupo de clasificadores si el usuario está familiarizado con la programación de Python. Haga clic aquí para ver una versión más grande de esta figura.

Figura 2: Flujo de código completo para este protocolo. (A) Preparar el entorno de Python. Para empezar, cree un entorno virtual e instale los paquetes esenciales. Para obtener instrucciones completas, consulte la Sección 1. (b) Generar características de mqTrans. Obtenga las características de mqTrans ejecutando el código proporcionado paso a paso. Se pueden encontrar explicaciones detalladas en la Sección 2. (c) Seleccione las características de mqTrans. Esta sección se centra en la evaluación de las características de mqTrans. Consulte la Sección 3 para obtener detalles detallados. Haga clic aquí para ver una versión más grande de esta figura.

Figura 3: Preparar el entorno para Python. (A) El comando para crear healthmodel. (B) Introduzca y durante el proceso de creación de VE. (C) El comando más común para activar el VE. (D) El comando para instalar la antorcha 1.13.1. (E) Instale bibliotecas adicionales para el paquete antorcha-geométrica . (F) Instale el paquete geométrico de la antorcha . Haga clic aquí para ver una versión más grande de esta figura.

Figura 4: Ejecute HealthModel para obtener la función mqTrans. (A) Descargue el código. (B) El ejemplo del archivo de datos. Cada columna tiene todos los valores de un factor regulador, y el primer elemento es la identificación del gen. Cada fila proporciona los valores de una muestra determinada, siendo el primer elemento el nombre de la muestra. (C) El ejemplo de un archivo de etiquetas. La primera columna proporciona los nombres de las muestras y la etiqueta de clase de cada muestra se proporciona en la columna titulada etiqueta. El valor 0 en la columna de etiqueta significa que esta muestra está viva, 1 significa que está muerta. (D) las salidas de mqTrans. Haga clic aquí para ver una versión más grande de esta figura.

Figura 5: Ejecute el algoritmo de selección de características para la función mqTrans. Los resultados del algoritmo de selección de características se muestran al usuario. Haga clic aquí para ver una versión más grande de esta figura.

Figura 6: La precisión máxima del conjunto de pruebas de cada algoritmo de selección de características. El eje horizontal enumera los algoritmos de selección de entidades y el eje vertical proporciona los valores de precisión. Los histogramas muestran los datos experimentales de las tres configuraciones, es decir, mqTrans, mRNA, mRNA+mqTrans. Haga clic aquí para ver una versión más grande de esta figura.

Figura 7: Los 50 principales biomarcadores oscuros con los valores p más pequeños en la vista mqTrans. La columna "Biomarcador oscuro" da los nombres de los biomarcadores oscuros. Las columnas "mRNA.P" y "mqTrans.P" son los valores p estadísticos de la prueba t entre los grupos fenotípico y control. Los colores de fondo de los valores p están coloreados entre los valores p 1,00 (azul) y 0,00 (rojo), y el color blanco representa el valor p = 0,05. Haga clic aquí para ver una versión más grande de esta figura.

Figura 8: Los detalles de los 26 cánceres en el Atlas del Genoma del Cáncer (TCGA) en diferentes etapas. Las columnas "Cohorte" y "Tejido de la enfermedad" describen el grupo de pacientes y los tejidos con enfermedad para cada conjunto de datos. Las últimas cuatro columnas dan el número de muestras en las etapas de desarrollo I, II, III y IV, respectivamente. Haga clic aquí para ver una versión más grande de esta figura.

Figura 9: Número de biomarcadores oscuros y biomarcadores tradicionales en 26 cánceres. El eje horizontal enumera los 26 tipos de cáncer. El eje vertical muestra el número de biomarcadores oscuros y biomarcadores tradicionales para estos tipos de cáncer. Haga clic aquí para ver una versión más grande de esta figura.

Archivo de codificación suplementario 1: HealthModel-mqTrans-v1-00.tar Haga clic aquí para descargar este archivo.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

La sección 2 (Uso del modelo de salud previamente entrenado para generar las características de mqTrans) del protocolo es el paso más crítico dentro de este protocolo. Después de preparar el entorno de trabajo computacional en la sección 1, la sección 2 genera la vista mqTrans de un conjunto de datos transcriptómico basado en el modelo de referencia grande previamente entrenado. La sección 3 es un ejemplo demostrativo de la selección de las características mqTrans generadas para tareas de predicción y detección de biomarcadores. Los usuarios pueden realizar otros análisis transcriptómicos en este conjunto de datos mqTrans utilizando sus propias herramientas o códigos.

El marco HealthModel original puede refinar aún más el HealthModel previamente entrenado mediante la arquitectura multitarea, como se describe en²⁶. Este protocolo se centra en la utilización del modelo de referencia previamente entrenado para generar la vista mqTrans de un conjunto de datos transcriptómicos.

El modelo de referencia preentrenado predeterminado se estableció en las muestras sanas y puede no ser una buena opción para algunas tareas específicas, por ejemplo, la investigación entre los cánceres primarios y metastásicos. La velocidad computacional también es lenta para un gran conjunto de datos transcriptómicos.

La importancia de este protocolo es proporcionar una vista mqTrans complementaria del tipo de datos OMIC más abundantemente disponible, es decir, el transcriptoma. Los biomarcadores oscuros pueden ser revelados a partir de los genes expresados indiferencialmente ignorados por el análisis transcriptómico convencional. Un estudio reciente detectó siete biomarcadores oscuros de cáncer de colon metastásico (mCC) basados en tres cohortes independientes de 805 muestras en total⁴⁴. Los biomarcadores oscuros recibieron investigaciones limitadas en el laboratorio húmedo debido a sus expresiones no diferenciales. Sin embargo, uno de los biomarcadores oscuros de mCC detectados, YTHDC2, codifica el dominio YTH de la proteína que contiene 2, cuyos niveles de proteína se correlacionaron positivamente con el estado de metástasis de las células de cáncer gástrico humano⁴⁶ y los cánceres de colon⁴⁷. Los nuevos conocimientos biológicos de los biomarcadores oscuros aún no se han resuelto mediante tecnologías in vitro e in vivo.

Este protocolo está diseñado para ser totalmente modular. Los modelos de referencia previamente entrenados en otros grandes conjuntos de datos, como los cánceres primarios, facilitarán la investigación de la metástasis tumoral. Este protocolo también se explorará para aplicaciones en otros dominios de la vida, incluidas plantas, hongos y microbios.

Se planea mejorar la eficiencia computacional de este protocolo a través de la paralelización y la optimización algorítmica.

Este protocolo describe el procedimiento para transformar un conjunto de datos transcriptómicos en una nueva vista mqTrans, y los valores de mqTrans transformados de un gen miden cuantitativamente los cambios en la regulación de la transcripción en comparación con las muestras de referencia. Se entrenó previamente un modelo predeterminado en los transcriptomas sanos y se publicó como HealthModel de referencia.

Se proporciona el código fuente de dos tareas posteriores para facilitar la fácil utilización de este protocolo por parte de los investigadores biomédicos. Los datos experimentales muestran que las características transformadas de mqTrans podrían mejorar las tareas de predicción utilizando solo los niveles de expresión originales. La vista mqTrans también puede revelar las conexiones fenotípicas latentes de algunos biomarcadores oscuros sin expresiones diferenciales en los datos transcriptómicos originales.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Los autores no tienen nada que revelar.

Acknowledgments

Este trabajo contó con el apoyo del Equipo de Innovación Tecnológica Senior y Junior (20210509055RQ), los Proyectos de Ciencia y Tecnología de la Provincia de Guizhou (ZK2023-297), la Fundación de Ciencia y Tecnología de la Comisión de Salud de la Provincia de Guizhou (gzwkj2023-565), el Proyecto de Ciencia y Tecnología del Departamento de Educación de la Provincia de Jilin (JJKH20220245KJ y JJKH20220226SK), la Fundación Nacional de Ciencias Naturales de China (U19A2061), el Laboratorio Clave Provincial de Jilin de Computación Inteligente de Big Data (20180622002JC), y los Fondos de Investigación Fundamental para las Universidades Centrales, JLU. Extendemos nuestro más sincero agradecimiento al editor de la revisión y a los tres revisores anónimos por sus críticas constructivas, que han sido fundamentales para mejorar sustancialmente el rigor y la claridad de este protocolo.

Materials

Name	Company	Catalog Number	Comments
Anaconda	Anaconda	version 2020.11	Python programming platform
Computer	N/A	N/A	Any general-purpose computers satisfy the requirement
GPU card	N/A	N/A	Any general-purpose GPU cards with the CUDA computing library
pytorch	Pytorch	version 1.13.1	Software
torch-geometric	Pytorch	version 2.2.0	Software