July 22nd, 2025
Mime es un marco computacional flexible para construir un modelo de integración basado en el aprendizaje automático con un rendimiento elegante. Aquí, proporcionamos un procedimiento detallado paso a paso para desarrollar modelos predictivos con alta precisión, aprovechando conjuntos de datos complejos para identificar genes críticos asociados con la progresión de la enfermedad, los resultados de los pacientes y la respuesta terapéutica.
La tecnología de secuenciación de alta intensidad tiene un impacto significativo en nuestra comprensión de la biología y la heterogeneidad del cáncer. Sin embargo, con numerosos datos de secuenciación de alto rendimiento, es difícil detectar e identificar rápidamente genes y biomarcadores asociados a enfermedades. Existen numerosos marcos de aprendizaje automático, pero ninguno de ellos ofrece una comparación integrada para la toma de decisiones informada. Para abordar esta brecha, desarrollamos Mime, una plataforma unificada para evaluar el estrés y las debilidades del modelo.
Mime ofrece cuatro funciones, modelado de pronóstico óptimo, predicción de respuesta binaria, identificación de características de pronóstico conjunto y visualización del rendimiento del modelo, aprovechando los algoritmos de aprendizaje automático autoentrenados para el análisis intercrítico integrado.
Los investigadores a menudo tienen dificultades para elegir algoritmos predictivos y administrar entornos de aprendizaje automático. El empaquetado de R de código abierto Mime simplifica la configuración del modelo, la selección de parámetros y la implementación, lo que permite a los usuarios analizar sus propios datos fácilmente.
Mime marca un hito en la aplicación de la IA a la biomedicina para integrar el aprendizaje automático en la capa de secuenciación de una sola célula para descubrir la heterogeneidad intratumoral utilizando la diversidad intratumoral.
[Narrador] Para comenzar, abra el sitio web de GitHub en una computadora de escritorio. Instale la versión de desarrollo de Mime desde GitHub mediante el paquete devtools en R. Prepare varias cohortes que contengan datos de secuenciación transcripcional con información de supervivencia o respuesta clínica. Use los conjuntos de datos de ejemplo, Example.cohort y Example.ici, a los que se puede acceder desde el repositorio de GitHub de Mime. Example.cohort contiene dos conjuntos de datos de glioma con 100 muestras seleccionadas al azar de la base de datos TCGA y CGGA, respectivamente. Incluya varios conjuntos de datos para construir modelos predictivos para el pronóstico en Example.cohort. Compruebe que el formato del conjunto de datos incluye el ID de muestra en la primera columna, el tiempo de supervivencia y el estado en la segunda y tercera columnas, y registre los niveles de expresión génica transformada en las columnas restantes. Confirme que Dataset1 se usa para el entrenamiento y otros conjuntos de datos para la validación. A continuación, cargue el conjunto de datos Example.ici y confirme que el formato incluye el identificador de muestra en la primera columna, la respuesta terapéutica en la segunda columna y registre los niveles de expresión génica transformados en las columnas restantes. Prepare la lista genética utilizando el conjunto de genes asociado con la señalización de Wnt / beta-catenina en R del archivo genelist. Utilice la función ML.Dev.Prog.Sig y los códigos especificados para construir modelos predictivos para el pronóstico basados en Example.cohort y la lista de genes. A continuación, utilice la función cindex_dis_all para trazar el índice C de cada modelo e identificar el modelo óptimo. Calcule las curvas de supervivencia de los pacientes utilizando la puntuación de acuerdo con el riesgo utilizando un modelo específico entre diferentes conjuntos de datos y procese eso en Mime utilizando los códigos dados. Calcule el AUC dependiente del tiempo para los modelos predictivos utilizando la función cal_AUC_ml_res y los códigos dados. Ahora, grafique el AUC dependiente del tiempo para cada modelo usando la función auc_dis_all y los códigos dados. Procese la curva ROC dependiente del tiempo de un modelo específico entre diferentes conjuntos de datos en Mime utilizando la función roc_vis y los códigos dados. Para construir modelos predictivos para la respuesta terapéutica, use la función ML.Dev.Pred.Category.Sig basada en el conjunto de datos Example.ici y la lista de genes. Visualice AUC para cada modelo de respuesta utilizando auc_vis_category_all. A continuación, genere las curvas ROC para cada modelo utilizando roc_vis_category. Para la selección de características principales, identifique los genes principales asociados con el pronóstico mediante ML.Corefeature.Prog.Screen en función de Example.cohort y genelist. Grafique el rango de genes filtrados por diferentes métodos utilizando core_feature_rank para resaltar los genes centrales identificados con frecuencia. Entre los 117 modelos pronósticos construidos por Mime, el modelo combinado StepCox[Forward] + plsRcox mostró el índice de concordancia más alto en todas las cohortes. Los pacientes con puntuaciones de alto riesgo tuvieron resultados significativamente peores en todas las cohortes. El área de un año bajo la curva predicha por SPCOM ocupó el lugar más alto entre todos los modelos con el valor medio de AUC más alto en todas las cohortes. Entre los siete modelos de predicción de respuesta terapéutica, el modelo svmRadialWeights logró el mayor rendimiento con un área bajo la curva de 0,81 en el conjunto de datos de entrenamiento y 0,68 en el conjunto de datos de validación. La selección de características principales identificó PSEN2, WNT5B y SKP2 como los genes mejor clasificados en función de su recurrencia en diferentes algoritmos.
View the full transcript and gain access to thousands of scientific videos
Mime es un marco computacional diseñado para construir modelos de integración basados en aprendizaje automático para predecir genes asociados a enfermedades. Este artículo describe un procedimiento paso a paso para desarrollar modelos predictivos de alta precisión utilizando conjuntos de datos complejos.