July 22nd, 2025
Mime est un cadre de calcul flexible permettant de construire un modèle d’intégration basé sur l’apprentissage automatique avec des performances élégantes. Nous présentons ici une procédure détaillée, étape par étape, pour développer des modèles prédictifs de haute précision, en exploitant des ensembles de données complexes pour identifier les gènes critiques associés à la progression de la maladie, aux résultats pour les patients et à la réponse thérapeutique.
La technologie de séquençage de haut niveau a un impact significatif sur notre compréhension de la biologie et de l’hétérogénéité du cancer. Cependant, avec de nombreuses données de séquençage à haut rendement, il est difficile de dépister et d’identifier rapidement les gènes et les biomarqueurs associés à la maladie. Il existe de nombreux cadres d’apprentissage automatique, mais aucun d’entre eux n’offre de comparaison intégrée pour une prise de décision éclairée. Pour combler cette lacune, nous avons développé Mime, une plateforme unifiée d’évaluation du stress et des faiblesses des modèles.
Mime offre quatre fonctions : la modélisation du pronostic optimal, la prédiction de la réponse binaire, l’identification des caractéristiques co-pronostiques et la visualisation des performances du modèle, en exploitant des algorithmes d’apprentissage automatique auto-entraînés pour une analyse intercritique intégrée.
Les chercheurs ont souvent du mal à choisir des algorithmes prédictifs et à gérer des environnements d’apprentissage automatique. L’empaquetage R open source Mime simplifie la configuration du modèle, la sélection des paramètres et le déploiement, permettant aux utilisateurs d’analyser facilement leurs propres données.
Mime marque une étape importante dans l’application de l’IA à la biomédecine en intégrant l’apprentissage automatique à travers la couche de séquençage d’une cellule unique pour découvrir l’hétérogénéité intratumorale en utilisant la diversité intratumorale.
[Narrateur] Pour commencer, ouvrez le site web GitHub sur un ordinateur de bureau. Installez la version de développement de Mime à partir de GitHub à l’aide du package devtools dans R. Préparez plusieurs cohortes contenant des données de séquençage transcriptionnel avec des informations de survie ou de réponse clinique. Utilisez les exemples de jeux de données, Example.cohort et Example.ici, qui sont accessibles à partir du référentiel GitHub Mime. Le Example.cohort contient deux ensembles de données sur le gliome avec 100 échantillons sélectionnés au hasard dans les bases de données TCGA et CGGA, respectivement. Incluez plusieurs ensembles de données pour construire des modèles prédictifs de pronostic dans Example.cohort. Vérifiez que le format de l’ensemble de données inclut l’ID de l’échantillon dans la première colonne, le temps de survie et l’état dans les deuxième et troisième colonnes, et les niveaux d’expression des gènes transformés dans les colonnes restantes. Vérifiez que Dataset1 est utilisé pour l’entraînement et d’autres jeux de données pour la validation. Ensuite, chargez l’ensemble de données Example.ici et vérifiez que le format inclut l’ID de l’échantillon dans la première colonne, la réponse thérapeutique dans la deuxième colonne et les niveaux d’expression génique logarithmique transformés dans les colonnes restantes. Préparez la liste de gènes à l’aide de l’ensemble de gènes associés à la signalisation Wnt/bêta-caténine dans R à partir du fichier de liste de gènes. Utilisez la fonction ML.Dev.Prog.Sig et les codes donnés pour construire des modèles prédictifs de pronostic basés sur Example.cohort et la genelist. Utilisez ensuite la fonction cindex_dis_all pour tracer l’indice C de chaque modèle et identifier le modèle optimal. Calculez les courbes de survie des patients à l’aide du score en fonction du risque à l’aide d’un modèle spécifique parmi différents ensembles de données et traitez-le dans Mime à l’aide des codes donnés. Calculez l’AUC en fonction du temps pour les modèles prédictifs à l’aide de la fonction cal_AUC_ml_res et des codes donnés. Maintenant, tracez l’AUC dépendant du temps pour chaque modèle à l’aide de la fonction auc_dis_all et des codes donnés. Traitez la courbe ROC dépendante du temps d’un modèle spécifique parmi différents ensembles de données dans Mime à l’aide de la fonction roc_vis et des codes donnés. Pour construire des modèles prédictifs de réponse thérapeutique, utilisez la fonction ML.Dev.Pred.Category.Sig basée sur le jeu de données Example.ici et la genelist. Visualisez l’AUC pour chaque modèle de réponse à l’aide de auc_vis_category_all. Ensuite, générez les courbes ROC pour chaque modèle à l’aide de roc_vis_category. Pour la sélection de la caractéristique principale, identifiez les gènes de base associés au pronostic à l’aide de ML.Corefeature.Prog.Screen en fonction de Example.cohort et genelist. Tracez le rang des gènes filtrés par différentes méthodes à l’aide de core_feature_rank pour mettre en évidence les gènes de base fréquemment identifiés. Parmi les 117 modèles pronostiques construits par Mime, le modèle combiné StepCox[Forward] + plsRcox a montré l’indice de concordance le plus élevé dans toutes les cohortes. Les patients présentant des scores de risque élevés ont eu des résultats significativement moins bons dans toutes les cohortes. L’aire d’un an sous la courbe prédite par SPCOM s’est classée au premier rang parmi tous les modèles ayant la valeur moyenne de l’AUC la plus élevée parmi les cohortes. Parmi les sept modèles de prédiction de la réponse thérapeutique, le modèle svmRadialWeights a atteint les performances les plus élevées avec une aire sous la courbe de 0,81 dans l’ensemble de données d’entraînement et de 0,68 dans l’ensemble de données de validation. La sélection des caractéristiques de base a identifié PSEN2, WNT5B et SKP2 comme les gènes les mieux classés en fonction de leur récurrence dans différents algorithmes.
View the full transcript and gain access to thousands of scientific videos
Mime est un cadre informatique conçu pour construire des modèles d'intégration basés sur l'apprentissage automatique pour prédire les gènes associés aux maladies. Cet article décrit une procédure étape par étape pour développer des modèles prédictifs de haute précision en utilisant des ensembles de données complexes.