Construction et visualisation de modèles à l’aide d’un cadre d’apprentissage automatique basé sur MIME

Hongwei Liu; Wei Zhang; Yihao Zhang; Xuejun Li; Siyi Wanggou

doi:10.3791/68553

Method Article

Construction et visualisation de modèles à l’aide d’un cadre d’apprentissage automatique basé sur MIME

DOI:

10.3791/68553

⸱

July 22nd, 2025

Hongwei Liu*¹^,²^,³^,⁴ , Wei Zhang*¹^,²^,³^,⁴ , Yihao Zhang*¹^,²^,³^,⁴ , Xuejun Li¹^,²^,³^,⁴ , Siyi Wanggou¹^,²^,³^,⁴

¹Department of Neurosurgery, Xiangya Hospital, Central South University, ²National Clinical Research Center for Geriatric Disorders, Xiangya Hospital, Central South University, ³Hunan International Scientific and Technological Cooperation Base of Brain Tumor Research, Xiangya Hospital, Central South University, ⁴Furong Laboratory

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Mime est un cadre de calcul flexible permettant de construire un modèle d’intégration basé sur l’apprentissage automatique avec des performances élégantes. Nous présentons ici une procédure détaillée, étape par étape, pour développer des modèles prédictifs de haute précision, en exploitant des ensembles de données complexes pour identifier les gènes critiques associés à la progression de la maladie, aux résultats pour les patients et à la réponse thérapeutique.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

La technologie de séquençage à haut débit répandue a considérablement amélioré notre compréhension de la biologie et de l’hétérogénéité du cancer. Les algorithmes d’apprentissage automatique sur les données transcriptionnelles sont devenus essentiels pour prédire le pronostic et les réponses cliniques des patients. Malgré les progrès des algorithmes d’apprentissage automatique, il n’existe toujours pas de plateforme open source intégrant les algorithmes d’apprentissage automatique les plus sophistiqués sur les données transcriptionnelles. Pour combler cette lacune, nous avons développé Mime, un cadre d’apprentissage automatique polyvalent pour améliorer la construction et la visualisation de modèles prédictifs des caractéristiques cliniques et des signatures génétiques. En intégrant divers ensembles de données et en utilisant les techniques de sélection de caractéristiques les plus avancées, Mime relève des défis critiques en matière de prédictions cliniques. Il fournit trois fonctions principales, notamment la construction de modèles, la sélection de fonctionnalités et la visualisation des données. La construction de modèles englobe une gamme d’algorithmes d’apprentissage automatique, y compris, mais sans s’y limiter, des arbres de décision, des machines à vecteurs de support et des méthodes d’ensemble, ce qui permet aux chercheurs de sélectionner l’approche la mieux adaptée à leur analyse spécifique. La sélection de caractéristiques utilise des algorithmes avancés tels que l’élimination récursive des caractéristiques et la régression LASSO pour rationaliser l’ensemble de données et se concentrer sur les caractéristiques les plus informatives. Le cadre prend en charge le réglage des paramètres personnalisables grâce à des méthodes de validation croisée, optimisant ainsi les performances du modèle tout en atténuant les risques de surapprentissage. Les outils de visualisation intégrés à Mime permettent aux chercheurs d’interpréter efficacement les résultats du modèle, en fournissant des représentations graphiques de l’importance des caractéristiques et des mesures de performance prédictives. Dans ce manuscrit, nous fournissons un tutoriel détaillé sur les procédures par étapes de ce cadre d’apprentissage automatique polyvalent.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

L’adoption généralisée des technologies de séquençage à haut débit a considérablement influencé notre compréhension de la biologie et de l’hétérogénéité du cancer¹. Cette avancée révolutionnaire en biotechnologie a non seulement approfondi nos connaissances scientifiques, mais a également révolutionné le domaine de la recherche médicale. En permettant aux scientifiques de séquencer rapidement et avec précision de grandes quantités de matériel génétique, le séquençage à haut débit a accéléré la découverte de nouveaux gènes, mutations et voies biologiques. De plus en plus de recherches ont permis de délimiter des....

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

REMARQUE : Les tutoriels de cette étude sont tous exécutés sur la plate-forme Linux à l’aide du logiciel R. La version du package R utilisée dans ce protocole est répertoriée dans la Table des matériaux. Chaque étape nécessaire à l’analyse est illustrée ci-dessous et le protocole détaillé peut également être acquis sur GitHub (https://github.com/l-magnificence/Mime). Les utilisateurs qui rencontrent des problèmes avec Mime peuvent visiter la page Problème GitHub (https://github.com/l-magnificence/Mime/issues) pour fournir des commentaires.

1. Préparation de Mime et d’un exemple de jeu....

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Le genelist et Example.cohort, y compris une cohorte d’entraînement et une cohorte de validation, ont été utilisés pour construire des modèles pronostiques en intégrant 10 algorithmes d’apprentissage automatique dans Mime. Parmi les 117 modèles de pronostic construits par Mime, le modèle combiné StepCox[forward] + plsRcox (SPCOM) avait l’indice C le plus élevé parmi toutes les cohortes, ce qui indique sa performance exceptionnelle (Figure 1A). Les patients ont ensuite été séparés en groupes .......

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dans cette étude, nous fournissons une description détaillée de la façon d’utiliser le package Mime pour développer des modèles prédictifs d’apprentissage automatique robustes et puissants pour les données transcriptomiques. Dans des études précédentes^, les chercheurs avaient souvent du mal à sélectionner l’algorithme de modèle prédictif approprié en fonction des caractéristiques spécifiques de leurs données de séquençage^13,14. D.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Aucun conflit d’intérêts n’a été déclaré.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nous remercions tous les participants et les enquêteurs impliqués dans la production des données.

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number
Nom du package	Version	Logiciel
aplot	0.1.10	R studio
BART	2.9.4	R studio
Boruta	8.0.0	R studio
Classe de cancer	1.38.0	R studio
caret	6.0-89	R studio
ckmeans.1d.dp	4.3.5	R studio
comparerC	1.3.2	R studio
ComplexHeatmap	2.15.1	R studio
Compositions	2.0-4	R studio
données.table	1.14.0	R studio
doParallel	1.0.16	R studio
dplyr	1.1.3	R studio
E1071	1.7-7	R studio
traceur forestier	1.1.0	R studio
futur	1.21.0	R studio
Gbm	2.1.8.1	R studio
ggbreak	0.1.1	R studio
ggplot2	3.4.1	R studio
ggpubr	0.4.0	R studio
ggsci	2.9	R studio
glmnet	4.1-2	R studio
grille	4.1.3	R studio
gridExtra	2.3	R studio
GSEABase	1.54.0	R studio
La	1.40.1	R studio
Hmisc	5.1-1	R studio
kknn	1.3.1	R studio
tricoteuse	1.42	R studio
Magrittr	2.7.2	R studio
Matrice	1.5-4	R studio
méta	5.2-0	R studio
miscTools	0.6-28	R studio
mixOmics	6.18.1	R studio
Mixtools	1.2.0	R studio
pbapply	1.4-3	R studio
plsRcox	1.7.7	R studio
Proc	1.18.0	R studio
R	4.1.3	R studio
randomForestSRC	4.6-14	R studio
Lecteur	1.4.0	R studio
Recettes	0.1.17	R studio
Remodel2	1.4.4	R studio
rmarkdown	2.8	R studio
ROCit	2.1.1	R studio
ROCR	1.0-11	R studio
balance	1.2.1	R studio
moineau	1.0.3	R studio
Longeron	1.5.0	R studio
SuperPC	1.12	R studio
survie	3.3-1	R studio
survivalROC	1.0.3	R studio
surviesVM	0.0.5	R studio
SVA	3.40.0	R studio
testthat	3.1.0	R studio
Tibble	3.2.1	R studio
tidyr	1.3.0	R studio
Tidyverse	1.3.1	R studio
UpSetR	1.4.0	R studio
Viridis	0.6.1	R studio

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Reuter, J. A., Spacek, D. V., Snyder, M. P. High-throughput sequencing technologies. Mol Cell. 58 (4), 586-597 (2015).
Adam, G., et al. Machine learning approaches to drug response prediction: challenges and recent progress. NPJ Precision Oncol. 4....

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Construction et visualisation de modèles à l’aide d’un cadre d’apprentissage automatique basé sur MIME

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles