July 22nd, 2025
Mime — это гибкая вычислительная среда для создания интеграционной модели на основе машинного обучения с элегантной производительностью. В этой статье мы представляем подробную пошаговую процедуру разработки прогностических моделей с высокой точностью, используя сложные наборы данных для выявления критически важных генов, связанных с прогрессированием заболевания, исходами пациента и терапевтическим ответом.
Технология секвенирования с высоким уровнем сложности значительно влияет на наше понимание биологии и гетерогенности рака. Тем не менее, при наличии большого количества данных секвенирования, трудно быстро провести скрининг и идентифицировать гены и биомаркеры, связанные с заболеванием. Существует множество фреймворков машинного обучения, но ни одна из них не предлагает интегрированного сравнения для принятия обоснованных решений. Чтобы восполнить этот пробел, мы разработали Mime — единую платформу для оценки стресса и слабых сторон модели.
Mime предлагает четыре функции: моделирование оптимального прогноза, прогнозирование двоичного отклика, совместную прогностическую идентификацию признаков и визуализацию производительности модели, используя самообучающиеся алгоритмы машинного обучения для интегрированного межкритического анализа.
Исследователи часто испытывают трудности с выбором алгоритмов прогнозирования и управлением средами машинного обучения. Пакет Mime R с открытым исходным кодом упрощает настройку модели, выбор параметров и развертывание, позволяя пользователям легко анализировать свои данные.
Mime знаменует собой важную веху в применении искусственного интеллекта в биомедицине для интеграции машинного обучения на слое секвенирования отдельных клеток для выявления внутриопухолевой гетерогенности с использованием внутриопухолевого разнообразия.
[Рассказчик] Для начала откройте веб-сайт GitHub на настольном компьютере. Установите разрабатываемую версию Mime из GitHub с помощью пакета devtools в R. Подготовьте несколько когорт, содержащих данные транскрипционного секвенирования с информацией о выживаемости или клиническом ответе. Используйте примеры наборов данных Example.cohort и Example.ici, которые доступны из репозитория Mime GitHub. Example.cohort содержит два набора данных по глиоме со случайно выбранными 100 образцами из баз данных TCGA и CGGA соответственно. Включите несколько наборов данных для создания прогностических моделей для прогнозирования в Example.cohort. Убедитесь, что формат набора данных включает идентификатор образца в первом столбце, время выживания и статус во втором и третьем столбцах, а также логарифмические преобразованные уровни экспрессии генов в остальных столбцах. Убедитесь, что Dataset1 используется для обучения, а другие наборы данных — для проверки. Затем загрузите набор данных Example.ici и убедитесь, что формат включает идентификатор образца в первом столбце, терапевтический ответ во втором столбце и логарифмические уровни экспрессии преобразованных генов в остальных столбцах. Подготовьте генолог с использованием набора генов, связанного с передачей сигналов Wnt/бета-катенина в R из файла генолога. Используйте функцию ML.Dev.Prog.Sig и приведенные коды для построения прогностических моделей для прогнозирования на основе Example.cohort и генолога. Затем используйте функцию cindex_dis_all для построения C-индекса каждой модели и определения оптимальной модели. Рассчитайте кривые выживаемости пациентов с использованием оценки в соответствии с риском с использованием конкретной модели среди различных наборов данных и обработайте это в MIME с использованием заданных кодов. Вычислите зависящую от времени AUC для прогнозных моделей с помощью функции cal_AUC_ml_res и заданных кодов. Теперь построим график зависящей от времени AUC для каждой модели с помощью функции auc_dis_all и заданных кодов. Обработайте нестационарную ROC-кривую конкретной модели среди различных наборов данных в Mime с помощью функции roc_vis и заданных кодов. Для построения прогностических моделей терапевтического ответа используйте функцию ML.Dev.Pred.Category.Sig на основе набора данных Example.ici и генолога. Визуализируйте AUC для каждой модели отклика с помощью auc_vis_category_all. Затем сгенерируйте ROC-кривые для каждой модели с помощью roc_vis_category. Для выбора основного признака определите основные гены, связанные с прогнозом, с помощью ML.Corefeature.Prog.Screen на основе Example.cohort и genelist. Нанесите график ранга генов, отфильтрованных различными методами, используя core_feature_rank, чтобы выделить часто идентифицируемые основные гены. Среди 117 прогностических моделей, построенных Mime, комбинированная модель StepCox[Forward] + plsRcox показала самый высокий индекс согласованности среди всех когорт. Пациенты с показателями высокого риска имели значительно худшие исходы во всех когортах. Годичная область под кривой, предсказанной SPCOM, заняла первое место среди всех моделей с самым высоким средним значением AUC по когортам. Среди семи моделей прогнозирования терапевтического ответа модель svmRadialWeights достигла наибольшей производительности с площадью ниже кривой 0,81 в обучающем наборе данных и 0,68 в валидационном наборе данных. При выборе основных признаков PSEN2, WNT5B и SKP2 были определены как гены с наивысшим рейтингом на основе их повторяемости в различных алгоритмах.
View the full transcript and gain access to thousands of scientific videos
Mime — это вычислительная среда, предназначенная для создания моделей интеграции на основе машинного обучения для прогнозирования генов, связанных с заболеваниями. В данной статье излагается пошаговая процедура разработки моделей прогнозирования с высокой точностью с использованием сложных наборов данных.