July 22nd, 2025
O Mime é uma estrutura computacional flexível para construir um modelo de integração baseado em aprendizado de máquina com desempenho elegante. Aqui, fornecemos um procedimento passo a passo detalhado para o desenvolvimento de modelos preditivos com alta precisão, aproveitando conjuntos de dados complexos para identificar genes críticos associados à progressão da doença, resultados do paciente e resposta terapêutica.
A tecnologia de sequenciamento de alto nível impacta significativamente nossa compreensão da biologia e da heterogeneidade do câncer. No entanto, com vários dados de sequenciamento de alto nível, é difícil rastrear e identificar rapidamente genes e biomarcadores associados a doenças. Existem inúmeras estruturas de aprendizado de máquina, mas nenhuma delas oferece comparação integrada para tomada de decisão informada. Para resolver essa lacuna, desenvolvemos o Mime, uma plataforma unificada para avaliar o estresse e os pontos fracos do modelo.
O Mime oferece quatro funções, modelagem de prognóstico ideal, previsão de resposta binária, identificação de recursos de co-prognóstico e visualização de desempenho do modelo, aproveitando algoritmos de aprendizado de máquina autotreinados para análise intercrítica integrada.
Os pesquisadores geralmente lutam para escolher algoritmos preditivos e gerenciar ambientes de aprendizado de máquina. O empacotamento R de software livre Mime simplifica a configuração do modelo, a seleção de parâmetros e a implantação, permitindo que os usuários analisem seus próprios dados facilmente.
O Mime é um marco na aplicação da IA à biomedicina para integrar o aprendizado de máquina na camada de sequenciamento de célula única para descobrir a heterogeneidade intratumoral usando a diversidade intratumoral.
[Narrador] Para começar, abra o site do GitHub em um computador desktop. Instale a versão de desenvolvimento do Mime do GitHub usando o pacote devtools em R. Prepare várias coortes contendo dados de sequenciamento transcricional com informações de sobrevivência ou resposta clínica. Use os conjuntos de dados de exemplo, Example.cohort e Example.ici, que podem ser acessados no repositório GitHub do Mime. O Example.cohort contém dois conjuntos de dados de glioma com 100 amostras selecionadas aleatoriamente do banco de dados TCGA e CGGA, respectivamente. Inclua vários conjuntos de dados para construir modelos preditivos de prognóstico em Example.cohort. Verifique se o formato do conjunto de dados inclui o ID da amostra na primeira coluna, o tempo e o status de sobrevivência na segunda e terceira colunas e registre os níveis de expressão gênica transformados nas colunas restantes. Confirme se Dataset1 é usado para treinamento e outros conjuntos de dados para validação. Em seguida, carregue o conjunto de dados Example.ici e confirme se o formato inclui ID de amostra na primeira coluna, resposta terapêutica na segunda coluna e log de níveis de expressão gênica transformados nas colunas restantes. Prepare a lista de genes usando o conjunto de genes associado à sinalização Wnt / beta-catenina em R do arquivo de lista de genes. Use a função ML.Dev.Prog.Sig e os códigos fornecidos para construir modelos preditivos de prognóstico com base em Example.cohort e genelist. Em seguida, use a função cindex_dis_all para traçar o índice C de cada modelo e identificar o modelo ideal. Calcule as curvas de sobrevida dos pacientes usando a pontuação de acordo com o risco usando um modelo específico entre diferentes conjuntos de dados e processe isso no Mime usando os códigos fornecidos. Calcule a AUC dependente do tempo para os modelos preditivos usando a função cal_AUC_ml_res e os códigos fornecidos. Agora, plote a AUC dependente do tempo para cada modelo usando a função auc_dis_all e os códigos fornecidos. Processe a curva ROC dependente do tempo de um modelo específico entre diferentes conjuntos de dados no Mime usando a função roc_vis e os códigos fornecidos. Para construir modelos preditivos para resposta terapêutica, use a função ML.Dev.Pred.Category.Sig com base no conjunto de dados Example.ici e na genelist. Visualize a AUC para cada modelo de resposta usando auc_vis_category_all. Em seguida, gere as curvas ROC para cada modelo usando roc_vis_category. Para a seleção de recursos principais, identifique os genes principais associados ao prognóstico usando ML.Corefeature.Prog.Screen com base no Example.cohort e genelist. Trace a classificação dos genes filtrados por diferentes métodos usando core_feature_rank para destacar os genes centrais frequentemente identificados. Entre os 117 modelos prognósticos construídos por Mime, o modelo combinado StepCox [Forward] + plsRcox mostrou o maior índice de concordância em todas as coortes. Pacientes com escores de alto risco tiveram resultados significativamente piores em todas as coortes. A área de um ano sob a curva prevista pelo SPCOM ficou em primeiro lugar entre todos os modelos com o maior valor médio de AUC entre as coortes. Entre os sete modelos de predição de resposta terapêutica, o modelo svmRadialWeights alcançou o melhor desempenho com uma área sob a curva de 0,81 no conjunto de dados de treinamento e 0,68 no conjunto de dados de validação. A seleção de características principais identificou PSEN2, WNT5B e SKP2 como os genes mais bem classificados com base em sua recorrência em diferentes algoritmos.
View the full transcript and gain access to thousands of scientific videos
Mime é uma estrutura computacional projetada para construir modelos de integração baseados em aprendizado de máquina para prever genes associados a doenças. Este artigo descreve um procedimento passo a passo para desenvolver modelos preditivos de alta precisão usando conjuntos de dados complexos.