June 13th, 2025
Este artigo descreve o RUGGED (Retrieval Under Graph-Guided Explainable disease Distinction), que integra a inferência do Large Language Model (LLM) com a Retrieval-Augmented Generation (RAG). Ele extrai evidências de bases de conhecimento biomédico com curadoria de especialistas e publicações biomédicas revisadas por pares para sintetizar novos conhecimentos a partir de informações atualizadas, identificar previsões explicáveis e acionáveis e identificar direções promissoras para investigações baseadas em hipóteses.
Este protocolo apresenta uma plataforma para explorar de forma confiável questões biomédicas e clínicas e para a geração de hipóteses. O Rugged ajuda a explorar o cenário biomédico aproveitando grandes modelos de linguagem, conectando-os a publicações revisadas por pares e bases de conhecimento biomédico com curadoria, além de usar IA explicável para descobrir novos relacionamentos. Avanços recentes em IA generativa e grandes modelos de linguagem transformaram a forma como nos envolvemos com recursos biomédicos apoiados por evidências, permitindo tarefas como resumo, resposta a perguntas e exploração flexível de hipóteses. As abordagens anteriores dependiam da mineração de texto para extrair padrões e relacionamentos de alto nível da literatura biomédica. Hoje, as abordagens estão combinando grandes modelos de linguagem com geração aumentada por recuperação, sistemas agenciais e recursos de chamada de ferramentas. Muitos modelos de linguagem disponíveis publicamente lutam com a confiabilidade, potencialmente produzindo informações factualmente incorretas. Embora os modelos recentes tenham melhorado, sua produção no momento da publicação muitas vezes carecia de especificidade de domínio, dependia de uma linguagem geral vaga e produzia explicações longas e fragmentadas. Em publicações anteriores com o JoVE, destacamos como a mineração de texto e a modelagem de gráficos de conhecimento biomédico são aplicadas para prever e entender as relações entre proteínas, componentes celulares e doenças cardiovasculares. Com base nessa base, nossa pesquisa mais recente se concentra na integração desse conhecimento biomédico estruturado com grandes fluxos de trabalho suportados por modelos de linguagem, permitindo inferências precisas e respostas baseadas em evidências.
[Narrador] Para começar, inicie o serviço Rugged com o comando no terminal. Extraia a literatura biomédica e identifique documentos relevantes, juntamente com relações de doenças proteicas de alto nível usando o caseOLAP LIFT. Visite o protocolo caseOLAP LIFT JoVE e execute a análise de mineração de texto caseOLAP LIFT. Em seguida, clone o repositório Know2BIO no terminal. Usando a linha de comando, execute o script create_edge_files.py para baixar os recursos da base de dados de conhecimento e monitorar o progresso do pipeline de extração. Em seguida, construa o gráfico de conhecimento com o script prepare_kgs.py. Integre os resultados do script combine_kg_results.py para mesclar os relacionamentos e entidades extraídos da análise de mineração de texto e da construção do gráfico de conhecimento em um gráfico abrangente. Identifique entidades biomédicas de interesse revisando o gráfico de conhecimento e selecionando nós relevantes para uso na análise preditiva. Use o script filter.py para extrair um subgráfico acessível dentro de dois saltos dos nós de doença selecionados de interesse e execute o comando. Execute o script de análise de previsão especificando as bordas a serem previstas e o gráfico de conhecimento de entrada como argumentos de linha de comando e obtenha a saída. Agora, conecte-se ao contêiner do Rugged Docker. Se a janela do terminal anterior foi fechada, reconecte-se ao contêiner do Docker. Uma vez conectado, navegue até o diretório Rugged com o espaço de trabalho do CD Rugged na linha de comando e execute todas as etapas restantes nessa janela de linha de comando. Depois de verificar se todos os serviços de suporte estão em execução, inicie o Rugged na interface de linha de comando para começar a interagir com o sistema. Para consultar o gráfico de conhecimento, faça uma pergunta em linguagem natural começando com a palavra-chave "consulta". Por exemplo, digite "consultar quais são os medicamentos atualmente prescritos classificados como betabloqueadores?" Explore as previsões da análise de previsão de links com perguntas que começam com a palavra-chave "prever". Em seguida, recupere documentos relacionados a um tópico biomédico da etapa dois em linguagem natural usando a palavra-chave "pesquisar". Refine as consultas iterativamente usando a interface de bate-papo do Rugged na mesma janela do terminal. Opcionalmente, execute novamente e modifique os comandos de cifra no Neo4j para refinar os resultados da consulta do gráfico de conhecimento. Resuma toda a interação com a palavra-chave "summarize" para gerar um resumo de texto para revisão posterior e conduza uma revisão humana no loop para melhorar a legibilidade e a precisão das respostas do sistema antes de finalizar o resumo. Por fim, revise os registros de bate-papo na pasta de log no Rugged e inspecione o texto completo da interação. O gráfico de conhecimento construído usando o Know2BIO incluiu 219.450 nós e 6.323.257 bordas. O sistema Rugged incorporou dados de conhecimento e publicação usando o modelo BART para pesquisa vetorial, com publicações com mais de 500 tokens resumidos em seção.
Este artigo apresenta RUGGED (Retrieval Under Graph-Guided Explainable disease Distinction), uma plataforma que integra a inferência de Modelos de Linguagem Grande com Geração Aumentada por Recuperação. Visa sintetizar novos conhecimentos a partir da literatura biomédica e bases de conhecimento, facilitando a geração de hipóteses e a exploração de questões biomédicas.