$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Esses resultados representativos foram obtidos seguindo o procedimento descrito neste protocolo. Uma análise de associação de mineração de texto foi realizada seguindo o protocolo CaseOLAP LIFT5 com parâmetros padrão, estudando oito grandes categorias de doenças cardiovasculares72 e sua associação com proteínas mitocondriais (GO:0005739). No total, 635.696 relatórios até maio de 2024 foram determinados como relevantes para essas doenças; Entre eles, 4.655 associações proteína-doença de alta confiança foram identificadas para informar as análises a jusante. Um gráfico de conhecimento biomédico foi construído usando o código do software Know2BIO usando as configurações padrão em maio de 20249. O gráfico de conhecimento resultante consiste em 219.450 nós, 6.323.257 arestas, bem como características de nós para 189.493 nós com descrições de nós, sequências de proteínas/genes, estrutura química, etc., quando disponíveis. Uma estimativa do tempo computacional para todas as etapas do protocolo é apresentada na Tabela 1.
O sistema RUGGED foi inicializado pela construção de bancos de dados vetoriais para nós e recursos de gráficos de conhecimento, bem como para publicações relevantes para CVD. Todos os nós, bordas e recursos de nó do gráfico de conhecimento foram processados com um tamanho de bloco de 20 tokens com o modelo de incorporação BART71 para se preparar para a pesquisa vetorial RAG. Da mesma forma, contribuições originais e artigos de revisão foram processados usando um tamanho de bloco de 500 tokens e o modelo de incorporação BART para se preparar para a pesquisa vetorial RAG. Para recuperação de literatura, publicações de texto completo com mais de 500 tokens foram resumidas hierarquicamente com base nas seções individuais de uma publicação pelo modelo de incorporação BART. O modelo GPT-4o foi usado para os demais agentes LLM no sistema.
Esses resultados representativos mostram um exemplo de caso de uso para investigar possíveis terapias medicamentosas para cardiomiopatia arritmogênica (ACM) e cardiomiopatia dilatada (DCM), identificadas como MeSH_Disease: D019571 e MeSH_Disease: D002311, respectivamente. Uma série de perguntas é descrita na Figura 3, com exemplos destacados de respostas de modelo mostradas na Figura 4 e resposta completa relatada no Arquivo Suplementar 1, Seção A. A direção da investigação foi adaptada às respostas validadas pelo investigador, elaborando perguntas subsequentes com base nos resultados das respostas anteriores. A análise revelou 11 candidatos a medicamentos classificados como betabloqueadores e antiarrítmicos. Novos caminhos para o tratamento terapêutico foram avaliados usando um modelo de previsão de link de rede neural convolucional de gráfico em um subconjunto do gráfico de conhecimento completo, incluindo nós dentro de 1 salto da doença do estudo e nós de medicamentos e suas interconexões, com métricas de avaliação relatadas na Tabela 4. As 10 principais arestas relevantes para cada previsão pelo modelo foram examinadas por um módulo de explicabilidade de grafos, GNNExplainer44, para identificar os principais nós e arestas que contribuem para cada previsão, respectivamente. O custo total do uso do LLM comercial para todas as etapas do protocolo RUGGED para este caso de uso é estimado em US$ 1,50 no momento da redação.

Figura 1: Recuperação sob o fluxo de trabalho RUGGED. O RUGGED consiste em quatro componentes principais: (1) reunir e processar dados de recursos de origem ética e gerenciados profissionalmente (por exemplo, PubMed e bases de conhecimento biomédico com curadoria), (2) integrar resultados de pesquisas revisadas por pares em um gráfico de conhecimento unificado, (3) estruturar o texto e os dados do gráfico em serviços de banco de dados, (4) modelar e prever relações explicáveis entre entidades biomédicas dentro do gráfico de conhecimento, e (5) recuperar e sintetizar conhecimento por meio de um fluxo de trabalho de Geração Aumentada de Recuperação (RAG) (Figura 2) para validar relações moleculares complexas e explorar previsões de doenças orientadas por IA. Uma etapa de revisão human-in-the-loop pode ser conduzida pelo usuário para aumentar a precisão da saída. Clique aqui para ver uma versão maior desta figura.

Figura 2: Arquitetura de recuperação e fluxo de trabalho de mitigação de viés. A estrutura RG (Retrieval Augmented Generation) emprega vários agentes LLM, cada um executando tarefas específicas para dar suporte ao acesso a informações relevantes com base na consulta do usuário. Este sistema fornece evidências documentadas para o Agente de Raciocínio baseado em GPT voltado para o usuário, facilitando a interação usuário-agente e a síntese de conhecimento. (1) Recuperação de texto biomédico: Contribuições originais revisadas por pares e artigos de revisão são filtrados com base em sua relevância para a compreensão das associações de doenças. Um banco de dados vetorial é construído para evidências de texto validadas pelo autor e pelo editor, ponderadas com base na seção correspondente da publicação, respectivamente: 70% Resumo, 10% Resultados, 10% Metadados e 10% para todas as outras subseções. Uma pesquisa por palavra-chave e uma pesquisa de similaridade em relação à incorporação de texto da consulta do usuário identificam documentos relevantes. Os resumos de cada documento são gerados usando um resumidor baseado em BERT, com o Text Evaluator Agent baseado em GPT refinando a pesquisa para validar a relevância do documento de consulta. (2) Recuperação do Gráfico de Conhecimento: Um módulo de reconhecimento de entidade nomeada baseado em BERT e extração de relação baseado em GPT conecta a consulta do usuário a entidades relevantes no gráfico de conhecimento. Uma pesquisa de similaridade em um banco de dados vetorial identifica nós e arestas pertinentes. Os dados são recuperados do banco de dados Neo4j por meio de consultas Cypher geradas pelo Cypher Query Agent baseado em GPT e refinadas pelo Query Verification Agent. (3) As respostas individuais dos pipelines Biomedical Text Retrieval ou Knowledge Graph Retrieval são apresentadas ao Reasoning Agent, que sintetiza uma resposta concisa com o mínimo de viés para a consulta do usuário. Este sistema é orientado para manter a precisão e a imparcialidade na apresentação de informações factuais. Clique aqui para ver uma versão maior desta figura.

Figura 3: Caso de uso sobre síntese de conhecimento e exploração de hipóteses por meiode cascata de consultas integradas. Esta figura mostra um caso de uso destacado com foco em uma cadeia de perguntas e conceitos relacionados que um investigador e/ou profissional de saúde pode fazer ao sistema RUGGED. As consultas do usuário são apresentadas ao sistema em ordem numérica, com setas representando o raciocínio lógico e específico do domínio inferido entre cada pergunta. O sistema recupera das informações implícitas e relevantes (fonte mostrada em azul), respondendo à consulta. Exemplos de respostas do sistema são apresentados na Figura 4. Clique aqui para ver uma versão maior desta figura.

Figura 4: Caso de uso cardiopatologista: elucidando a patogênese da DCV. Os pares de resposta de consulta entre o usuário e o sistema RUGGED são mostrados. No painel superior esquerdo, as perguntas de 1 a 6 recuperam informações extraindo informações do banco de dados do gráfico de conhecimento para formular respostas baseadas em evidências. A questão 7 emprega uma previsão de link gráfico explicável para identificar as terapias de melhor pontuação. A consulta solicita uma análise de previsão, que é executada e processada automaticamente pelo sistema, e as principais descobertas são resumidas de forma sucinta. A questão 8 avalia as evidências da literatura do corpus de dados de texto definido que são recuperados como evidências relevantes para verificar, validar e corroborar o achado previsto. As respostas do sistema foram revisadas por um processo de inspeção human-in-the-loop e modificadas para facilitar a leitura e a brevidade. Uma transcrição completa dessas descobertas é detalhada no Arquivo Suplementar 1. Clique aqui para ver uma versão maior desta figura.
| Passos | Descrição | Hora |
| Acesso ao conhecimento biomédico | 30% total |
| Preparar corpus de literatura biomédica | Conecte-se ao PubMed e ao PubMed Central, baixe e analise dados de publicação para tarefas downstream. | 20% |
| Preparar dados da base de dados de conhecimento | Conecte-se a bases de conhecimento biomédicas, baixe e analise as informações necessárias para tarefas posteriores. | 5% |
| Extração de informações | 30% total |
| Análise de mineração de texto CaseOLAP LIFT | Identifique relações doença-proteína de alto nível dentro do corpus de texto biomédico. | 25% |
| Construção de Gráfico de Conhecimento | Conecte e integre informações díspares de bases de conhecimento biomédico em um gráfico de conhecimento unificado. | 5% |
| Análise de previsão | 10% total |
| Treinar Rede Neural de Grafo | Treine o modelo nos dados do gráfico de conhecimento biomédico para aprender padrões ocultos no gráfico. | 5% |
| Análise de Ranking de Relevância | Aplique o módulo de explicabilidade para destacar os nós e arestas mais pertinentes relevantes para estudar a doença. | 2.5% |
| Previsão de link | Utilize o módulo de explicabilidade para identificar os principais nós e bordas que contribuem para novas bordas previstas. | 2.5% |
| Geração e/ou validação de hipóteses | 30% total |
| Configuração de banco de dados para geração aumentada de recuperação | Inicialize o banco de dados de grafos para consultar o grafo de conhecimento e o banco de dados de vetores para recuperação de texto. | 25% |
| Exploração de hipóteses | Permita a interação do usuário com o RUGGED para acessar e examinar informações relevantes para exploração de hipóteses. | 5% |
Tabela 1: Etapas de fluxo de trabalho e limitação de taxa. Esta tabela fornece estimativas aproximadas do tempo computacional necessário para cada estágio do fluxo de trabalho. As etapas de limitação de taxa incluem acessar, extrair e indexar o conhecimento biomédico necessário para a geração aumentada por recuperação. A exploração de hipóteses pode ser repetida continuamente sem a necessidade de executar novamente as etapas de limitação de taxa.
| Categoria da doença | Números das árvores MeSH | # PMIDs | # Contribuições Originais | # Artigos de revisão |
| Cardiomiopatias (MC) | C14.280.238 | 132,531 | 102,337 | 19,942 |
| C14.280.434 |
| Arritmias cardíacas (ARR) | C14.280.067 | 125,286 | 92,374 | 13,854 |
| C23.550.073 |
| Cardiopatias Congênitas (DCC) | C14.280.400 | 82,006 | 54,023 | 6,379 |
| Doenças das Valvas Cardíacas (DV) | C14.280.484 | 72,016 | 50,119 | 5,743 |
| Isquemia Miocárdica (DIC) | C14.280.647 | 256,986 | 210,042 | 30,223 |
| Doença do Sistema de Condução Cardíaca (CCD) | C14.280.123 | 53,050 | 35,399 | 4,363 |
| Obstrução do Fluxo de Saída Ventricular (VOO) | C14.280.955 | 22,244 | 15,504 | 1,686 |
| Outras doenças cardíacas (OTH) | C14.280.195 C14.280.282 C14.280.383 C14.280.470 C14.280.945 C14.280.459 C14.280.720 | 114,085 | 77,302 | 11,799 |
| Total | 635,696 | 478,404 | 69,690 |
Tabela 2: Estatísticas da literatura biomédica. Esta tabela detalha as categorias de doenças do estudo com seus números de árvore MeSH correspondentes e o número de documentos PubMed recuperados até maio de 2024, usados como corpus para mineração de texto. Um subconjunto dessas publicações, consistindo em artigos de pesquisa de contribuição original e artigos de revisão, é indexado em um banco de dados vetorial para recuperação pelo RUGGED durante a geração de hipóteses.
| Categoria | Número de nós | Número de arestas | Fonte(s) de dados |
| Anatomia | 5,049 | 122,533 | Bgee, PubMed, MeSH, Uberon, |
| Processo biológico | 27,047 | 108,106 | Ontologia Genética |
| Componente Celular | 4,057 | 52,238 | Ontologia Genética |
| Composto | 27,278 | 3,292,028 | DrugBank, MeSH, CTD, UMLS, KEGG, TTD, SIDER, Inxight Drugs, Hetionet, PathFX, MyChem.info |
| Doença | 21,938 | 311,773 | PubMed, MeSH, DisGeNET, SIDER, ClinVar, ClinGen, PharmGKB, MyDisease.info, PathFX, UMLS, OMIM, Mondo, DOID, KEGG |
| Classe de Medicamentos | 5,721 | 8,283 | ATC |
| Gene | 29,810 | 943,419 | HGNC, GRNdb, KEGG, ClinVar, ClinGen, |
| Função molecular | 11,151 | 47,086 | SMPDB, DisGENET, PharmGKB, MyGene.info |
| Caminho | 52,012 | 234,944 | Ontologia Genética |
| Proteína | 20,740 | 1,074,809 | Reatoma, KEGG, SMPDB |
| Reação | 14,647 | 128,038 | UniProt, Reactome, TTD, SMPDB, STRING, HGNC |
| Subtotal | 219,450 | 6,323,257 | Reator |
| Associações de mineração de texto | 8 | 4,670 | |
| Total | 219,458 | 6,327,927 | |
Tabela 3: Estatísticas do gráfico de conhecimento. Esta tabela detalha 11 categorias biomédicas amplas que compõem o gráfico de conhecimento Know2BIO construído, enriquecido com arestas adicionais derivadas da análise de mineração de texto e análise preditiva. O gráfico de conhecimento e as previsões resultantes são gerenciados pelo banco de dados de gráficos Neo4j para recuperação pelo RUGGED durante a geração de hipóteses.
| Exatidão | Precisão | Lembrar | Pontuação F1 | AUROC | AUPRC |
| Validação | 0.7158 | 0.6639 | 0.8743 | 0.7547 | 0.8437 | 0.8637 |
| Teste | 0.703 | 0.6367 | 0.9455 | 0.761 | 0.8961 | 0.9094 |
Tabela 4: Avaliação explicável do modelo de IA. Esta tabela relata as métricas de avaliação para a previsão de link do gráfico de conhecimento usando uma rede neural convolucional de gráfico de duas camadas. As métricas foram avaliadas particionando as bordas do gráfico em 85% de treinamento, 5% de validação e 10% de conjuntos de dados de teste. A precisão indica a proporção de previsões classificadas corretamente. A Precision relata a proporção de previsões positivas corretas entre todas as previsões positivas. O recall mede a proporção de previsões positivas corretas entre as arestas positivas reais. A pontuação F1 é a média harmônica de precisão e recall, equilibrando as duas métricas. O AUROC avalia a capacidade do modelo de diferenciar entre previsões positivas e negativas. O AUPRC quantifica o trade-off entre precisão e recall em diferentes limites. Com todas as métricas, valores mais altos indicam melhor desempenho do modelo.
Arquivo suplementar 1: Este arquivo detalha a resposta completa do modelo do RUGGED e uma comparação com o GPT-4o. A Seção A apresenta a interação homem-computador completa com o RUGGED, expandindo a abordagem de cadeia de consulta descrita na Figura 3 e fornecendo a resposta completa além do resumo destacado na Figura 4. A Seção B avalia as respostas do GPT-4o sem recuperação em relação às do RUGGED, avaliando atributos como precisão, profundidade, pontuação de confiança, confiabilidade de evidências e custo. Clique aqui para baixar este arquivo.