$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Estos resultados representativos se obtuvieron siguiendo el procedimiento descrito en este protocolo. Se realizó un análisis de asociación de minería de textos siguiendo el protocolo CaseOLAP LIFT5 con parámetros por defecto, estudiando ocho categorías amplias de enfermedades cardiovasculares72 y su asociación con proteínas mitocondriales (GO:0005739). En total, se determinaron 635.696 informes hasta mayo de 2024 como relevantes para estas enfermedades; Entre ellos, se identificaron 4.655 asociaciones proteína-enfermedad de alta confianza para informar los análisis posteriores. En mayo de 2024 se construyó un gráfico de conocimiento biomédico utilizando el código de software de Know2BIO utilizando la configuración predeterminada9. El grafo de conocimiento resultante consta de 219.450 nodos, 6.323.257 bordes, así como características de nodo para 189.493 nodos con descripciones de nodos, secuencias de proteínas/genes, estructura química, etc. donde estén disponibles. En la Tabla 1 se presenta una estimación del tiempo de cálculo para todos los pasos del protocolo.
El sistema RUGGED se inicializó mediante la construcción de las bases de datos vectoriales para los nodos y características del gráfico de conocimiento, así como para las publicaciones relevantes para CVD. Todos los nodos, bordes y características de nodo del gráfico de conocimiento se procesaron con un tamaño de fragmento de 20 tokens con el modelo de incrustación BART71 para prepararse para la búsqueda vectorial RAG. Del mismo modo, las contribuciones originales y los artículos de revisión se procesaron utilizando un tamaño de fragmento de 500 tokens y el modelo de incrustación BART para prepararse para la búsqueda vectorial RAG. Para la recuperación de literatura, las publicaciones de texto completo de más de 500 tokens se resumieron jerárquicamente en función de las secciones individuales de una publicación mediante el modelo de incrustación de BART. El modelo GPT-4o se utilizó para el resto de agentes LLM en el sistema.
Estos resultados representativos muestran un ejemplo de caso de uso para investigar posibles terapias farmacológicas para la miocardiopatía arritmogénica (ACM) y la miocardiopatía dilatada (DCM), identificadas como MeSH_Disease: D019571 y MeSH_Disease: D002311, respectivamente. En la Figura 3 se describen una serie de preguntas, con ejemplos destacados de respuestas de modelos que se muestran en la Figura 4, y la respuesta completa que se informa en el Archivo Suplementario 1, Sección A. La dirección de la investigación se adaptó a las respuestas validadas por el investigador, elaborando preguntas posteriores basadas en los resultados de las respuestas anteriores. El análisis reveló 11 candidatos a fármacos clasificados como betabloqueantes y antiarrítmicos. Se evaluaron nuevas vías para el tratamiento terapéutico utilizando un modelo de predicción de enlaces de redes neuronales convolucionales de grafos en un subconjunto del grafo de conocimiento completo, incluidos los nodos dentro de 1 salto de los nodos de enfermedad y fármaco del estudio y sus interconexiones, con métricas de evaluación informadas en la Tabla 4. Los 10 bordes principales relevantes para cada predicción del modelo se examinaron más a fondo mediante un módulo de explicabilidad de grafos, GNNExplainer44, para identificar los nodos superiores y los bordes que contribuyen a cada predicción, respectivamente. El costo total del uso de LLM comercial para todos los pasos del protocolo RUGGED para este caso de uso se estima en $1.50 en el momento de escribir este artículo.

Figura 1: Recuperación bajo el flujo de trabajo de Distinción de enfermedad explicable guiada por gráficos (RUGGED). RUGGED consta de cuatro componentes principales: (1) ensamblar y procesar datos de recursos de origen ético y gestionados profesionalmente (por ejemplo, PubMed y bases de conocimiento biomédico seleccionadas), (2) integrar los hallazgos de la investigación revisada por pares en un gráfico de conocimiento unificado, (3) estructurar los datos de texto y gráficos dentro de los servicios de bases de datos, (4) modelar y predecir relaciones explicables entre entidades biomédicas dentro del gráfico de conocimiento, y (5) recuperar y sintetizar conocimientos a través de un flujo de trabajo de Generación Aumentada de Recuperación (RAG) (Figura 2) para validar relaciones moleculares complejas y explorar predicciones de enfermedades impulsadas por IA. El usuario puede llevar a cabo un paso de revisión humano para mejorar la precisión de la salida. Haga clic aquí para ver una versión más grande de esta figura.

Figura 2: Arquitectura de recuperación y flujo de trabajo de mitigación de sesgos. El marco de la generación aumentada de recuperación (RAG) emplea varios agentes de LLM, cada uno de los cuales ejecuta tareas específicas para respaldar el acceso a la información relevante en función de la consulta del usuario. Este sistema proporciona pruebas documentadas para el Reasoning Agent basado en GPT orientado al usuario, lo que facilita la interacción entre el usuario y el agente y la síntesis de conocimientos. (1) Recuperación de textos biomédicos: Las contribuciones originales revisadas por pares y los artículos de revisión se filtran en función de su relevancia para comprender las asociaciones de enfermedades. Se construye una base de datos vectorial para la evidencia de texto validada por el autor y el editor ponderada en función de la sección correspondiente de la publicación, respectivamente: 70% Resumen, 10% Resultados, 10% Metadatos y 10% para todas las demás subsecciones. Una búsqueda de palabras clave y una búsqueda de similitud en la incrustación de texto de la consulta del usuario identifican documentos relevantes. Los resúmenes de cada documento se generan utilizando un resumidor basado en BERT, con el Agente Evaluador de Texto basado en GPT refinando la búsqueda para validar la relevancia del documento de consulta. (2) Recuperación de grafos de conocimiento: Un módulo de reconocimiento de entidades con nombre basado en BERT y extracción de relaciones basado en GPT conecta la consulta del usuario con entidades relevantes en el grafo de conocimiento. Una búsqueda de similitud en una base de datos vectorial identifica los nodos y bordes pertinentes. Los datos se recuperan de la base de datos de Neo4j a través de consultas de cifrado generadas por el agente de consulta de cifrado basado en GPT y refinadas por el agente de verificación de consultas. (3) Las respuestas individuales de las canalizaciones de recuperación de texto biomédico o recuperación de gráficos de conocimiento se presentan al agente de razonamiento, que sintetiza una respuesta concisa con un sesgo mínimo a la consulta del usuario. Este sistema está guiado para mantener la precisión e imparcialidad en la presentación de información fáctica. Haga clic aquí para ver una versión más grande de esta figura.

Figura 3: Caso de uso en síntesis de conocimientos y exploración de hipótesis a travésde cascada de consultas ieras. Esta figura muestra un caso de uso destacado que se centra en una cadena de preguntas y conceptos relacionados que un investigador y/o profesional de la salud podría plantear al sistema RUGGED. Las consultas del usuario se presentan al sistema en orden numérico, con flechas que representan el razonamiento lógico inferido y el razonamiento específico del dominio entre cada pregunta. El sistema recupera de la información implícita y relevante (la fuente se muestra en azul), respondiendo a la consulta. En la Figura 4 se presentan ejemplos de respuestas del sistema. Haga clic aquí para ver una versión más grande de esta figura.

Figura 4: Caso de uso de la patología cardiovascular: elucidación de la patogenia de las ECV. Se muestran los pares de consulta-respuesta entre el usuario y el sistema RUGGED. En el panel superior izquierdo, las preguntas 1 a 6 recuperan información extrayendo información de la base de datos de gráficos de conocimiento para formular respuestas basadas en evidencia. La pregunta 7 emplea una predicción de enlace gráfico explicable para identificar las terapias con mayor puntuación. La consulta solicita un análisis de predicción, que el sistema ejecuta y procesa automáticamente, y los hallazgos clave se resumen sucintamente. La pregunta 8 evalúa la evidencia bibliográfica del corpus de datos de texto definido que se recupera como evidencia relevante para verificar, validar y corroborar el hallazgo predicho. Las respuestas del sistema se han revisado mediante un proceso de inspección humano y se han modificado para mejorar la legibilidad y la brevedad. Una transcripción completa de estos hallazgos se detalla en el Archivo Complementario 1. Haga clic aquí para ver una versión más grande de esta figura.
| Pasos | Descripción | Hora |
| Acceso al conocimiento biomédico | 30% total |
| Elaborar un corpus de literatura biomédica | Conéctese a PubMed y PubMed Central, descargue y analice los datos de publicación para las tareas posteriores. | 20% |
| Preparar los datos de la base de conocimientos | Conéctese a las bases de conocimientos biomédicos, descargue y analice la información necesaria para las tareas posteriores. | 5% |
| Extracción de información | 30% total |
| Análisis de minería de textos CaseOLAP LIFT | Identificar relaciones de alto nivel entre enfermedades y proteínas dentro del corpus de textos biomédicos. | 25% |
| Construcción de grafos de conocimiento | Conecte e integre información dispar de bases de conocimiento biomédico en un gráfico de conocimiento unificado. | 5% |
| Análisis de predicción | 10% total |
| Red neuronal de grafos de tren | Entrene el modelo con los datos del gráfico de conocimiento biomédico para aprender patrones ocultos dentro del gráfico. | 5% |
| Análisis del Ranking de Relevancia | Aplique el módulo de explicabilidad para resaltar los nodos y bordes más pertinentes para estudiar la enfermedad. | 2.5% |
| Predicción de enlaces | Utilice el módulo de explicabilidad para identificar los nodos clave y los bordes que contribuyen a los nuevos bordes predichos. | 2.5% |
| Generación y/o Validación de Hipótesis | 30% total |
| Configuración de la base de datos para la generación aumentada de recuperación | Inicialice la base de datos de grafos para consultar el grafo de conocimiento y la base de datos vectorial para la recuperación de texto. | 25% |
| Exploración de hipótesis | Permita la interacción del usuario con RUGGED para acceder y examinar información relevante para la exploración de hipótesis. | 5% |
Tabla 1: Flujo de trabajo y pasos de limitación de velocidad. Esta tabla proporciona estimaciones aproximadas del tiempo de cálculo necesario para cada etapa del flujo de trabajo. Las medidas de limitación de velocidad incluyen el acceso, la extracción y la indexación del conocimiento biomédico necesario para la generación aumentada de recuperación. La exploración de hipótesis puede repetirse continuamente sin necesidad de volver a ejecutar los pasos de limitación de velocidad.
| Categoría de enfermedad | Números de árboles MeSH | # PMIDs | # Contribuciones Originales | # Artículos de revisión |
| Miocardiopatías (MC) | C14.280.238 | 132,531 | 102,337 | 19,942 |
| C14.280.434 |
| Arritmias cardíacas (ARR) | C14.280.067 | 125,286 | 92,374 | 13,854 |
| C23.550.073 |
| Defectos cardíacos congénitos (CHD) | C14.280.400 | 82,006 | 54,023 | 6,379 |
| Enfermedades de las válvulas cardíacas (VD) | C14.280.484 | 72,016 | 50,119 | 5,743 |
| Isquemia miocárdica (IHD) | C14.280.647 | 256,986 | 210,042 | 30,223 |
| Enfermedad del Sistema de Conducción Cardíaca (CCD) | C14.280.123 | 53,050 | 35,399 | 4,363 |
| Obstrucción del flujo de salida ventricular (VOO) | C14.280.955 | 22,244 | 15,504 | 1,686 |
| Otras enfermedades cardíacas (OTH) | C14.280.195 C14.280.282 C14.280.383 C14.280.470 C14.280.945 C14.280.459 C14.280.720 | 114,085 | 77,302 | 11,799 |
| Total | 635,696 | 478,404 | 69,690 |
Tabla 2: Estadísticas de la literatura biomédica. En esta tabla se detallan las categorías de enfermedades del estudio con sus correspondientes números de árbol MeSH y el número de documentos de PubMed recuperados hasta mayo de 2024, utilizados como corpus para la minería de textos. Un subconjunto de estas publicaciones, que consta de artículos de investigación de contribuciones originales y artículos de revisión, se indexa en una base de datos vectorial para su recuperación por parte de RUGGED durante la generación de hipótesis.
| Categoría | Número de nodos | Número de aristas | Fuente(s) de datos |
| Anatomía | 5,049 | 122,533 | Bgee, PubMed, MeSH, Uberon, |
| Proceso biológico | 27,047 | 108,106 | Ontología genética |
| Componente celular | 4,057 | 52,238 | Ontología genética |
| Compuesto | 27,278 | 3,292,028 | DrugBank, MeSH, CTD, UMLS, KEGG, TTD, SIDER, Inxight Drugs, Hetionet, PathFX, MyChem.info |
| Enfermedad | 21,938 | 311,773 | PubMed, MeSH, DisGeNET, SIDER, ClinVar, ClinGen, PharmGKB, MyDisease.info, PathFX, UMLS, OMIM, Mondo, DOID, KEGG |
| Clase de medicamento | 5,721 | 8,283 | ATC |
| Gen | 29,810 | 943,419 | HGNC, GRNdb, KEGG, ClinVar, ClinGen, |
| Función molecular | 11,151 | 47,086 | SMPDB, DisGENET, PharmGKB, MyGene.info |
| Senda | 52,012 | 234,944 | Ontología genética |
| Proteína | 20,740 | 1,074,809 | Reactome, KEGG, SMPDB |
| Reacción | 14,647 | 128,038 | UniProt, Reactome, TTD, SMPDB, STRING, HGNC |
| Subtotal | 219,450 | 6,323,257 | Reactoma |
| Asociaciones de minería de textos | 8 | 4,670 | |
| Total | 219,458 | 6,327,927 | |
Tabla 3: Estadísticas de gráficos de conocimiento. En esta tabla se detallan 11 amplias categorías biomédicas que componen el grafo de conocimiento Know2BIO construido, enriquecido con aristas adicionales derivadas del análisis de minería de textos y el análisis predictivo. El grafo de conocimiento y las predicciones resultantes son gestionados por la base de datos de grafos Neo4j para su recuperación por parte de RUGGED durante la generación de hipótesis.
| Exactitud | Precisión | Recordar | Puntuación F1 | AUROC | AUPRC |
| Validación | 0.7158 | 0.6639 | 0.8743 | 0.7547 | 0.8437 | 0.8637 |
| Prueba | 0.703 | 0.6367 | 0.9455 | 0.761 | 0.8961 | 0.9094 |
Tabla 4: Evaluación de modelos de IA explicables. En esta tabla se informan las métricas de evaluación para la predicción de enlaces de gráficos de conocimiento mediante una red neuronal convolucional de gráficos de dos capas. Las métricas se evaluaron dividiendo los bordes de los gráficos en conjuntos de datos de entrenamiento del 85 %, validación del 5 % y 10 % de prueba. La precisión indica la proporción de predicciones clasificadas correctamente. La precisión informa de la proporción de predicciones positivas correctas entre todas las predicciones positivas. El recuerdo mide la proporción de predicciones positivas correctas entre los bordes positivos reales. La puntuación F1 es el medio armónico de precisión y recuperación, equilibrando las dos métricas. AUROC evalúa la capacidad del modelo para diferenciar entre predicciones positivas y negativas. AUPRC cuantifica el equilibrio entre la precisión y la recuperación en diferentes umbrales. Con todas las métricas, los valores más altos indican un mejor rendimiento del modelo.
Legajo Complementario 1: Este archivo detalla la respuesta completa del modelo de RUGGED y una comparación con GPT-4o. En la sección A se presenta la interacción persona-ordenador completa con RUGGED, ampliando el enfoque de cadena de consulta descrito en la figura 3 y proporcionando la respuesta completa más allá del resumen resaltado en la figura 4. La sección B evalúa las respuestas de GPT-4o sin recuperación frente a las de RUGGED, evaluando atributos como la precisión, la profundidad, la puntuación de confianza, la fiabilidad de las pruebas y el coste. Haga clic aquí para descargar este archivo.