June 13th, 2025
En este artículo se describe RUGGED (Retrieval Under Graph-Guided Explainable disease Distinction), que integra la inferencia del modelo de lenguaje grande (LLM) con la generación aumentada de recuperación (RAG). Extrae evidencia de bases de conocimiento biomédico seleccionadas por expertos y publicaciones biomédicas revisadas por pares para sintetizar nuevos conocimientos a partir de información actualizada, identificar predicciones explicables y procesables, y señalar direcciones prometedoras para investigaciones basadas en hipótesis.
Este protocolo presenta una plataforma para explorar de manera confiable preguntas biomédicas y clínicas, y para la generación de hipótesis. Rugged ayuda a explorar el panorama biomédico aprovechando grandes modelos de lenguaje, conectándolos a publicaciones revisadas por pares y bases de conocimiento biomédico seleccionadas, así como utilizando IA explicable para descubrir nuevas relaciones. Los avances recientes en IA generativa y grandes modelos de lenguaje han transformado la forma en que nos relacionamos con los recursos biomédicos respaldados por evidencia, lo que permite tareas como el resumen, la respuesta a preguntas y la exploración flexible de hipótesis. Los enfoques anteriores se basaban en la minería de texto para extraer patrones y relaciones de alto nivel de la literatura biomédica. Hoy en día, los enfoques combinan grandes modelos de lenguaje con generación aumentada de recuperación, sistemas agénticos y capacidades de llamada a herramientas. Muchos modelos de lenguaje disponibles públicamente luchan con la confiabilidad, lo que podría producir información objetivamente incorrecta. Si bien los modelos recientes han mejorado, su producción en el momento de la publicación a menudo carecía de especificidad de dominio, se basaba en un lenguaje general vago y producía explicaciones largas y fragmentadas. En publicaciones anteriores con JoVE, destacamos cómo se aplica la minería de textos y el modelado de gráficos de conocimiento biomédico para predecir y comprender las relaciones entre proteínas, componentes celulares y enfermedades cardiovasculares. Sobre esta base, nuestra última investigación se centra en integrar este conocimiento biomédico estructurado con grandes flujos de trabajo compatibles con modelos de lenguaje, lo que permite inferencias precisas y respuestas basadas en evidencia.
[Narrador] Para comenzar, inicie el servicio Rugged con el comando en el terminal. Extraiga literatura biomédica e identifique documentos relevantes, junto con relaciones de enfermedades proteicas de alto nivel utilizando caseOLAP LIFT. Visite el protocolo caseOLAP LIFT JoVE y realice el análisis de minería de texto caseOLAP LIFT. A continuación, clone el repositorio Know2BIO en la terminal. Con la línea de comandos, ejecute el script create_edge_files.py para descargar los recursos de la base de conocimiento y supervisar el progreso de la canalización de extracción. A continuación, construya el gráfico de conocimiento con el script prepare_kgs.py. Integre los resultados del script de combine_kg_results.py para fusionar las relaciones y entidades extraídas del análisis de minería de texto y la construcción del gráfico de conocimiento en un gráfico completo. Identificar entidades biomédicas de interés revisando el gráfico de conocimiento y seleccionando nodos relevantes para su uso en análisis predictivo. Utilice el script filter.py para extraer un subgrafo accesible dentro de dos saltos de los nodos de enfermedad seleccionados de interés y ejecute el comando. Ejecute el script de análisis de predicción especificando los bordes que se van a predecir y el gráfico de conocimiento de entrada como argumentos de línea de comandos y obtenga la salida. Ahora, conéctese al contenedor Rugged Docker. Si se cerró la ventana de terminal anterior, vuelva a conectarse al contenedor de Docker. Una vez conectado, navegue hasta el directorio Rugged con el espacio de trabajo de CD Rugged en la línea de comandos y realice todos los pasos restantes dentro de esta ventana de línea de comandos. Después de verificar que todos los servicios de soporte se están ejecutando, inicie Rugged en la interfaz de línea de comandos para comenzar a interactuar con el sistema. Para consultar el gráfico de conocimiento, plantee una pregunta en lenguaje natural que comience con la palabra clave "consulta". Por ejemplo, escriba "consultar ¿cuáles son los medicamentos recetados actualmente clasificados como betabloqueantes?" Explore las predicciones del análisis de predicción de vínculos con preguntas que comienzan con la palabra clave "predecir". Luego, recupere documentos relacionados con un tema biomédico del paso dos en lenguaje natural usando la palabra clave "buscar". Refine las consultas de forma iterativa utilizando la interfaz similar a un chat de Rugged en la misma ventana de la terminal. Opcionalmente, vuelva a ejecutar y modifique los comandos de cifrado en Neo4j para refinar los resultados de la consulta del gráfico de conocimiento. Resuma toda la interacción con la palabra clave "resumir" para generar un resumen de texto para su posterior revisión, y realice una revisión humana en el bucle para mejorar la legibilidad y precisión de las respuestas del sistema antes de finalizar el resumen. Finalmente, revise los registros de chat en la carpeta de registro dentro de Rugged e inspeccione el texto completo de la interacción. El gráfico de conocimiento construido con Know2BIO incluía 219.450 nodos y 6.323.257 bordes. El sistema Rugged incorporó gráficos de conocimiento y datos de publicación utilizando el modelo BART para la búsqueda vectorial, con publicaciones de más de 500 tokens resumidas por secciones.
Este artículo presenta RUGGED (Retrieval Under Graph-Guided Explainable disease Distinction), una plataforma que integra la inferencia de Modelos de Lenguaje Grande con Generación Aumentada por Recuperación. Su objetivo es sintetizar nuevo conocimiento a partir de la literatura biomédica y bases de conocimiento, facilitando la generación de hipótesis y la exploración de preguntas biomédicas.