June 13th, 2025
Cet article décrit RUGGED (Retrieval Under Graph-Guided Explainable disease Distinction), qui intègre l’inférence LLM (Large Language Model) à la génération augmentée par récupération (RAG). Il s’appuie sur des bases de connaissances biomédicales organisées par des experts et des publications biomédicales évaluées par des pairs afin de synthétiser de nouvelles connaissances à partir d’informations à jour, d’identifier des prédictions explicables et exploitables et d’identifier des directions prometteuses pour des investigations fondées sur des hypothèses.
Ce protocole présente une plate-forme pour explorer de manière fiable des questions biomédicales et cliniques, et pour la génération d’hypothèses. Rugged aide à explorer le paysage biomédical en exploitant de grands modèles de langage, en les connectant à des publications évaluées par des pairs et à des bases de connaissances biomédicales organisées, ainsi qu’en utilisant l’IA explicable pour découvrir de nouvelles relations. Les progrès récents de l’IA générative et des grands modèles de langage ont transformé la façon dont nous nous engageons avec des ressources biomédicales fondées sur des preuves, permettant des tâches telles que la synthèse, la réponse à des questions et l’exploration d’hypothèses flexibles. Les approches antérieures s’appuyaient sur l’exploration de texte pour extraire des modèles et des relations de haut niveau de la littérature biomédicale. Aujourd’hui, les approches combinent de grands modèles de langage avec une génération augmentée par récupération, des systèmes agentiques et des capacités d’appel d’outils. De nombreux modèles de langage accessibles au public ont du mal à être fiables, produisant potentiellement des informations factuellement incorrectes. Bien que les modèles récents se soient améliorés, leur production au moment de la publication manquait souvent de spécificité de domaine, s’appuyait sur un langage général vague et produisait des explications longues et fragmentées. Dans des publications précédentes avec JoVE, nous avons souligné comment l’exploration de texte et la modélisation de graphes de connaissances biomédicales sont appliquées pour prédire et comprendre les relations entre les protéines, les composants cellulaires et les maladies cardiovasculaires. S’appuyant sur cette base, nos dernières recherches se concentrent sur l’intégration de ces connaissances biomédicales structurées avec des flux de travail soutenus par de grands modèles de langage, permettant une inférence précise et des réponses fondées sur des preuves.
[Narrateur] Pour commencer, démarrez le service Rugged avec la commande dans le terminal. Extrayez la littérature biomédicale et identifiez les documents pertinents, ainsi que les relations protéiques de haut niveau avec les maladies à l’aide de caseOLAP LIFT. Visitez le protocole caseOLAP LIFT JoVE et effectuez l’analyse de fouille de texte caseOLAP LIFT. Ensuite, clonez le référentiel Know2BIO dans le terminal. À l’aide de la ligne de commande, exécutez le script create_edge_files.py pour télécharger les ressources de la base de connaissances et surveiller la progression du pipeline d’extraction. Ensuite, construisez le graphe de connaissances avec le script prepare_kgs.py. Intégrez les résultats du script combine_kg_results.py pour fusionner les relations et les entités extraites de l’analyse de l’exploration de texte et de la construction du graphe de connaissances en un seul graphique complet. Identifiez les entités biomédicales d’intérêt en examinant le graphe de connaissances et en sélectionnant les nœuds pertinents à utiliser dans l’analyse prédictive. Utilisez le script filter.py pour extraire un sous-graphe accessible à moins de deux sauts des nœuds de maladie d’intérêt sélectionnés et exécutez la commande. Exécutez le script d’analyse de prédiction en spécifiant les arêtes à prédire et le graphe de connaissances d’entrée en tant qu’arguments de ligne de commande et obtenez la sortie. Maintenant, connectez-vous au conteneur Docker robuste. Si la fenêtre de terminal précédente était fermée, reconnectez-vous au conteneur Docker. Une fois connecté, accédez au répertoire Rugged avec l’espace de travail CD Rugged dans la ligne de commande et effectuez toutes les étapes restantes dans cette fenêtre de ligne de commande. Après avoir vérifié que tous les services de support sont en cours d’exécution, démarrez Rugged dans l’interface de ligne de commande pour commencer à interagir avec le système. Pour interroger le graphe de connaissances, posez une question en langage naturel commençant par le mot-clé « query ». Par exemple, tapez « requête quels sont les médicaments actuellement prescrits classés comme bêta-bloquants ? » Explorez les prédictions de l’analyse de prédiction de liens avec des questions commençant par le mot-clé « prédire ». Ensuite, récupérez en langage naturel des documents liés à un sujet biomédical de la deuxième étape en utilisant le mot-clé « recherche ». Affinez les requêtes de manière itérative à l’aide de l’interface de chat de Rugged dans la même fenêtre de terminal. Si vous le souhaitez, réexécutez et modifiez les commandes de chiffrement dans Neo4j pour affiner les résultats de la requête du graphe de connaissances. Résumez l’ensemble de l’interaction à l’aide du mot-clé « résumer » pour produire un résumé textuel en vue d’une révision ultérieure, et effectuez une révision humaine dans la boucle pour améliorer la lisibilité et la précision des réponses du système avant de finaliser le résumé. Enfin, consultez les journaux de chat dans le dossier journal de Rugged et inspectez le texte intégral de l’interaction. Le graphe de connaissances construit à l’aide de Know2BIO comprenait 219 450 nœuds et 6 323 257 arêtes. Le système Rugged a intégré le graphe de connaissances et les données de publication à l’aide du modèle BART pour la recherche vectorielle, avec des publications de plus de 500 jetons résumées par section.
Cet article présente RUGGED (Retrieval Under Graph-Guided Explainable disease Distinction), une plateforme qui intègre l'inférence de grands modèles linguistiques avec la génération augmentée par récupération. Elle vise à synthétiser de nouvelles connaissances à partir de la littérature biomédicale et des bases de connaissances, facilitant la génération d'hypothèses et l'exploration de questions biomédicales.