June 13th, 2025
In diesem Artikel wird RUGGED (Retrieval Under Graph-Guided Explainable disease Distinction) beschrieben, das die Inferenz des Large Language Model (LLM) mit der Retrieval-Augmented Generation (RAG) integriert. Es stützt sich auf Erkenntnisse aus von Experten kuratierten biomedizinischen Wissensdatenbanken und biomedizinischen Publikationen, um neues Wissen aus aktuellen Informationen zu synthetisieren, erklärbare und umsetzbare Vorhersagen zu identifizieren und vielversprechende Richtungen für hypothesengetriebene Untersuchungen aufzuzeigen.
Dieses Protokoll stellt eine Plattform dar, um biomedizinische und klinische Fragestellungen zuverlässig zu untersuchen und Hypothesen zu generieren. Rugged hilft bei der Erkundung der biomedizinischen Landschaft, indem es große Sprachmodelle nutzt, sie mit Peer-Review-Publikationen und kuratierten biomedizinischen Wissensdatenbanken verbindet und erklärbare KI einsetzt, um neue Zusammenhänge aufzudecken. Die jüngsten Fortschritte in der generativen KI und in großen Sprachmodellen haben die Art und Weise, wie wir mit evidenzgestützten biomedizinischen Ressourcen umgehen, verändert und Aufgaben wie Zusammenfassung, Fragebeantwortung und flexible Hypothesenerkundung ermöglicht. Frühere Ansätze stützten sich auf Text-Mining, um Muster und Beziehungen auf hoher Ebene aus der biomedizinischen Literatur zu extrahieren. Heutzutage kombinieren Ansätze große Sprachmodelle mit retrieval-augmented Generation, agentischen Systemen und Tool-Calling-Funktionen. Viele öffentlich zugängliche Sprachmodelle haben Probleme mit der Zuverlässigkeit und produzieren möglicherweise sachlich falsche Informationen. Während sich neuere Modelle verbessert haben, fehlte es ihren Ergebnissen zum Zeitpunkt der Veröffentlichung oft an Domänenspezifität, sie beruhen auf einer vagen Allgemeinsprache und liefern langwierige und fragmentierte Erklärungen. In früheren Veröffentlichungen mit JoVE haben wir hervorgehoben, wie Text Mining und biomedizinische Wissensgraphenmodellierung angewendet werden, um Beziehungen zwischen Proteinen, zellulären Komponenten und Herz-Kreislauf-Erkrankungen vorherzusagen und zu verstehen. Aufbauend auf dieser Grundlage konzentriert sich unsere neueste Forschung auf die Integration dieses strukturierten biomedizinischen Wissens mit großen, sprachmodellgestützten Arbeitsabläufen, um genaue Inferenz und evidenzbasierte Antworten zu ermöglichen.
[Erzähler] Starten Sie zunächst den Rugged-Dienst mit dem Befehl im Terminal. Extrahieren Sie biomedizinische Literatur und identifizieren Sie relevante Dokumente sowie hochrangige Protein-Krankheitsbeziehungen mit caseOLAP LIFT. Besuchen Sie das caseOLAP LIFT JoVE-Protokoll und führen Sie die caseOLAP LIFT Text-Mining-Analyse durch. Klonen Sie als Nächstes das Know2BIO-Repository im Terminal. Führen Sie über die Befehlszeile das create_edge_files.py-Skript aus, um die Ressourcen der Wissensdatenbank herunterzuladen und den Fortschritt der Extraktionspipeline zu überwachen. Erstellen Sie dann den Knowledge Graph mit dem Skript prepare_kgs.py. Integrieren Sie die Ergebnisse des combine_kg_results.py Skripts, um die Beziehungen und Entitäten, die aus der Text-Mining-Analyse und der Erstellung von Knowledge Graphen extrahiert wurden, in einem umfassenden Diagramm zusammenzuführen. Identifizieren Sie biomedizinische Entitäten von Interesse, indem Sie den Knowledge Graph überprüfen und relevante Knoten für die Verwendung in der prädiktiven Analyse auswählen. Verwenden Sie das Skript filter.py, um ein Unterdiagramm zu extrahieren, das innerhalb von zwei Hops von den ausgewählten Krankheitsknoten von Interesse erreichbar ist, und führen Sie den Befehl aus. Führen Sie das Vorhersageanalyseskript aus, indem Sie die vorherzusagenden Kanten und das Eingabewissensdiagramm als Befehlszeilenargumente angeben und die Ausgabe abrufen. Stellen Sie nun eine Verbindung mit dem Rugged Docker-Container her. Wenn das vorherige Terminalfenster geschlossen wurde, stellen Sie die Verbindung mit dem Docker-Container wieder her. Sobald die Verbindung hergestellt ist, navigieren Sie in der Befehlszeile mit CD workspace Rugged zum Rugged-Verzeichnis und führen Sie alle verbleibenden Schritte in diesem Befehlszeilenfenster aus. Nachdem Sie überprüft haben, dass alle unterstützenden Dienste ausgeführt werden, starten Sie Rugged in der Befehlszeilenschnittstelle, um mit dem System zu interagieren. Um den Knowledge Graph abzufragen, stellen Sie eine Frage in natürlicher Sprache, die mit dem Schlüsselwort "query" beginnt. Geben Sie beispielsweise "Abfrage der derzeit verschriebenen Medikamente, die als Betablocker eingestuft sind?" ein. Untersuchen Sie die Vorhersagen aus der Link-Vorhersage-Analyse mit Fragen, die mit dem Keyword "vorhersagen" beginnen. Rufen Sie dann Dokumente zu einem biomedizinischen Thema aus Schritt zwei in natürlicher Sprache mit dem Schlüsselwort "Suche" ab. Verfeinern Sie die Anfragen iterativ über die Chat-ähnliche Oberfläche von Rugged im selben Terminalfenster. Optional können Sie Verschlüsselungsbefehle in Neo4j erneut ausführen und ändern, um die Abfrageergebnisse des Wissensgraphen zu verfeinern. Fassen Sie die gesamte Interaktion mit dem Schlüsselwort "zusammenfassen" zusammen, um eine Textzusammenfassung für eine spätere Überprüfung auszugeben, und führen Sie eine Human-in-the-Loop-Überprüfung durch, um die Lesbarkeit und Genauigkeit der Systemantworten zu verbessern, bevor Sie die Zusammenfassung abschließen. Überprüfen Sie abschließend die Chat-Protokolle im Protokollordner in Rugged und überprüfen Sie den vollständigen Text der Interaktion. Der mit Know2BIO erstellte Knowledge Graph umfasste 219.450 Knoten und 6.323.257 Kanten. Das Rugged-System bettete Wissensgraphen und Publikationsdaten unter Verwendung des BART-Modells für die Vektorsuche ein, wobei Publikationen mit mehr als 500 Token abschnittsweise zusammengefasst wurden.
Dieser Artikel präsentiert RUGGED (Retrieval Under Graph-Guided Explainable disease Distinction), eine Plattform, die die Inferenz von Large Language Models mit Retrieval-Augmented Generation integriert. Sie zielt darauf ab, neues Wissen aus biomedizinischer Literatur und Wissensbasen zu synthetisieren und so die Hypothesenbildung und Erforschung biomedizinischer Fragen zu erleichtern.