June 13th, 2025
In dit artikel wordt RUGGED (Retrieval Under Graph-Guided Explainable disease Distinction) beschreven, dat Large Language Model (LLM)-inferentie integreert met Retrieval-Augmented Generation (RAG). Het haalt bewijs uit door experts samengestelde biomedische kennisbanken en collegiaal getoetste biomedische publicaties om nieuwe kennis te synthetiseren uit up-to-date informatie, verklaarbare en bruikbare voorspellingen te identificeren en veelbelovende richtingen te vinden voor hypothesegedreven onderzoeken.
Dit protocol biedt een platform om biomedische en klinische vragen op betrouwbare wijze te onderzoeken en om hypothesen te genereren. Rugged helpt bij het verkennen van het biomedische landschap door gebruik te maken van grote taalmodellen, deze te verbinden met peer-reviewed publicaties en samengestelde biomedische kennisbanken, en door verklaarbare AI te gebruiken om nieuwe relaties te ontdekken. Recente ontwikkelingen in generatieve AI en grote taalmodellen hebben de manier veranderd waarop we omgaan met evidence-supported biomedische bronnen, waardoor taken zoals samenvatten, vragen beantwoorden en flexibele hypotheseverkenning mogelijk worden. Eerdere benaderingen waren gebaseerd op tekstmining om patronen en relaties op hoog niveau uit de biomedische literatuur te halen. Tegenwoordig combineren benaderingen grote taalmodellen met retrieval-augmented generation, agentische systemen en tool-calling-mogelijkheden. Veel openbaar beschikbare taalmodellen worstelen met betrouwbaarheid en produceren mogelijk feitelijk onjuiste informatie. Hoewel recente modellen zijn verbeterd, ontbrak hun output op het moment van publicatie vaak aan domeinspecificiteit, berustte ze op vaag algemeen taalgebruik en produceerde ze lange en gefragmenteerde uitleg. In eerdere publicaties met JoVE hebben we benadrukt hoe text mining en biomedische knowledge graph modellering worden toegepast om relaties tussen eiwitten, cellulaire componenten en hart- en vaatziekten te voorspellen en te begrijpen. Voortbouwend op deze basis richt ons nieuwste onderzoek zich op het integreren van deze gestructureerde biomedische kennis met door grote taalmodellen ondersteunde workflows, waardoor nauwkeurige gevolgtrekkingen en evidence-based antwoorden mogelijk zijn.
[Verteller] Start om te beginnen de Rugged-service met de opdracht in de terminal. Extraheer biomedische literatuur en identificeer relevante documenten, samen met eiwitziekterelaties op hoog niveau met behulp van caseOLAP LIFT. Bezoek het caseOLAP LIFT JoVE-protocol en voer de caseOLAP LIFT-tekstmininganalyse uit. Kloon vervolgens de Know2BIO-repository in de terminal. Voer met behulp van de opdrachtregel het create_edge_files.py-script uit om de Knowledge Base-bronnen te downloaden en de voortgang van de extractiepijplijn te bewaken. Maak vervolgens de kennisgrafiek met het prepare_kgs.py script. Integreer de resultaten van het combine_kg_results.py-script om de relaties en entiteiten die zijn geëxtraheerd uit de tekstmining-analyse en knowledge graph-constructie samen te voegen tot één uitgebreide grafiek. Identificeer biomedische entiteiten die van belang zijn door de knowledge graph te bekijken en relevante knooppunten te selecteren voor gebruik in voorspellende analyse. Gebruik het filter.py-script om een subgrafiek te extraheren die binnen twee hops bereikbaar is uit de geselecteerde ziekteknooppunten van belang en voer de opdracht uit. Voer het voorspellingsanalysescript uit door de te voorspellen randen op te geven en de invoerkennisgrafiek als opdrachtregelargumenten en de uitvoer op te halen. Maak nu verbinding met de Rugged Docker-container. Als het vorige terminalvenster gesloten was, maakt u opnieuw verbinding met de Docker-container. Zodra de verbinding is gemaakt, navigeert u naar de map Rugged met cd-werkruimte Rugged op de opdrachtregel en voert u alle resterende stappen uit in dit opdrachtregelvenster. Nadat u hebt gecontroleerd of alle ondersteunende services actief zijn, start u Rugged in de opdrachtregelinterface om de interactie met het systeem te starten. Als u een query wilt uitvoeren op de kennisgrafiek, stelt u een vraag in natuurlijke taal die begint met het trefwoord 'query'. Typ bijvoorbeeld 'vraag wat zijn de momenteel voorgeschreven geneesmiddelen die zijn geclassificeerd als bètablokkers?' Verken de voorspellingen van de linkvoorspellingsanalyse met vragen die beginnen met het trefwoord 'voorspellen'. Haal vervolgens documenten op met betrekking tot een biomedisch onderwerp uit stap twee in natuurlijke taal met behulp van het trefwoord 'zoeken'. Verfijn de vragen iteratief met behulp van de chat-achtige interface van Rugged in hetzelfde terminalvenster. Optioneel kunt u de cijferopdrachten in Neo4j opnieuw uitvoeren en wijzigen om de resultaten van de knowledge graph-query te verfijnen. Vat de volledige interactie samen met het trefwoord "samenvatten" om een tekstsamenvatting uit te voeren voor latere beoordeling, en voer een human in the loop-beoordeling uit om de leesbaarheid en nauwkeurigheid van de systeemreacties te verbeteren voordat de samenvatting wordt afgerond. Bekijk ten slotte de chatlogboeken in de logmap in Rugged en inspecteer de volledige tekst van de interactie. De knowledge graph, geconstrueerd met Know2BIO, omvatte 219.450 knooppunten en 6.323.257 randen. Het Ruged-systeem heeft kennisgrafieken en publicatiegegevens ingesloten met behulp van het BART-model voor vectorzoeken, waarbij publicaties langer dan 500 tokens per sectie worden samengevat.
Dit artikel presenteert RUGGED (Retrieval Under Graph-Guided Explainable disease Distinction), een platform dat Large Language Model-inferentie integreert met Retrieval-Augmented Generation. Het heeft als doel nieuwe kennis te synthetiseren uit biomedische literatuur en kennisbases, waardoor het genereren van hypothesen en het onderzoeken van biomedische vragen wordt vergemakkelijkt.