June 13th, 2025
Questo articolo descrive RUGGED (Retrieval Under Graph-Guided Explainable disease Distinction), che integra l'inferenza LLM (Large Language Model) con la Retrieval-Augmented Generation (RAG). Trae prove da basi di conoscenze biomediche curate da esperti e pubblicazioni biomediche sottoposte a revisione paritaria per sintetizzare nuove conoscenze da informazioni aggiornate, identificare previsioni spiegabili e attuabili e individuare direzioni promettenti per indagini basate su ipotesi.
Questo protocollo presenta una piattaforma per esplorare in modo affidabile questioni biomediche e cliniche e per la generazione di ipotesi. Rugged aiuta a esplorare il panorama biomedico sfruttando modelli linguistici di grandi dimensioni, collegandoli a pubblicazioni peer-reviewed e basi di conoscenze biomediche curate, oltre a utilizzare l'intelligenza artificiale spiegabile per scoprire nuove relazioni. I recenti progressi nell'intelligenza artificiale generativa e nei modelli linguistici di grandi dimensioni hanno trasformato il modo in cui interagiamo con le risorse biomediche supportate dall'evidenza, consentendo attività come il riassunto, la risposta alle domande e l'esplorazione flessibile delle ipotesi. Gli approcci precedenti si basavano sul text mining per estrarre modelli e relazioni di alto livello dalla letteratura biomedica. Oggi, gli approcci combinano modelli linguistici di grandi dimensioni con la generazione aumentata dal recupero, i sistemi agentici e le capacità di chiamata degli strumenti. Molti modelli linguistici disponibili pubblicamente lottano con l'affidabilità, producendo potenzialmente informazioni di fatto errate. Sebbene i modelli recenti siano migliorati, i loro risultati al momento della pubblicazione spesso mancavano di specificità di dominio, si basavano su un linguaggio generale vago e producevano spiegazioni lunghe e frammentate. In precedenti pubblicazioni con JoVE, abbiamo evidenziato come il text mining e la modellazione del grafo della conoscenza biomedica vengano applicati per prevedere e comprendere le relazioni tra proteine, componenti cellulari e malattie cardiovascolari. Basandosi su queste basi, la nostra ultima ricerca si concentra sull'integrazione di queste conoscenze biomediche strutturate con flussi di lavoro supportati da modelli linguistici di grandi dimensioni, consentendo un'inferenza accurata e risposte basate sull'evidenza.
[Narratore] Per iniziare, avvia il servizio Rugged con il comando nel terminale. Estrai la letteratura biomedica e identifica i documenti pertinenti, insieme alle relazioni proteiche di alto livello tra malattie utilizzando caseOLAP LIFT. Visita il protocollo JoVE caseOLAP LIFT ed esegui l'analisi del text mining caseOLAP LIFT. Quindi, clona il repository Know2BIO nel terminale. Utilizzando la riga di comando, eseguire lo script create_edge_files.py per scaricare le risorse della knowledge base e monitorare lo stato di avanzamento della pipeline di estrazione. Quindi, costruisci il grafo della conoscenza con lo script prepare_kgs.py. Integra i risultati dello script di combine_kg_results.py per unire le relazioni e le entità estratte dall'analisi del text mining e dalla costruzione del grafo della conoscenza in un unico grafo completo. Identificare le entità biomediche di interesse esaminando il grafo della conoscenza e selezionando i nodi pertinenti da utilizzare nell'analisi predittiva. Utilizzare lo script filter.py per estrarre un sottografo raggiungibile entro due hop dai nodi di malattia selezionati di interesse ed eseguire il comando. Esegui lo script di analisi della previsione specificando gli archi da prevedere e il grafo della conoscenza di input come argomenti della riga di comando e ottieni l'output. A questo punto, connettiti al contenitore Rugged Docker. Se la finestra del terminale precedente è stata chiusa, riconnettersi al contenitore Docker. Una volta stabilita la connessione, accedere alla directory Rugged con l'area di lavoro CD Rugged nella riga di comando ed eseguire tutti i passaggi rimanenti all'interno di questa finestra della riga di comando. Dopo aver verificato che tutti i servizi di supporto siano in esecuzione, avviare Rugged nell'interfaccia della riga di comando per iniziare a interagire con il sistema. Per interrogare il grafo della conoscenza, poni una domanda in linguaggio naturale a partire dalla parola chiave "query". Ad esempio, digita "query quali sono i farmaci attualmente prescritti classificati come beta-bloccanti?" Esplora le previsioni dell'analisi della previsione dei link con domande che iniziano con la parola chiave "prevedere". Quindi, recupera i documenti relativi a un argomento biomedico dal passaggio due in linguaggio naturale utilizzando la parola chiave "ricerca". Affina le richieste in modo iterativo utilizzando l'interfaccia simile a una chat di Rugged nella stessa finestra del terminale. Facoltativamente, esegui nuovamente e modifica i comandi di crittografia in Neo4j per perfezionare i risultati della query del knowledge graph. Riassumere l'intera interazione con la parola chiave "summarize" per produrre un riepilogo del testo per una revisione successiva e condurre una revisione umana nel ciclo per migliorare la leggibilità e l'accuratezza delle risposte del sistema prima di finalizzare il riepilogo. Infine, esamina i registri delle chat nella cartella dei registri all'interno di Rugged e ispeziona il testo completo dell'interazione. Il grafo della conoscenza costruito utilizzando Know2BIO comprendeva 219.450 nodi e 6.323.257 bordi. Il sistema Rugged ha incorporato il grafo della conoscenza e i dati di pubblicazione utilizzando il modello BART per la ricerca vettoriale, con pubblicazioni più lunghe di 500 token riepilogate per sezione.
Questo articolo presenta RUGGED (Retrieval Under Graph-Guided Explainable disease Distinction), una piattaforma che integra l'inferenza del Large Language Model con la generazione aumentata dal recupero. Mira a sintetizzare nuove conoscenze dalla letteratura biomedica e dalle basi di conoscenze, facilitando la generazione di ipotesi e l'esplorazione di domande biomedicali.