$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Questi risultati rappresentativi sono stati ottenuti seguendo la procedura descritta in questo protocollo. È stata eseguita un'analisi di associazione di text mining seguendo il protocollo CaseOLAP LIFT5 con parametri predefiniti, studiando otto ampie categorie di malattie cardiovascolari72 e la loro associazione con le proteine mitocondriali (GO:0005739). In totale, fino a maggio 2024 sono state rilevate 635.696 segnalazioni rilevanti per queste malattie; Tra questi, sono state identificate 4.655 associazioni proteina-malattia ad alta confidenza per informare le analisi a valle. Nel maggio 2024 9 è stato costruito un grafo della conoscenza biomedica utilizzando il codice software di Know2BIO utilizzando le impostazioni predefinite. Il grafo della conoscenza risultante è costituito da 219.450 nodi, 6.323.257 spigoli, nonché caratteristiche dei nodi per 189.493 nodi con descrizioni dei nodi, sequenze di proteine/geni, struttura chimica, ecc. ove disponibili. Una stima del tempo di calcolo per tutte le fasi del protocollo è presentata nella Tabella 1.
Il sistema RUGGED è stato inizializzato costruendo i database vettoriali sia per i nodi e le caratteristiche del grafo della conoscenza, sia per le pubblicazioni rilevanti per le CVD. Tutti i nodi, gli archi e le caratteristiche dei nodi del knowledge graph sono stati elaborati con una dimensione del blocco di 20 token con il modello di incorporamento BART71 per prepararsi alla ricerca vettoriale RAG. Allo stesso modo, i contributi originali e gli articoli di revisione sono stati elaborati utilizzando una dimensione del blocco di 500 token e il modello di incorporamento BART per prepararsi alla ricerca vettoriale RAG. Per il recupero della letteratura, le pubblicazioni full-text superiori a 500 token sono state riassunte gerarchicamente in base alle singole sezioni di una pubblicazione dal modello di incorporamento BART. Il modello GPT-4o è stato utilizzato per i restanti agenti LLM nel sistema.
Questi risultati rappresentativi mostrano un caso d'uso esemplificativo per studiare potenziali terapie farmacologiche per la cardiomiopatia aritmogena (ACM) e la cardiomiopatia dilatativa (DCM), identificate rispettivamente come MeSH_Disease: D019571 e MeSH_Disease: D002311. Una serie di domande è delineata nella Figura 3, con esempi evidenziati di risposte al modello mostrate nella Figura 4 e una risposta completa riportata nel File supplementare 1, Sezione A. La direzione dell'indagine è stata adattata alle risposte convalidate dallo sperimentatore, elaborando query successive basate sui risultati delle risposte precedenti. L'analisi ha rivelato 11 farmaci candidati classificati sotto beta-bloccanti e antiaritmici. Le nuove vie per il trattamento terapeutico sono state valutate utilizzando un modello di previsione dei collegamenti di rete neurale convoluzionale a grafo su un sottoinsieme del grafo della conoscenza completo, compresi i nodi entro 1 salto dalla malattia oggetto dello studio e dai nodi dei farmaci e le loro interconnessioni, con metriche di valutazione riportate nella Tabella 4. I primi 10 archi rilevanti per ogni previsione del modello sono stati ulteriormente esaminati da un modulo di spiegabilità del grafo, GNNExplainer44, per identificare rispettivamente i nodi superiori e gli archi che contribuiscono a ciascuna previsione. Il costo totale dell'utilizzo di LLM commerciale per tutte le fasi del protocollo RUGGED per questo caso d'uso è stimato in $ 1,50 al momento della scrittura.

Figura 1: Recupero nel flusso di lavoro RUGGED (Graph-Guided Explainable Disease Distinction). RUGGED è costituito da quattro componenti principali: (1) assemblaggio ed elaborazione di dati provenienti da risorse di provenienza etica e gestite professionalmente (ad esempio, PubMed e basi di conoscenza biomedica curate), (2) integrazione dei risultati della ricerca peer-reviewed in un grafo di conoscenza unificato, (3) strutturazione del testo e dei dati del grafo all'interno dei servizi di database, (4) modellazione e previsione di relazioni spiegabili tra entità biomediche all'interno del grafo della conoscenza, e (5) recuperare e sintetizzare le conoscenze attraverso un flusso di lavoro di Retrieval Augmented Generation (RAG) (Figura 2) per convalidare relazioni molecolari complesse ed esplorare le previsioni delle malattie guidate dall'intelligenza artificiale. L'utente può condurre una fase di revisione human-in-the-loop per migliorare l'accuratezza dell'output. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 2: Architettura di recupero e flusso di lavoro di mitigazione dei bias. Il framework Retrieval Augmented Generation (RAG) impiega più agenti LLM, ognuno dei quali esegue attività specifiche per supportare l'accesso alle informazioni pertinenti in base alla query dell'utente. Questo sistema fornisce prove documentate per l'agente di ragionamento basato su GPT rivolto all'utente, facilitando l'interazione utente-agente e la sintesi delle conoscenze. (1) Recupero di testi biomedici: i contributi originali e gli articoli di revisione sottoposti a revisione paritaria vengono filtrati in base alla loro rilevanza per la comprensione delle associazioni di malattie. Viene costruito un database vettoriale per le prove testuali convalidate dall'autore e dall'editore, ponderate in base alla sezione corrispondente della pubblicazione, rispettivamente: 70% Abstract, 10% Risultati, 10% Metadati e 10% per tutte le altre sottosezioni. Una ricerca per parole chiave e una ricerca per somiglianza rispetto al testo incorporato nella query dell'utente identificano insieme i documenti pertinenti. I riassunti di ciascun documento vengono generati utilizzando un riassunto basato su BERT, con l'agente di valutazione del testo basato su GPT che perfeziona la ricerca per convalidare la pertinenza del documento di query. (2) Recupero del Knowledge Graph: un modulo di riconoscimento delle entità denominate basato su BERT e di estrazione delle relazioni basato su GPT collega la query dell'utente alle entità pertinenti nel grafo della conoscenza. Una ricerca di somiglianza in un database vettoriale identifica i nodi e gli archi pertinenti. I dati vengono recuperati dal database Neo4j tramite query Cypher generate dal Cypher Query Agent basato su GPT e perfezionate dal Query Verification Agent. (3) Le risposte individuali delle pipeline di recupero del testo biomedico o di recupero del grafo della conoscenza vengono presentate all'agente di ragionamento, che sintetizza una risposta concisa con un pregiudizio minimo alla query dell'utente. Questo sistema è guidato a mantenere l'accuratezza e l'imparzialità nella presentazione delle informazioni fattuali. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 3: Caso d'uso sulla sintesi della conoscenza e l'esplorazione di ipotesi tramite cascata di query teriate. Questa figura mostra un caso d'uso evidenziato incentrato su una catena di domande e concetti correlati che un ricercatore e/o un operatore sanitario potrebbero porre al sistema RUGGED. Le query dell'utente vengono presentate al sistema in ordine numerico, con frecce che rappresentano il ragionamento logico e specifico del dominio dedotto tra ogni domanda. Il sistema recupera dalle informazioni implicite e pertinenti (la fonte è mostrata in blu), rispondendo alla query. Esempi di risposte del sistema sono presentati nella Figura 4. Clicca qui per visualizzare una versione più grande di questa figura.

Figura 4: Caso d'uso di patologia cardiovascolare: chiarimento della patogenesi CVD. Vengono mostrate le coppie query-risposta tra l'utente e il sistema RUGGED. Nel pannello in alto a sinistra, le domande da 1 a 6 recuperano le informazioni estraendo le informazioni dal database del grafo della conoscenza per formulare risposte basate sull'evidenza. La domanda 7 utilizza una previsione spiegabile dei collegamenti grafici per identificare le terapie con il punteggio più alto. La query richiede un'analisi di previsione, che viene eseguita ed elaborata automaticamente dal sistema, e i risultati chiave vengono riassunti in modo succinto. La domanda 8 valuta le prove della letteratura dal corpus di dati testuali definiti che vengono recuperate come prove rilevanti per verificare, convalidare e corroborare il risultato previsto. Le risposte del sistema sono state esaminate da un processo di ispezione human-in-the-loop e modificate per verificarne la leggibilità e la brevità. Una trascrizione completa di questi risultati è dettagliata nel File supplementare 1. Clicca qui per visualizzare una versione più grande di questa figura.
| Passi | Descrizione | Ore |
| Accesso alle conoscenze biomediche | 30% totale |
| Preparare un corpus di letteratura biomedica | Connettiti a PubMed e PubMed Central, scarica e analizza i dati di pubblicazione per le attività a valle. | 20% |
| Preparare i dati della knowledge base | Connettiti alle basi di conoscenza biomediche, scarica e analizza le informazioni necessarie per le attività a valle. | 5% |
| Estrazione di informazioni | 30% totale |
| Analisi del text mining di CaseOLAP LIFT | Identificare le relazioni di alto livello malattia-proteina all'interno del corpus di testi biomedici. | 25% |
| Costruzione del grafo della conoscenza | Connetti e integra informazioni disparate provenienti da basi di conoscenza biomediche in un grafo della conoscenza unificato. | 5% |
| Analisi delle previsioni | 10% totale |
| Train Graph Neural Network | Addestra il modello sui dati del grafo della conoscenza biomedica per apprendere i modelli nascosti all'interno del grafo. | 5% |
| Analisi del ranking di pertinenza | Applica il modulo di spiegabilità per evidenziare i nodi e gli spigoli più pertinenti rilevanti per studiare la malattia. | 2.5% |
| Previsione dei collegamenti | Utilizza il modulo di spiegabilità per identificare i nodi e gli archi chiave che contribuiscono a nuovi spigoli previsti. | 2.5% |
| Generazione e/o validazione di ipotesi | 30% totale |
| Configurazione del database per la generazione aumentata di recupero | Inizializza il database a grafo per l'interrogazione del grafo della conoscenza e il database vettoriale per il recupero del testo. | 25% |
| Esplorazione di ipotesi | Consenti all'utente di interagire con RUGGED per accedere e analizzare le informazioni rilevanti per l'esplorazione delle ipotesi. | 5% |
Tabella 1: Flusso di lavoro e passaggi di limitazione della velocità. Questa tabella fornisce stime approssimative del tempo di calcolo necessario per ogni fase del flusso di lavoro. I passaggi limitanti includono l'accesso, l'estrazione e l'indicizzazione delle conoscenze biomediche necessarie per la generazione aumentata dal recupero. L'esplorazione delle ipotesi può essere ripetuta continuamente senza la necessità di rieseguire i passaggi di limitazione della velocità.
| Categoria di malattia | Numeri dell'albero MeSH | # PMID | # Contributi originali | # Articoli di recensione |
| Cardiomiopatie (CM) | C14.280.238 | 132,531 | 102,337 | 19,942 |
| C14.280.434 |
| Aritmie cardiache (ARR) | C14.280.067 | 125,286 | 92,374 | 13,854 |
| C23.550.073 |
| Difetti cardiaci congeniti (CHD) | C14.280.400 | 82,006 | 54,023 | 6,379 |
| Malattie delle valvole cardiache (VD) | C14.280.484 | 72,016 | 50,119 | 5,743 |
| Ischemia miocardica (IHD) | C14.280.647 | 256,986 | 210,042 | 30,223 |
| Malattia del sistema di conduzione cardiaca (CCD) | C14.280.123 | 53,050 | 35,399 | 4,363 |
| Ostruzione del deflusso ventricolare (VOO) | C14.280.955 | 22,244 | 15,504 | 1,686 |
| Altre malattie cardiache (OTH) | C14.280.195 C14.280.282 C14.280.383 C14.280.470 C14.280.945 C14.280.459 C14.280.720 | 114,085 | 77,302 | 11,799 |
| Totale | 635,696 | 478,404 | 69,690 |
Tabella 2: Statistiche della letteratura biomedica. Questa tabella descrive in dettaglio le categorie di malattie dello studio con i corrispondenti numeri dell'albero MeSH e il numero di documenti PubMed recuperati fino a maggio 2024, utilizzati come corpus per il text mining. Un sottoinsieme di queste pubblicazioni, costituito da articoli di ricerca originali e articoli di revisione, viene indicizzato in un database vettoriale per il recupero da parte di RUGGED durante la generazione di ipotesi.
| Categoria | Numero di nodi | Numero di spigoli | Fonte(i) dei dati |
| Anatomia | 5,049 | 122,533 | Bgee, PubMed, MeSH, Uberon, |
| Processo biologico | 27,047 | 108,106 | Ontologia genetica |
| Componente cellulare | 4,057 | 52,238 | Ontologia genetica |
| Composto | 27,278 | 3,292,028 | DrugBank, MeSH, CTD, UMLS, KEGG, TTD, SIDER, Inxight Drugs, Hetionet, PathFX, MyChem.info |
| Malattia | 21,938 | 311,773 | PubMed, MeSH, DisGeNET, SIDER, ClinVar, ClinGen, PharmGKB, MyDisease.info, PathFX, UMLS, OMIM, Mondo, DOID, KEGG |
| Classe di farmaci | 5,721 | 8,283 | ATC |
| Gene | 29,810 | 943,419 | HGNC, GRNdb, KEGG, ClinVar, ClinGen, |
| Funzione molecolare | 11,151 | 47,086 | SMPDB, DisGENET, PharmGKB, MyGene.info |
| Andana | 52,012 | 234,944 | Ontologia genetica |
| Proteina | 20,740 | 1,074,809 | Reactome, KEGG, SMPDB |
| Reazione | 14,647 | 128,038 | UniProt, Reactome, TTD, SMPDB, STRING, HGNC |
| Subtotale | 219,450 | 6,323,257 | Reattoma |
| Associazioni di text-mining | 8 | 4,670 | |
| Totale | 219,458 | 6,327,927 | |
Tabella 3: Statistiche del grafo della conoscenza. Questa tabella descrive in dettaglio 11 ampie categorie biomediche che comprendono il grafo della conoscenza Know2BIO costruito, arricchito con ulteriori bordi derivati dall'analisi del text mining e dall'analisi predittiva. Il grafo della conoscenza e le previsioni risultanti sono gestiti dal database a grafo Neo4j per il recupero da parte di RUGGED durante la generazione di ipotesi.
| Accuratezza | Precisione | Ricordare | Punteggio F1 | AUROC | AUPRC |
| Convalida | 0.7158 | 0.6639 | 0.8743 | 0.7547 | 0.8437 | 0.8637 |
| Test | 0.703 | 0.6367 | 0.9455 | 0.761 | 0.8961 | 0.9094 |
Tabella 4: Valutazione del modello di IA spiegabile. Questa tabella riporta le metriche di valutazione per la previsione dei collegamenti del grafo della conoscenza utilizzando una rete neurale convoluzionale a due strati. Le metriche sono state valutate partizionando i bordi del grafico in set di dati di training per l'85%, per la convalida per il 5% e per il 10% in set di dati. L'accuratezza indica la proporzione di previsioni classificate correttamente. La precisione riporta la proporzione di previsioni positive corrette tra tutte le previsioni positive. Il richiamo misura la proporzione di previsioni positive corrette tra gli archi positivi effettivi. Il punteggio F1 è la media armonica della precisione e del richiamo, bilanciando le due metriche. AUROC valuta la capacità del modello di distinguere tra previsioni positive e negative. L'AUPRC quantifica il compromesso tra precisione e richiamo su diverse soglie. Con tutte le metriche, valori più alti indicano migliori prestazioni del modello.
Fascicolo supplementare 1: Questo file descrive in dettaglio la risposta completa del modello di RUGGED e un confronto con GPT-4o. La sezione A presenta l'interazione uomo-computer completa con RUGGED, ampliando l'approccio a catena di query delineato nella Figura 3 e fornendo la risposta completa oltre il riepilogo evidenziato nella Figura 4. La sezione B valuta le risposte di GPT-4o senza recupero rispetto a quelle di RUGGED, valutando attributi come precisione, profondità, punteggio di affidabilità, affidabilità delle prove e costi. Clicca qui per scaricare questo file.