$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Diese repräsentativen Ergebnisse wurden durch Befolgung des in diesem Protokoll beschriebenen Verfahrens erzielt. Eine Text-Mining-Assoziationsanalyse wurde nach dem CaseOLAP LIFT-Protokoll5 mit Standardparametern durchgeführt, wobei acht große Kategorien von Herz-Kreislauf-Erkrankungen72 und ihre Assoziation mit mitochondrialen Proteinen untersucht wurden (GO:0005739). Insgesamt wurden bis Mai 2024 635.696 Meldungen als relevant für diese Krankheiten eingestuft; Unter ihnen wurden 4.655 Protein-Krankheits-Assoziationen mit hohem Vertrauen identifiziert, um nachgelagerte Analysen zu informieren. Im Mai 2024 wurde unter Verwendung des Softwarecodes von Know2BIO unter Verwendung von Standardeinstellungen ein biomedizinischer Wissensgraph erstellt9. Der resultierende Knowledge Graph besteht aus 219.450 Knoten, 6.323.257 Kanten sowie Knotenmerkmalen für 189.493 Knoten mit Knotenbeschreibungen, Protein-/Gensequenzen, chemischer Struktur usw., sofern verfügbar. Eine Schätzung der Rechenzeit für alle Schritte des Protokolls ist in Tabelle 1 dargestellt.
Das RUGGED-System wurde initialisiert, indem die Vektordatenbanken sowohl für die Knowledge Graph-Knoten und -Features als auch für die CVD-relevanten Publikationen erstellt wurden. Alle Knoten, Kanten und Knoten-Features des Knowledge Graph wurden mit einer Blockgröße von 20 Token mit dem EinbettungsmodellBART 71 verarbeitet, um die RAG-Vektorsuche vorzubereiten. In ähnlicher Weise wurden Originalbeiträge und Übersichtsartikel mit einer Chunk-Größe von 500 Token und dem BART-Embedding-Modell verarbeitet, um die RAG-Vektorsuche vorzubereiten. Für das Literatur-Retrieval wurden Volltextpublikationen mit mehr als 500 Token basierend auf den einzelnen Abschnitten einer Publikation durch das BART-Embedding-Modell hierarchisch zusammengefasst. Das GPT-4o-Modell wurde für die verbleibenden LLM-Agenten im System verwendet.
Diese repräsentativen Ergebnisse zeigen ein Beispiel für einen Anwendungsfall zur Untersuchung potenzieller medikamentöser Therapeutika für arrhythmogene Kardiomyopathie (ACM) und dilatative Kardiomyopathie (DCM), die als MeSH_Disease: D019571 bzw. MeSH_Disease: D002311 identifiziert wurden. Eine Reihe von Anfragen ist in Abbildung 3 dargestellt, wobei in Abbildung 4 Beispiele für Modellantworten hervorgehoben sind und die vollständigen Antworten in der Zusatzdatei 1, Abschnitt A, aufgeführt sind. Die Richtung der Befragung wurde an die vom Prüfarzt validierten Antworten angepasst, wobei nachfolgende Abfragen auf den Ergebnissen der vorherigen Antworten basierten. Die Analyse ergab 11 Medikamentenkandidaten, die als Betablocker und Antiarrhythmika eingestuft wurden. Neue Wege für die therapeutische Behandlung wurden unter Verwendung eines Graph Convolutional Neural Network Link Prediction Model auf einer Teilmenge des vollständigen Wissensgraphen bewertet, einschließlich Knoten innerhalb von 1-Hop von Studienkrankheits- und Medikamentenknoten und deren Verbindungen, wobei die Bewertungsmetriken in Tabelle 4 aufgeführt sind. Die Top 10 relevanten Kanten für jede Vorhersage durch das Modell wurden durch ein Graphenerklärbarkeitsmodul, GNNExplainer44, weiter untersucht, um die Top-Knoten bzw. Kanten zu identifizieren, die zu jeder Vorhersage beitragen. Die Gesamtkosten für die Verwendung von kommerziellem LLM für alle Schritte des RUGGED-Protokolls für diesen Anwendungsfall werden zum Zeitpunkt der Erstellung dieses Artikels auf 1,50 US-Dollar geschätzt.

Abbildung 1: Workflow für den Abruf unter graphengesteuerter erklärbarer Krankheitsunterscheidung (RUGGED). RUGGED besteht aus vier Hauptkomponenten: (1) Zusammenstellung und Verarbeitung von Daten aus ethisch einwandfreien und professionell verwalteten Ressourcen (z. B. PubMed und kuratierte biomedizinische Wissensdatenbanken), (2) Integration von Peer-Review-Forschungsergebnissen in einen einheitlichen Wissensgraphen, (3) Strukturierung der Text- und Graphdaten innerhalb von Datenbankdiensten, (4) Modellierung und Vorhersage erklärbarer Beziehungen zwischen biomedizinischen Entitäten innerhalb des Wissensgraphen, und (5) das Abrufen und Synthetisieren von Wissen durch einen Retrieval Augmented Generation (RAG)-Workflow (Abbildung 2), um komplexe molekulare Beziehungen zu validieren und KI-gesteuerte Krankheitsvorhersagen zu erforschen. Ein Human-in-the-Loop-Überprüfungsschritt kann vom Benutzer durchgeführt werden, um die Genauigkeit der Ausgabe zu verbessern. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 2: Abrufarchitektur und Workflow zur Minderung von Verzerrungen. Das RAG-Framework (Retrieval Augmented Generation) verwendet mehrere LLM-Agenten, die jeweils bestimmte Aufgaben ausführen, um den Zugriff auf relevante Informationen basierend auf der Benutzerabfrage zu unterstützen. Dieses System liefert dokumentierte Beweise für den benutzerorientierten GPT-basierten Reasoning Agent und erleichtert die Interaktion zwischen Benutzer und Agent und die Synthese von Wissen. (1) Biomedical Text Retrieval: Peer-Review-Originalbeiträge und Übersichtsartikel werden nach ihrer Relevanz für das Verständnis von Krankheitsassoziationen gefiltert. Es wird eine Vektordatenbank für vom Autor und Redakteur validierte Textnachweise erstellt, die auf der Grundlage des entsprechenden Abschnitts der Publikation gewichtet werden: 70 % Zusammenfassung, 10 % Ergebnisse, 10 % Metadaten und 10 % für alle anderen Unterabschnitte. Eine Stichwortsuche und eine Ähnlichkeitssuche gegen die Texteinbettung der Benutzerabfrage identifizieren zusammen relevante Dokumente. Zusammenfassungen jedes Dokuments werden mit einer BERT-basierten Zusammenfassung generiert, wobei der GPT-basierte Text Evaluator Agent die Suche verfeinert, um die Relevanz des Abfragedokuments zu validieren. (2) Knowledge Graph Retrieval: Ein BERT-basiertes Modul zur Erkennung benannter Entitäten und GPT-basierter Beziehungsextraktion verbindet die Benutzerabfrage mit relevanten Entitäten im Knowledge Graph. Eine Ähnlichkeitssuche in einer Vektordatenbank identifiziert relevante Knoten und Kanten. Die Daten werden über Cypher-Abfragen aus der Neo4j-Datenbank abgerufen, die vom GPT-basierten Cypher Query Agent generiert und vom Query Verification Agent verfeinert werden. (3) Die einzelnen Antworten aus den Pipelines Biomedical Text Retrieval oder Knowledge Graph Retrieval werden dem Reasoning Agent präsentiert, der eine prägnante Antwort mit minimaler Verzerrung der Anfrage des Benutzers synthetisiert. Dieses System ist darauf ausgerichtet, Genauigkeit und Unparteilichkeit bei der Darstellung von Sachinformationen zu wahren. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 3: Anwendungsfall zur Wissenssynthese und Hypothesenexploration über eine vernetzteAbfragekaskade. Diese Abbildung zeigt einen hervorgehobenen Anwendungsfall, der sich auf eine Kette verwandter Fragen und Konzepte konzentriert, die ein Prüfer und/oder medizinisches Fachpersonal an das RUGGED-System stellen könnte. Die Abfragen des Benutzers werden dem System in numerischer Reihenfolge angezeigt, wobei Pfeile die abgeleitete logische und domänenspezifische Argumentation zwischen den einzelnen Fragen darstellen. Das System ruft aus den impliziten und relevanten Informationen (Quelle in blau dargestellt) ab und antwortet auf die Abfrage. Beispiele für Systemreaktionen sind in Abbildung 4 dargestellt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Abbildung 4: Anwendungsfall kardiovaskuläre Pathologie: Aufklärung der Pathogenese von Herz-Kreislauf-Erkrankungen. Abfrage-Antwort-Paare zwischen dem Benutzer und dem RUGGED-System werden angezeigt. Im oberen linken Bereich rufen die Fragen 1 bis 6 Informationen ab, indem sie Informationen aus der Wissensgraphen-Datenbank extrahieren, um evidenzbasierte Antworten zu formulieren. Frage 7 verwendet eine erklärbare Graph-Link-Vorhersage, um die am besten bewerteten Therapeutika zu identifizieren. Die Abfrage löst eine Vorhersageanalyse aus, die vom System automatisch ausgeführt und verarbeitet wird, und die wichtigsten Ergebnisse werden kurz und bündig zusammengefasst. Frage 8 bewertet Literaturnachweise aus dem definierten Textdatenkorpus, die als relevante Beweise abgerufen werden, um den vorhergesagten Befund zu verifizieren, zu validieren und zu bestätigen. Die Systemantworten wurden durch einen Human-in-the-Loop-Inspektionsprozess überprüft und im Hinblick auf Lesbarkeit und Kürze modifiziert. Eine vollständige Abschrift dieser Ergebnisse ist in der Zusatzakte 1 ausführlich beschrieben. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
| Schritte | Beschreibung | Zeit |
| Zugang zu biomedizinischem Wissen | 30% insgesamt |
| Erstellung eines biomedizinischen Literaturkorpus | Stellen Sie eine Verbindung zu PubMed und PubMed Central her, laden Sie Publikationsdaten herunter und analysieren Sie sie für nachgelagerte Aufgaben. | 20% |
| Vorbereiten von Wissensdatenbankdaten | Verbinden Sie sich mit biomedizinischen Wissensdatenbanken, laden Sie die notwendigen Informationen herunter und analysieren Sie sie für nachgelagerte Aufgaben. | 5% |
| Extraktion von Informationen | 30% insgesamt |
| CaseOLAP LIFT Text-Mining-Analyse | Identifizieren Sie hochrangige Krankheits-Protein-Beziehungen innerhalb des biomedizinischen Textkorpus. | 25% |
| Aufbau von Knowledge Graph | Verbinden und integrieren Sie unterschiedliche Informationen aus biomedizinischen Wissensdatenbanken in einem einheitlichen Wissensgraphen. | 5% |
| Analyse von Vorhersagen | 10% Gesamtbetrag |
| Trainieren Sie das neuronale Netzwerk Graph | Trainieren Sie das Modell mit den Daten des biomedizinischen Wissensgraphen, um verborgene Muster innerhalb des Diagramms zu lernen. | 5% |
| Analyse des Relevanz-Rankings | Wenden Sie das Erklärbarkeitsmodul an, um die relevantesten Knoten und Kanten hervorzuheben, die für die Untersuchung von Krankheiten relevant sind. | 2.5% |
| Link-Vorhersage | Verwenden Sie das Erklärbarkeitsmodul, um Schlüsselknoten und Kanten zu identifizieren, die zu neuen vorhergesagten Kanten beitragen. | 2.5% |
| Hypothesengenerierung und/oder -validierung | 30% insgesamt |
| Datenbank-Setup für Retrieval Augmented Generation | Initialisieren Sie die Graphdatenbank für die Abfrage des Knowledge Graph und die Vektordatenbank für den Textabruf. | 25% |
| Untersuchung von Hypothesen | Ermöglichen Sie die Benutzerinteraktion mit RUGGED, um auf relevante Informationen für die Untersuchung von Hypothesen zuzugreifen und diese zu untersuchen. | 5% |
Tabelle 1: Workflow- und Ratenbegrenzungsschritte. Diese Tabelle enthält grobe Schätzungen der Rechenzeit, die für jede Phase des Workflows erforderlich ist. Zu den ratenbegrenzenden Schritten gehören der Zugriff, die Extraktion und die Indizierung von biomedizinischem Wissen, das für die retrieval-gestützte Generierung erforderlich ist. Die Untersuchung von Hypothesen kann kontinuierlich wiederholt werden, ohne dass ratenbegrenzende Schritte erneut ausgeführt werden müssen.
| Krankheitskategorie | MeSH-Baum-Nummern | # PMIDs | # Originelle Beiträge | # Artikel überprüfen |
| Kardiomyopathien (CM) | Nr. C14.280.238 | 132,531 | 102,337 | 19,942 |
| Nr. C14.280.434 |
| Herzrhythmusstörungen (ARR) | Nr. C14.280.067 | 125,286 | 92,374 | 13,854 |
| Nr. C23.550.073 |
| Angeborene Herzfehler (KHK) | Nr. C14.280.400 | 82,006 | 54,023 | 6,379 |
| Erkrankungen der Herzklappe (VD) | Nr. C14.280.484 | 72,016 | 50,119 | 5,743 |
| Myokardischämie (IHD) | Nr. C14.280.647 | 256,986 | 210,042 | 30,223 |
| Erkrankung des kardialen Reizleitungssystems (CCD) | Nr. C14.280.123 | 53,050 | 35,399 | 4,363 |
| Obstruktion des ventrikulären Ausflusses (VOO) | Nr. C14.280.955 | 22,244 | 15,504 | 1,686 |
| Andere Herzerkrankungen (OTH) | C14.280.195 C14.280.282 C14.280.383 C14.280.470 C14.280.945 C14.280.459 C14.280.720 | 114,085 | 77,302 | 11,799 |
| Gesamt | 635,696 | 478,404 | 69,690 |
Tabelle 2: Statistiken der biomedizinischen Literatur. In dieser Tabelle sind die Krankheitskategorien der Studie mit den entsprechenden MeSH-Baumnummern und der Anzahl der PubMed-Dokumente aufgeführt, die bis Mai 2024 abgerufen und als Korpus für das Text-Mining verwendet wurden. Eine Teilmenge dieser Publikationen, bestehend aus Forschungsartikeln und Übersichtsartikeln, wird in einer Vektordatenbank indiziert, die von RUGGED während der Hypothesengenerierung abgerufen werden kann.
| Kategorie | Anzahl der Knoten | Anzahl der Kanten | Datenquelle(n) |
| Anatomie | 5,049 | 122,533 | Bgee, PubMed, MeSH, Uberon, |
| Biologischer Prozess | 27,047 | 108,106 | Gen-Ontologie |
| Zelluläre Komponente | 4,057 | 52,238 | Gen-Ontologie |
| Verbindung | 27,278 | 3,292,028 | DrugBank, MeSH, CTD, UMLS, KEGG, TTD, SIDER, Inxight Drugs, Hetionet, PathFX, MyChem.info |
| Krankheit | 21,938 | 311,773 | PubMed, MeSH, DisGeNET, SIDER, ClinVar, ClinGen, PharmGKB, MyDisease.info, PathFX, UMLS, OMIM, Mondo, DOID, KEGG |
| Wirkstoffklasse | 5,721 | 8,283 | ATC |
| Gen | 29,810 | 943,419 | HGNC, GRNdb, KEGG, ClinVar, ClinGen, |
| Molekulare Funktion | 11,151 | 47,086 | SMPDB, DisGENET, PharmGKB, MyGene.info |
| Weg | 52,012 | 234,944 | Gen-Ontologie |
| Protein | 20,740 | 1,074,809 | Reactome, KEGG, SMPDB |
| Reaktion | 14,647 | 128,038 | UniProt, Reactome, TTD, SMPDB, STRING, HGNC |
| Zwischensumme | 219,450 | 6,323,257 | Reaktom |
| Text-Mining-Verbände | 8 | 4,670 | |
| Gesamt | 219,458 | 6,327,927 | |
Tabelle 3: Statistiken zu Knowledge Graphen. Diese Tabelle enthält 11 große biomedizinische Kategorien, die den konstruierten Know2BIO-Wissensgraphen umfassen, angereichert mit zusätzlichen Kanten, die aus der Text-Mining-Analyse und der prädiktiven Analyse abgeleitet wurden. Der resultierende Wissensgraph und die Vorhersagen werden von der Neo4j-Graphdatenbank verwaltet, damit sie von RUGGED während der Hypothesengenerierung abgerufen werden können.
| Genauigkeit | Präzision | Rückruf | F1-Punktzahl | AUROC GmbH | AUPRC |
| Validierung | 0.7158 | 0.6639 | 0.8743 | 0.7547 | 0.8437 | 0.8637 |
| Test | 0.703 | 0.6367 | 0.9455 | 0.761 | 0.8961 | 0.9094 |
Tabelle 4: Bewertung des erklärbaren KI-Modells. In dieser Tabelle sind die Auswertungsmetriken für die Vorhersage von Wissensgraph-Verknüpfungen mithilfe eines zweischichtigen Graphen-Convolutional Neural Network aufgeführt. Die Metriken wurden bewertet, indem die Graphenkanten in 85 % Trainings-, 5 % Validierungs- und 10 % Testdatensätze unterteilt wurden. Die Genauigkeit gibt den Anteil der korrekt klassifizierten Vorhersagen an. Precision gibt den Anteil der richtigen positiven Vorhersagen an allen positiven Vorhersagen an. Der Recall misst das Verhältnis der richtigen positiven Vorhersagen zu den tatsächlichen positiven Kanten. Der F1-Score ist der harmonische Mittelwert von Präzision und Abruf, der die beiden Metriken ausbalanciert. AUROC bewertet die Fähigkeit des Modells, zwischen positiven und negativen Vorhersagen zu unterscheiden. AUPRC quantifiziert den Kompromiss zwischen Präzision und Abruf über verschiedene Schwellenwerte hinweg. Bei allen Metriken weisen höhere Werte auf eine bessere Modellleistung hin.
Ergänzende Datei 1: Diese Datei enthält die vollständige Modellantwort von RUGGED und einen Vergleich mit GPT-4o. Abschnitt A stellt die vollständige Mensch-Computer-Interaktion mit RRUGED dar, erweitert den in Abbildung 3 beschriebenen Abfragekettenansatz und bietet die vollständige Antwort über die in Abbildung 4 hervorgehobene Zusammenfassung hinaus. Abschnitt B bewertet die Antworten von GPT-4o ohne Abruf mit denen von RUGGED, wobei Attribute wie Präzision, Tiefe, Zuverlässigkeit der Zuverlässigkeit, Zuverlässigkeit der Beweise und Kosten bewertet werden. Bitte klicken Sie hier, um diese Datei herunterzuladen.