$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Te reprezentatywne wyniki uzyskano postępując zgodnie z procedurą opisaną w tym protokole. Analizę asocjacji eksploracji tekstu przeprowadzono zgodnie z protokołem CaseOLAP LIFT5 z domyślnymi parametrami, badając osiem szerokich kategorii chorób sercowo-naczyniowych72 i ich związek z białkami mitochondrialnymi (GO:0005739). W sumie do maja 2024 r. uznano 635 696 zgłoszeń za istotne dla tych chorób; Wśród nich zidentyfikowano 4 655 powiązań białko-choroba o wysokim poziomie pewności, które posłużą do dalszych analiz. Wykres wiedzy biomedycznej został skonstruowany przy użyciu kodu oprogramowania z Know2BIO przy użyciu ustawień domyślnych w maju 2024 r.9. Wynikowy graf wiedzy składa się z 219 450 węzłów, 6 323 257 krawędzi, a także cech węzłów dla 189 493 węzłów z opisami węzłów, sekwencjami białek/genów, strukturą chemiczną itp., jeśli są dostępne. Szacunkowy czas obliczeniowy dla wszystkich etapów protokołu przedstawiono w tabeli 1.
System RUGGED został zainicjowany poprzez stworzenie wektorowych baz danych zarówno dla węzłów grafu wiedzy i funkcji, jak i publikacji związanych z CVD. Wszystkie węzły, krawędzie i funkcje grafu wiedzy zostały przetworzone z fragmentem o rozmiarze 20 tokenów za pomocą modelu osadzania BART71 w celu przygotowania do wyszukiwania wektorowego RAG. Podobnie, oryginalne wkłady i artykuły przeglądowe zostały przetworzone przy użyciu rozmiaru porcji 500 tokenów i modelu osadzania BART, aby przygotować się do wyszukiwania wektorowego RAG. W przypadku wyszukiwania literatury publikacje pełnotekstowe większe niż 500 tokenów zostały hierarchicznie podsumowane na podstawie poszczególnych sekcji publikacji za pomocą modelu osadzania BART. Model GPT-4o został wykorzystany dla pozostałych agentów LLM w systemie.
Te reprezentatywne wyniki prezentują przykładowy przypadek użycia do zbadania potencjalnych terapii lekowych dla kardiomiopatii arytmicznej (ACM) i kardiomiopatii rozstrzeniowej (DCM), oznaczonych odpowiednio jako MeSH_Disease: D019571 i MeSH_Disease: D002311. Seria zapytań jest opisana w Rysunek 3, z wyróżnionymi przykładami odpowiedzi modelu pokazanymi w Rysunek 4, a pełna odpowiedź jest podana w Pliku uzupełniającym 1, Sekcja A. Kierunek dociekań został dostosowany do odpowiedzi zatwierdzonych przez badacza, tworząc kolejne zapytania w oparciu o wyniki poprzednich odpowiedzi. Analiza ujawniła 11 kandydatów na leki sklasyfikowanych jako beta-blokery i leki przeciwarytmiczne. Nowe możliwości leczenia terapeutycznego oceniono przy użyciu grafowego modelu przewidywania powiązań konwolucyjnej sieci neuronowej na podzbiorze kompletnego grafu wiedzy, w tym węzłów w promieniu 1 przeskoku od badanych węzłów choroby i leku oraz ich wzajemnych połączeń, z metrykami oceny przedstawionymi w tabeli 4. 10 najważniejszych istotnych krawędzi dla każdego przewidywania modelu zostało następnie zbadanych przez moduł objaśnialności grafu, GNNExplainer44, w celu zidentyfikowania odpowiednio najważniejszych węzłów i krawędzi przyczyniających się do każdej prognozy. Całkowity koszt korzystania z komercyjnego LLM na wszystkich etapach protokołu RUGGED w tym przypadku użycia szacuje się na 1,50 USD w momencie pisania tego tekstu.

Rysunek 1: Pobieranie w ramach procesu RUGGED (Graph-Guided Explainable disease Distinction). RUGGED składa się z czterech podstawowych komponentów: (1) gromadzenia i przetwarzania danych z etycznie pozyskiwanych i profesjonalnie zarządzanych zasobów (np. PubMed i wyselekcjonowanych baz wiedzy biomedycznej), (2) integracji recenzowanych wyników badań w ujednolicony graf wiedzy, (3) strukturyzacji danych tekstowych i grafowych w ramach usług bazodanowych, (4) modelowania i przewidywania wytłumaczalnych relacji między jednostkami biomedycznymi w obrębie grafu wiedzy, oraz (5) wyszukiwanie i synteza wiedzy za pomocą przepływu pracy Retrieval Augmented Generation (RAG) (Rysunek 2) w celu walidacji złożonych relacji molekularnych i badania prognoz chorób opartych na sztucznej inteligencji. Krok przeglądu typu human-in-the-loop może być przeprowadzony przez użytkownika w celu zwiększenia dokładności danych wyjściowych. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 2: Architektura pobierania i przepływ pracy mitygacji uprzedzeń. Struktura Retrieval Augmented Generation (RAG) wykorzystuje wielu agentów LLM, z których każdy wykonuje określone zadania w celu wsparcia dostępu do odpowiednich informacji na podstawie zapytania użytkownika. System ten dostarcza udokumentowanych dowodów na działanie Agenta Rozumowania opartego na GPT, ułatwiając interakcję między użytkownikiem a klientem i syntezę wiedzy. (1) Wyszukiwanie tekstów biomedycznych: Recenzowane oryginalne artykuły i artykuły przeglądowe są filtrowane na podstawie ich znaczenia dla zrozumienia powiązań chorobowych. Wektorowa baza danych jest tworzona dla zatwierdzonych przez autora i redaktora dowodów tekstowych ważonych na podstawie odpowiedniej sekcji publikacji, odpowiednio: 70% Streszczenie, 10% Wyniki, 10% Metadane i 10% dla wszystkich pozostałych podsekcji. Wyszukiwanie słów kluczowych i wyszukiwanie podobieństw w tekście osadzonym w zapytaniu użytkownika razem identyfikują odpowiednie dokumenty. Podsumowania każdego dokumentu są generowane przy użyciu podsumowania opartego na, a agent oceny tekstu oparty na GPT uściśla wyszukiwanie w celu sprawdzenia trafności dokumentu zapytania. (2) Pobieranie grafu wiedzy: Oparty na moduł rozpoznawania nazwanych jednostek i ekstrakcji relacji oparty na GPT łączy zapytanie użytkownika z odpowiednimi jednostkami w grafie wiedzy. Wyszukiwanie podobieństw w wektorowej bazie danych identyfikuje odpowiednie węzły i krawędzie. Dane są pobierane z bazy danych Neo4j za pośrednictwem zapytań Cypher generowanych przez agenta zapytań Cypher opartego na GPT i udoskonalane przez agenta weryfikacji zapytań. (3) Poszczególne odpowiedzi z potoków wyszukiwania tekstu biomedycznego lub wyszukiwania grafu wiedzy są prezentowane agentowi rozumowania, który syntetyzuje zwięzłą odpowiedź z minimalnym odchyleniem do zapytania użytkownika. System ten ma na celu zachowanie dokładności i bezstronności w przedstawianiu informacji rzeczowych. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 3: Przypadek użycia syntezy wiedzy i eksploracji hipotez za pomocąkaskady zapytań. Rysunek ten przedstawia wyróżniony przypadek użycia, skupiający się na łańcuchu powiązanych pytań i koncepcji, które badacz i/lub pracownik służby zdrowia mogą postawić w odniesieniu do systemu RUGGED. Zapytania od użytkownika są prezentowane systemowi w kolejności numerycznej, ze strzałkami reprezentującymi wywnioskowane logiczne i specyficzne dla dziedziny rozumowanie wśród każdego pytania. System pobiera z niejawnych i istotnych informacji (źródło pokazane na niebiesko), odpowiadając na zapytanie. Przykłady odpowiedzi systemu przedstawiono w Rysunek 4. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.

Rysunek 4: Przypadek użycia patologii sercowo-naczyniowej: wyjaśnienie patogenezy CVD. Pokazane są pary zapytanie-odpowiedź między użytkownikiem a systemem RUGGED. W lewym górnym panelu pytania 1-6 pobierają informacje, wyodrębniając informacje z bazy danych grafu wiedzy w celu sformułowania odpowiedzi opartych na dowodach. Pytanie 7 wykorzystuje wytłumaczalne przewidywanie linków grafowych w celu zidentyfikowania najwyżej ocenianych środków terapeutycznych. Zapytanie monituje analizę predykcyjną, która jest wykonywana i przetwarzana automatycznie przez system, a kluczowe wyniki są zwięźle podsumowywane. Pytanie 8 ocenia dowody literaturowe ze zdefiniowanego korpusu danych tekstowych, które są pobierane jako istotne dowody w celu weryfikacji, walidacji i potwierdzenia przewidywanego wyniku. Odpowiedzi systemu zostały sprawdzone w procesie kontroli przez człowieka w pętli i zmodyfikowane pod kątem czytelności i zwięzłości. Pełny zapis tych ustaleń znajduje się szczegółowo w pliku uzupełniającym 1. Kliknij tutaj, aby zobaczyć większą wersję tego rysunku.
.
.
.
| Kroki | opis | Godzina |
| Dostęp do wiedzy biomedycznej | 30% łącznie |
| Przygotowanie korpusu literatury biomedycznej | Połącz się z PubMed i PubMed Central, pobieraj i analizuj dane publikacji na potrzeby zadań podrzędnych. | 20% |
| Przygotowywanie danych bazy wiedzy | Łącz się z bazami wiedzy biomedycznej, pobieraj i analizuj informacje niezbędne do dalszych zadań. | 5 proc. |
| Ekstrakcja informacji | 30% łącznie |
| Analiza eksploracji tekstu CaseOLAP LIFT | Zidentyfikuj wysokopoziomowe relacje choroba-białko w korpusie tekstu biomedycznego. | 25 proc |
| Budowa grafu wiedzy | Łącz i integruj różne informacje z baz wiedzy biomedycznej w ujednolicony graf wiedzy. | 5 proc. |
| Analiza predykcyjna | 10% łącznie |
| Sieć neuronowa wykresu trenowania | Trenowanie modelu na danych grafu wiedzy biomedycznej w celu poznania ukrytych wzorców na wykresie. | 5 proc. |
| Analiza rankingu trafności | Zastosuj moduł wyjaśnialności, aby podkreślić najbardziej istotne węzły i krawędzie istotne dla badania choroby. | 2,5 % |
| Przewidywanie linków | Wykorzystaj moduł wyjaśnialności, aby zidentyfikować kluczowe węzły i krawędzie przyczyniające się do nowych przewidywanych krawędzi. | 2,5 % |
| Generowanie i/lub walidacja hipotez | 30% łącznie |
| Konfiguracja bazy danych do pobierania rozszerzonego generowania | Zainicjuj grafową bazę danych w celu wykonywania zapytań dotyczących grafu wiedzy i wektorowej bazy danych w celu pobierania tekstu. | 25 proc |
| Eksploracja hipotez | Umożliw interakcję użytkownika z RUGGED w celu uzyskania dostępu do odpowiednich informacji i ich analizy w celu zbadania hipotez | 5 proc. |
Tabela 1: Etapy przepływu pracy i ograniczania szybkości. Poniższa tabela zawiera przybliżone szacunki czasu obliczeniowego wymaganego dla każdego etapu przepływu pracy. Kroki ograniczające szybkość obejmują dostęp, ekstrakcję i indeksację wiedzy biomedycznej niezbędnej do generowania wspomaganego przez wyszukiwanie. Badanie hipotez może być powtarzane w sposób ciągły bez konieczności ponownego wykonywania kroków ograniczających szybkość.
osób
TGL
osób
osób
osób
jedn.
osób
TGL
osób
osób
osób
TGL
TGL
TGL
osób
osób
jedn.
osób
osób
TGL
osób
| Kategoria choroby | Numery drzew MeSH | # identyfikatory PMID | # Oryginalny wkład | # Artykuły przeglądowe |
| Kardiomiopatie (CM) | Nr kat. C14.280.238 | 132 531 | 102 337 | 19 942 |
| Zobacz materiał C14.280.434 |
| Zaburzenia rytmu serca (ARR) | Nr kat. C14.280.067 | 125 286 | 92 374 | 13 854 |
| Nr kat. C23.550.073 |
| Wrodzone wady serca (CHD) | Silnik C14.280.400 | 82 006 | 54 023 | 6 379 |
| Choroby zastawek serca (VD) | Nr kat. 14.280.484 | 72 016 | 50 119 | 5 743 |
| Niedokrwienie mięśnia sercowego (IHD) | Nr kat. C14.280.647 | 256 986 | 210 042 | 30 223 |
| Choroba układu przewodzącego serca (CCD) | Wersja C14.280.123 | 53 050 | 35 399 | 4 363 |
| Niedrożność odpływu komorowego (VOO) | Zobacz materiał C14.280.955 | 22 244 | 15 504 | 1 686 |
| Inne choroby serca (OTH) | C14.280.195 C14.280.282 C14.280.383 C14.280.470 C14.280.945 C14.280.459 C14.280.720 | 114 085 | 77 302 | 11 799 |
| łączny | 635 696 | 478 404 | 69 690 |
Tabela 2: Statystyki literatury biomedycznej. Poniższa tabela zawiera szczegółowe informacje na temat badanych kategorii chorób wraz z odpowiadającymi im numerami drzew MeSH oraz liczbą dokumentów PubMed pobranych do maja 2024 r., wykorzystywanych jako korpus do eksploracji tekstu. Podzbiór tych publikacji, składający się z oryginalnych artykułów naukowych i artykułów przeglądowych, jest indeksowany w wektorowej bazie danych w celu pobrania przez RUGGED podczas generowania hipotezy.
osób
osób
osób
osób
osób
osób
osób
osób
osób
TGL
osób
TGL
osób
osób
osób
osób
SZT.
TGL
osób
osób
TGLI
osób
TGL
osób
TGL
osób
osób
| kategoria | Liczba węzłów | Liczba krawędzi | Źródło danych |
| anatomia | 5 049 | 122 533 | Bgee, PubMed, MeSH, Uberon, |
| Proces biologiczny | 27 047 | 108 106 | Ontologia genów |
| Składnik komórkowy | 4 057 | 52 238 | Ontologia genów |
| związek | 27 278 | 3 292 028 | DrugBank, MeSH, CTD, UMLS, KEGG, TTD, SIDER, Inxight Drugs, Hetionet, PathFX, MyChem.info |
| choroba | 21 938 | 311 773 | PubMed, MeSH, DisGeNET, SIDER, ClinVar, ClinGen, PharmGKB, MyDisease.info, PathFX, UMLS, OMIM, Mondo, DOID, KEGG |
| Klasa leku | 5 721 | 8 283 | Atc |
| gen | 29 810 | 943 419 | HGNC, GRNdb, KEGG, ClinVar, ClinGen, |
| Funkcja molekularna | 11 151 | 47 086 | SMPDB, DisGENET, PharmGKB MyGene.info |
| Ścieżki | 52 012 | 234 944 | Ontologia genów |
| białko | 20 740 | 1 074 809 | Reaktoma, KEGG, SMPDB |
| reakcja | 14 647 | 128 038 | UniProt, Reactome, TTD, SMPDB, STRING, HGNC |
| Suma częściowa | 219 450 | 6 323 257 | Reaktome (Ponowne działanie) |
| Stowarzyszenia zajmujące się eksploracją tekstu | 8 | 4 670 | |
| łączny | 219 458 | 6 327 927 | |
Tabela 3: Statystyki wykresu wiedzy. Poniższa tabela zawiera szczegółowe informacje na temat 11 szerokich kategorii biomedycznych składających się na skonstruowany graf wiedzy Know2BIO, wzbogacony o dodatkowe krawędzie pochodzące z analizy eksploracji tekstu i analizy predykcyjnej. Wynikowy graf wiedzy i przewidywania są zarządzane przez grafową bazę danych Neo4j w celu pobrania przez RUGGED podczas generowania hipotezy.
powiedział:
TGL
pkt.
piksela
pkt.
| dokładność | precyzja | pamiętać | Wynik F1 | AUROC | AUPRC |
| walidacja | 0,7158 | 0,6639 | Numer katalogowy: 0,8743 | 0,7547 | 0,8437 | 0,8637 |
| test | 0,703 | Numer katalogowy: 0,6367 | 0,9455 | 0,761 | Numer katalogowy: 0,8961 | 0,9094 |
Tabela 4: Wytłumaczalna ocena modelu AI. W tej tabeli przedstawiono metryki oceny przewidywania linków grafu wiedzy przy użyciu dwuwarstwowej konwolucyjnej sieci neuronowej grafu. Metryki oceniano przez partycjonowanie krawędzi grafu na 85% trenowania, 5% walidacji i 10% zestawów danych testowych. Dokładność wskazuje proporcję poprawnie sklasyfikowanych przewidywań. Precyzja informuje o proporcji poprawnych pozytywnych przewidywań wśród wszystkich pozytywnych przewidywań. Przypomnienie mierzy proporcję prawidłowych pozytywnych przewidywań wśród rzeczywistych pozytywnych krawędzi. Wynik F1 jest średnią harmoniczną precyzji i kompletności, równoważącą te dwie metryki. AUROC ocenia zdolność modelu do rozróżniania pozytywnych i negatywnych przewidywań. AUPRC określa ilościowo kompromis między precyzją a kompletnością w odniesieniu do różnych progów. W przypadku wszystkich metryk wyższe wartości wskazują na lepszą wydajność modelu.
Plik uzupełniający 1: Ten plik zawiera szczegółowe informacje na temat pełnej odpowiedzi modelu od RUGGED i porównania z GPT-4o. Sekcja A przedstawia pełną interakcję człowiek-komputer z RUGGED, rozszerzając podejście łańcucha zapytań opisane w Rysunek 3 i dostarczając pełną odpowiedź poza podsumowaniem wyróżnionym w Rysunek 4. Sekcja B ocenia odpowiedzi GPT-4o bez pobierania w porównaniu z odpowiedziami RUGGED, oceniając takie atrybuty, jak precyzja, głębokość, ocena zaufania, wiarygodność dowodów i koszt. Kliknij tutaj, aby pobrać ten plik.