June 13th, 2025
Ten artykuł opisuje RUGGED (Retrieval Under Graph-Guided Explainable disease Distinction), który integruje wnioskowanie Large Language Model (LLM) z Retrieval-Augmented Generation (RAG). Opiera się na dowodach z opracowanych przez ekspertów baz wiedzy biomedycznej i recenzowanych publikacji biomedycznych, aby zsyntetyzować nową wiedzę z aktualnych informacji, zidentyfikować wytłumaczalne i możliwe do zastosowania prognozy oraz wskazać obiecujące kierunki badań opartych na hipotezach.
Protokół ten stanowi platformę do wiarygodnego badania kwestii biomedycznych i klinicznych oraz do generowania hipotez. Rugged pomaga badać krajobraz biomedyczny, wykorzystując duże modele językowe, łącząc je z recenzowanymi publikacjami i wyselekcjonowanymi bazami wiedzy biomedycznej, a także wykorzystując wytłumaczalną sztuczną inteligencję do odkrywania nowych relacji. Ostatnie postępy w generatywnej sztucznej inteligencji i dużych modelach językowych zmieniły sposób, w jaki angażujemy się w zasoby biomedyczne poparte dowodami, umożliwiając zadania takie jak podsumowanie, odpowiadanie na pytania i elastyczne badanie hipotez. Wcześniejsze podejścia opierały się na eksploracji tekstu w celu wyodrębnienia wzorców i relacji wysokiego poziomu z literatury biomedycznej. Obecnie podejścia łączą duże modele językowe z generowaniem wspomaganym pobieraniem, systemami agentycznymi i możliwościami wywoływania narzędzi. Wiele publicznie dostępnych modeli językowych ma problemy z wiarygodnością, co może prowadzić do uzyskania informacji niezgodnych ze stanem faktycznym. Chociaż najnowsze modele uległy poprawie, ich wyniki w momencie publikacji często nie były specyficzne dla danej dziedziny, opierały się na niejasnym języku ogólnym i zawierały długie i fragmentaryczne wyjaśnienia. W poprzednich publikacjach z JoVE podkreśliliśmy, w jaki sposób eksploracja tekstu i modelowanie grafów wiedzy biomedycznej są stosowane do przewidywania i zrozumienia relacji między białkami, składnikami komórkowymi a chorobami sercowo-naczyniowymi. Opierając się na tym fundamencie, nasze najnowsze badania koncentrują się na integracji tej ustrukturyzowanej wiedzy biomedycznej z przepływami pracy obsługiwanymi przez duże modele językowe, umożliwiając dokładne wnioskowanie i odpowiedzi oparte na dowodach.
[Narrator] Aby rozpocząć, uruchom usługę Rugged za pomocą polecenia w terminalu. Wyodrębnij literaturę biomedyczną i zidentyfikuj odpowiednie dokumenty, wraz z wysokimi relacjami między chorobami białkowymi za pomocą caseOLAP LIFT. Odwiedź stronę protokołu caseOLAP LIFT JoVE i przeprowadź analizę eksploracji tekstu caseOLAP LIFT. Następnie sklonuj repozytorium Know2BIO w terminalu. Korzystając z wiersza polecenia, wykonaj skrypt create_edge_files.py, aby pobrać zasoby bazy wiedzy i monitorować postęp potoku ekstrakcji. Następnie skonstruuj graf wiedzy za pomocą skryptu prepare_kgs.py. Zintegruj wyniki skryptu combine_kg_results.py, aby scalić relacje i jednostki wyodrębnione z analizy eksploracji tekstu i konstrukcji grafu wiedzy w jeden kompleksowy wykres. Zidentyfikuj interesujące Cię jednostki biomedyczne, przeglądając graf wiedzy i wybierając odpowiednie węzły do użycia w analizie predykcyjnej. Użyj skryptu filter.py, aby wyodrębnić wykres podrzędny dostępny w ciągu dwóch przeskoków z wybranych węzłów choroby i uruchom polecenie. Uruchom skrypt analizy predykcyjnej, określając krawędzie do przewidywania i wejściowy graf wiedzy jako argumenty wiersza polecenia i uzyskując dane wyjściowe. Teraz połącz się z kontenerem Rugged Docker. Jeśli poprzednie okno terminalu zostało zamknięte, połącz się ponownie z kontenerem platformy Docker. Po nawiązaniu połączenia przejdź do katalogu Rugged with CD workspace Rugged w wierszu poleceń i wykonaj wszystkie pozostałe kroki w tym oknie wiersza poleceń. Po sprawdzeniu, czy wszystkie usługi pomocnicze są uruchomione, uruchom Rugged w interfejsie wiersza poleceń, aby rozpocząć interakcję z systemem. Aby wysłać zapytanie do grafu wiedzy, zadaj pytanie w języku naturalnym, zaczynając od słowa kluczowego "zapytanie". Na przykład wpisz "zapytanie, jakie są obecnie przepisywane leki klasyfikowane jako beta-blokery?" Zapoznaj się z przewidywaniami z analizy przewidywania linków z pytaniami zaczynającymi się od słowa kluczowego "przewidywać". Następnie pobierz dokumenty związane z tematem biomedycznym z kroku drugiego w języku naturalnym, używając słowa kluczowego "szukaj". Uściślaj zapytania iteracyjnie, korzystając z interfejsu przypominającego czat Rugged w tym samym oknie terminala. Opcjonalnie uruchom ponownie i zmodyfikuj polecenia szyfrowania w Neo4j, aby uściślić wyniki zapytania grafu wiedzy. Podsumuj całą interakcję za pomocą słowa kluczowego "summarize", aby wygenerować podsumowanie tekstowe do późniejszej recenzji, i przeprowadź przegląd z udziałem człowieka w pętli, aby zwiększyć czytelność i dokładność odpowiedzi systemu przed sfinalizowaniem podsumowania. Na koniec przejrzyj dzienniki czatu w folderze dziennika w Rugged i sprawdź pełny tekst interakcji. Graf wiedzy skonstruowany przy użyciu Know2BIO zawierał 219 450 węzłów i 6 323 257 krawędzi. System Rugged wbudował wykres wiedzy i dane publikacji przy użyciu modelu BART do wyszukiwania wektorowego, z publikacjami dłuższymi niż 500 tokenów podsumowanymi według sekcji.
Ten artykuł przedstawia RUGGED (Retrieval Under Graph-Guided Explainable disease Distinction), platformę, która integruje wnioskowanie modeli dużych językowych z generowaniem ulepszonym odzyskiem. Ma na celu syntezę nowej wiedzy z literatury biomedycznej i baz wiedzy, ułatwiając generowanie hipotez i badanie pytań biomedycznych.