June 13th, 2025
В этой статье описывается RUGGED (Retrieval Under Graph-Guided Explainable disease Distinction), который объединяет вывод большой языковой модели (LLM) с генерацией извлечения (RAG). Он опирается на данные из тщательно отобранных экспертами баз биомедицинских знаний и рецензируемых биомедицинских публикаций для синтеза новых знаний из актуальной информации, определения объяснимых и действенных прогнозов и определения перспективных направлений для исследований, основанных на гипотезах.
Этот протокол представляет собой платформу для надежного исследования биомедицинских и клинических вопросов, а также для выработки гипотез. Rugged помогает исследовать биомедицинский ландшафт, используя большие языковые модели, связывая их с рецензируемыми публикациями и курируемыми базами биомедицинских знаний, а также используя объяснимый искусственный интеллект для выявления новых взаимосвязей. Последние достижения в области генеративного искусственного интеллекта и больших языковых моделей изменили наше взаимодействие с биомедицинскими ресурсами, основанными на фактических данных, что позволяет выполнять такие задачи, как обобщение, ответы на вопросы и гибкое исследование гипотез. Более ранние подходы полагались на интеллектуальный анализ текста для извлечения закономерностей и высокоуровневых отношений из биомедицинской литературы. Сегодня подходы сочетают в себе большие языковые модели с генерацией с дополнением к извлечению, агентными системами и возможностями вызова инструментов. Многие общедоступные языковые модели испытывают трудности с надежностью, потенциально выдавая фактически неверную информацию. Несмотря на то, что последние модели улучшились, их результаты на момент публикации часто не были специфичными для предметной области, основывались на расплывчатом общем языке и выдавали длинные и фрагментарные объяснения. В предыдущих публикациях с JoVE мы рассказывали о том, как интеллектуальный анализ текста и моделирование графов биомедицинских знаний применяются для прогнозирования и понимания взаимосвязи между белками, клеточными компонентами и сердечно-сосудистыми заболеваниями. Основываясь на этом фундаменте, наше последнее исследование направлено на интеграцию этих структурированных биомедицинских знаний с рабочими процессами, поддерживаемыми большими языковыми моделями, что позволяет делать точные выводы и отвечать на основе фактических данных.
[Рассказчик] Для начала запустите службу Rugged с помощью команды в терминале. Извлекайте биомедицинскую литературу и выявляйте соответствующие документы, а также высокоуровневые взаимосвязи между белковыми заболеваниями с помощью caseOLAP LIFT. Посетите протокол caseOLAP LIFT JoVE и выполните анализ анализа текста caseOLAP LIFT. Далее клонируем репозиторий Know2BIO в терминале. С помощью командной строки выполните сценарий create_edge_files.py для загрузки ресурсов базы знаний и отслеживания хода выполнения конвейера извлечения. Затем постройте граф знаний с помощью prepare_kgs.py скрипта. Интегрируйте результаты combine_kg_results.py скрипта, чтобы объединить отношения и сущности, извлеченные из анализа интеллектуального анализа текста и построения графа знаний, в один комплексный граф. Выявляйте биомедицинские объекты, представляющие интерес, просматривая граф знаний и выбирая соответствующие узлы для использования в прогнозном анализе. Используйте сценарий filter.py для извлечения подграфа, доступного в пределах двух переходов от выбранных интересующих узлов заболевания, и выполните команду. Запустите скрипт прогнозирующего анализа, указав ребра для прогнозирования и входной граф знаний в качестве аргументов командной строки, и получите выходные данные. Теперь подключитесь к контейнеру Rugged Docker. Если предыдущее окно терминала было закрыто, повторно подключитесь к контейнеру Docker. После подключения перейдите в каталог Rugged с помощью рабочего пространства CD Rugged в командной строке и выполните все оставшиеся действия в этом окне командной строки. Убедившись, что все вспомогательные службы работают, запустите Rugged в интерфейсе командной строки, чтобы начать взаимодействие с системой. Чтобы выполнить запрос к графу знаний, задайте вопрос на естественном языке, начинающийся с ключевого слова «запрос». Например, введите «Вопрос, какие препараты в настоящее время классифицируются как бета-блокаторы?» Изучите прогнозы из анализа прогнозирования ссылок с вопросами, начинающимися с ключевого слова «прогнозировать». Затем извлеките документы, относящиеся к биомедицинской теме, из второго шага на естественном языке, используя ключевое слово «поиск». Уточняйте запросы итеративно, используя интерфейс Rugged, похожий на чат, в том же окне терминала. При необходимости повторите и измените команды шифрования в Neo4j, чтобы уточнить результаты запроса графа знаний. Обобщите все взаимодействие с помощью ключевого слова «обобщить», чтобы вывести текстовое резюме для последующего просмотра, и проведите круговой обзор, чтобы повысить удобочитаемость и точность ответов системы, прежде чем завершить работу над резюме. Наконец, просмотрите журналы чата в папке журналов в Rugged и изучите полный текст взаимодействия. Граф знаний, построенный с помощью Know2BIO, включал 219 450 узлов и 6 323 257 ребер. В систему Rugged встроен граф знаний и данные публикаций с использованием модели BART для векторного поиска, при этом публикации длиннее 500 токенов суммируются по разделам.
В данной статье представлена платформа RUGGED (Retrieval Under Graph-Guided Explainable disease Distinction), которая интегрирует инференс больших языковых моделей с генерированием, усиленным извлечением. Она нацелена на синтез новых знаний из биомедицинской литературы и баз знаний, способствуя генерации гипотез и исследованию биомедицинских вопросов.