June 13th, 2025
이 기사에서는 대규모 언어 모델(LLM) 추론과 RAG(Retrieval-Augmented Generation)를 통합하는 RUGGED(Retrieval Under Graph-Guided Explainable disease Distinction)에 대해 설명합니다. 전문가가 선별한 생물의학 지식 기반 및 동료 검토를 거친 생물의학 출판물에서 증거를 도출하여 최신 정보에서 새로운 지식을 종합하고, 설명 가능하고 실행 가능한 예측을 식별하고, 가설 기반 조사를 위한 유망한 방향을 정확히 찾아냅니다.
이 프로토콜은 생물 의학 및 임상 질문을 안정적으로 탐색하고 가설을 생성할 수 있는 플랫폼을 제공합니다. Rugged는 대규모 언어 모델을 활용하고, 동료 검토를 거친 출판물 및 선별된 생물의학 지식 기반에 연결하고, 설명 가능한 AI를 사용하여 새로운 관계를 발견함으로써 생물의학 환경을 탐색하는 데 도움을 줍니다. 최근 생성형 AI와 대규모 언어 모델의 발전으로 증거가 뒷받침되는 생물의학 자원에 참여하는 방식이 변화하여 요약, 질문 답변, 유연한 가설 탐색과 같은 작업이 가능해졌습니다. 이전의 접근 방식은 생물의학 문헌에서 패턴과 높은 수준의 관계를 추출하기 위해 텍스트 마이닝에 의존했습니다. 오늘날 접근 방식은 대규모 언어 모델과 검색 증강 생성, 에이전트 시스템 및 도구 호출 기능을 결합하고 있습니다. 공개적으로 사용 가능한 많은 언어 모델은 신뢰성에 어려움을 겪고 있으며 잠재적으로 사실과 잘못된 정보를 생성할 수 있습니다. 최근 모델은 개선되었지만 출판 당시의 결과물은 종종 도메인 특이성이 부족하고 모호한 일반 언어에 의존하며 길고 단편적인 설명을 생성합니다. JoVE와의 이전 간행물에서 우리는 단백질, 세포 구성 요소 및 심혈관 질환 간의 관계를 예측하고 이해하기 위해 텍스트 마이닝 및 생물 의학 지식 그래프 모델링을 적용하는 방법을 강조했습니다. 이러한 기반을 바탕으로 우리의 최신 연구는 이러한 구조화된 생물 의학 지식을 대규모 언어 모델 지원 워크플로와 통합하여 정확한 추론과 증거 기반 응답을 가능하게 하는 데 중점을 두고 있습니다.
[해설자] 시작하려면 터미널에서 명령을 사용하여 Rugged 서비스를 시작합니다. caseOLAP LIFT를 사용하여 생물의학 문헌을 추출하고 관련 문서와 높은 수준의 단백질 질병 관계를 식별합니다. caseOLAP LIFT JoVE 프로토콜을 방문하여 caseOLAP LIFT 텍스트 마이닝 분석을 수행합니다. 그런 다음 터미널에서 Know2BIO 저장소를 복제합니다. 명령줄을 사용하여 create_edge_files.py 스크립트를 실행하여 기술 자료 리소스를 다운로드하고 추출 파이프라인의 진행률을 모니터링합니다. 그런 다음 prepare_kgs.py 스크립트로 지식 그래프를 구성합니다. combine_kg_results.py 스크립트의 결과를 통합하여 텍스트 마이닝 분석 및 지식 그래프 구성에서 추출된 관계와 엔터티를 하나의 포괄적인 그래프로 병합합니다. 지식 그래프를 검토하고 예측 분석에 사용할 관련 노드를 선택하여 관심 있는 생물 의학 엔터티를 식별합니다. filter.py 스크립트를 사용하여 선택한 관심 질병 노드에서 두 홉 내에 도달할 수 있는 하위 그래프를 추출하고 명령을 실행합니다. 예측할 가장자리와 입력 지식 그래프를 명령줄 인수로 지정하여 예측 분석 스크립트를 실행하고 출력을 가져옵니다. 이제 Rugged Docker 컨테이너에 연결합니다. 이전 터미널 창이 닫힌 경우 Docker 컨테이너에 다시 연결합니다. 연결되면 명령줄에서 CD 작업 공간 Rugged가 있는 Rugged 디렉토리로 이동하고 이 명령줄 창에서 나머지 모든 단계를 수행합니다. 모든 지원 서비스가 실행 중인지 확인한 후 명령줄 인터페이스에서 Rugged를 시작하여 시스템과의 상호 작용을 시작합니다. 지식 그래프를 쿼리하려면 키워드 "query"로 시작하는 자연어로 질문을 합니다. 예를 들어, "query What are currently 처방된 약물이 베타 차단제로 분류됩니까?" 키워드 "predict"로 시작하는 질문으로 링크 예측 분석의 예측을 탐색합니다. 그런 다음 "검색"이라는 키워드를 사용하여 2단계의 생물의학 주제와 관련된 문서를 자연어로 검색합니다. 동일한 터미널 창에서 Rugged의 채팅과 유사한 인터페이스를 사용하여 반복적으로 문의를 구체화합니다. 선택적으로 Neo4j에서 암호 명령을 다시 실행하고 수정하여 지식 그래프 쿼리 결과를 구체화합니다. "summarize" 키워드로 전체 상호 작용을 요약하여 나중에 검토할 수 있도록 텍스트 요약을 출력하고, 요약을 완료하기 전에 루프 내 인간 검토를 수행하여 시스템 응답의 가독성과 정확성을 향상시킵니다. 마지막으로 Rugged 내의 로그 폴더에 있는 채팅 로그를 검토하고 상호 작용의 전체 텍스트를 검사합니다. Know2BIO를 사용하여 구성된 지식 그래프에는 219,450개의 노드와 6,323,257개의 에지가 포함되었습니다. Rugged 시스템은 벡터 검색을 위해 BART 모델을 사용하여 지식 그래프 및 출판물 데이터를 내장했으며, 500개 이상의 토큰 이상의 출판물을 섹션별로 요약했습니다.
이 기사는 RUGGED(Retrieval Under Graph-Guided Explainable disease Distinction)를 소개합니다. 이는 대규모 언어 모델 추론과 검색 강화 생성을 통합한 플랫폼입니다. 바이오메디컬 문헌 및 지식 기반에서 새로운 지식을 종합하여 가설 생성 및 바이오메디컬 질문 탐색을 용이하게 하는 것을 목표로 합니다.