$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
이러한 대표적인 결과는 이 프로토콜에 설명된 절차에 따라 얻은 것입니다. CaseOLAP LIFT 프로토콜5 에 따라 기본 매개변수와 함께 텍스트 마이닝 연관성 분석을 수행하여 8개의 광범위한 심혈관 질환범주 72 및 미토콘드리아 단백질(GO:0005739)과의 연관성을 연구했습니다. 2024년 5월까지 총 635,696건의 보고가 이러한 질병과 관련된 것으로 확인되었습니다. 그 중 4,655개의 신뢰도가 높은 단백질-질병 연관성이 확인되어 다운스트림 분석에 정보를 제공했습니다. 생물의학 지식 그래프는 2024년 5월9의 기본 설정을 사용하여 Know2BIO의 소프트웨어 코드를 사용하여 구성되었습니다. 결과 지식 그래프는 219,450개의 노드, 6,323,257개의 가장자리 및 노드 설명, 단백질/유전자 서열, 화학 구조 등이 있는 189,493개의 노드 기능으로 구성됩니다. 프로토콜의 모든 단계에 대한 예상 계산 시간은 표 1에 나와 있습니다.
RUGGED 시스템은 지식 그래프 노드 및 기능과 CVD 관련 출판물 모두에 대한 벡터 데이터베이스를 구축하여 초기화되었습니다. 모든 지식 그래프 노드, 에지 및 노드 기능은 RAG 벡터 검색을 준비하기 위해 BART71 임베딩 모델을 사용하여 20개의 토큰으로 구성된 청크 크기로 처리되었습니다. 마찬가지로, 원본 기고 및 리뷰 논문은 RAG 벡터 검색을 준비하기 위해 500개 토큰의 청크 크기와 BART 임베딩 모델을 사용하여 처리되었습니다. 문헌 검색을 위해 500개 이상의 토큰이 있는 전체 텍스트 출판물은 BART 임베딩 모델에 의해 출판물의 개별 섹션을 기반으로 계층적으로 요약되었습니다. GPT-4o 모델은 시스템의 나머지 LLM 에이전트에 사용되었습니다.
이러한 대표적인 결과는 각각 MeSH_Disease: D019571 및 MeSH_Disease: D002311로 식별된 부정맥성 심근병증(ACM) 및 확장성 심근병증(DCM)에 대한 잠재적 약물 치료제를 조사하기 위한 예시 사용 사례를 보여줍니다. 일련의 질의는 그림 3에 요약되어 있으며, 그림 4에 표시된 모델 응답의 강조 표시된 예와 보충 파일 1, 섹션 A에 보고된 전체 응답이 있습니다. 조사 방향은 연구자가 검증한 응답에 맞게 조정되었으며, 이전 응답의 결과를 기반으로 후속 질문을 작성했습니다. 분석 결과 베타 차단제와 항부정맥제로 분류된 11개의 약물 후보가 밝혀졌습니다. 치료 치료를 위한 새로운 방법은 연구 질병 및 약물 노드 및 이들의 상호 연결로부터 1홉 이내의 노드 및 이들의 상호 연결을 포함하여 전체 지식 그래프의 하위 집합에서 Graph Convolutional Neural Network 링크 예측 모델을 사용하여 평가되었으며, 표 4 에 보고된 평가 메트릭이 있습니다. 모델에 의한 각 예측에 대한 상위 10개의 관련 엣지는 그래프 설명 가능성 모듈인 GNNExplainer44에 의해 추가로 조사되어 각 예측에 기여하는 상위 노드와 엣지를 각각 식별했습니다. 이 사용 사례에 대한 RUGGED 프로토콜의 모든 단계에 상용 LLM을 사용하는 총 비용은 작성 당시 $1.50로 추정됩니다.

그림 1: RUGGED(Graph-Guided Explainable disease Distinction) 워크플로우에 따른 검색. RUGGED는 (1) 윤리적으로 소싱되고 전문적으로 관리되는 리소스(예: PubMed 및 선별된 생물의학 지식 기반)에서 데이터를 수집 및 처리하고, (2) 동료 검토를 거친 연구 결과를 통합 지식 그래프에 통합, (3) 데이터베이스 서비스 내에서 텍스트 및 그래프 데이터 구조화, (4) 지식 그래프 내에서 생물 의학 엔터티 간의 설명 가능한 관계를 모델링하고 예측합니다. (5) 복잡한 분자 관계를 검증하고 AI 기반 질병 예측을 탐색하기 위해 RAG(Retrieval Augmented Generation) 워크플로(그림 2)를 통해 지식을 검색 및 합성합니다. 사용자는 출력의 정확성을 높이기 위해 human-in-the-loop 검토 단계를 수행할 수 있습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

그림 2: 검색 아키텍처 및 편향 완화 워크플로. RAG(Retrieval Augmented Generation) 프레임워크는 여러 LLM 에이전트를 사용하며, 각 에이전트는 특정 작업을 실행하여 사용자 쿼리를 기반으로 관련 정보에 대한 액세스를 지원합니다. 이 시스템은 사용자 대면 GPT 기반 추론 에이전트에 대한 문서화된 증거를 제공하여 사용자-에이전트 상호 작용 및 지식 통합을 용이하게 합니다. (1) Biomedical Text Retrieval: 동료 심사를 거친 원본 기고 및 검토 논문은 질병 연관성 이해와의 관련성에 따라 필터링됩니다. 벡터 데이터베이스는 출판물의 해당 섹션을 기반으로 가중치가 부여되는 저자 및 편집자 검증 텍스트 증거에 대해 구축됩니다(각각 70% 초록, 10% 결과, 10% 메타데이터, 기타 모든 하위 섹션에 대해 10%). 사용자 쿼리의 텍스트 임베딩에 대한 키워드 검색 및 유사성 검색은 함께 관련 문서를 식별합니다. 각 문서의 요약은 BERT 기반 요약기를 사용하여 생성되며, GPT 기반 Text Evaluator Agent는 쿼리를 구체화하여 쿼리 문서 관련성을 검증합니다. (2) 지식 그래프 검색: BERT 기반 명명된 엔터티 인식 및 GPT 기반 관계 추출 모듈은 사용자 쿼리를 지식 그래프의 관련 엔터티에 연결합니다. 벡터 데이터베이스의 유사성 검색은 관련 노드와 간선을 식별합니다. 데이터는 GPT 기반 Cypher 쿼리 에이전트에 의해 생성되고 쿼리 검증 에이전트에 의해 구체화된 Cypher 쿼리를 통해 Neo4j 데이터베이스에서 검색됩니다. (3) Biomedical Text Retrieval 또는 Knowledge Graph Retrieval 파이프라인의 개별 응답은 사용자의 쿼리에 대한 편향을 최소화하면서 간결한 응답을 합성하는 Reasoning Agent에 제공됩니다. 이 시스템은 사실에 입각한 정보를 제공할 때 정확성과 공정성을 유지하기 위해 안내됩니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

그림 3: 쿼리 캐스케이드를 통한 지식 종합 및 가설 탐색에 대한 사용 사례. 이 그림은 연구자 및/또는 의료 전문가가 RUGGED 시스템에 제기할 수 있는 일련의 관련 질문 및 개념에 초점을 맞춘 강조 표시된 사용 사례를 보여줍니다. 사용자의 쿼리는 숫자 순서로 시스템에 표시되며, 화살표는 각 질문 중에서 추론된 논리적 및 도메인별 추론을 나타냅니다. 시스템은 암시적 및 관련 정보(파란색으로 표시된 소스)에서 검색하여 쿼리에 응답합니다. 시스템 응답의 예는 그림 4에 나와 있습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

그림 4: 심혈관 병리학 사용 사례: CVD 발병 기전 설명. 사용자와 RUGGED 시스템 간의 쿼리-응답 쌍이 표시됩니다. 왼쪽 상단 패널에서 질문 1-6은 지식 그래프 데이터베이스에서 정보를 추출하여 증거에 기반한 응답을 공식화하여 정보를 검색합니다. 질문 7은 설명 가능한 그래프 링크 예측을 사용하여 최고 점수를 받은 치료법을 식별합니다. 쿼리는 예측 분석을 요청하며, 이는 시스템에 의해 자동으로 실행 및 처리되며 주요 결과는 간결하게 요약됩니다. 질문 8은 예측된 결과를 확인, 검증 및 확증하기 위해 관련 증거로 검색되는 정의된 텍스트 데이터 말뭉치에서 문헌 증거를 평가합니다. 시스템 응답은 human-in-the-loop 검사 프로세스에 의해 검토되었으며 가독성과 간결성을 위해 수정되었습니다. 이러한 연구 결과의 전체 기록은 보충 파일 1에 자세히 설명되어 있습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.
| 단계 | 묘사 | 시간 |
| 생물 의학 지식에 대한 접근 | 총 30% |
| 생물 의학 문헌 말뭉치 준비 | PubMed 및 PubMed Central에 연결하여 다운스트림 작업을 위한 출판물 데이터를 다운로드하고 구문 분석합니다. | 20% |
| 기술 자료 데이터 준비 | 생물 의학 기술 자료에 연결하고, 다운스트림 작업에 필요한 정보를 다운로드 및 구문 분석합니다. | 5% |
| 정보 추출 | 총 30% |
| CaseOLAP LIFT 텍스트 마이닝 분석 | 생물의학 텍스트 말뭉치 내에서 높은 수준의 질병-단백질 관계를 식별합니다. | 25% |
| 지식 그래프 구성 | 생물 의학 지식 기반의 서로 다른 정보를 연결하고 통합 지식 그래프로 통합합니다. | 5% |
| 예측 분석 | 총 10% |
| 그래프 신경망 훈련시키기 | 생물 의학 지식 그래프 데이터에서 모델을 학습시켜 그래프 내에 숨겨진 패턴을 학습합니다. | 5% |
| 관련성 순위 분석 | 설명 가능성 모듈을 적용하여 질병 연구와 관련된 가장 적절한 노드와 가장자리를 강조 표시합니다. | 2.5% |
| 링크 예측 | 설명 가능성 모듈을 활용하여 새로운 예측 에지에 기여하는 주요 노드와 에지를 식별합니다. | 2.5% |
| 가설 생성 및/또는 검증 | 총 30% |
| Retrieval Augmented Generation을 위한 데이터베이스 설정 | 지식 그래프를 쿼리하기 위해 그래프 데이터베이스를 초기화하고 텍스트 검색을 위해 벡터 데이터베이스를 초기화합니다. | 25% |
| 가설 탐구 | RUGGED와의 사용자 상호 작용을 통해 가설 탐색을 위한 관련 정보에 액세스하고 면밀히 조사할 수 있습니다. | 5% |
표 1: 워크플로우 및 속도 제한 단계. 이 표는 워크플로의 각 단계에 필요한 계산 시간을 대략적으로 예측합니다. 속도 제한 단계에는 검색 증강 생성에 필요한 생물 의학 지식에 대한 액세스, 추출 및 인덱싱이 포함됩니다. 가설 탐색은 속도 제한 단계를 다시 실행할 필요 없이 지속적으로 반복될 수 있습니다.
| 질병 범주 | MeSH 트리 번호 | # PMID | # 원본 기여 | # 리뷰 기사 |
| 심근병증(CM) | C14.280.238 | 132,531 | 102,337 | 19,942 |
| C14.280.434 |
| 심장 부정맥(ARR) | C14.280.067 | 125,286 | 92,374 | 13,854 |
| C23.550.073 |
| 선천성 심장 결함(CHD) | C14.280.400 | 82,006 | 54,023 | 6,379 |
| 심장 판막 질환(VD) | C14.280.484 | 72,016 | 50,119 | 5,743 |
| 심근허혈(IHD) | C14.280.647 | 256,986 | 210,042 | 30,223 |
| 심장 전도계 질환(CCD) | C14.280.123 | 53,050 | 35,399 | 4,363 |
| 심실유출폐해(Ventricular Outflow Obstruction, VOO) | C14.280.955 | 22,244 | 15,504 | 1,686 |
| 기타 심장 질환(OTH) | C14.280.195 C14.280.282 C14.280.383 C14.280.470 C14.280.945 C14.280.459 C14.280.720 | 114,085 | 77,302 | 11,799 |
| 합계 | 635,696 | 478,404 | 69,690 |
표 2: 생물의학 문헌 통계. 이 표는 해당 MeSH 트리 번호와 텍스트 마이닝을 위한 말뭉치로 사용되는 2024년 5월까지 검색된 PubMed 문서의 수와 함께 연구 질병 범주를 자세히 설명합니다. 독창적인 기여도 연구 논문과 리뷰 논문으로 구성된 이러한 출판물의 하위 집합은 가설 생성 중에 RUGGED에서 검색할 수 있도록 벡터 데이터베이스에 색인화됩니다.
| 범주 | 노드 수 | 모서리의 개수 | 데이터 소스 |
| 해부학 | 5,049 | 122,533 | Bgee, PubMed, MeSH, 우베론, |
| 생물학적 과정 | 27,047 | 108,106 | 유전자 온톨로지 |
| 셀룰러 구성 요소 | 4,057 | 52,238 | 유전자 온톨로지 |
| 화합물 | 27,278 | 3,292,028 | DrugBank, MeSH, CTD, UMLS, KEGG, TTD, SIDER, Inxight Drugs, Hetionet, PathFX, MyChem.info |
| 질병 | 21,938 | 311,773 | PubMed, MeSH, DisGeNET, SIDER, ClinVar, ClinGen, PharmGKB, MyDisease.info, PathFX, UMLS, OMIM, Mondo, DOID, KEGG |
| 의약품 종류 | 5,721 | 8,283 | 전륜차 |
| 유전자 | 29,810 | 943,419 | HGNC, GRNdb, 케그, 클린바, 클린젠, |
| 분자 기능 | 11,151 | 47,086 | SMPDB, 디스제넷, PharmGKB, MyGene.info |
| 통로 | 52,012 | 234,944 | 유전자 온톨로지 |
| 단백질 | 20,740 | 1,074,809 | 리액톰, KEGG, SMPDB |
| 반응 | 14,647 | 128,038 | UniProt, 리액톰, TTD, SMPDB, STRING, HGNC |
| 소계 | 219,450 | 6,323,257 | 리액톰 |
| 텍스트 마이닝 협회 | 8 | 4,670 | |
| 합계 | 219,458 | 6,327,927 | |
표 3: 지식 그래프 통계. 이 표는 텍스트 마이닝 분석 및 예측 분석에서 파생된 추가 에지로 보강된 구성된 Know2BIO 지식 그래프를 구성하는 11개의 광범위한 생물 의학 범주에 대해 자세히 설명합니다. 결과 지식 그래프 및 예측은 가설 생성 중에 RUGGED에 의한 검색을 위해 Neo4j 그래프 데이터베이스에 의해 관리됩니다.
| 정밀 | 정밀 | 기억 | F1 점수 | 오록 | 증권 시세 표시기 |
| 유효성 검사 | 0.7158 | 0.6639 | 0.8743 | 0.7547 | 0.8437 | 0.8637 |
| 테스트 | 0.703 | 0.6367 | 0.9455 | 0.761 | 0.8961 | 0.9094 |
표 4: 설명 가능한 AI 모델 평가. 이 표는 2계층 그래프 컨볼루션 신경망을 사용하여 지식 그래프 링크 예측에 대한 평가 메트릭을 보고합니다. 메트릭은 그래프 가장자리를 85% 훈련, 5% 검증 및 10% 테스트 데이터 세트로 분할하여 평가되었습니다. 정확도는 올바르게 분류된 예측의 비율을 나타냅니다. Precision은 모든 긍정적 예측에서 올바른 긍정적 예측의 비율을 보고합니다. 재현율은 실제 양수 가장자리 중에서 올바른 양수 예측의 비율을 측정합니다. F1 점수는 정밀도와 재현율의 조화 평균으로, 두 지표의 균형을 맞춥니다. AUROC는 긍정적 예측과 부정적 예측을 구별하는 모델의 능력을 평가합니다. AUPRC는 서로 다른 임계값에 걸쳐 정밀도와 재현율 간의 균형을 정량화합니다. 모든 메트릭에서 값이 높을수록 더 나은 모델 성능을 나타냅니다.
보충 파일 1: 이 파일은 RUGGED의 전체 모델 응답과 GPT-4o와의 비교에 대해 자세히 설명합니다. 섹션 A 는 RUGGED와의 완전한 인간-컴퓨터 상호 작용을 제시하며, 그림 3 에 요약된 쿼리 체인 접근 방식을 확장하고 그림 4에 강조 표시된 요약을 넘어서는 완전한 응답을 제공합니다. 섹션 B 는 검색 없이 GPT-4o의 응답을 RUGGED와 비교하여 정밀도, 깊이, 신뢰도 점수, 증거 신뢰성 및 비용과 같은 속성을 평가합니다. 이 파일을 다운로드하려면 여기를 클릭하십시오.