エビデンスに基づく知識の統合と仮説の検証:説明可能なAIとエージェントシステム による 生物医学知識ベースのナビゲート

Alexander  R. Pelletier; Joseph Ramirez; Baradwaj Simha Sankar; Irsyad Adam; Yu Yan; Dylan Steinecke; Wei Wang; Karol E. Watson; Peipei Ping

doi:10.3791/67525

Method Article

エビデンスに基づく知識の統合と仮説の検証:説明可能なAIとエージェントシステムによる生物医学知識ベースのナビゲート

DOI:

10.3791/67525

⸱

June 13th, 2025

Alexander R. Pelletier¹^,² , Joseph Ramirez¹ , Baradwaj Simha Sankar¹ , Irsyad Adam¹^,⁴ , Yu Yan¹^,³ , Dylan Steinecke¹^,³ , Wei Wang¹^,² , Karol E. Watson¹^,³^,⁴ , Peipei Ping¹^,²^,³^,⁴

¹Department of Physiology, UCLA School of Medicine, ²Scalable Analytics Institute (ScAi) at Department of Computer Science, UCLA School of Engineering, ³Medical Informatics, University of California at Los Angeles (UCLA), ⁴Department of Medicine (Cardiology), UCLA School of Medicine

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

この記事では、Large Language Model(LLM)推論とRetrieval-Augmented Generation(RAG)を統合するRUGGED(Retrieval Under Graph-Guided Explainable disease Distinction)について説明します。専門家がキュレーションした生物医学知識ベースと査読済みの生物医学出版物から証拠を引き出し、最新の情報から新しい知識を統合し、説明可能で実行可能な予測を特定し、仮説主導の調査の有望な方向性を特定します。

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

科学文献や精選された知識ベースにまたがる生物医学知識の規模は、研究者が所見を効果的に処理、評価、解釈する上で大きな課題となっています。大規模言語モデル(LLM)は、この複雑な知識環境をナビゲートするための強力なツールとして登場しましたが、幻覚的な反応を引き起こす可能性があります。REG(Retrieval-Augmented Generation)は、関連情報を特定し、精度と信頼性を高めるために不可欠です。このプロトコルでは、知識の統合をサポートし、バイアスを軽減し、新しい研究の方向性を探求および検証するために設計された包括的なワークフローであるRUGGED(Retrieval Under Graph-Guided Explainable disease Distinction)を導入しています。出版物やナレッジベースからの生物医学情報は、テキストマイニングの関連性分析と説明可能なグラフ予測モデルを通じて合成および分析され、潜在的な薬物と疾患の関係を明らかにします。これらの調査結果は、ソーステキストコーパスとナレッジベースとともに、RAG拡張LLMを使用するフレームワークに組み込まれており、ユーザーは仮説を探求し、根本的なメカニズムを調査することができます。臨床ユースケースは、不整脈性心筋症(ACM)および拡張型心筋症(DCM)の治療薬を評価および推奨し、分子相互作用と潜在的な新しいアプリケーションについて処方薬を分析するRUGGEDの能力を示しています。このプラットフォームは、LLMの幻覚を減らし、実用的な洞察を強調し、新しい治療法の研究を効率化します。

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

生物医学事業における仮説探索プロセスは、病因の根底にある新規分子-薬物-疾患の相互依存性を明らかにし、治療の可能性を解き放つために不可欠です^1,2。このプロセスでは、既存の生物医学的知識からエビデンスを引き出し、査読済みの文献(PubMedの>36件のレポートなど)に埋め込まれた論理的なリードに基づいて新しい知見を統合し、生物医学の知識ベースに根ざした信頼性の高いキュレーションされたエビデンスを統合します。最近の進歩により、文献コープラ^3,4,5にテキストマイニングを適用するとともに、グラフベースの分析^6,7,8,9を使用して関連情報を合成し、調査のための新しい道筋を明らかにすることにより、手間のかかる手作業が削減されました。これらの努力にもかかわらず、現在のアプローチでは、データが断片化されているため、コンテキストの深い理解をサポートしていないことがよくあります。さらに、証拠に基づく推論を導き出したり、新しい仮説をインタラクティブに探求したりする能力も欠如しています。

大規模言語モデル(LLM)の最近の開発は、これらの課題に新たな光を当て、複数の分野にわたる膨大な量の情報について訓練することにより、高レベルの文脈理解を実証している10,11,12。生物医学領域では、LLMは患者情報¹³および一般的な臨床質問応答^14,15の抽出において有望な役割を果たしているが、ドメイン固有の質問応答¹⁶およびプライマリ臨床ケア¹⁷における有用性への応用は、まだ調査されていない。これらのモデルは、複雑なデータセットから推論し、推論を引き出す能力を示しており、仮説の探索や知識の統合に適している可能性があります。さらに、一部のモデルは、ユーザーを引き付け、トピックの動的な探索を可能にするために、チャットのようなインタラクションを特徴としており、クエリベースの検索エンジンやナレッジベースの従来の境界を超えている^18,19。

これらの可能性に加えて、LLMは、情報の幻覚の可能性、潜在的に不正確な説明に対する不当な信頼の表示、解釈可能性の欠如、偏ったまたは不適切なコンテンツの影響を受けやすいなどの重大な課題に直面しています20,21,22,23,24.臨床上の意思決定を導くために直接適用されると、LLMから導き出された応答と予測は高い賭け金を持っています。エラーは、費用のかかる実験室実験につながる可能性があるか、患者の健康経過に悪影響を与える可能性があります^25,26。したがって、彼らのアドバイスはしっかりと証拠に根ざしている必要があるため、信頼性と信頼できるLLMの応答が最も重要です。これらのシナリオでは、解釈可能性は贅沢品ではなく、これらのモデルがなぜ予測を行うのかを理解するために必要です。

この目的のために、Retrieval-Augmented Generation(RAG)は、LLMの幻覚を最小限に抑えるように設計されたシステムであり、LLM応答を証拠に基づかせて、その精度と信頼性を高めるようにしている^27,28。このアプローチは、典型的には、LLM(例えば、ChatGPT)をPubMedと統合するなど、関連するテキストパッセージの検索を含み、ユーザークエリ^29,30に対する関連する引用の識別を可能にする。テキストに限らず、ナレッジグラフ(KG)での検索は、ファクトチェック31,32,33、透明推論34,35,36、知識の符号化³⁷、質問応答の改善³⁸、ナレッジグラフ³⁹の完成などのタスクに対するLLMへの適用において有望である.KGは、検証されたソースからの事実情報をエンコードすることにより、LLM応答の精度、透明性、および信頼性を向上させます。これらのグラフ内のリンク予測技術は、ディープラーニングを活用して、分子、薬物^{、および疾患}5,40,41の間のこれまで隠されていた関係を特定します。説明可能なAI予測の最近の進歩は、これらのリンク予測タスクの透明性と解釈可能性をさらに強化し、生物医学的仮説を調査の実行可能な手段として解釈するための潜在的なサポートを提供します42,43,44。これらの進歩により、LLMが生成した応答がバランスを取り、証拠から引き出されることが保証され、生物医学企業への適用性が大幅に向上します。

このプロトコルは、RUGGED(Retrieval Under Graph-Guided Explainable disease Distinction)を、臨床治療の洞察の探索と検証のためのアクセス可能で効率的なワークフローとして提示しています(図1)。このワークフロープロトコルは、生物医学文献と知識ベースの膨大なリソースを活用して関連情報の抽出と検証を行い、クエリに合わせた取得プロセスを可能にします(図2)。説明可能な人工知能予測モデルを採用して、既存の生物医学的知識から解釈可能で実用的な洞察を明らかにし、それによって予測モデルの透明性と有用性を高めます。完成したワークフローにより、RAG対応LLM による ナレッジグラフの探索とモデル予測が効率化され、研究者、臨床医、臨床専門家の直感的で情報に基づいたインタラクションが促進されます。

このセクションでは、プロトコルの基礎を築き、次のセクションで説明するこのアプローチを実装する手順について説明します。次に、このアプローチを実証するために、トランスレーショナル臨床のユースケースを紹介し、分子間相互作用のための薬物の評価や心血管医学の治療戦略に適用します。最後に、このプロトコルの意味と議論について説明します。

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

このプロトコルは Python 3.10 で開発され、Windows の Docker コンテナとして実装されています。提供されるコマンドは、Docker コンテナ内の Unix 環境に基づいています。ソフトウェアは https://github.com/pinglab-utils/RUGGED で入手できます。表 1 は、プロトコルのすべてのステップの計算時間の推定値を示しています。

1. ソフトウェアのインストール

前提条件となるソフトウェアを、 資料表の指示に従ってインストールします。
注: このプロトコルには、バージョン管理、コンテナ化、グラフデータベース、および大規模言語モデル (LLM) サービスが必要です。バージョン管理とコンテナ化はオプションですが、セットアッププロセスを簡素化できます。グラフデータベースとLLMサービスは、ユーザーが技術的に熟練している場合、同様のツールで代用することができます。
1. コンテナ間ネットワーキングを設定します。Docker コンテナをデバイス上の他のサービス (他の Docker コンテナなど) に接続するように構成します。ターミナルに次のコマンドを入力します:docker network create rugged_network
大規模言語モデル (LLM) サービスを設定します。商用 LLM サービスまたはユーザーのデバイスで実行されているローカルモデルのサービスから、ユースケースに適した LLM サービスを選択します。少なくとも 1 つの LLM サービスが指定されていることを確認しますが、エージェントを混在させて一致させることで、異なるモデルを活用できます。
1. ローカル LLM サービスを開始します。グラフィカルユーザーインターフェース(GUI)を使用してOllamaを使用する場合は、GUI実行可能ファイル(ollama.exeなど)を実行します。Docker を使用している場合は、'docker run -name ollama --net rugged_network d -v ollama:/root/.ollama -p 11434:11434 ollama/ollama' を実行します。GPU アクセラレーションで Docker を使用している場合は、GPU ドライバーがインストールされていることを確認し、'docker run -name ollama --net rugged_network -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 ollama/ollama'を実行します。
2. ローカル LLM モデルを初期化します。サポートされているモデルの中から使用するモデルを決定します(例:推奨:llama3、mistral、mixtral。Docker を使用している場合は、コマンドラインに「docker exec run ollama run 」と入力します。Ollama GUI を使用している場合は、「ollama run 」と入力し、をそれぞれのモデル名に置き換えます。
グラフデータベースサービスを開始します。グラフデータベースサービスは、Dockerコンテナ、デスクトップアプリケーション、またはオンラインWebサービスから選択します。補足資料のインストール手順に従って、セットアップを完了します。
RUGGED環境をセットアップします。 docker images と入力して、ダウンロードした Docker イメージを確認します。前の手順のすべての Docker イメージが一覧表示されていることを確認します。ターミナルで次のコマンドを実行して、RUGGED Docker イメージとコードをダウンロードします。
docker pull pinglabutils / rugged:最新
注: git clone https://github.com/pinglab-utils/RUGGED
1. 商用 LLM サービスを構成します。商用のLLMサービスを使用している場合は、アカウントと関連するAPIキーに十分な資金があることを確認してください。RUGGED/config/openai_key.txt で設定ファイルを編集し、API キーをファイルに追加して、RUGGED 設定ファイルを変更します。
2. コマーシャルエージェントを構成します。RUGGEDのシステム内のどのLLMエージェントがこのサービスを使用するかを決定します。'RUGGED/config/llm_agents.json' の設定ファイルを変更し、エージェントのフィールドを更新してモデルバージョンを指定します。推奨モデル:GPT-3.5ターボ、GPT-4O。
3. ローカル LLM サービスを設定します。「http://localhost:11434」の Ollama のデフォルトエンドポイントとは異なるサービスエンドポイントを使用している場合は、「RUGGED/config/ollama_config.json」の設定ファイル内の「OLLAMA_URI」フィールドを変更および更新します。
4. ローカル LLM エージェントを設定します。RUGGEDのシステム内のどのLLMエージェントがこのサービスを使用するかを決定します。「RUGGED/config/llm_agents.json」の設定ファイルを変更し、エージェントフィールドを更新して、選択したモデルとして「ollama」を指定します。
5. グラフデータベースエンドポイントを構成します。Neo4j のデフォルトのパスワードとユーザー名から変更した場合は、'RUGGED/config/neo4j_config.json' 設定ファイルを編集して 'uri'、'username'、および 'password' フィールドを更新します。
次のコマンドを実行して、RUGGEDサービスを開始します。
docker run --name rugged -it --net rugged_network --gpus=all -v \RUGGED\:/data ping-lab-
ユーティリティ:RUGGED /bin/bash
注: サービスが期待どおりに動作していることを確認するには、RUGGED ディレクトリに移動し、手順 1.4.1 を実行します。ステップ1.4.4まで。このターミナルウィンドウで。
1. LLM サービスの機能を確認します。RUGGED ディレクトリ内の test フォルダに移動し、次のコマンドを実行して、OpenAI や Ollama サービスが機能していることを確認します。
  Pythonのtest_openai.py
  Pythonのtest_ollama.py
2. 固有表現認識サービスの機能を確認します。「test_ner.py」を実行して、ユーザークエリの名前付きエンティティ認識のコードが正しく機能していることを確認します。
3. Neo4jサービスの機能を確認します。テストスクリプトを実行して、「python test_neo4j.py」と入力して、Neo4jサービスが期待どおりに機能していることを確認します
4. (オプション)グラフデータベースへの HTTP アクセスを確認します。Webブラウザを開き、Neo4jユーザーインターフェイスにアクセスします。
  注:DockerまたはDesktopのNeo4jの場合、デフォルトのURLは「http://localhost:7474」です。Neo4j AuraDBの場合は、セットアップ時に提供されたリンクを使用してください。
(オプション)問題のトラブルシューティングを行います。ソフトウェアのセットアップ中に RUGGED をサポートするサービスが検証され、問題が予測されるようにします。ステップ 1.4 で失敗したテストのトラブルシューティングを行います。存在する場合は、問題を説明するテストスクリプトによって報告されたエラーメッセージに従います。
1. Docker コンテナを確認します。ターミナルで 'docker ps' を使用して、RUGGED Docker コンテナ、Neo4j Docker コンテナ (オプション)、Ollama Docker コンテナ (オプション) など、すべての Docker コンテナが実行されていることを確認します。
2. ネットワークポートを確認します。Docker サービスの場合は、正しいポートが開いていることを確認し、「docker logs neo4j」または「docker logs ollama」でログを確認します。
  注:デフォルトでは、Neo4jはhttpにポート7474を使用し、ボルトインターフェイスに7687を使用します。Ollama はポート 11434 を使用します。
3. サービスアプリケーションを確認します。デバイスに直接インストールされているアプリケーション(Ollama や Neo4j Desktop など)の場合は、アプリケーションを開いて実行されていることを確認します。
4. Web サービスを確認します。Neo4j AuraDBの場合は、Webサイトにログインし、サービスが実行されていることを確認します。
5. ファイアウォールルールを確認します。デバイスのファイアウォールルールを変更して、ファイアウォールが外部サービスをブロックしていないことを確認します。
6. デバイスを再起動します。問題が解決しない場合は、デバイスを再起動し、手順 1.5.1 から再試行します。
7. 問題を開きます。問題が解決しない場合は、RUGGED GitHub(https://github.com/pinglab-utils/RUGGED)で問題を開いてください。

2. 生物医学知識と抽出情報へのアクセス

注:これらのステップでは、RUGGEDのRetrieval Augmented Generation(RAG)システムを構成する基本情報として、(1)CaseOLAP LIFT生物医学テキストマイニングパイプライン⁵ と(2)Know2BIOナレッジグラフ構築^{ワークフロー9}の2つのナレッジ抽出パイプラインの概要を説明します。カスタムデータで RUGGED を使用するには、ステップ 4 に進みます。

生物医学文献を抽出します。生物医学文献のテキストマイニングを通じて細胞内タンパク質とその疾患との関連を調査するために設計された計算プロトコルである CaseOLAP LIFTを使用して、関連する文書と高レベルのタンパク質と疾患の関係を特定します。この手順を完了して、これらのレポートから的を絞ったインサイトをRAGワークフローに通知するために必要な情報を準備します。
1. CaseOLAP LIFT テキストマイニング分析を実行します。CaseOLAP LIFT JoVEプロトコルにアクセスしてください(この分析にはステップ4〜5は必要ありません)。
2. 処理されたテキストドキュメントを移動します。ステップ 3 で解析された生物医学ドキュメント (pubmed.json) とその全文 (pmid2full_text_sections.json) が CaseOLAP LIFT データフォルダーにあることを確認します。次のコマンドを使用して、これらのファイルを RUGGED データフォルダーに移動します。
  MVの/caseolap_lift/caseolap_lift_shared_folder/データ/pubmed.json /RUGGED/データ/text_corpus
  MVの/caseolap_lift/caseolap_lift_shared_folder/データ/pmid2full_text_sections.json /RUGGED/データ/text_corpus
3. テキストマイニング結果を移動します。タンパク質と疾患の関連付けを含むナレッジグラフファイル(merged_edge_list.tsv)がresult/kgフォルダーに生成されたことを確認します。関連付けの数が、ステップ 1 から 3 で選択した設定に応じて、予想どおりであることを確認します ( たとえば、表 2 を参照)。このファイルをRUGGEDのデータフォルダに移動します。
  mv /caseolap_lift/caseolap_lift_shared_folder/result/graph_data/ merged_edge_list.tsv /RUGGED/data/knowledge_graph
生物医学の知識を抽出します。30の生物医学知識ベースのデータを統合した Know2BIO ソフトウェアを使用して、生物医学知識グラフを組み立てます。これらの生物医学的関係とマルチモーダルデータの情報が、ダウンストリームのRAGワークフローをサポートするように処理されることを確認するために、このステップを完了します。
1. Know2BIOリポジトリをクローンします。次のコマンドを使用して、コマンドラインに入力してリポジトリをクローンします。Know2BIOリポジトリに移動します。
  git clone https://github.com/Yijia-Xiao/Know2BIO.git。
2. データとライセンスを準備します。データセットフォルダーに移動し、'README.md' ファイルの指示に従ってください。さまざまなオンラインリソース(UMLSシソーラス、ドラッグバンクなど)にアクセスするために必要なユーザーアカウントの作成を完了します。
3. ナレッジベースのリソースをダウンロードします。「python create_edge_files.py」スクリプトを実行し、ナレッジグラフ抽出パイプラインの進行状況を監視します。「Know2BIO/dataset/output」フォルダ内の生物医学的関係を表す.csvファイルが生成されたことを確認します。
4. ナレッジグラフを作成します。「python prepare_kgs.py」スクリプトを実行して、前の手順で抽出した情報を統合し、抽出された関係を統一されたナレッジグラフに自動的に結合し、データソースとドメインごとにグラフをフォーマットします。
5. 出力を確認します。完成したファイルが「Know2BIO/dataset/know2bio_dataset」ディレクトリの「whole_kg.txt」ファイル内に存在することを確認します。ファイル内のエッジの数が予想どおりであることを確認します。 表 3 では、600 万を超えるエッジが生成されました。Know2BIO READMEの残りの手順はこの解析に必要ないため、次の手順に進みます。
  注: 表3 のKnow2BIOの関係は、ATC(世界保健機関)、Bgee⁴⁵、CTD⁴⁶、ClinGen⁴⁷、ClinVar⁴⁸、DOID⁴⁹、DisGeNET⁵⁰、DrugBank⁵¹、GRNdb⁵²、Gene Ontology⁵³、HGNC⁵⁴、Hetionet³、Inxight Drugs⁵⁵、KEGG⁵⁶、MeSH⁵⁷、Mondo⁵⁸、MyChem.info⁵⁹、MyDisease.info ^{を含む 31 の情報源からの情報源です59}、MyGene.info⁵⁹、OMIM⁶⁰、PathFX⁶¹、PharmGKB⁶²、PubMed、Reactome⁶³、SIDER⁶⁴、SMPDB⁶⁵、STRING⁶⁶、TTD⁶⁷、UMLS⁶⁸、Uberon⁶⁹、および UniProt⁷⁰。
6. ナレッジグラフの結果を移動します。ファイルをRUGGEDディレクトリの「/data/knowledge_graph/」に移動します。
  mv /Know2BIO/dataset/know2bio/whole_kg.txt /RUGGED/data/knowledge_graph
結合されたナレッジグラフを作成します。前のステップのグラフと、ステップ 2.1 のテキストマイニングによる高レベルのタンパク質と疾患の関係を統合して、1 つの統一ナレッジグラフにします。
1. RUGGEDディレクトリで結果を確認します。ナレッジグラフの構築結果ファイル (whole_kg.txt) とテキストマイニングリレーションシップの結果 (merged_edge_list.tsv) がデータフォルダー内の knowledge_graph ディレクトリにあることを確認します。
2. 結果を統合します。「combine_kg_results.py」スクリプトを実行して、テキストマイニング分析とナレッジグラフの構築から抽出された関係とエンティティを単一のまとまりのあるナレッジグラフにマージします。以下のコマンド例に従ってください。
  python rugged/knowledge_graph/combine_kg_results.py ./data/knowledge_graph/merged_edge_list.tsv ./data/knowledge_graph/whole_kg.txt --output_dir ./data/rugged_knowledge_graph
ナレッジグラフをフィルタリングします。(オプション)予測分析に使用されるナレッジグラフのサブセットをサンプリングします。この手順では、密接に関連する関係のみを保持し、深層学習の予測を実行するために必要な計算リソースを削減します。
1. 関連するノードを特定します。ステップ 3 の予測分析で関心のある生物医学的エンティティを決定するには、ナレッジグラフを確認し、関連するノードを特定します。
  注: このプロトコルは、不整脈原性心筋症 (ACM) と拡張型心筋症 (DCM) の疾患ノードに焦点を当てています。それぞれ MeSH_Disease: D019571 および MeSH_Disease: D002311.ターゲットノードは、意図したユースケースに合わせて調整する必要があります。
2. ナレッジグラフからのサンプル。「filter.py」スクリプトを使用して、選択した対象ノードから k-hop 内で到達可能なナレッジグラフサブグラフを抽出します。次のコマンド例に従って、選択した疾患ノードから 2 ノード以内で到達可能なグラフをフィルタリングします。
  python ./rugged/knowledge_graph/kg_filter.py --k 2 --病気 "MeSH_Disease:D019571,MeSH_Disease:D002311" --input_file ./data/rugged_knowledge_graph/rugged_knowledge_graph_edges.csv —output_dir ./data/rugged_knowledge_graph/filtered_kg/.
  注: k-hop 値 (--k) を増やすと、予測分析のためのグラフ内のデータ範囲が広がりますが、より多くの計算リソースも必要になります。

3. 説明可能な予測分析

注: グラフ畳み込みネットワークモデルで GNNExplainer⁴⁴ を実行して、ナレッジグラフの潜在的なエッジ (関係) を予測し、これまで知られていなかった関連性に関する洞察を提供します。

RUGGED Docker コンテナが実行されていることを確認します。前のターミナルウィンドウが閉じていた場合は、コマンド 'docker exec --it rugged /bin/bash' を使用して Docker コンテナーに接続します。Docker コンテナに接続したら、RUGGED ディレクトリに移動します。
予測するエッジを決定します。エッジを.txtファイル内のノードのペアとして指定します(例:edges_to_predict.txt)。ナレッジグラフにすでに存在するエッジは、予測から除外されます。
予測分析スクリプトを実行します。予測するエッジと入力ナレッジグラフを予測のコマンドライン引数として指定します。主な引数: -p (エッジファイルへのパス)、 -i (入力ナレッジグラフ)、 -o (出力ディレクトリ)、 -n (上位の予測、例: 5)、 -k (視覚化する上位のエッジ、例: 10)。コマンドの例:
python rugged/predictive_analysis/generate_explainable_prediction.py-o output -n 5 -k 10 -p ./output/edges_to_predict.txt -i ./data/rugged_knowledge_graph/filtered_kg/filtered_k2_edges.csv
モデルのパフォーマンスを評価します。前の手順で生成されたターミナル出力または 'output.log' ファイルを調べて、フィルター処理されたナレッジグラフを 85:5:10 の比率でトレーニングセット、検証セット、テストセットに分割してモデルのパフォーマンスを評価します。パフォーマンスが期待どおりでない場合は、 表 4 を例に挙げて、モデルの引数を調整します。
結果が出力フォルダーにあることを確認します。'prediction_results.csv' のモデル結果を調べ、出力フォルダー内の上位 n 個の予測を調べます。出力フォルダー内の上位 n 個の予測を確認します。各予測について、グラフの視覚化は、各予測に寄与する最も関連性の高いエッジと、それらの相対的な重要度スコアを示します。
予測分析結果を移動します。予測分析の結果に満足したら、結果をRUGGEDディレクトリの「data/predictions/」に移動します。

4. 仮説生成

RUGGED Docker コンテナに接続します。
1. RUGGED Docker コンテナが実行されていることを確認します。前のターミナルウィンドウが閉じられていた場合は、Docker コンテナーに接続します。
2. RUGGEDディレクトリに移動します。接続したら、 cd /workspace/RUGGED と入力してディレクトリに移動します。このコマンドラインウィンドウで残りの手順を発行します。
3. サポートサービスが実行されていることを確認します。Docker で Ollama と Neo4j を使用している場合は、「docker ps」と入力して、コンテナが実行されていることを確認します。手順 1.7 を繰り返してサービスが正常に機能していることを確認し、手順 1.4 を繰り返して問題が存在する場合はトラブルシューティングを行います。
RAGデータを準備します。取得用のナレッジグラフとテキストコーパスを準備します。
注: これらのデータは、データをそれぞれ 'data/knowledge_graph/' ディレクトリと 'data/text_corpus/' ディレクトリに配置することで、ユーザー定義のデータに置き換えることができます。これらのデータは、GitHub リポジトリ (https://github.com/pinglab-utils/RUGGED/tree/main/data) の形式に従う必要があります。
1. リソースを確認します。テキストコーパスが 'data/text_corpus/' ディレクトリにあり、テキストマイニング予測ファイルを含むナレッジグラフが data/knowledge_graph/ ディレクトリにあり、予測結果が data/predictions/ ディレクトリ (それぞれ手順 2.1.2、2.3.2、3.5 から) にあることを確認します。
2. グラフ・データベースにデータを入力します。コマンド 'python ./neo4j/prepare_neo4j.py' を実行して、必要なノード、エッジ、およびノードフィーチャを作成します。
3. テキストコーパスを索引付けします。コマンド 'python ./text/prepare_corpus.py' を実行してテキストコーパスをインデックス化し、RUGGED がユーザークエリに基づいて関連するテキストドキュメントを取得できるようにします。ドキュメントを 500 トークンのセクションにチャンク化して、BART⁷¹ を使用してベクトルデータベースを作成します。
4. オプション) グラフ・データベースの取得をテストします。Neo4j データベースにテストクエリを送信して、正しく入力され、期待どおりの結果を返すことができることを確認します。出力がデータベース内の予期されるノードとリレーションシップと一致することを確認します。コマンドの例:
  python ./test/test_neo4j_retrieval.py --query "MATCH (n) RETURN n LIMIT 5"
5. (オプション)RAGコーパスの取得をテストします。RAGテキストコーパスにテストクエリを送信して、テキスト取得システムが機能していることを確認します。取得したドキュメントがクエリに関連していること、および埋め込みが期待どおりに機能していることを確認します。コマンドの例: python ./test/test_literature_retrieval.py --query "心血管疾患の治療にベータ遮断薬を使用することに関連している文書はどれですか?"
RUGGEDと対話します。コマンドラインインターフェイスでRUGGEDを起動して、システムと対話します。コマンド 'python rugged.py' を実行します。ナレッジグラフやテキストコーパスと対話するための特定のコマンドを使用して、システムにクエリを実行し、関連情報を取得します。
1. ナレッジグラフをクエリします。ナレッジグラフから特定の情報を抽出するには、キーワード「query」から始めて、自然言語で質問を提起します。例えば：
  クエリ「現在処方されている薬は、ベータ遮断薬、抗不整脈薬、抗線維化薬に分類されますか?」
2. 予測を探ります。ステップ 3 のリンク予測分析を探索し、キーワード "predict" で始まる特定の関係を検索するように依頼します。例えば：
  「これらの薬剤のうち、現在知られていないACMおよび/またはDCMの治療に使用できる可能性のある薬剤はどれですか?」と予測します。
3. 文献検索を探ります。ステップ2の特定の生物医学トピックに関連するドキュメントを探索します。自然言語で質問を提起し、キーワード「検索」を先頭に置きます。例えば：
  検索、「これらの予測された薬物がACMおよび/またはDCMの治療に使用できるという主張を支持する文献証拠は何ですか?」
4. クエリを反復処理して絞り込みます。コマンドラインで直接応答し、RUGGEDのチャットのようなインターフェースを使用して問い合わせを反復および絞り込みます。以前のユーザーとシステムの会話を参照して、質問とクエリを修正および改善します。
5. Neo4jでCypherコマンドを再実行します。(オプション)情報の取得に使用される提供された Cypher コマンドを調整して、ナレッジグラフのクエリ結果を絞り込みます。ステップ1.4.4からNeo4jブラウザインターフェイスにアクセスして、このコマンドを再実行または変更します(たとえば、http://localhost:7474)。必要に応じて Cypher コマンドを貼り付けて変更し、クエリを絞り込み、より具体的な分析情報を収集します。
6. 会話を要約します。取得した情報を確認し、RUGGEDとの会話をまとめます。キーワード summarize を入力すると、インタラクションのサマリーがテキストファイルに出力され、後で分析できます。全文応答がターミナルに表示されます。
7. ヒューマンインザループレビューを実施して出力の精度を高めるには、サマリーを確定する前に、システムの応答の読みやすさと簡潔さを検査および変更します。
8. チャットログを確認します。RUGGEDのログフォルダでインタラクションの全文を検査します。これらの中間コマンドと LLM エージェント間の会話を RUGGED 内に保持して、トラブルシューティングと再現性を確保します。
RUGGEDをシャットダウンして再起動します。
1. Docker コンテナ ID を取得します。コマンド 'docker ps' を使用して、実行中のすべてのコンテナーを一覧表示し、RUGGED、Neo4j、および Ollama のコンテナー ID を取得します。次のコマンドでは、、、を実際のコンテナ ID に置き換えます。
2. Docker コンテナを停止します。RUGGED と関連する Docker コンテナを、コンテナ ID を使用してシャットダウンします。
  docker stop
  docker 停止
  docker ストップ
  注:デバイスをシャットダウンする前にこれらのコンテナを停止することは、潜在的なデータ損失を防ぎ、すべてのプロセスが適切に閉じるようにするために推奨されます。
3. Docker コンテナを再起動します。RUGGED システムを再起動するには、コンテナ ID を使用して必要な Docker コンテナを起動します。
  docker start の
  docker start
  dockerスタート
4. Docker ネットワークに再接続します。必要に応じて、これらのコマンドを使用して、コンテナをネットワークに再接続します。
  Dockerネットワーク接続rugged_network
  Dockerネットワーク接続rugged_network
  Dockerネットワーク接続rugged_network
5. サービスの機能を確認します。再起動したら、手順1.4〜1.5を繰り返して、ソフトウェアが期待どおりに動作していることを確認します。

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

これらの代表的な結果は、このプロトコルで概説されている手順に従って取得されました。テキストマイニング関連分析は、デフォルトパラメータを使用してCaseOLAP LIFTプロトコル⁵ に従って実行され、心血管疾患⁷² の8つの広範なカテゴリとミトコンドリアタンパク質（GO:0005739）との関連を研究した。2024年5月までに合計635,696件の報告がこれらの疾患に関連していると判断されました。その中で、4,655の信頼性の高いタンパク質と疾患の関連が同定され、下流の分析に情報を提供しました。生物医学知識グラフは、2024年5月にデフォルト設定を使用してKnow2BIOのソフトウェアコードを使用して構築されました^9。結果として得られるナレッジグラフは、219,450 ノード、6,323,257 エッジ、および 189,493 ノードのノード特徴と、ノードの説明、タンパク質/遺伝子配列、化学構造など (利用可能な場合) で構成されます。プロトコルのすべてのステップの計算時間の推定値を 表 1 に示します。

RUGGEDシステムは、ナレッジグラフノードと機能の両方、およびCVD関連の出版物のベクトルデータベースを構築することによって初期化されました。すべてのナレッジグラフノード、エッジ、およびノード特徴は、RAGベクトル検索に備えるために、BART⁷¹ 埋め込みモデルを使用して20トークンのチャンクサイズで処理されました。同様に、オリジナルの寄稿とレビュー記事は、500トークンのチャンクサイズとBART埋め込みモデルを使用して処理され、RAGベクトル検索の準備が行われました。文献検索では、500トークンを超える全文出版物は、BART埋め込みモデルによって出版物の個々のセクションに基づいて階層的に要約されました。GPT-4o モデルは、システム内の残りの LLM エージェントに使用されました。

これらの代表的な結果は、不整脈原性心筋症(ACM)と拡張型心筋症(DCM)の潜在的な薬物治療薬を調査するためのユースケースの例を示しています。それぞれMeSH_Disease:D019571とMeSH_Disease:D002311として識別されます。一連の問い合わせの概要を図3に示し、モデル応答の強調表示された例を図4に示し、完全な応答を 補足ファイル1のセクションAに報告します。調査の方向性は、調査員が検証した回答に合わせて調整され、以前の回答の結果に基づいて後続のクエリを作成しました。解析の結果、β遮断薬と抗不整脈薬に分類される11の薬剤候補が明らかになりました。治療治療の新たな道筋は、研究疾患および薬物ノードから1ホップ以内のノードとその相互接続を含む、完全なナレッジグラフのサブセットでGraph Convolutional Neural Networkリンク予測モデルを使用して評価され、評価指標は表4 に報告されています。モデルによる各予測に関連する上位10のエッジを、グラフの説明可能性モジュールであるGNNExplainer⁴⁴によってさらに調査し、各予測に寄与する上位ノードとエッジをそれぞれ特定しました。このユースケースでRUGGEDプロトコルのすべてのステップに商用LLMを使用した場合の総コストは、執筆時点で1.50ドルと見積もられています。

figure-results-1
図1:RUGGED(Graph-Guided Explainable Disease Distinction)ワークフローでの検索。 RUGGEDは、(1)倫理的に調達され、専門的に管理されたリソース(PubMedやキュレーションされた生物医学知識ベースなど)からのデータの収集と処理、(2)査読済みの研究結果を統一されたナレッジグラフに統合する、(3)データベースサービス内でのテキストとグラフデータの構造化、(4)ナレッジグラフ内の生物医学的エンティティ間の説明可能な関係のモデリングと予測、の4つの主要なコンポーネントで構成されています。 (5)Retrieval Augmented Generation(RAG)ワークフロー(図2)を通じて知識を取得および合成し、複雑な分子関係を検証し、AI主導の疾患予測を探求します。ヒューマン・イン・ザ・ループのレビューステップをユーザーが実行して、出力の精度を高めることができます。この図の拡大版を表示するには、ここをクリックしてください。

figure-results-2
図2:検索アーキテクチャとバイアス軽減ワークフロー。 Retrieval Augmented Generation(RAG)フレームワークは、複数のLLMエージェントを使用し、それぞれが特定のタスクを実行して、ユーザークエリに基づく関連情報へのアクセスをサポートします。このシステムは、ユーザー向けのGPTベースの推論エージェントの文書化された証拠を提供し、ユーザーとエージェントの相互作用と知識の統合を促進します。(1)生物医学テキストの検索:査読済みのオリジナルの寄稿とレビュー記事は、疾患の関連性の理解との関連性に基づいてフィルタリングされます。ベクターデータベースは、著者と編集者が検証したテキストの証拠に対して構築され、それぞれ出版物の対応するセクションに基づいて重み付けされます(70%が要約、10%が結果、10%がメタデータ、10%がその他すべてのサブセクション)。キーワード検索と類似性検索により、ユーザークエリのテキスト埋め込みに対する検索により、関連するドキュメントが特定されます。各ドキュメントのサマリーは、BERTベースのサマライザーを使用して生成され、GPTベースのText Evaluator Agentが検索を絞り込んでクエリとドキュメントの関連性を検証します。(2) ナレッジグラフ検索:BERTベースの名前付きエンティティ認識およびGPTベースの関係抽出モジュールは、ユーザークエリをナレッジグラフ内の関連エンティティに接続します。ベクトルデータベースでの類似性検索では、関連するノードとエッジが特定されます。データは、GPTベースのCypher Query Agentによって生成されたCypherクエリを介してNeo4jデータベースから取得され、Query Verification Agentによって洗練されます。(3) Biomedical Text RetrievalまたはKnowledge Graph Retrievalパイプラインからの個々の応答は、推論エージェントに提示され、推論エージェントは、ユーザーのクエリに対するバイアスを最小限に抑えた簡潔な応答を合成します。このシステムは、事実情報を提示する際の正確性と公平性を維持するように導かれています。この図の拡大版を表示するには、ここをクリックしてください。

figure-results-3
図3:クエリカスケードによる知識統合と仮説探索のユースケース。この図は、研究者や医療専門家がRUGGEDシステムに提起する可能性のある一連の関連する質問と概念に焦点を当てた、強調表示されたユースケースを示しています。ユーザーからのクエリは番号順にシステムに提示され、矢印は各質問の中で推論された論理的およびドメイン固有の推論を表します。システムは、クエリに応答して、暗黙的で関連性のある情報 (ソースは青色で表示) から取得します。システム応答の例を図 4 に示します。この図の拡大版を表示するには、ここをクリックしてください。

figure-results-4
図4:ユースケースの心血管病理学:CVDの病因を解明する。ユーザーと RUGGED システム間のクエリと応答のペアが表示されます。左上のパネルでは、質問1〜6は、ナレッジグラフデータベースから情報を抽出して情報を取得し、証拠に基づく回答を定式化します。質問7では、説明可能なグラフリンク予測を使用して、最高得点の治療薬を特定します。クエリは予測分析を促し、予測分析はシステムによって自動的に実行および処理され、主要な結果は簡潔に要約されます。質問 8 では、予測された結果を検証、検証、および裏付けるために、関連する証拠として取得された定義されたテキストデータコーパスからの文献証拠を評価します。システムの応答は、ヒューマン・イン・ザ・ループの検査プロセスによってレビューされ、読みやすさと簡潔さのために変更されています。これらの調査結果の完全なトランスクリプトは、 補足ファイル1に詳述されています。この図の拡大版を表示するには、ここをクリックしてください。

ステップス	形容	時間
生物医学知識へのアクセス		合計 30%
生物医学文献コーパスの準備	PubMed と PubMed Central に接続し、パブリケーションデータをダウンロードして解析し、ダウンストリームタスクに役立てることができます。	20%
ナレッジベースデータの準備	生物医学のナレッジベースに接続し、ダウンストリームタスクに必要な情報をダウンロードして解析します。	5%
情報抽出		合計 30%
CaseOLAP LIFTテキストマイニング分析	生物医学テキストコーパス内の高レベルの疾患-タンパク質関係を特定します。	25%
ナレッジグラフの構築	生物医学知識ベースからの異種情報を統合ナレッジグラフに接続し、統合します。	5%
予測分析		合計 10%
グラフニューラルネットワークの学習	生物医学ナレッジグラフデータでモデルをトレーニングし、グラフ内の隠れたパターンを学習します。	5%
関連性ランキング分析	説明可能性モジュールを適用して、疾患の研究に関連する最も関連性の高いノードとエッジを強調します。	2.5%
リンク予測	説明可能性モジュールを利用して、新しい予測エッジに寄与する主要なノードとエッジを特定します。	2.5%
仮説の生成および/または検証		合計 30%
Retrieval Augmented Generation のデータベース設定	ナレッジグラフをクエリするためのグラフデータベースと、テキスト取得用のベクトルデータベースを初期化します。	25%
仮説探索	RUGGEDとのユーザーインタラクションを可能にして、仮説探索のための関連情報にアクセスし、精査します。	5%

表 1: ワークフローとレート制限の手順。 この表は、ワークフローの各段階に必要な計算時間の概算を示しています。レート制限のステップには、検索拡張生成に必要な生物医学的知識へのアクセス、抽出、およびインデックス作成が含まれます。仮説探索は、レート制限ステップを再実行することなく、継続的に繰り返すことができます。

疾患カテゴリー	MeSHツリー番号	# PMIDs	# オリジナル投稿	# レビュー記事
心筋症(CM)	C14.280.238	132,531	102,337	19,942
心筋症(CM)	C14.280.434	132,531	102,337	19,942
心不整脈(ARR)	C14.280.067	125,286	92,374	13,854
心不整脈(ARR)	C23.550.073	125,286	92,374	13,854
先天性心疾患(CHD)	C14.280.400	82,006	54,023	6,379
心臓弁膜症(VD)	C14.280.484	72,016	50,119	5,743
心筋虚血(IHD)	C14.280.647	256,986	210,042	30,223
心臓伝導系疾患(CCD)	C14.280.123	53,050	35,399	4,363
心室流出閉塞(VOO)	C14.280.955	22,244	15,504	1,686
その他の心臓病(OTH)	C14.280.195 C14.280.282 C14.280.383 C14.280.470 C14.280.945 C14.280.459 C14.280.720	114,085	77,302	11,799
	トータル	635,696	478,404	69,690

表2:生物医学文献の統計。 この表は、研究疾患のカテゴリーとそれに対応するMeSHツリー番号、およびテキストマイニングのコーパスとして使用される2024年5月までに取得されたPubMedドキュメントの数について詳しく説明しています。これらの出版物の一部は、オリジナルの寄稿研究論文と総説から構成され、仮説生成時にRUGGEDが取得できるようにベクターデータベースにインデックス化されます。

カテゴリ	ノード数	エッジの数	データソース
解剖学	5,049	122,533	Bgee、PubMed、MeSH、Uberon^、
生物学的プロセス	27,047	108,106	遺伝子オントロジー
セルラーコンポーネント	4,057	52,238	遺伝子オントロジー
化合物	27,278	3,292,028	DrugBank、MeSH、CTD、UMLS、KEGG、TTD、SIDER、Inxight Drugs、Hetionet、PathFX、MyChem.info
病気	21,938	311,773	PubMed, MeSH, DisGeNET, SIDER, ClinVar, ClinGen, PharmGKB, MyDisease.info, PathFX, UMLS, OMIM, Mondo, DOID, KEGG
薬物クラス	5,721	8,283	ATCの
遺伝子	29,810	943,419	HGNC、GRNdb、KEGG、ClinVar、ClinGen、
分子機能	11,151	47,086	SMPDB、DisGENET、PharmGKB、MyGene.info
経路	52,012	234,944	遺伝子オントロジー
蛋白質	20,740	1,074,809	リアクトーム、KEGG、SMPDB
反応	14,647	128,038	UniProt、Reactome、TTD、SMPDB、STRING、HGNC
小計	219,450	6,323,257	リアクトーム
テキストマイニングの関連付け	8	4,670
トータル	219,458	6,327,927

表 3: ナレッジグラフの統計。 この表は、構築されたKnow2BIOナレッジグラフを構成する11の広範な生物医学カテゴリを詳述し、テキストマイニング分析と予測分析から導き出された追加のエッジで強化されています。結果として得られるナレッジグラフと予測は、Neo4jグラフデータベースによって管理され、仮説生成中にRUGGEDが取得できます。

	精度	精度	思い出す	F1スコア	オーロック	AUPRCの
検証	0.7158	0.6639	0.8743	0.7547	0.8437	0.8637
試験	0.703	0.6367	0.9455	0.761	0.8961	0.9094

表4:説明可能なAIモデルの評価。 次の表は、2 層グラフ畳み込みニューラルネットワークを使用したナレッジグラフリンク予測の評価メトリックを示しています。メトリクスは、グラフのエッジを 85% のトレーニング、5% の検証、10% のテストデータセットに分割して評価しました。精度は、正しく分類された予測の割合を示します。精度は、すべての肯定的な予測のうち、正しい肯定的な予測の割合を報告します。再現率は、実際の正のエッジのうち、正しい正の予測の割合を測定します。F1スコアは、精度と再現率の調和平均であり、2つの指標のバランスが取れています。AUROC は、肯定的な予測と否定的な予測を区別するモデルの能力を評価します。AUPRCは、異なる閾値間での精度と再現率のトレードオフを定量化します。すべてのメトリクスで、値が大きいほどモデルのパフォーマンスが優れていることを示します。

補足ファイル1: このファイルでは、RUGGEDからの完全なモデル応答とGPT-4oとの比較について詳しく説明します。 セクションA では、RUGGEDとの完全なヒューマン・コンピュータ・インタラクションを示し、図3 で概説したクエリ・チェーン・アプローチを拡張し、図4で強調した要約を超えた完全なレスポンスを提供します。 セクションB では、GPT-4oの応答をRUGGEDの応答と比較して検索せずに評価し、精度、深さ、信頼性スコアリング、証拠の信頼性、コストなどの属性を評価します。このファイルをダウンロードするには、ここをクリックしてください。

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

RUGGEDプロトコルは、最新の情報を備えた最新の言語モデルを活用して、研究者が進化する生物医学の状況を動的に探索し、新しい知識を発見できるようにします。この人間とコンピューターの相互作用は、機械(RUGGED)の効率と研究者の専門知識と判断を例示する革新的なプロセスを推進します。このプロトコルは、概説された順序で実行されるように設計されています。ステップ 1 では、ソフトウェアのインストールについて詳しく説明します。ステップ2とステップ3は、生物医学文献とリソースの準備に不可欠であり、ステップ4は、検索拡張生成とLLMシステムとのユーザーインタラクションのためにこの情報をインデックス化します。時間のかかるステップは、同時に実行することも、順次に実行することもできます。たとえば、Neo4j グラフの作成 (ステップ 4.2.2) は予測分析 (ステップ 3) 中に開始でき、インデックス作成はナレッジグラフの構築 (ステップ 2.3) とテキストマイニング (ステップ 2.1) の後に開始できます。これらの中間結果の最終結果を得るには、これらの手順を繰り返す必要があります。このプロトコルは生物医学情報の検索用に設計されていますが、わずかな変更を加えることで、社内データ、臨床ノート、電子カルテなどの他のテキストデータやグラフデータも処理できます。データフォーマットの詳細については、ステップ 4.2 を参照してください。

このプラットフォームの運用は、言語モデル、グラフデータベース、ベクトルデータベースなど、いくつかのテクノロジーの適切なインストールと相互接続に依存しています( 資料の表を参照)。これらのサービスが正しくインストールされ、接続されていることを確認するために、GitHub リポジトリ内の 'test' フォルダーにテストスクリプトが用意されています。外部サービスには費用がかかる場合があり、価格はベンダーによって変更される場合があります。これらのオプションサービスには、ローカルでホストされる代替手段もあり、十分な計算リソースのみが必要です。ただし、これらの代替手段はモデルのパフォーマンスや利便性に影響を与える可能性があり、一部のユースケースシナリオには適していません。

急速に進化するLLMランドスケープに伴い、新しいランドマークモデルとタスク固有のモデルが定期的にリリースされています。このレポートの時点では、タスクに最も適したモデルが選択されています。ユーザーは、設定ファイルを適宜更新することで、使用する LLM を選択できます (手順 1.3.2 から 1.3.4 を参照)。モデルの選択は、特定のユースケースとの関連性によって異なります。たとえば、モデルの応答が公正で、検閲され、ヘイ^{トスピーチがない}ことを確認することに焦点を当てたモデルをこのワークフローに組み込む^{ことは、倫理}的考慮事項にとって不可欠です。さらに、LLM ^79,80,81,82から信頼性と責任ある行動を導くためには、迅速なエンジニアリングが不可欠です。RUGGEDワークフロー用に作成されたプロンプトは、採用されたモデルと提示されたユースケースに合わせて調整されています。異なるユースケースに合わせてプロンプトを微調整するために、ユーザーは「prompts.json」ファイル内の「configuration」フォルダにあるRUGGEDワークフロー内のプロンプトを編集できます。

RAGシステムは、証拠に基づいて反応を行うことでLLMの幻覚を減らすことを目指していますが、これらのモデルは依然として不正確な情報や、一般的に真実で非特異的な反応につながる可能性があります。RUGGEDとGPT-4oのベンチマーク比較は、補足ファイル1、セクションBで提供されており、モデルの幻覚は、取得された情報がモデルのコンテキストウィンドウを超えるときによく発生し、記憶喪失やデータ内容の特定不能を伴う認知症に類似しており、その結果、不正確な応答が得られる83,84,85.適切な LLM モデルを選択すると、この問題を軽減するのに役立ちます。例えば、GPT-4oのコンテキスト制限は128kトークンで、GPT-3.5 Turboの16kトークン制限を大幅に上回っていますが、ユーザーにとってはコストが高くなります。さらに、特定のドメイン知識で微調整されたLLMは、生物医学アプリケーション86,87,88における応答の精度と特異性を向上させることができる可能性がある。これらの対策にもかかわらず、費用のかかるウェットラボ実験を進める前に、情報をクロスチェックすることが不可欠です。

RUGGEDは、RAGパイプライン内の説明可能なAIを活用してリンク予測を精査し、信頼性の高い関係とこれまで発見されていなかった関係の両方を特定します。従来のRAGシステムはバルク類似性ベースの検索に依存していますが、このアプローチでは、説明可能性とターゲットレスポンスの増強を結びつけます。表4 は、モデルの強力なパフォーマンスを強調しており、高い再現率(検証:0.975、検定:0.976)とバランスの取れたF1スコア(検証:0.796、検定:0.797)を示しており、偽陽性の割合は高いものの、真陽性の識別における信頼性を示しています。モデルのロバスト性は、AUROC(検証:0.963、テスト:0.964)とAUPRC(検証:0.971、テスト:0.972)の値によってさらにサポートされています。ただし、精度(検証:0.673、テスト:0.674)は、しきい値の調整、詳細なノード機能の組み込み、またはクラスの不均衡の処理の改善の恩恵を受ける可能性があります。モデルの有効性は、入力ナレッジグラフに大きく依存します。グラフが小さいとオーバーフィットはリスクになりますが、グラフが大きいとより多くの計算リソースが必要になります。ただし、RAGベースのアプローチは、取得の基礎となるデータの品質に大きく依存します。たとえば、ナレッジグラフの作成は、元のグラフに固有のノイズのために、多くの場合、時間と労力がかかります。これには、ノイズ除去とラベル付けのための手動の作業と、データベースのメンテナンスと更新のための継続的なコストが必要です。

RUGGEDの主な用途は、知識の統合と仮説の探求です。RUGGEDは、疾患のメカニズムや薬物治療など、さまざまな隠れた関係性を調査することで、文献のトリアージを効率的に行っています。計算負荷を軽減するために、ほとんどのアプリケーションをサーバー(AWSや計算サーバーなど)でホストし、最新の情報で定期的に更新するように設定できます。さらに、このワークフローは、セキュリティ、プライバシー、機密性を維持するためのローカルモデルに患者データを含めるプラットフォームとして機能するなど、ドメイン固有のアプリケーションを実現するために適応させることができます。RUGGEDのモジュール設計により、生物医学研究だけでなく、RAGパイプラインをカスタマイズし、ターゲットドメインに合わせた迅速なエンジニアリング戦略により、情報検索、推論、要約にわたるタスクをサポートすることができます。適応を成功させるには、多様なデータ形式の前処理や、タスクおよびドメイン固有のニーズに適したモデルの評価など、ドメイン固有の課題を慎重に検討する必要があります。

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

著者は何も開示していません。

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

著者は、Alex Bui博士の指導と思慮深い議論に感謝します。また、丁王博士の有益な議論に感謝します。この研究は、NIH 1U54HG012517-01によって部分的に支援されました。NIH T32 HL13945 から A.R.P. へ。全米科学財団研究研修生(NRT)がA.R.P.に1829071。UCLAのPPへのTCロービッシュ基金。

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
ハードウェア/ソフトウェア - グラフィックスカードとソフトウェアドライバー	Nvidia	https://www.nvidia.com	グラフィックスカードとそれに関連するドライバーソフトウェアは、ローカル LLM や予測分析などの計算負荷の高いタスクのランタイムを大幅に短縮するために強くお勧めします。NVIDIA RTX GPU を搭載したデバイスの場合は、NVIDIA Web サイト (https://developer.nvidia.com/cuda-downloads) から必要なドライバーと CUDA Toolkit をダウンロードしてインストールします。
ソフトウェア - 商用大規模言語モデルサービス	OpenAI	https://openai.com	RUGGEDは、GPT-3.5やGPT-4oなどのモデル用のOpenAI APIをサポートしています。OpenAIモデルを使用してセットアップするには、まずOpenAI APIキーを取得します。OpenAI の Web サイト (https://openai.com/blog/openai-api) にアクセスして、アカウントを作成し、資金をロードし、API キーを取得します。この API キーは、RUGGED が OpenAI モデルを使用できるようにするために必要です。RUGGEDのシステム内のどのLLMエージェントがOpenAIモデルを使用するかは、ドキュメント(https://platform.openai.com/docs/models)から決定します。注:OpenAI APIは有料サービスです。公開時点では、GPT-4o のコストは 100 万入力トークンあたり 5.00 ドル、出力トークン 100 万トークンあたり 2.50 ドルです (詳細については、https://openai.com/pricing をご覧ください)。
ソフトウェア - コンテナ化Docker		https://www.docker.com	一貫した計算ランタイム環境を維持し、さまざまなマシン間でのソフトウェアのインストールと実行を合理化するのに役立ちます。Docker をインストールするには、Docker Web サイト (https://www.docker.com/) にアクセスし、[開始する] をクリックし、OS に適したバージョンをダウンロードしてインストールします。ターミナルに「docker --version」と入力してインストールを確認します。インストールが成功すると、インストールされている Docker バージョンが報告されます。
ソフトウェア - グラフデータベース	Neo4j	https://neo4j.com	Neo4j は、グラフベースのノードと関係を効率的に管理およびクエリするグラフデータベースソフトウェアです。RUGGED は、Docker コンテナ、Neo4j Desktop、Neo4j AuraDB オンラインサーバーなど、複数の形式で Neo4j をサポートします。ユースケースに最適なオプションを選択してください。 Neo4jをDockerコンテナとして設定します。これらのコマンドを実行して、フォルダーのファイルパス(例:/Users/username/RUGGED)を「PATH_TO_FOLDER」にして、DockerでNeo4jをセットアップします。トラブルシューティングの詳細については、Neo4j Docker の Web サイト (https://hub.docker.com/_/neo4j) を参照してください。 docker pull neo4j docker run –名前 neo4j --net rugged_network --publish=7474:7474 --publish=7687:7687 -d -v 'PATH_TO_FOLDER'\neo4j\data:/data neo4j 注:ユーザー名とパスワードを設定して、Dockerで初めてNeo4jを初期化します。neo4j_setup.pyスクリプト(python neo4j_setup.pyなど)を実行するか、http://localhost:7474. Neo4j DesktopのセットアップのWebインターフェイスから実行します。Neo4j Desktopを使用している場合は、Neo4jのWebサイト(https://neo4j.com/)からダウンロードしてインストールします。「新規」をクリックして新しいプロジェクトを作成し、「追加」をクリックして新しいデータベース管理システム(DBMS)を作成します。「ローカルDBMS」を選択し、パスワードを設定し、「作成」をクリックし、「開始」をクリックします。緑色の「ACTIVE」テキストは、実行中であることを示します。 Neo4j AuraDB のセットアップ。Neo4j の Web サイト (https://neo4j.com/cloud/aura-free/) にアクセスしてアカウントを作成し、ログインします。「新規インスタンス」を選択して空のインスタンスを作成し、ボルトインターフェースにアクセスするためのURIと初期パスワード(bolt://myurl.neo4j.com など)を保存します。再生ボタンをクリックしてインスタンスを開始すると、情報ボックスに接続 URI が表示されます。注: Neo4j AuraDB は、最大 200,000 ノードと 400,000 リレーションシップの無料利用枠を提供します。より大きなグラフについては、Neo4jの価格設定(https://neo4j.com/pricing)をご覧ください。
ソフトウェア - ローカル大規模言語モデルサービス	Ollama	https://ollama.com	RUGGEDは、Ollamaを使用したローカルモデル(Llama3など)の使用をサポートしています。有効にするには、まずデバイスに Ollama をインストールするか、Docker コンテナをダウンロードします。Ollama をインストールするには、Ollama の Web サイト (https://ollama.com/download) にアクセスし、インストール手順に従ってください。Docker に Ollama をインストールするには、次のコマンドを実行します。 docker pull ollama/ollama 注: 公開時点では、Windows OS 上の Ollama の安定したリリースはありません。
ソフトウェア - バージョン管理	Git	https://www.git-scm.com	バージョン管理ソフトウェアにより、ソフトウェアの効率的なインストールと更新が可能になります。Git をインストールするには、Git Web サイト (https://www.git-scm.com/) にアクセスし、[ダウンロード] をクリックし、OS に適したバージョンをダウンロードしてインストールします。ターミナルに「git --version」と入力してインストールを確認します。インストールに成功すると、インストールされている Git のバージョンが報告されます。

Docker は、

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wooller, S. K., Benstead-Hume, G., Chen, X., Ali, Y., Pearl, F. M. G. Bioinformatics in translational drug discovery. Biosci Rep. 37 (4), BSR20160180(2017).
Sadybekov, A. V., Katritch, V. Computational approaches streamlining drug discovery. Nature. 616 (7958), 673-685 (2023).
Himmelstein, D. S., et al. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726(2017).
Gutiérrez-Sacristán, A., et al. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database (Oxford). 2017, bax043(2017).
Pelletier, A. R., et al. A knowledge graph approach to elucidate the role of organellar pathways in disease via biomedical reports. J Vis Exp. (200), e65084(2023).
Santos, A., et al. A knowledge graph to interpret clinical proteomics data. Nat Biotechnol. 40 (5), 692-702 (2022).
Zheng, S., et al. PharmKG: A dedicated knowledge graph benchmark for bomedical data mining. Briefings in Bioinformatics. 22 (4), bbaa344(2021).
Soman, K., et al. Biomedical knowledge graph-optimized prompt generation for large language models. Bioinformatics. 40 (9), btae560(2023).
Xiao, Y., et al. Know2BIO: A comprehensive dual-view benchmark for evolving biomedical knowledge graphs. ArXiv. , (2023).
Thirunavukarasu, A. J., et al. Large language models in medicine. Nat Med. 29 (8), 1930-1940 (2023).
Lehman, E., et al. Do we still need clinical language models. ArXiv. , (2023).
Singhal, K., et al. Large language models encode clinical knowledge. Nature. 620, 172-180 (2022).
Agrawal, M., Hegselmann, S., Lang, H., Kim, Y., Sontag, D. Large language models are few-shot clinical information extractors. ArXiv. , (2022).
Johnson, D., et al. Assessing the accuracy and reliability of AI-generated medical responses: An evaluation of the Chat-GPT model. Res Sq. , (2023).
Evaluation of ChatGPT on biomedical tasks: A zero-shot comparison with fine-tuned generative transformers. Jahan, I., Laskar, M. T. R., Peng, C., Huang, J. The 22nd Workshop on Biomedical Natural Language Processing and BioNLP Shared Tasks, , 326-336 (2023).
Samaan, J. S., et al. Assessing the accuracy of responses by the language model ChatGPT to questions regarding bariatric surgery. Obes Surg. 33 (6), 1790-1796 (2023).
Thirunavukarasu, A. J., et al. Trialling a large language model (ChatGPT) in general practice with the applied knowledge test: observational study demonstrating opportunities and limitations in primary care. JMIR Med Educ. 9, e46599(2023).
Sun, W., et al. Is ChatGPT Good at search? Investigating large language models as re-ranking agents. ArXiv. , (2023).
Xu, R., Feng, Y., Chen, H. ChatGPT vs. Google: A comparative study of search performance and user experience. ArXiv. , (2023).
TruthfulQA: Measuring how models mimic human falsehoods. Lin, S., Hilton, J., Evans, O. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers, , 3214-3252 (2022).
Manakul, P., Liusie, A., Gales, M. J. F. SelfCheckGPT: Zero-resource black-box hallucination detection for generative large language models. ArXiv. , (2023).
FActScore: Fine-grained atomic evaluation of factual precision in long form text generation. Min, S., et al. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, , 12076-12100 (2023).
Zhang, J., et al. Is ChatGPT fair for recommendation? Evaluating fairness in large language model recommendation. Proceedings of the 17th ACM Conference on Recommender Systems. , 993-999 (2023).
Sankar, B. S., et al. Building an ethical and trustworthy biomedical AI ecosystem for the translational and clinical integration of foundation models. Bioengineering. 11 (10), 984(2024).
Shen, Y., et al. ChatGPT and Other large language models are double-edged swords. Radiology. 307 (2), e230163(2023).
Li, H., et al. Ethics of large language models in medicine and medical research. Lancet Digit Health. 5 (6), e333-e335 (2023).
Lewis, P., et al. Retrieval-augmented generation for knowledge-intensive NLP tasks. ArXiv. , (2020).
Gao, Y., et al. Retrieval-augmented generation for large language models: A survey. ArXiv. , (2023).
Wei, C. -H., Allot, A., Leaman, R., Lu, Z. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Res. 47 (W1), W587-W593 (2019).
Wei, C. -H., et al. PubTator 3.0: An AI-powered literature resource for unlocking biomedical knowledge. ArXiv. , (2024).
Comparative Reasoning for knowledge graph fact checking. Liu, L., Ji, H., Xu, J., Tong, H. 2022 IEEE International Conference on Big Data (Big Data), , 2309-2312 (2022).
Knowledge Graph reasoning and its applications. Liu, L., Tong, H. Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, , 5813-5814 (2023).
Liu, L., et al. Logic query of thoughts: Guiding large language models to answer complex logic queries with knowledge graphs. ArXiv. , (2024).
Barack's wife hillary: Using Knowledge graphs for fact-aware language modeling. Logan, R., Liu, N. F., Peters, M. E., Gardner, M., Singh, S. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, , 5962-5971 (2019).
Sun, J., et al. Think-on-graph: Deep and responsible reasoning of large language model on knowledge graph. ArXiv. , (2024).
Wen, Y., Wang, Z., Sun, J. MindMap: Knowledge Graph prompting sparks graph of thoughts in large language models. ArXiv. , (2024).
Wang, C., Liu, X., Song, D. Language models are open knowledge graphs. ArXiv. , (2020).
QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering. Yasunaga, M., Ren, H., Bosselut, A., Liang, P., Leskovec, J. Proceedings of the 2021 Conference of the North American Chapter of the, , 535-546 (2021).
SimKGC: Simple contrastive knowledge graph completion with pre-trained language models. Wang, L., Zhao, W., Wei, Z., Liu, J. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers, , 4281-4294 (2022).
Lazar, A. Graph neural networks for link prediction. FLAIRS. 36, (2023).
Zhang, M., Chen, Y. Link prediction based on graph neural networks. ArXiv. , (2018).
XGNN: Towards model-level explanations of graph neural networks. Yuan, H., Tang, J., Hu, X., Ji, S. Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, , (2020).
CFGExplainer: Explaining graph neural network-based malware classification from control flow graphs. Herath, J. D., Wakodikar, P., Yang, P., Yan, G. 2022 52nd Annual IEEE/IFIP International Conference on Dependable Systems and Networks (DSN), , 172-184 (2022).
Ying, R., Bourgeois, D., You, J., Zitnik, M., Leskovec, J. GNNExplainer: Generating explanations for graph neural networks. Adv Neural Inf Process Syst. 32, 9240-9251 (2019).
Bastian, F. B., et al. The Bgee suite: Integrated curated expression atlas and comparative transcriptomics in animals. Nucleic Acids Res. 49 (D1), D831-D847 (2021).
Davis, A. P., et al. Comparative Toxicogenomics Database (CTD): Update 2023. Nucleic Acids Res. 51 (D1), D1257-D1262 (2023).
Rehm, H. L., et al. ClinGen - The clinical genome resource. N Engl J Med. 372 (23), 2235-2242 (2015).
Landrum, M. J., et al. ClinVar: Improvements to accessing data. Nucleic Acids Res. 48 (D1), D835-D844 (2020).
Schriml, L. M., et al. The human disease ontology 2022 update. Nucleic Acids Res. 50 (D1), D1255-D1261 (2022).
Piñero, J., Saüch, J., Sanz, F., Furlong, L. I. The DisGeNET cytoscape app: Exploring and visualizing disease genomics data. Comput Struct Biotechnol J. 19, 2960-2967 (2021).
Knox, C., et al. DrugBank 6.0: The DrugBank knowledgebase for 2024. Nucleic Acids Res. 52 (D1), D1265-D1275 (2024).
Fang, L., et al. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Res. 49 (D1), D97-D103 (2021).
Gene Ontology Consortium. The Gene Ontology resource: enriching a GOld mine. Nucleic Acids Res. 49 (D1), D325-D334 (2021).
Seal, R. L., et al. Genenames.org: The HGNC resources in 2023. Nucleic Acids Res. 51 (D1), D1003-D1009 (2023).
Siramshetty, V. B., et al. NCATS Inxight Drugs: A comprehensive and curated portal for translational research. Nucleic Acids Res. 50 (D1), D1307-D1316 (2022).
Kanehisa, M., Furumichi, M., Tanabe, M., Sato, Y., Morishima, K. KEGG: New perspectives on genomes, pathways, diseases and drugs. Nucleic Acids Res. 45 (D1), D353-D361 (2017).
Lipscomb, C. E. Medical Subject Headings (MeSH). Bull Med Libr Assoc. 88 (3), 265-266 (2000).
Vasilevsky, N. A., et al. Mondo: Unifying diseases for the world, by the world. medRxiv. , (2022).
Lelong, S., et al. BioThings SDK: A toolkit for building high-performance data APIs in biomedical research. Bioinformatics. 38 (7), 2077-2079 (2022).
Amberger, J. S., Bocchini, C. A., Scott, A. F., Hamosh, A. OMIM.org: Leveraging knowledge across phenotype-gene relationships. Nucleic Acids Res. 47 (D1), D1038-D1043 (2019).
Wilson, J. L., et al. PathFX provides mechanistic insights into drug efficacy and safety for regulatory review and therapeutic development. PLoS Comput Biol. 14 (12), e1006614(2018).
Gong, L., Whirl-Carrillo, M., Klein, T. E. PharmGKB, an Integrated resource of pharmacogenomic knowledge. Curr Protoc. 1 (8), e226(2021).
Gillespie, M., et al. The reactome pathway knowledgebase 2022. Nucleic Acids Res. 50 (D1), D687-D692 (2022).
Kuhn, M., Letunic, I., Jensen, L. J., Bork, P. The SIDER database of drugs and side effects. Nucleic Acids Res. 44 (D1), D1075-D1079 (2016).
Jewison, T., et al. SMPDB 2.0: Big improvements to the small molecule pathway database. Nucleic Acids Res. 42 (Database issue), D478-D484 (2014).
Szklarczyk, D., et al. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Res. 47 (D1), D607-D613 (2019).
Zhou, Y., et al. Therapeutic target database update 2022: Facilitating drug discovery with enriched comparative data of targeted agents. Nucleic Acids Res. 50 (D1), D1398-D1407 (2022).
Bodenreider, O. The Unified Medical Language System (UMLS): Integrating biomedical terminology. Nucleic Acids Res. 32 (Database issue), D267-D270 (2004).
Haendel, M. A., et al. Unification of multi-species vertebrate anatomy ontologies for comparative biology in Uberon. J Biomed Semantics. 5, 21(2014).
UniProt Consortium. UniProt: the Universal Protein Knowledgebase in 2023. Nucleic Acids Res. 51 (D1), D523-D531 (2023).
Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. Lewis, M., et al. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, , 7871-7880 (2020).
Sigdel, D., et al. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. J Vis Exp. (144), e59108(2019).
Ferrara, E. Should ChatGPT be biased? Challenges and risks of bias in large language models. FM. ArXiv. , (2023).
Gallegos, I. O., et al. Bias and fairness in large language models: A Survey. ArXiv. , (2023).
Hosseini, M., Horbach, S. P. J. M. Fighting reviewer fatigue or amplifying bias? Considerations and recommendations for use of ChatGPT and other large language models in scholarly peer review. Res Integr Peer Rev. 8 (1), 4(2023).
Kotek, H., Dockum, R., Sun, D. Gender bias and stereotypes in Large Language Models. Proceedings of The ACM Collective Intelligence Conference, , 12-24 (2023).
Kamruzzaman, M., Kim, G. L. Prompting techniques for reducing social bias in LLMs through System 1 and System 2 Cognitive Processes. ArXiv. , (2024).
Raza, S., Raval, A., Chatrath, V. MBIAS: Mitigating bias in large language models while retaining context. ArXiv. , (2024).
Chen, B., Zhang, Z., Langrené, N., Zhu, S. Unleashing the potential of prompt engineering in Large Language Models: A comprehensive review. ArXiv. , (2023).
White, J., et al. A prompt pattern catalog to enhance prompt engineering with ChatGPT. ArXiv. , (2023).
Meskó, B. Prompt engineering as an important emerging skill for medical professionals: Tutorial. J Med Internet Res. 25, e50638(2023).
Wang, J., et al. Prompt Engineering for Healthcare: Methodologies and applications. ArXiv. , (2023).
Luo, Y., et al. An empirical study of catastrophic forgetting in large language models during continual fine-tuning. ArXiv. , (2023).
Xu, P., et al. Retrieval meets Long Context Large Language Models. ArXiv. , (2023).
Chen, S., Wong, S., Chen, L., Tian, Y. Extending context window of Large Language Models via positional interpolation. ArXiv. , (2023).
Labrak, Y., et al. BioMistral: A collection of open-source pretrained large language models for medical domains. ArXiv. , (2024).
Luo, R., et al. BioGPT: Generative pre-trained transformer for biomedical text generation and mining. Brief Bioinform. 23 (6), bbac409(2022).
Wang, C., et al. A survey for large language models in biomedicine. ArXiv. , (2024).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

エビデンスに基づく知識の統合と仮説の検証:説明可能なAIとエージェントシステムによる生物医学知識ベースのナビゲート

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles

エビデンスに基づく知識の統合と仮説の検証:説明可能なAIとエージェントシステム による 生物医学知識ベースのナビゲート

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles

エビデンスに基づく知識の統合と仮説の検証:説明可能なAIとエージェントシステムによる生物医学知識ベースのナビゲート