June 13th, 2025
この記事では、Large Language Model(LLM)推論とRetrieval-Augmented Generation(RAG)を統合するRUGGED(Retrieval Under Graph-Guided Explainable disease Distinction)について説明します。専門家がキュレーションした生物医学知識ベースと査読済みの生物医学出版物から証拠を引き出し、最新の情報から新しい知識を統合し、説明可能で実行可能な予測を特定し、仮説主導の調査の有望な方向性を特定します。
このプロトコルは、生物医学的および臨床的な問題を確実に調査し、仮説を立てるためのプラットフォームを提供します。Rugged は、大規模な言語モデルを活用し、査読済みの出版物や厳選された生物医学知識ベースに接続し、説明可能な AI を使用して新しい関係を明らかにすることで、生物医学の状況の探索を支援します。生成 AI と大規模言語モデルの最近の進歩により、エビデンスに裏付けられた生物医学リソースとの関わり方が変わり、要約、質問応答、柔軟な仮説探索などのタスクが可能になりました。以前のアプローチは、生物医学文献からパターンと高レベルの関係を抽出するためにテキストマイニングに依存していました。今日、アプローチは、大規模な言語モデルと検索拡張生成、エージェントシステム、およびツール呼び出し機能を組み合わせています。公開されている言語モデルの多くは信頼性に苦労しており、事実と異なる情報を生成する可能性があります。最近のモデルは改善されましたが、公開時の出力はドメインの特異性を欠いており、曖昧な一般的な言語に依存しており、長くて断片的な説明を生成することがよくありました。JoVEとの以前の出版物では、テキストマイニングと生物医学知識グラフモデリングを適用して、タンパク質、細胞成分、心血管疾患間の関係を予測および理解する方法を強調しました。この基盤に基づいて、私たちの最新の研究は、この構造化された生物医学の知識を大規模言語モデルがサポートするワークフローと統合し、正確な推論と証拠に基づいた応答を可能にすることに焦点を当てています。
[ナレーター]まず、ターミナルのコマンドで Rugged サービスを開始します。生物医学文献を抽出し、関連文書を特定し、caseOLAP LIFTを使用して高レベルのタンパク質疾患関係を特定します。caseOLAP LIFT JoVEプロトコルにアクセスし、caseOLAP LIFTテキストマイニング分析を実行します。次に、ターミナルで Know2BIO リポジトリのクローンを作成します。コマンドラインを使用して、create_edge_files.pyスクリプトを実行してナレッジベースリソースをダウンロードし、抽出パイプラインの進行状況を監視します。次に、prepare_kgs.pyスクリプトを使用してナレッジグラフを構築します。combine_kg_results.pyスクリプトの結果を統合して、テキストマイニング分析とナレッジグラフ構築から抽出された関係とエンティティを1つの包括的なグラフにマージします。ナレッジグラフを確認し、予測分析で使用する関連ノードを選択することで、関心のある生物医学エンティティを特定します。filter.py スクリプトを使用して、選択した対象疾患ノードから 2 ホップ以内に到達可能なサブグラフを抽出し、コマンドを実行します。予測するエッジと入力ナレッジグラフをコマンドライン引数として指定して予測分析スクリプトを実行し、出力を取得します。次に、Rugged Docker コンテナに接続します。前のターミナルウィンドウが閉じていた場合は、Dockerコンテナに再接続します。接続したら、コマンドラインで [Rugged with CD workspace Rugged] ディレクトリに移動し、このコマンドラインウィンドウ内で残りのすべての手順を実行します。サポートするすべてのサービスが実行されていることを確認したら、コマンドラインインターフェイスでRuggedを起動して、システムとの対話を開始します。ナレッジグラフをクエリするには、キーワード「query」で始まる自然言語で質問をします。たとえば、「ベータ遮断薬として分類されている現在処方されている薬は何ですか?」と入力します。キーワード「predict」で始まる質問で、リンク予測分析からの予測を調べます。次に、ステップ 2 の生物医学トピックに関連するドキュメントを、キーワード「検索」を使用して自然言語で取得します。同じターミナルウィンドウでRuggedのチャットのようなインターフェイスを使用して、問い合わせを繰り返し絞り込みます。必要に応じて、Neo4j で暗号コマンドを再実行して変更し、ナレッジグラフのクエリ結果を絞り込みます。キーワード「summarize」を使用して対話全体を要約して、後でレビューできるようにテキスト要約を出力し、要約を最終決定する前に、ヒューマン・イン・ザ・ループ・レビューを実施してシステム応答の読みやすさと精度を高めます。最後に、Rugged 内のログ フォルダー内のチャット ログを確認し、インタラクションの全文を調べます。Know2BIOを使用して構築されたナレッジグラフには、219,450のノードと6,323,257のエッジが含まれていました。Ruggedシステムは、ベクトル検索にBARTモデルを使用してナレッジグラフと出版物データを組み込み、500トークンを超える出版物をセクションごとに要約しました。
この記事では、大規模言語モデルの推論と検索増強生成を統合するプラットフォーム、RUGGED(Retrieval Under Graph-Guided Explainable disease Distinction)を紹介します。生物医学文献と知識ベースから新しい知識を統合し、仮説生成と生物医学的質問の探索を促進することを目的としています。