$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
これらの代表的な結果は、このプロトコルで概説されている手順に従って取得されました。テキストマイニング関連分析は、デフォルトパラメータを使用してCaseOLAP LIFTプロトコル5 に従って実行され、心血管疾患72 の8つの広範なカテゴリとミトコンドリアタンパク質(GO:0005739)との関連を研究した。2024年5月までに合計635,696件の報告がこれらの疾患に関連していると判断されました。その中で、4,655の信頼性の高いタンパク質と疾患の関連が同定され、下流の分析に情報を提供しました。生物医学知識グラフは、2024年5月にデフォルト設定を使用してKnow2BIOのソフトウェアコードを使用して構築されました9。結果として得られるナレッジグラフは、219,450 ノード、6,323,257 エッジ、および 189,493 ノードのノード特徴と、ノードの説明、タンパク質/遺伝子配列、化学構造など (利用可能な場合) で構成されます。プロトコルのすべてのステップの計算時間の推定値を 表 1 に示します。
RUGGEDシステムは、ナレッジグラフノードと機能の両方、およびCVD関連の出版物のベクトルデータベースを構築することによって初期化されました。すべてのナレッジグラフノード、エッジ、およびノード特徴は、RAGベクトル検索に備えるために、BART71 埋め込みモデルを使用して20トークンのチャンクサイズで処理されました。同様に、オリジナルの寄稿とレビュー記事は、500トークンのチャンクサイズとBART埋め込みモデルを使用して処理され、RAGベクトル検索の準備が行われました。文献検索では、500トークンを超える全文出版物は、BART埋め込みモデルによって出版物の個々のセクションに基づいて階層的に要約されました。GPT-4o モデルは、システム内の残りの LLM エージェントに使用されました。
これらの代表的な結果は、不整脈原性心筋症(ACM)と拡張型心筋症(DCM)の潜在的な薬物治療薬を調査するためのユースケースの例を示しています。それぞれMeSH_Disease:D019571とMeSH_Disease:D002311として識別されます。一連の問い合わせの概要を 図3に示し、モデル応答の強調表示された例を 図4に示し、完全な応答を 補足ファイル1のセクションAに報告します。調査の方向性は、調査員が検証した回答に合わせて調整され、以前の回答の結果に基づいて後続のクエリを作成しました。解析の結果、β遮断薬と抗不整脈薬に分類される11の薬剤候補が明らかになりました。治療治療の新たな道筋は、研究疾患および薬物ノードから1ホップ以内のノードとその相互接続を含む、完全なナレッジグラフのサブセットでGraph Convolutional Neural Networkリンク予測モデルを使用して評価され、評価指標は 表4 に報告されています。モデルによる各予測に関連する上位10のエッジを、グラフの説明可能性モジュールであるGNNExplainer44によってさらに調査し、各予測に寄与する上位ノードとエッジをそれぞれ特定しました。このユースケースでRUGGEDプロトコルのすべてのステップに商用LLMを使用した場合の総コストは、執筆時点で1.50ドルと見積もられています。

図1:RUGGED(Graph-Guided Explainable Disease Distinction)ワークフローでの検索。 RUGGEDは、(1)倫理的に調達され、専門的に管理されたリソース(PubMedやキュレーションされた生物医学知識ベースなど)からのデータの収集と処理、(2)査読済みの研究結果を統一されたナレッジグラフに統合する、(3)データベースサービス内でのテキストとグラフデータの構造化、(4)ナレッジグラフ内の生物医学的エンティティ間の説明可能な関係のモデリングと予測、の4つの主要なコンポーネントで構成されています。 (5)Retrieval Augmented Generation(RAG)ワークフロー(図2)を通じて知識を取得および合成し、複雑な分子関係を検証し、AI主導の疾患予測を探求します。ヒューマン・イン・ザ・ループのレビューステップをユーザーが実行して、出力の精度を高めることができます。 この図の拡大版を表示するには、ここをクリックしてください。

図2:検索アーキテクチャとバイアス軽減ワークフロー。 Retrieval Augmented Generation(RAG)フレームワークは、複数のLLMエージェントを使用し、それぞれが特定のタスクを実行して、ユーザークエリに基づく関連情報へのアクセスをサポートします。このシステムは、ユーザー向けのGPTベースの推論エージェントの文書化された証拠を提供し、ユーザーとエージェントの相互作用と知識の統合を促進します。(1)生物医学テキストの検索:査読済みのオリジナルの寄稿とレビュー記事は、疾患の関連性の理解との関連性に基づいてフィルタリングされます。ベクターデータベースは、著者と編集者が検証したテキストの証拠に対して構築され、それぞれ出版物の対応するセクションに基づいて重み付けされます(70%が要約、10%が結果、10%がメタデータ、10%がその他すべてのサブセクション)。キーワード検索と類似性検索により、ユーザークエリのテキスト埋め込みに対する検索により、関連するドキュメントが特定されます。各ドキュメントのサマリーは、BERTベースのサマライザーを使用して生成され、GPTベースのText Evaluator Agentが検索を絞り込んでクエリとドキュメントの関連性を検証します。(2) ナレッジグラフ検索:BERTベースの名前付きエンティティ認識およびGPTベースの関係抽出モジュールは、ユーザークエリをナレッジグラフ内の関連エンティティに接続します。ベクトルデータベースでの類似性検索では、関連するノードとエッジが特定されます。データは、GPTベースのCypher Query Agentによって生成されたCypherクエリを介してNeo4jデータベースから取得され、Query Verification Agentによって洗練されます。(3) Biomedical Text RetrievalまたはKnowledge Graph Retrievalパイプラインからの個々の応答は、推論エージェントに提示され、推論エージェントは、ユーザーのクエリに対するバイアスを最小限に抑えた簡潔な応答を合成します。このシステムは、事実情報を提示する際の正確性と公平性を維持するように導かれています。 この図の拡大版を表示するには、ここをクリックしてください。

図3:クエリカスケードによる知識統合と仮説探索のユースケース。この図は、研究者や医療専門家がRUGGEDシステムに提起する可能性のある一連の関連する質問と概念に焦点を当てた、強調表示されたユースケースを示しています。ユーザーからのクエリは番号順にシステムに提示され、矢印は各質問の中で推論された論理的およびドメイン固有の推論を表します。システムは、クエリに応答して、暗黙的で関連性のある情報 (ソースは青色で表示) から取得します。システム応答の例を図 4 に示します。この図の拡大版を表示するには、ここをクリックしてください。

図4:ユースケースの心血管病理学:CVDの病因を解明する。 ユーザーと RUGGED システム間のクエリと応答のペアが表示されます。左上のパネルでは、質問1〜6は、ナレッジグラフデータベースから情報を抽出して情報を取得し、証拠に基づく回答を定式化します。質問7では、説明可能なグラフリンク予測を使用して、最高得点の治療薬を特定します。クエリは予測分析を促し、予測分析はシステムによって自動的に実行および処理され、主要な結果は簡潔に要約されます。質問 8 では、予測された結果を検証、検証、および裏付けるために、関連する証拠として取得された定義されたテキスト データ コーパスからの文献証拠を評価します。システムの応答は、ヒューマン・イン・ザ・ループの検査プロセスによってレビューされ、読みやすさと簡潔さのために変更されています。これらの調査結果の完全なトランスクリプトは、 補足ファイル1に詳述されています。 この図の拡大版を表示するには、ここをクリックしてください。
| ステップス | 形容 | 時間 |
| 生物医学知識へのアクセス | 合計 30% |
| 生物医学文献コーパスの準備 | PubMed と PubMed Central に接続し、パブリケーションデータをダウンロードして解析し、ダウンストリームタスクに役立てることができます。 | 20% |
| ナレッジ ベース データの準備 | 生物医学のナレッジベースに接続し、ダウンストリームタスクに必要な情報をダウンロードして解析します。 | 5% |
| 情報抽出 | 合計 30% |
| CaseOLAP LIFTテキストマイニング分析 | 生物医学テキストコーパス内の高レベルの疾患-タンパク質関係を特定します。 | 25% |
| ナレッジグラフの構築 | 生物医学知識ベースからの異種情報を統合ナレッジグラフに接続し、統合します。 | 5% |
| 予測分析 | 合計 10% |
| グラフ ニューラル ネットワークの学習 | 生物医学ナレッジ グラフ データでモデルをトレーニングし、グラフ内の隠れたパターンを学習します。 | 5% |
| 関連性ランキング分析 | 説明可能性モジュールを適用して、疾患の研究に関連する最も関連性の高いノードとエッジを強調します。 | 2.5% |
| リンク予測 | 説明可能性モジュールを利用して、新しい予測エッジに寄与する主要なノードとエッジを特定します。 | 2.5% |
| 仮説の生成および/または検証 | 合計 30% |
| Retrieval Augmented Generation のデータベース設定 | ナレッジ グラフをクエリするためのグラフ データベースと、テキスト取得用のベクトル データベースを初期化します。 | 25% |
| 仮説探索 | RUGGEDとのユーザーインタラクションを可能にして、仮説探索のための関連情報にアクセスし、精査します。 | 5% |
表 1: ワークフローとレート制限の手順。 この表は、ワークフローの各段階に必要な計算時間の概算を示しています。レート制限のステップには、検索拡張生成に必要な生物医学的知識へのアクセス、抽出、およびインデックス作成が含まれます。仮説探索は、レート制限ステップを再実行することなく、継続的に繰り返すことができます。
| 疾患カテゴリー | MeSHツリー番号 | # PMIDs | # オリジナル投稿 | # レビュー記事 |
| 心筋症(CM) | C14.280.238 | 132,531 | 102,337 | 19,942 |
| C14.280.434 |
| 心不整脈(ARR) | C14.280.067 | 125,286 | 92,374 | 13,854 |
| C23.550.073 |
| 先天性心疾患(CHD) | C14.280.400 | 82,006 | 54,023 | 6,379 |
| 心臓弁膜症(VD) | C14.280.484 | 72,016 | 50,119 | 5,743 |
| 心筋虚血(IHD) | C14.280.647 | 256,986 | 210,042 | 30,223 |
| 心臓伝導系疾患(CCD) | C14.280.123 | 53,050 | 35,399 | 4,363 |
| 心室流出閉塞(VOO) | C14.280.955 | 22,244 | 15,504 | 1,686 |
| その他の心臓病(OTH) | C14.280.195 C14.280.282 C14.280.383 C14.280.470 C14.280.945 C14.280.459 C14.280.720 | 114,085 | 77,302 | 11,799 |
| トータル | 635,696 | 478,404 | 69,690 |
表2:生物医学文献の統計。 この表は、研究疾患のカテゴリーとそれに対応するMeSHツリー番号、およびテキストマイニングのコーパスとして使用される2024年5月までに取得されたPubMedドキュメントの数について詳しく説明しています。これらの出版物の一部は、オリジナルの寄稿研究論文と総説から構成され、仮説生成時にRUGGEDが取得できるようにベクターデータベースにインデックス化されます。
| カテゴリ | ノード数 | エッジの数 | データソース |
| 解剖学 | 5,049 | 122,533 | Bgee、PubMed、MeSH、Uberon、 |
| 生物学的プロセス | 27,047 | 108,106 | 遺伝子オントロジー |
| セルラーコンポーネント | 4,057 | 52,238 | 遺伝子オントロジー |
| 化合物 | 27,278 | 3,292,028 | DrugBank、MeSH、CTD、UMLS、KEGG、TTD、SIDER、Inxight Drugs、Hetionet、PathFX、MyChem.info |
| 病気 | 21,938 | 311,773 | PubMed, MeSH, DisGeNET, SIDER, ClinVar, ClinGen, PharmGKB, MyDisease.info, PathFX, UMLS, OMIM, Mondo, DOID, KEGG |
| 薬物クラス | 5,721 | 8,283 | ATCの |
| 遺伝子 | 29,810 | 943,419 | HGNC、GRNdb、KEGG、ClinVar、ClinGen、 |
| 分子機能 | 11,151 | 47,086 | SMPDB、DisGENET、PharmGKB、MyGene.info |
| 経路 | 52,012 | 234,944 | 遺伝子オントロジー |
| 蛋白質 | 20,740 | 1,074,809 | リアクトーム、KEGG、SMPDB |
| 反応 | 14,647 | 128,038 | UniProt、Reactome、TTD、SMPDB、STRING、HGNC |
| 小計 | 219,450 | 6,323,257 | リアクトーム |
| テキストマイニングの関連付け | 8 | 4,670 | |
| トータル | 219,458 | 6,327,927 | |
表 3: ナレッジ グラフの統計。 この表は、構築されたKnow2BIOナレッジグラフを構成する11の広範な生物医学カテゴリを詳述し、テキストマイニング分析と予測分析から導き出された追加のエッジで強化されています。結果として得られるナレッジグラフと予測は、Neo4jグラフデータベースによって管理され、仮説生成中にRUGGEDが取得できます。
| 精度 | 精度 | 思い出す | F1スコア | オーロック | AUPRCの |
| 検証 | 0.7158 | 0.6639 | 0.8743 | 0.7547 | 0.8437 | 0.8637 |
| 試験 | 0.703 | 0.6367 | 0.9455 | 0.761 | 0.8961 | 0.9094 |
表4:説明可能なAIモデルの評価。 次の表は、2 層グラフ畳み込みニューラル ネットワークを使用したナレッジ グラフ リンク予測の評価メトリックを示しています。メトリクスは、グラフのエッジを 85% のトレーニング、5% の検証、10% のテストデータセットに分割して評価しました。精度は、正しく分類された予測の割合を示します。精度は、すべての肯定的な予測のうち、正しい肯定的な予測の割合を報告します。再現率は、実際の正のエッジのうち、正しい正の予測の割合を測定します。F1スコアは、精度と再現率の調和平均であり、2つの指標のバランスが取れています。AUROC は、肯定的な予測と否定的な予測を区別するモデルの能力を評価します。AUPRCは、異なる閾値間での精度と再現率のトレードオフを定量化します。すべてのメトリクスで、値が大きいほどモデルのパフォーマンスが優れていることを示します。
補足ファイル1: このファイルでは、RUGGEDからの完全なモデル応答とGPT-4oとの比較について詳しく説明します。 セクションA では、RUGGEDとの完全なヒューマン・コンピュータ・インタラクションを示し、 図3 で概説したクエリ・チェーン・アプローチを拡張し、 図4で強調した要約を超えた完全なレスポンスを提供します。 セクションB では、GPT-4oの応答をRUGGEDの応答と比較して検索せずに評価し、精度、深さ、信頼性スコアリング、証拠の信頼性、コストなどの属性を評価します。 このファイルをダウンロードするには、ここをクリックしてください。