Summary
生物医学レポートに記載されているように、ミトコンドリアタンパク質とその心血管疾患との関連を調査するための計算プロトコル、CaseOLAP LIFT、およびユースケースが提示されています。このプロトコルは、ユーザーが選択した細胞成分および疾患の研究に容易に適合させることができる。
Abstract
急速に増加し、膨大な量の生物医学レポートは、それぞれが多数のエンティティと豊富な情報を含み、生物医学テキストマイニングアプリケーションのための豊富なリソースを表しています。これらのツールにより、研究者はこれらの発見を統合、概念化、および翻訳して、疾患の病理学と治療法に関する新しい洞察を明らかにすることができます。このプロトコルでは、テキストデータセット(生物医学文献など)からユーザーが選択した情報を抽出することにより、細胞成分とその疾患関連を調査するための新しい計算パイプラインであるCaseOLAP LIFTを紹介します。このソフトウェアは、疾患関連文書内で細胞内タンパク質とその機能的パートナーを識別します。追加の疾患関連文書は、ソフトウェアのラベル補完方法 によって 識別されます。結果として生じるタンパク質と疾患の関連性をコンテキスト化し、複数の関連する生物医学リソースからの情報を統合するために、さらなる分析のために知識グラフが自動的に構築されます。オンラインでダウンロードされた~3,400万のテキスト文書のコーパスを使用した1つのユースケースを提示し、この方法を使用して、異なる心血管疾患の表現型におけるミトコンドリアタンパク質の役割を解明する例を示します。さらに、得られた知識グラフに深層学習モデルを適用して、これまで報告されていないタンパク質と疾患の関係を予測し、テストセットで予測確率>0.90、レシーバー動作特性曲線下面積(AUROC)0.91との関連が1,583件ありました。このソフトウェアは、高度にカスタマイズ可能で自動化されたワークフローを備えており、幅広い生データを分析に利用できます。したがって、この方法を使用すると、テキストコーパス内で信頼性の高いタンパク質と疾患の関連を識別できます。
Introduction
疾患関連タンパク質を研究することは、病因の科学的知識を高め、潜在的な治療法を特定するのに役立ちます。出版物のタイトル、抄録、全文文書を含むPubMedの3,400万件の記事など、生物医学出版物のいくつかの大きなテキストコーパスは、タンパク質と疾患を結びつける新しい発見を報告しています。ただし、これらの調査結果はさまざまなソースに断片化されており、新しい生物医学的洞察を生成するには統合する必要があります。タンパク質と疾患の関連を統合するために、いくつかの生物医学的リソースが存在します1,2,3,4,5,6,7。ただし、これらの厳選されたリソースは不完全であることが多く、最新の研究結果を網羅していない場合があります。テキストマイニングアプローチは、大きなテキストコーパスでタンパク質と疾患の関連を抽出して合成するために不可欠であり、科学文献におけるこれらの生物医学的概念のより包括的な理解につながります。
タンパク質と疾患の関係を明らかにするために複数の生物医学的テキストマイニングアプローチが存在し8、9、10、11、12、13、14、およびテキスト13、15、16、17で言及されているタンパク質、疾患、または他の生物医学的実体を同定することによってこれらの関係を決定することに部分的に貢献する。18,19。ただし、これらのツールの多くは、定期的に更新されるいくつかの文献を除いて、最新の文献にアクセスできません8,11,13,15。同様に、多くのツールは、広く事前定義された疾患またはタンパク質に限定されているため、研究の範囲も限られています9,13。いくつかのアプローチは、テキスト内の誤検知を特定する傾向もあります。他の人は、タンパク質名の解釈可能なグローバルブラックリスト9、11、または解釈可能性の低い名前エンティティ認識技術15、20でこれらの問題に対処しています。ほとんどのリソースは事前に計算された結果のみを提供しますが、一部のツールはWebアプリまたはアクセス可能なソフトウェアコード8、9、11を介した双方向性を提供します。
上記の制限に対処するために、テキストデータセットからタンパク質(細胞成分に関連するタンパク質など)と疾患との関連を調査するための柔軟でカスタマイズ可能なプラットフォームとして、ラベル補完とフルテキスト(CaseOLAP LIFT)を備えた次のプロトコルCaseOLAPを紹介します。このプラットフォームは、遺伝子オントロジー(GO)用語特異的タンパク質(オルガネラ特異的タンパク質など)の自動キュレーション、欠落している文書トピックラベルの補完、全文文書の分析、および分析ツールと予測ツールを備えています(図1、図2、および表1)。CaseOLAP LIFTは、ユーザーが用意したGO用語(オルガネラコンパートメントなど)を使用してオルガネラ特異的タンパク質をキュレーションし、STRING21、Reactome 22、およびGRNdb23を使用して機能的に関連するタンパク質をキュレーションします。疾患研究文書は、PubMed注釈付き医療主題ヘッダー(MeSH)ラベルによって識別されます。ラベルのない文書の~15.1%については、タイトルに少なくとも1つのMeSH用語の同義語が見つかった場合、または要約に少なくとも2つ見つかった場合、ラベルが補完されます。これにより、以前に分類されていなかった文書をテキスト マイニング分析で考慮できます。CaseOLAP LIFTでは、指定された期間(例:2012-2022)内に出版物のセクション(タイトルと抄録のみ、フルテキスト、メソッドを除くフルテキストなど)を選択することもできます。また、このソフトウェアは、ユースケース固有のタンパク質名のブラックリストを半自動的にキュレートし、他のアプローチに存在する偽陽性のタンパク質と疾患の関連を大幅に低減します。全体として、これらの改善により、カスタマイズ性と自動化が向上し、分析に利用できるデータの量が増え、大規模な生物医学テキストコーパスからより信頼性の高いタンパク質と疾患の関連付けが可能になります。
CaseOLAP LIFTは、生物医学的知識を組み込み、グラフ内の隠れた関係を予測するために活用される知識グラフを使用して、さまざまな生物医学的概念の関係を表現します。近年、グラフベースの計算手法は、生物医学的概念の統合と整理24,25、薬物の転用と開発26,27,28、およびプロテオミクスデータからの臨床的意思決定29を含む生物学的設定に適用されています。
ナレッジグラフの構築設定におけるCaseOLAP LIFTの有用性を示すために、ミトコンドリアタンパク質と8つのカテゴリーの心血管疾患との関連を調査するユースケースを強調します。~362,000の疾患関連文書からのエビデンスを分析し、疾患に関連する上位のミトコンドリアタンパク質および経路を特定した。次に、これらのタンパク質、それらの機能的に関連するタンパク質、およびそれらのテキストマイニング結果を知識グラフに組み込みました。このグラフは、ディープラーニングベースのリンク予測分析で活用され、生物医学出版物でこれまで報告されていないタンパク質と疾患の関連を予測しました。
導入セクションでは、プロトコルの背景情報と目的について説明します。次のセクションでは、計算プロトコルの手順について説明します。続いて、このプロトコルの代表的な結果について説明します。最後に、計算プロトコルのユースケース、利点、欠点、および将来のアプリケーションについて簡単に説明します。
Protocol
1.ドッカーコンテナの実行
- ターミナル ウィンドウを使用して CaseOLAP LIFT ドッカー コンテナーをダウンロードし、 ドッカー プル caseolap/caseolap_lift:latest と入力します。
- すべてのプログラムデータと出力を格納するディレクトリを作成します(例: mkdir caseolap_lift_shared_folder)。
- コマンド docker run --name caseolap_lift -it -v PATH_TO_FOLDER:/caseolap_lift_shared_folder caseolap/ caseolap_lift:latest bash を使用して、フォルダーの完全なファイル パスとして PATH_TO_FOLDER を使用して、ドッカー コンテナーを起動します (例: / Users/caseolap/caseolap_lift_shared_folder)。セクション 2 の今後のコマンドは、このターミナル ウィンドウで発行されます。
- コンテナー内でエラスティック検索を開始します。新しいターミナル ウィンドウで、「 docker exec -it --user elastic caseolap_lift bash /workspace/start_elastic_search.sh」と入力します。
注: このプロトコルでは、CaseOLAP LIFT は対話形式で実行され、すべてのステップが順番に実行されます。この分析は、パラメーター.txtファイルとして渡すことで、エンドツーエンドで実行することもできます。この調査で使用したパラメーター.txtは /workspace/caseolap_lift/parameters.txt にあります。各手順の詳細にアクセスするには、- -help フラグを指定してコマンドを実行するか、GitHub リポジトリ (https://github.com/CaseOLAP/caseolap_lift) のドキュメントを参照してください。
2.病気とタンパク質の準備
- cd /workspace/caseolap_lift でcaseolap_liftフォルダに移動します
- config/knowledge_base_links.json のダウンロード リンクが、各ナレッジ ベース リソースの最新バージョンに対して最新かつ正確であることを確認します。デフォルトでは、ファイルは一度だけダウンロードされます。これらのファイルを更新して再ダウンロードするには、手順 2.4 の -r を指定して前処理手順を実行します。
- この研究に使用するGO用語と疾患カテゴリを決定します。すべての GO 用語と MeSH 識別子の識別子をそれぞれ http://geneontology.org/ と https://meshb.nlm.nih.gov/ で見つけます。
- コマンドラインオプションを使用して前処理モジュールを実行します。この前処理ステップでは、特定の疾患をアセンブルし、研究するタンパク質をリストし、テキストマイニング用のタンパク質シノニムを収集します。ユーザー定義の研究済みGO用語を-cフラグを使用して示し、疾患MeSHツリー番号を-dフラグを使用して示し、-aで略語を指定します。
コマンドの例:
python caseolap_lift.py 前処理 -a "CM ARR CHD VD IHD CCD VOO OTH" -d "C14.280.238,C14.280.434 C14.280.067,C23.550.073 C14.280.400 C14.280.484 C14.280.647 C14.280.123 C14.280.955 C14.280.195,C14.280.282,C14.280.383,C14.280.470,
C14.280.945,C14.280.459,C14.280.720" -c "GO:0005739" --include-synonyms --include-ppi -k 1 -s 0.99 --include-pw -n 4 -r 0.5 --include-tfd - 出力フォルダー内の前の手順のカテゴリ.txt、core_proteins.txt、およびproteins_of_interest.txtファイルを調べます。カテゴリ内のすべての疾患カテゴリー.txtが正しく、妥当な量のタンパク質がcore_proteins.txtおよびproteins_of_interest.txt内で識別されていることを確認します。必要に応じて、ステップ2.4を繰り返し、タンパク質の数を増やすまたは少なくするようにパラメータを変更します。
注:研究に含まれるタンパク質の数は、--include-ppi、--include-pw、および--include-tfdフラグによって決定され、それぞれタンパク質間相互作用、リアクトーム経路を共有するタンパク質、および転写因子依存性を有するタンパク質が含まれます。それらの特定の機能は、-k、-s、-n、および -r などの追加のフラグで指定されます (ドキュメントを参照)。
3.テキストマイニング
- 前の手順の カテゴリ.txt、core_proteins.txt、および proteins_of_interest.txt ファイルが出力フォルダーにあることを確認します。これらのファイルをテキストマイニングの入力として使用します。必要に応じて、 config フォルダー内のドキュメントの解析とインデックス作成に関連する構成を調整します。構成とトラブルシューティングの詳細については、以前のバージョンの CaseOLAP プロトコルを参照してください。 8.
- Python caseolap_lift.py text_miningでテキストマイニングモジュールを実行します。未分類の文書のトピックを置き換えるには -l フラグを追加し、疾患関連文書の全文をダウンロードするには -t フラグを追加します。その他のオプションのフラグは、ダウンロードする出版物の日付範囲を指定し(-d)、タンパク質名をスクリーニングするオプションを提供します(ステップ3.3で説明)。解析された文書のサンプルを図 3 に示します。
コマンドの例: python caseolap_lift.py text_mining -d "2012-10-01,2022-10-01" -l -t
注:計算プロトコル時間の大部分はステップ3.2に費やされ、24時間を超える可能性があります。ランタイムは、ダウンロードするテキスト コーパスのサイズによって異なり、日付範囲と、ラベルの代入とフルテキスト機能が有効になっているかどうかによっても異なります。 - (推奨)タンパク質名をスクリーニングします。疾患関連の出版物で同定されたタンパク質名は、タンパク質疾患の関連に寄与するが、偽陽性(すなわち、他の単語との同音異義語)になりやすい。これに対処するには、ブラックリスト(config/remove_these_synonyms.txt)で可能な同音異義語を列挙して、ダウンストリームステップから除外されるようにします。
- 検査する名前を検索: 結果フォルダーの下で、関心のあるスコアに応じて、 all_proteinsまたはcore_proteins (ranked_synonyms/ranked_synonyms_TOTAL.txt)で頻度が最も高いタンパク質名と 、ranked_proteinsのフォルダーでスコアが最も高いタンパク質名を見つけます。名前が多い場合は、最もスコアの高い名前の検査を優先します。
- 名前を調べる: python caseolap_lift.py text_mining -c に続けてタンパク質名を入力すると、最大 10 個の名前を含む出版物が表示されます。次に、名前ごとに、名前がタンパク質特異的かどうかを確認します。
- スコアを再計算する: python caseolap_lift.py text_mining -s と入力します。手順 3.1 の名前が正しく表示されるまで、手順 3.1、手順 3.2、および手順 3.3 を繰り返します。
4. 結果の分析
- テキスト マイニングの結果が、分析ステップの入力として使用される結果フォルダー (結果/all_proteins ディレクトリ、結果/core_proteins ディレクトリと関連ファイルなど) にあることを確認します。具体的には、各タンパク質と疾患の関連性の強さを示すスコアが、テキストマイニングの結果であるカゼオラップ.csvで報告されています。--analyze_core_proteins を指定して GO-term 関連タンパク質のみを含めるか、--analyze_all_proteins を指定して機能的に関連するすべてのタンパク質を含めることで、分析に使用するテキストマイニング結果のセットを指定します。
- 各疾患の上位のタンパク質と経路を特定します。有意なタンパク質と疾患の関連は、スコアが指定された閾値を超えるものとして定義されます。Z スコアは、各疾患カテゴリー内の CaseOLAP スコアを変換し、指定されたしきい値 ( -z フラグで示される) を超えるスコアを持つタンパク質を有意と見なします。
注:各疾患に重要な生物学的経路は、リアクトーム経路分析の入力として重要なタンパク質を使用して自動的に識別されます。このようなタンパク質はすべて、analysis_resultsフォルダー内の結果のresult_table.csvで報告され、関連する図とパスウェイ分析結果がanalysis_resultsフォルダーで自動的に生成されます。
コマンドの例: python caseolap_lift.py analyze_results -z 3.0 --analyze_core_proteins - 解析結果を確認し、必要に応じて調整します。タンパク質の数、したがって、各疾患カテゴリーに有意な濃縮リアクトーム経路は、分析に使用されるzスコア閾値に依存します。 出力/analysis_results/zscore_cutoff_table.csvで生成されるzスコア表は、各疾患カテゴリーに有意ないくつかのタンパク質を生成しながら、可能な限り高いzスコア閾値の選択を支援するために、各疾患カテゴリーに有意なタンパク質の数を示します。
5.予測分析
- ナレッジ グラフを作成します。
- 前処理で生成された kg フォルダー (手順 2.4) や、all_proteins フォルダーまたは core_proteins フォルダーの下のテキスト マイニング結果から生成された caseola.csv p フォルダー (手順 3.2) など、必要なファイルが結果フォルダーにあることを確認します。
- ナレッジグラフを設計します。ダウンストリーム タスクに応じて、完全なナレッジ グラフのコンポーネントを含めるか除外します。ナレッジグラフは、テキストマイニングからのタンパク質疾患スコアと、ステップ2.4で使用したナレッジベースリソースへの接続で構成されています(図4)。--include_mesh フラグ付きのMeSH疾患ツリー、--include_ppiによるSTRINGからのタンパク質間相互作用、--include_pwによる共有リアクトーム経路、および--include_tfdによるGRNdb/GTExからの転写因子依存性が含まれます。
- ナレッジグラフ構築モジュールを実行します。GO-term 関連タンパク質のみを含めるには --analyze_core_proteins を指定し、機能的に関連するすべてのタンパク質を含めるには --analyze_all_proteins を指定して、分析に使用するテキストマイニング結果のセットを指定します。デフォルトでは、生の CaseOLAP スコアは、タンパク質ノードと疾患ノードの間のエッジウェイトとしてロードされます。エッジのウェイトをスケーリングするには、--use_z_score を指定するか、負でない Z スコアを --scale_z_score で指定します。
コマンドの例: python caseolap_lift.py prepare_knowledge_graph --scale_z_score
- 新しいタンパク質と疾患の関連を予測します。
- ナレッジグラフファイル merged_edges.tsv と merged_nodes.tsvが前のステップ(ステップ5.1.3)から出力されていることを確認します。
- ナレッジグラフ予測スクリプトを実行して、 Python kg_analysis/run_kg_analysis.pyと入力して、科学文献内でこれまで報告されていないタンパク質と疾患の関連を予測します。これはGraPE30 で実装され、DistMult31 を使用して知識グラフ埋め込みを生成し、多層パーセプトロンがタンパク質と疾患の関連を予測するために使用します。 出力/kg_analysisフォルダーには、予測確率 >0.90 (予測.csv) の予測とモデル評価メトリック (eval_results.csv) が保存されます。
注:この作業では、選択されたモデルパラメータ(埋め込み方法、リンク予測モデル、ハイパーパラメータなど)を代表的な研究に合わせて調整しました。このコードは、他の分析の例として、また開始点として機能します。モデル パラメーターを調べるには、GraPE のドキュメント (https://github.com/AnacletoLAB/grape) を参照してください。
Representative Results
代表的な結果は、ミトコンドリアタンパク質(表2)と8つの心血管疾患カテゴリー(表3)との関連を研究するために、このプロトコルに従って作成されました。これらのカテゴリでは、2012年から2022年10月までに発行された363,567件の出版物が見つかりました(MeSHメタデータで分類された362,878件、ラベル補完で分類された6,923件)。すべての出版物にタイトルがあり、276,524冊に抄録があり、51,065冊に全文がありました。全体として、照会された1,687のミトコンドリアタンパク質のうち584が出版物内で同定され、照会された8,026の機能的に関連するタンパク質のうち3,284が同定された。合計で、14のユニークなタンパク質がすべての疾患カテゴリーで有意なスコアで同定され、zスコアの閾値は3.0でした(図5)。これらのタンパク質のリアクトーム経路解析により、すべての疾患に有意な12の経路が明らかになりました(図6)。すべてのタンパク質、経路、疾患、およびスコアを知識グラフに統合しました(表4)。このナレッジグラフを活用して、12,688の新規タンパク質と疾患の関連を予測し、0.90の確率スコアでフィルタリングして、1,583の信頼性の高い予測を生成しました。2つのタンパク質と疾患の関連を強調した例を 図7に示し、タンパク質に機能的に関連する他の関連する生物学的実体の文脈で示しています。モデル評価メトリックを 表 5 に示します。
図 1: ワークフローの動的ビュー。 この図は、このワークフローの 4 つの主要なステップを表しています。まず、関連するタンパク質は、ユーザ提供のGO用語(例えば、細胞成分)に基づいてキュレーションされ、疾患カテゴリは、ユーザ提供の疾患MeSH識別子に基づいて調製される。次に、タンパク質と疾患の関連性は、テキストマイニングステップで計算されます。特定の日付範囲内のパブリケーションがダウンロードされ、インデックスが作成されます。疾患研究の出版物が識別され(MeSHラベルを介して 、オプションで補完ラベル を介して )、それらの全文がダウンロードされ、索引付けされます。タンパク質名は出版物内で照会され、タンパク質と疾患の関連スコアを計算するために使用されます。次に、テキストマイニングに続いて、これらのスコアは、上位のタンパク質と経路の関連性を特定するのに役立ちます。最後に、生物医学的知識ベース内のこれらのタンパク質、疾患、およびそれらの関係を網羅する知識グラフが構築されます。新規タンパク質と疾患の関連は、構築された知識グラフに基づいて予測されます。これらの手順では、生物医学ナレッジベースとPubMedから入手可能な最新のデータを使用します。 この図の拡大版を表示するには、ここをクリックしてください。
図2:ワークフローの技術アーキテクチャ。 このワークフローの技術的な詳細を次の図に示します。ユーザーは、疾患カテゴリとGO用語のMeSHツリー番号を提供します。テキスト文書はPubMedからダウンロードされ、疾患関連文書は提供されたMeSHラベルに基づいて識別され、トピックを示すMeSHラベルのない文書は帰属カテゴリラベルを受け取ります。指定されたGO項に関連するタンパク質が取得されます。このタンパク質セットは、タンパク質間相互作用、共有生物学的経路、および転写因子依存性 を介して 機能的に関連するタンパク質を含むように拡張されます。これらのタンパク質は、疾患関連文書内で照会され、CaseOLAPによってスコアリングされます。 この図の拡大版を表示するには、ここをクリックしてください。
図 3: 処理されたドキュメントの例。 ここでは、解析され、インデックスが付けられたテキスト ドキュメントの例を示します。関連するフィールドは、インデックス名(_index、_type)、PubMed ID(_id、pmid)、ドキュメントのサブセクション(タイトル、要約、full_text、序論、方法、結果、ディスカッション)、およびその他のメタデータ(年、MeSH、場所、ジャーナル)を示します。表示目的でのみ、ドキュメントのサブセクションは省略記号で切り捨てられます。MeSHフィールドには、ラベル補完ステップによって提供される場合があるドキュメントトピックが含まれています。 この図の拡大版を表示するには、ここをクリックしてください。
図4:ナレッジグラフスキーマと生物医学リソース。 この図は、ナレッジ グラフのスキーマを示しています。各ノードとエッジは、それぞれノードまたはエッジ タイプを表します。心血管疾患(CVD)とタンパク質の間のエッジは、CaseOLAPスコアによって重み付けされます。タンパク質間相互作用(PPI)エッジは、STRING信頼度スコアによって重み付けされます。GRNdb/GTEx由来の転写因子依存性(TFD)エッジ、MeSH由来の疾患ツリーエッジ、およびリアクトーム由来経路エッジは重み付けされていません。 この図の拡大版を表示するには、ここをクリックしてください。
図5:上位のタンパク質と疾患の関連。 この図は、各疾患カテゴリーに有意なミトコンドリアタンパク質を示しています。Zスコア変換を各カテゴリ内のCaseOLAPスコアに適用し、3.0の閾値を使用して有意なタンパク質を同定しました。(トップ)各疾患に有意なミトコンドリアタンパク質の数:これらのバイオリンプロットは、各疾患カテゴリのタンパク質のZスコアの分布を示しています。各疾患カテゴリーに有意なタンパク質の総数は、各バイオリンプロットの上に示されています。合計14のユニークなタンパク質がすべての疾患で有意であると同定され、いくつかのタンパク質は複数の疾患に有意でした。(下)トップスコアのタンパク質:ヒートマップには、すべての疾患で最も高い平均Zスコアを獲得した上位10のタンパク質が表示されます。空白の値は、タンパク質と疾患との間に得られたスコアがないことを表す。 この図の拡大版を表示するには、ここをクリックしてください。
図6:上位経路と疾患の関連。 この図は、リアクトーム経路分析 によって 決定された、研究対象の疾患カテゴリーに関連する上位の生物学的経路を示しています。すべての経路解析を p < 0.05でフィルタリングした。ヒートマップ値は、経路内のすべてのタンパク質の平均Zスコアを表します。(トップ)すべての疾患の中で保存された経路:全体として、14のタンパク質がすべての疾患カテゴリーに関連すると同定され、すべての疾患カテゴリーの中で12の保存された経路が明らかになりました。樹形図は、経路の階層構造に基づいて構築され、経路を同様の生物学的機能とリンクします。樹形図の高さは、経路階層内の相対的な深さを表します。幅広い生物学的機能はより長い四肢を有し、より特異的な経路はより短い四肢を有する。(下)疾患カテゴリーに異なる経路:各疾患で有意なzスコアを達成したタンパク質を用いて経路解析を実施した。各疾患に関連する p値が最も低い上位3つの経路が示され、アスタリスクで示されます。経路は、複数の疾患で上位3位以内に入る可能性があります。 この図の拡大版を表示するには、ここをクリックしてください。
図7:知識グラフの完成のための深層学習の適用。 この図は、疾患固有の知識グラフに深層学習を適用した例を示しています。タンパク質と疾患の隠れた関係が予測され、青色で示されています。両方の予測の計算された確率が表示され、値は 0.0 から 1.0 の範囲で、1.0 は強い予測を示します。既知の相互作用を持ついくつかのタンパク質が含まれており、タンパク質間相互作用、転写因子依存性、および共有生物学的経路を表しています。視覚化のために、強調表示された例に関連するいくつかのノードのサブグラフが表示されます。キー:IHD =虚血性心疾患;R-HSA-1430728 =代謝;O14949 = シトクロムb-c1複合体サブユニット8;P17568 = NADHデヒドロゲナーゼ(ユビキノン)1ベータサブコンプレックスサブユニット7;Q9NYF8 Bcl-2関連転写因子1、スコア:7.24 x 10−7;P49821 = NADHデヒドロゲナーゼ(ユビキノン)フラボタンパク質1、ミトコンドリア、スコア:1.06 x 10−5;P31930 =シトクロムb-c1複合体サブユニット1、ミトコンドリア、スコア:4.98 x 10−5;P99999 =シトクロムc、スコア:0.399。 この図の拡大版を表示するには、ここをクリックしてください。
表 1: ワークフローとレート制限の手順。 次の表は、ワークフローの各段階の計算時間の大まかな見積もりを示しています。パイプラインのコンポーネントを含めるオプションによって、分析を完了するために必要な合計ランタイムが変更されます。合計時間の見積もりは、ハードウェアの仕様やソフトウェアの設定など、使用可能な計算リソースによって異なります。大まかな見積もりとして、プロトコルは、6つのコア、32 GbのRAM、および2 Tbのストレージを備えた計算サーバーで実行するのに36時間のアクティブなランタイムを要しましたが、これは他のデバイスでは高速または低速になる可能性があります。 この表をダウンロードするには、ここをクリックしてください。
表2:細胞成分タンパク質の自動組み立て。 この表は、特定の細胞成分(すなわち、GO項)、タンパク質間相互作用(PPI)、共有経路(PW)、および転写因子依存性(TFD) を介して それらに機能的に関連するタンパク質に関連するタンパク質の数を示しています。総タンパク質数は、以前のすべてのカテゴリーからのタンパク質の数を合わせたものである。すべての機能的に関連するタンパク質は、CaseOLAP LIFTのデフォルトパラメータを使用して取得されました。 この表をダウンロードするには、ここをクリックしてください。
表3:MeSHラベル補完統計。 この表には、疾患カテゴリ、カテゴリに含まれるすべての疾患の親用語として使用されるMeSHツリー番号、2012年から2022年までの各カテゴリで見つかったPubMed記事の数、およびラベル補完ステップに基づいて含まれる追加の記事の数が表示されます。 この表をダウンロードするには、ここをクリックしてください。
表4:ナレッジグラフ構築統計。 この表では、さまざまなノードやエッジタイプなど、構築されたナレッジグラフのサイズに関する統計について説明します。CaseOLAP スコアは、タンパク質と心血管疾患 (CVD) カテゴリの関係を表します。 この表をダウンロードするには、ここをクリックしてください。
表 5: ナレッジ グラフの予測統計と検証。 この表は、新規/隠れたタンパク質と疾患の関連に関する知識グラフリンク予測の評価指標を報告します。ナレッジ グラフのエッジは 70/30 のトレーニング データセットとテスト データセットに分割され、エッジのグラフ接続性は両方のデータセットで維持されました。精度は正しく分類された予測の割合を示し、バランス精度はクラスの不均衡を補正します。特異度は、正しく分類された否定予測の割合を示します。精度は、すべての正の予測のうち、正しい正の予測の割合を示し、再現率は、すべての正のエッジ(つまり、テキストマイニング によって 識別されたタンパク質と疾患の関連)のうち、正しい正の予測の割合を示します。F1スコアは、精度と再現率の調和平均です。受信者動作特性曲線 (AUROC) の下の領域は、モデルが正の予測と負の予測をどの程度区別するかを表し、1.0 は完全な分類器を示します。精度再現率曲線 (AUPRC) の下の領域は、さまざまな確率しきい値で精度と再現率の間のトレードオフを測定し、値が大きいほどパフォーマンスが高いことを示します。 この表をダウンロードするには、ここをクリックしてください。
Discussion
CaseOLAP LIFTは、機能性タンパク質(細胞成分、生物学的プロセス、分子機能に関連するタンパク質など)と生物学的カテゴリー(疾患など)との関連を調査することを可能にします。記述されたプロトコルは、プロトコルセクション4およびプロトコルセクション5が結果に依存するため、プロトコルセクション2およびプロトコルセクション3が最も重要なステップである、指定された順序で実行されるべきである。プロトコル セクション 1 の代わりに、CaseOLAP LIFT コードを複製し、GitHub リポジトリ (https://github.com/CaseOLAP/caseolap_lift) からアクセスできます。ソフトウェア開発中のテストにもかかわらず、バグが発生する可能性があることに注意してください。その場合は、失敗した手順を繰り返す必要があります。問題が解決しない場合は、プロトコルセクション1を繰り返して、最新バージョンのDockerコンテナが使用されていることを確認することをお勧めします。追加のサポートのために GitHub リポジトリで問題を作成することで、さらにサポートを受けることができます。
この方法は、研究者が関心のあるエンティティを特定し、既存の生物医学リソースでは簡単にアクセスできない可能性のあるそれらの間の潜在的な関連性を明らかにすることを可能にすることにより、仮説の生成をサポートします。結果として生じるタンパク質と疾患の関連性により、研究者はスコアの解釈可能な指標を介して新しい洞察を得ることができます:人気スコアは疾患に関連して最も研究されているタンパク質を示し、識別性スコアはタンパク質に最も固有の疾患を示し、結合されたCaseOLAPスコアは2つの組み合わせです。誤検知の識別(同音異義語など)を防ぐために、一部のテキストマイニングツールは用語のブラックリストを利用して9,11を回避します。同様に、CaseOLAP LIFTもブラックリストを利用しますが、ユーザーはユースケースに合わせてブラックリストを調整できます。たとえば、冠状動脈疾患(CAD)を研究する場合、「CAD」はタンパク質「カスパーゼ活性化デオキシリボヌクレアーゼ」の名前と見なされるべきではありません。ただし、他のトピックを勉強するとき、「CAD」は通常タンパク質を指す場合があります。
CaseOLAP LIFT は、テキスト マイニングに使用できるデータの量に適応します。日付範囲機能は、計算負荷を軽減し、仮説生成のための柔軟性を生み出します(例えば、タンパク質と疾患の関連に関する科学的知識が時間とともにどのように変化したかを研究する)。一方、ラベル補完コンポーネントとフルテキストコンポーネントは、テキストマイニングに使用できるデータの範囲を拡張します。計算コストを削減するために、両方のコンポーネントは既定で無効になっていますが、ユーザーはどちらかのコンポーネントを含めることを決定できます。ラベルの代入は保守的であり、ほとんどの出版物を正しく分類しますが(87%の精度)、他のカテゴリラベルを見逃しています(2%の再現率)。この方法は現在、疾患キーワードに一致するルールベースのヒューリスティックに依存しており、ドキュメントトピックモデリング手法を使用してパフォーマンスを向上させる予定です。多くの未分類のレポートは最近の出版物である傾向があるため、最近の日付範囲(たとえば、過去3年以内のすべての出版物)を調査する研究は、ラベルの帰属を無効にする方が適切です。フルテキスト コンポーネントを使用すると、ランタイムとストレージの要件が増加します。特に、全文が利用可能な文書はごくわずかです(私たちの調査では文書の~14%)。出版物の方法セクションに記載されているタンパク質名が疾患トピックに関連している可能性が低いと仮定すると、方法のセクションを除く全文記事を照会することをお勧めします。
得られたタンパク質と疾患の関連スコアは、クラスタリング、次元削減、エンリッチメント解析(GO、パスウェイなど)などの従来の解析に役立ち、このソフトウェアパッケージにいくつかの実装が含まれています。既存の生物医学的知識の中でこれらのスコアを文脈化するために、知識グラフが自動的に構築され、グラフ視覚化ツール(例えば、Neo4j32、Cytoscape33)を使用して探索することができる。ナレッジグラフは、予測分析(例えば、報告されていないタンパク質と疾患の関係のリンク予測、タンパク質ネットワークのコミュニティ検出、賞品収集パスウォーキング方法)にも使用できます。
予測されたタンパク質と疾患の関連に関するモデル評価指標を調べました(表5)。このモデルでは、各タンパク質と疾患の関連に 0.0 から 1.0 の間の確率スコアが割り当てられ、スコアが 1.0 に近いほど予測の信頼度が高いことを示します。AUROC、精度、バランス精度、特異性、再現率などのさまざまな指標に基づいたモデルパフォーマンスの内部評価は、彼の研究で優れた全体的なパフォーマンスを示しました。ただし、評価では、モデルの精度(0.15)のスコアがかなり低いことも強調され、AUPRCとF1の両方のスコアが低くなりました。このメトリックを改善するための今後の調査は、モデルの全体的なパフォーマンスを向上させるのに役立ちます。これは、より高度な知識グラフ埋め込みモデルとグラフ予測モデルを実装することで実現できると考えています。モデルの精度0.15に基づいて、調査員は約15%の肯定的な識別を期待する必要があります。特に、モデルによって予測された12,688のタンパク質と疾患の関連すべてのうち、約15%が真陽性の関連です。これは、高い確率スコア(例えば、>0.90)を有するタンパク質と疾患の関連のみを考慮することによって軽減することができる。このユース ケースでは、確率しきい値を 0.90 にフィルター処理すると、1,583 個の関連付けの信頼度の高い予測が得られました。研究者は、これらの予測を手動で検査して、高い妥当性を確認することも役立つ場合があります(例として 図7 を参照)。我々の予測の外部評価により、広範なキュレーションされたデータベースDisGeNet 19からの310のタンパク質と疾患の関連のうち、103がテキストマイニング研究で特定され、88の追加の関連が確率スコア>0.90で知識グラフ分析によって予測されたことが判明しました。
全体として、CaseOLAP LIFTは、大きなテキストコーパスにおける機能性タンパク質群と複数のカテゴリーの疾患との関連をカスタム分析する上で、柔軟性と使いやすさが向上しています。このパッケージは、新しいユーザーフレンドリーなコマンドラインインターフェイスで合理化され、Dockerコンテナとしてリリースされるため、プログラミング環境とソフトウェアの依存関係の構成に関連する問題が軽減されます。心血管疾患におけるミトコンドリアタンパク質を研究するためのCaseOLAP LIFTパイプラインは、簡単に適応させることができます。例えば、この技術の将来の応用は、任意のGO用語に関連する任意のタンパク質と任意の生物医学的カテゴリーとの間の関連を調査することを含む可能性がある。さらに、このテキストマイニングプラットフォームによって特定されたランク付けされたタンパク質と疾患の関連は、高度な自然言語技術を使用するためのデータセットの準備において重要です。結果として得られる知識グラフにより、研究者はこれらの発見を生物学的に有益な知識に変換し、フォローアップグラフベースの分析の基礎を築くことができます。
Disclosures
著者は開示するものは何もありません。
Acknowledgments
この作業は、国立衛生研究所(NIH)R35 HL135772からP.P.、NIH T32 HL13945 A.R.P.およびD.S.、NIH T32 EB016640 A.R.P.、国立科学財団研究研修生(NRT)1829071 A.R.P.およびD.S.、NIH R01 HL146739 I.A.、J.R.、A.V.、K.B.、およびUCLAのTCラウビッシュ基金からP.P.の支援を受けました。
Materials
Name | Company | Catalog Number | Comments |
Software - Docker | Docker | N/A | docker.com |
References
- The UniProt Consortium et al. UniProt: The universal protein knowledgebase in 2021. Nucleic Acids Research. 49, D480-D489 (2021).
- Davis, A. P., et al. Comparative toxicogenomics database (CTD): Update 2023. Nucleic Acids Research. 51, D1257-D1262 (2023).
- Mohtashamian, M., Abeysinghe, R., Hao, X., Cui, L. Identifying missing IS-A relations in orphanet rare disease ontology. Proceedings. IEEE International Conference on Bioinformatics and Biomedicine. 2022, 3274-3279 (2022).
- Rehm, H. L., et al. ClinGen - The clinical genome resource. New England Journal of Medicine. 372 (23), 2235-2242 (2015).
- Caulfield, M., et al. The National Genomics Research and Healthcare Knowledgebase. , (2019).
- Ma, X., Lee, H., Wang, L., Sun, F. CGI: A new approach for prioritizing genes by combining gene expression and protein-protein interaction data. Bioinformatics. 23 (2), 215-221 (2007).
- Gutiérrez-Sacristán, A., et al. Text mining and expert curation to develop a database on psychiatric diseases and their genes. Database. 2017, 043 (2017).
- Sigdel, D., et al. Cloud-based phrase mining and analysis of user-defined phrase-category association in biomedical publications. Journal of Visualized Experiments. (144), e59108 (2019).
- Yu, K. -H., et al. Systematic protein prioritization for targeted proteomics studies through literature mining. Journal of Proteome Research. 17 (4), 1383-1396 (2018).
- Lau, E., et al. Identifying high-priority proteins across the human diseasome using semantic similarity. Journal of Proteome Research. 17 (12), 4267-4278 (2018).
- Pletscher-Frankild, S., Pallejà, A., Tsafou, K., Binder, J. X., Jensen, L. J. DISEASES: Text mining and data integration of disease-gene associations. Methods. 74, 83-89 (2015).
- Liu, Y., Liang, Y., Wishart, D. PolySearch2: A significantly improved text-mining system for discovering associations between human diseases, genes, drugs, metabolites, toxins and more. Nucleic Acids Research. 43, W535-W542 (2015).
- Minot, S. S., Barry, K. C., Kasman, C., Golob, J. L., Willis, A. D. geneshot: Gene-level metagenomics identifies genome islands associated with immunotherapy response. Genome Biology. 22 (1), 135 (2021).
- Lee, S., et al. BEST: Next-generation biomedical entity search tool for knowledge discovery from biomedical literature. PloS One. 11 (10), 0164680 (2016).
- Wei, C. -H., Allot, A., Leaman, R., Lu, Z. PubTator central: Automated concept annotation for biomedical full text articles. Nucleic Acids Research. 47 (W1), W587-W593 (2019).
- Jimeno-Yepes, A. J., Sticco, J. C., Mork, J. G., Aronson, A. R. GeneRIF indexing: Sentence selection based on machine learning. BMC Bioinformatics. 14 (1), 171 (2013).
- Wei, C. -H., et al. tmVar 2.0: Integrating genomic variant information from literature with dbSNP and ClinVar for precision medicine. Bioinformatics. 34 (1), 80-87 (2018).
- Maglott, D., Ostell, J., Pruitt, K. D., Tatusova, T. Entrez Gene: Gene-centered information at NCBI. Nucleic Acids Research. 33, D54-D58 (2005).
- Piñero, J., et al. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucleic Acids Research. 48, D845-D855 (2019).
- Lee, J., et al. BioBERT: A pre-trained biomedical language representation model for biomedical text mining. Bioinformatics. 36 (4), 1234-1240 (2020).
- Szklarczyk, D., et al. STRING v11: Protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, D607-D613 (2019).
- Gillespie, M., et al. The reactome pathway knowledgebase 2022. Nucleic Acids Research. 50, D687-D692 (2022).
- Fang, L., et al. GRNdb: Decoding the gene regulatory networks in diverse human and mouse conditions. Nucleic Acids Research. 49, D97-D103 (2021).
- Doğan, T., et al. CROssBAR: Comprehensive resource of biomedical relations with knowledge graph representations. Nucleic Acids Research. 49 (16), 96 (2021).
- Fernández-Torras, A., Duran-Frigola, M., Bertoni, M., Locatelli, M., Aloy, P. Integrating and formatting biomedical data as pre-calculated knowledge graph embeddings in the Bioteque. Nature Communications. 13 (1), 5304 (2022).
- Himmelstein, D. S., et al. Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife. 6, e26726 (2017).
- Zheng, S., et al. PharmKG: A dedicated knowledge graph benchmark for biomedical data mining. Briefings in Bioinformatics. 22 (4), (2021).
- Morselli Gysi, D., et al. Network medicine framework for identifying drug-repurposing opportunities for COVID-19. Proceedings of the National Academy of Sciences of the United States of America. 118 (19), 2025581118 (2021).
- Santos, A., et al. A knowledge graph to interpret clinical proteomics data. Nature Biotechnology. 40 (5), 692-702 (2022).
- Cappelletti, L., et al. GraPE: Fast and scalable graph processing and embedding. arXiv. , (2021).
- Yang, B., Yih, W., He, X., Gao, J., Deng, L. Embedding entities and relations for learning and inference in knowledge bases. arXiv. , (2014).
- Neo4j Graph Data Platform. , Available from: https://neo4j.com/ (2022).
- Shannon, P., et al. Cytoscape: A software environment for integrated models of biomolecular interaction networks. Genome Research. 13 (11), 2498-2504 (2003).