DeepOmicsAEは、深層学習手法(オートエンコーダー)の適用を中心としたワークフローで、マルチオミクスデータの次元を縮小し、オミクスデータの多層化を表す予測モデルとシグナリングモジュールの基盤を提供します。
大規模なオミクスデータセットは、人間の健康に関する研究にますます利用されるようになっています。本稿では、プロテオミクス、メタボロミクス、臨床データを含むマルチオミクスデータセットの解析に最適化されたワークフローであるDeepOmicsAEについて紹介します。このワークフローでは、オートエンコーダーと呼ばれるニューラルネットワークの一種を使用して、高次元マルチオミクス入力データから簡潔な特徴セットを抽出します。さらに、このワークフローは、オートエンコーダーの実装に必要な主要なパラメーターを最適化する方法を提供します。このワークフローを紹介するために、健康な人またはアルツハイマー病と診断された142人のコホートから、死後の脳サンプルのプロテオームとメタボロームとともに臨床データを分析しました。オートエンコーダーの潜在層から抽出された特徴は、健康な患者と病気の患者を区別する生物学的情報を保持します。さらに、抽出された個々の特徴は、それぞれが個人の臨床的特徴と一意に相互作用する異なる分子シグナル伝達モジュールを表し、プロテオミクス、メタボロミクス、および臨床データを統合する手段を提供します。
人口の高齢化が進む割合はますます大きくなっており、神経変性などの加齢性疾患の負担は今後数十年で急激に増加すると予想されています1。アルツハイマー病は、神経変性疾患の最も一般的なタイプです2。病気の発症と進行を促進する基本的な分子メカニズムの理解が不十分なため、治療法の発見の進歩は遅々として進んでいません。アルツハイマー病に関する情報の大部分は、脳組織の検査から死後得られるため、原因と結果を区別することは困難な作業となっています3。Religious Orders Study/Memory and Aging Project(ROSMAP)は、神経変性をより広く理解するための野心的な取り組みであり、毎年医学的および心理学的検査を受け、死後の研究のために脳を提供することを約束した何千人もの個人の研究が含まれます4。この研究は、脳の正常な機能からアルツハイマー病への移行に焦点を当てています2。このプロジェクトでは、ゲノミクス、エピゲノミクス、トランスクリプトミクス、プロテオミクス5、メタボロミクスなど、多数のオミクスアプローチを用いて死後の脳サンプルを分析しました。
細胞の状態を機能的に読み取るオミクス技術(プロテオミクスやメタボロミクス)6,7は、タンパク質や代謝物の存在量と細胞活性との直接的な関係から、疾患を解釈する上で鍵となります8,9,10,11,12。タンパク質は細胞プロセスの主要な実行因子であり、代謝産物は生化学反応の基質および生成物です。マルチオミクスデータ解析は、プロテオミクスとメタボロミクスのデータとを単独で評価するのではなく、それらの間の複雑な関係を理解する可能性を提供します。マルチオミクスは、分子データ(ゲノム配列と変異、トランスクリプトーム、プロテオーム、メタボローム)、臨床画像データ、臨床的特徴など、高次元の生物学的データを多層的に研究する分野です。特に、マルチオミクスデータ解析は、このような生体データの層を統合し、それらの相互制御と相互作用のダイナミクスを理解し、疾患の発症と進行の全体像を理解することを目的としています。しかし、マルチオミクスデータを統合する方法は、まだ開発の初期段階にとどまっています13。
教師なしニューラルネットワーク14の一種であるオートエンコーダは、マルチオミクスデータ統合のための強力なツールである。教師ありニューラルネットワークとは異なり、オートエンコーダーはサンプルを特定のターゲット値(健康や病気の値など)にマッピングしたり、結果の予測に使用したりしません。その主な用途の1つは、次元削減にあります。ただし、自己符号化器には、主成分分析 (PCA)、t 分布確率的近傍埋め込み (tSNE)、一様多様体近似および射影 (UMAP) などの単純な次元削減法に比べていくつかの利点があります。PCA とは異なり、自己符号化器はデータ内の非線形関係をキャプチャできます。tSNEやUMAPとは異なり、それぞれが非線形活性化関数を含む計算ユニットの複数のレイヤーに依存しているため、データ内の階層的およびマルチモーダルな関係を検出できます。したがって、マルチオミクスデータの複雑さを捉えるための魅力的なモデルとなります。最後に、PCA、tSNE、およびUMAPの主な用途はデータのクラスタリングですが、オートエンコーダーは入力データを圧縮して、下流の予測タスクに適した抽出された特徴量にします15,16。
簡単に言うと、ニューラルネットワークは複数の層で構成されており、それぞれに複数の計算単位または「ニューロン」が含まれています。最初と最後の層は、それぞれ入力層と出力層と呼ばれます。オートエンコーダーは、砂時計構造を持つニューラルネットワークで、入力層、それに続く1〜3つの隠れ層、および通常は2〜6個のニューロンを含む小さな「潜在」層で構成されています。この構造の前半はエンコーダーと呼ばれ、エンコーダーをミラーリングするデコーダーと組み合わされています。復号化器は、入力層と同じ数のニューロンを含む出力層で終了します。オートエンコーダーは、ボトルネックを介して入力を取得し、元の情報を可能な限り反映した出力を生成することを目的として、出力層で再構築します。これは、「再構成損失」と呼ばれるパラメータを数学的に最小化することによって実現されます。インプットは、一組の特徴から成り、本明細書に紹介するアプリケーションでは、タンパク質および代謝物の存在量、ならびに臨床的特徴(すなわち、性別、教育、および死亡時年齢)となるであろう。潜在層は、入力の圧縮された情報に富んだ表現を含み、これは、予測モデル17、18などの後続のアプリケーションに使用することができる。
このプロトコルは、1)プロテオミクス、メタボロミクス、および臨床データの前処理(すなわち、正規化、スケーリング、外れ値除去)を含むワークフローDeepOmicsAEを提示し、機械学習分析のための一貫したスケールのデータを取得します。2)特徴の過負荷は関連する疾患パターンを不明瞭にする可能性があるため、適切な自己符号化器入力特徴を選択する。3)選択するタンパク質と代謝物の最適な数、および潜伏層のニューロンの数を決定することを含む、オートエンコーダーの最適化とトレーニング。4)潜伏層から特徴を抽出する。5)分子シグナル伝達モジュールと臨床的特徴との関係を特定することにより、抽出された特徴を生物学的解釈に利用します。
このプロトコルは、Pythonでのプログラミングの基本的な理解を持っている、計算経験が限られている生物学者がシンプルで適用できることを目的としています。このプロトコルは、プロテオミクス、メタボロミクス、臨床的特徴などのマルチオミクスデータの解析に重点を置いていますが、トランスクリプトミクスを含む他のタイプの分子発現データにもその用途を拡張できます。このプロトコルによって導入された重要な新規アプリケーションの1つは、潜在層の個々のニューロンに元の特徴の重要性スコアをマッピングすることです。その結果、潜在層の各ニューロンはシグナル伝達モジュールを表し、特定の分子変化と患者の臨床的特徴との間の相互作用を詳述します。分子シグナル伝達モジュールの生物学的解釈は、遺伝子/タンパク質および代謝物データを統合して、濃縮された代謝および細胞シグナル伝達経路を導き出す公開ツールであるMetaboAnalystを使用することによって得られる17。
データセットの構造はプロトコルの成功に不可欠であり、慎重にチェックする必要があります。データは、プロトコル セクション 1 に示されているようにフォーマットする必要があります。列の位置を正しく割り当てることも、分析法の成功に不可欠です。プロテオミクスとメタボロミクスのデータは異なる方法で前処理され、データの性質が異なるため、特徴量の選択は別々に行われます…
The authors have nothing to disclose.
この研究は、NIHの助成金CA201402とCornell Center for Vertebrate Genomics(CVG)のDistinguished Scholar Awardの支援を受けました。ここで公開している結果の全部または一部は、AD Knowledge Portal(https://adknowledgeportal.org)から入手したデータに基づいています。研究データは、シカゴのラッシュ大学医療センターのラッシュアルツハイマー病センターから提供されたサンプルに基づいて、ADの加速医療パートナーシップ(U01AG046161およびU01AG061357)を通じて提供されました。データ収集は、NIAの助成金P30AG10161、R01AG15819、R01AG17917、R01AG30146、R01AG36836、U01AG32984、U01AG46152、イリノイ州公衆衛生局、およびトランスレーショナルゲノミクス研究所からの資金提供によってサポートされました。メタボロミクスデータセットはMetabolonで生成され、ADMCによって前処理されました。
Computer | Apple | Mac Studio | Apple M1 Ultra with 20-core CPU, 48-core GPU, 32-core Neural Engine; 64 GB unified memory |
Conda v23.3.1 | Anaconda, Inc. | N/A | package management system and environment manager |
conda environment DeepOmicsAE |
N/A | DeepOmicsAE_env.yml | contains packages necessary to run the worflow |
github repository DeepOmicsAE | Microsoft | https://github.com/elepan84/DeepOmicsAE/ | provides scripts, Jupyter notebooks, and the conda environment file |
Jupyter notebook v6.5.4 | Project Jupyter | N/A | a platform for interactive data science and scientific computing |
DT01-metabolomics data | N/A | ROSMAP_Metabolon_HD4_Brain 514_assay_data.csv |
This data was used to generate the Results reported in the article. Specifically, DT01-DT04 were merged by matching them based on the individualID. The column final consensus diagnosis (cogdx) was filtered to keep only patients classified as healthy or AD. Climnical features were filtered to keep the following: age at death, sex and education. Finally, age reported as 90+ was set to 91, then the age column was transformed to float64. The data is available at https://adknowledgeportal.synapse.org |
DT02-TMT proteomics data | N/A | C2.median_polish_corrected_log2 (abundanceRatioCenteredOn MedianOfBatchMediansPer Protein)-8817×400.csv |
|
DT03-clinical data | N/A | ROSMAP_clinical.csv | |
DT04-biospecimen metadata | N/A | ROSMAP_biospecimen_metadata .csv |
|
Python 3.11.3 | Python Software Foundation | N/A | programming language |