Summary
我々は、データの前処理、共発現クラスタリング、経路濃縮、タンパク質間相互作用ネットワーク解析を含む詳細なプロトコルを用いて、定量的プロテオミクスデータのネットワーク解析を実行および視覚化するためのシステム生物学ツールJUMPnを提示する。
Abstract
質量分析ベースのプロテオミクス技術の最近の進歩により、何百ものプロテオームのディーププロファイリングがますます実現可能になっています。しかし、このような貴重なデータセットから生物学的な洞察を引き出すことは困難です。ここでは、システム生物学ベースのソフトウェアJUMPnと、モジュール(タンパク質複合体など)によって接続されたサンプルおよびタンパク質間相互作用(PPI)ネットワークにわたってプロテオームをタンパク質共発現クラスターに編成するための関連プロトコルを紹介します。R/Shinyプラットフォームを使用して、JUMPnソフトウェアは、統合されたデータ視覚化とユーザーフレンドリーなインターフェースにより、共発現クラスタリング、経路エンリッチメント、PPIモジュール検出の分析を合理化します。プロトコルの主なステップには、JUMPnソフトウェアのインストール、発現差のあるタンパク質または(dys)調節プロテオームの定義、意味のある共発現クラスターおよびPPIモジュールの決定、および結果の視覚化が含まれます。このプロトコルは、等圧標識ベースのプロテオームプロファイルを使用して実証されていますが、JUMPnは一般に、広範囲の定量データセット(例えば、ラベルフリープロテオミクス)に適用可能です。したがって、JUMPnソフトウェアとプロトコルは、定量的プロテオミクスにおける生物学的解釈を容易にする強力なツールを提供します。
Introduction
質量分析ベースのショットガンプロテオミクスは、複雑なサンプル1のプロテオーム多様性を分析するための重要なアプローチとなっています。質量分析装置2、3、クロマトグラフィー4、5、イオン移動度検出6、取得方法(データ非依存7およびデータ依存取得8)、定量アプローチ(多重鎖等圧ペプチド標識法、例えば、TMT9、10、および標識フリー定量11、12)およびデータ分析戦略における最近の進歩/ソフトウェア開発13、14、15、16、17、18は、プロテオーム全体(例えば、10,000を超えるタンパク質)の定量化が、現在、19、20、21のルーチンである。しかし、このような深い定量的データセットから機械的な洞察を得る方法は依然として挑戦的です22。これらのデータセットを調査する最初の試みは、主にデータの個々の要素の注釈に依存し、各成分(タンパク質)を独立して処理しました。しかしながら、生物学的システムおよびその挙動は、個々の構成要素23を調べることによってのみ説明できない。したがって、定量化された生体分子を相互作用ネットワークの文脈に置くシステムアプローチは、複雑なシステムおよびヒト疾患の胚発生、免疫応答、および病因などの関連プロセスの理解に不可欠である24。
ネットワークベースのシステム生物学は、大規模な定量的プロテオミクスデータ25、26、27、28、29、30、31、32、33を分析するための強力なパラダイムとして浮上している。概念的には、哺乳類細胞のような複雑なシステムは、階層ネットワーク34,35としてモデル化することができ、その中で、システム全体が層で表され、最初に多数の大きな構成要素によって、次にそれぞれがより小さなサブシステムによって反復的にモデル化される。技術的には、プロテオームダイナミクスの構造は、共発現タンパク質クラスターの相互接続されたネットワーク(共発現遺伝子/タンパク質はしばしば調節36の類似の生物学的機能または機構を共有するため)および物理的に相互作用するPPIモジュール37によって提示され得る。最近の例25として、我々は、T細胞活性化中にプロテオーム全体およびホスホプロテオムの時間的プロファイルを生成し、PPIとの統合的共発現ネットワークを使用して、T細胞静止出口を媒介する機能モジュールを同定した。複数の生体エネルギー関連モジュールが強調表示され、実験的に検証された(例えば、ミトリボソームおよび複合体IVモジュール25、ならびに一炭素モジュール38)。別の例26では、アルツハイマー病の病因を研究するための我々のアプローチをさらに拡張し、疾患進行関連タンパク質モジュールおよび分子の優先順位付けに成功した。重要なことに、我々の偏りのない発見の多くは、独立した患者コホート26,29および/または疾患マウスモデル26によって検証された。これらの例は、定量的プロテオミクスおよび他のオミクス統合を用いて分子機構を解剖するためのシステム生物学アプローチの力を示した。
ここでは、ネットワークベースのシステム生物学アプローチを用いて定量的プロテオミクスデータを探求する合理化されたソフトウェアであるJUMPnを紹介します。JUMPnは、確立されたJUMPプロテオミクスソフトウェアスイート13、14、39の下流コンポーネントとして機能し、個々のタンパク質定量から生物学的に意味のある経路およびタンパク質モジュールまでのギャップを埋めることを目指しています。JUMPnは、発現差のある(または最も可変的な)タンパク質の定量化マトリックスを入力として取ることにより、プロテオームを、サンプルおよび高密度に接続されたPPIモジュール(例えば、タンパク質複合体)にわたって共発現するタンパク質クラスターの階層階層に編成し、過剰発現(または濃縮)分析によってパブリック経路データベースでさらに注釈を付けることを目指しています(図1)。JUMPnは、ユーザーフレンドリーなインターフェースのためにR/Shinyプラットフォーム40で開発され、共発現クラスタリング解析、経路エンリッチメント解析、PPIネットワーク解析の3つの主要な機能モジュールを統合しています(図1)。各分析後、結果は自動的に視覚化され、R /光沢のあるウィジェット機能を介して調整可能で、Microsoft Excel形式のパブリケーションテーブルとして簡単にダウンロードできます。以下のプロトコルでは、定量的な全プロテオームデータを例にとり、JUMPnソフトウェアのインストール、発現差のあるタンパク質または(dys)調節プロテオームの定義、共発現ネットワーク解析、PPIモジュール解析、結果の視覚化と解釈、トラブルシューティングなど、JUMPnを使用する主なステップについて説明します。JUMPn ソフトウェアは GitHub41 で自由に入手できます。
Subscription Required. Please recommend JoVE to your librarian.
Protocol
注:このプロトコルにおいて、JUMPnの使用は、TMT等圧標識試薬27によって定量されたB細胞分化中の全プロテオームプロファイリングの公開されたデータセットを利用することによって例示される。
1. JUMPnソフトウェアのセットアップ
メモ: JUMPn ソフトウェアの設定には、(i) 個人使用のためにローカルコンピュータにインストールする 2 つのオプションがあります。(ii)複数のユーザーのためのリモートシャイニーサーバーへのJUMPnの展開。ローカルインストールの場合、インターネットアクセスと≥ 4 GBのRAMを備えたパーソナルコンピュータは、サンプルサイズが小さいデータセット(n<30)のデータセットに対してJUMPn分析を実行するのに十分です。大規模なコホート分析(例えば、n = 200サンプル)には、より大きなRAM(例えば、16Gb)が必要である。
- ソフトウェアをローカル コンピューターにインストールします。インストール後、Web ブラウザーが JUMPn を起動し、ローカル コンピューターで分析を実行できるようにします。
- アナコンダ42 またはミニ コンダ43 をオンラインの指示に従ってインストールします。
- JUMPnのソースコード41をダウンロードしてください。ダブルクリックして、ダウンロードしたファイルJUMPn_v_1.0.0.zip解凍します。JUMPn_v_1.0.0 という名前の新しいフォルダが作成されます。
- コマンドラインターミナルを開きます。Windows では、 アナコンダプロンプトを使用します。MacOSでは、組み込みのターミナルアプリケーションを使用します。
- JUMPn Conda 環境を作成する: JUMPn_v_1.0.0 フォルダの絶対パスを取得します (例: /path/to/JUMPn_v_1.0.0)。空のConda環境を作成してアクティブにするには、ターミナルで次のコマンドを入力します。
conda create -p /path/to/JUMPn_v_1.0.0/JUMPn -y
conda activate /path/to/JUMPn_v_1.0.0/JUMPn - JUMPn 依存関係のインストール: R をインストールし (端末に conda install -c conda-forge r=4.0.0 -y と入力し)、現行ディレクトリーを JUMPn_v_1.0.0 フォルダーに変更し (端末で cd path/to/JUMPn_v_1.0.0 と入力)、依存関係パッケージをインストールします (端末に「Rscript ブートストラップ」と入力します)。R)
- WebブラウザでJUMPnを起動する:現在のディレクトリを実行フォルダ(ターミナルでcd実行と入力)に変更し、JUMPnを起動します(ターミナルでR -e "shiny::runApp()"と入力します)
- 上記が実行されると、端末画面は http://127.0.0.1:XXXXでリスニング 中に表示されます(ここでXXXXは4つの乱数を示します)。 http://127.0.0.1:XXXX をコピーして Web ブラウザーに貼り付けると、JUMPn のウェルカム ページが表示されます (図 2)。
- シャイニーサーバーへの展開。Shiny Server の例には、商用の shinyapps.io サーバーや、制度的にサポートされている Shiny Server などがあります。
- RStudio は、指示に従ってダウンロードしてインストールします 44.
- シャイニーサーバーの展開権限を取得します。shinyapps.io サーバの場合は、指示45に従ってユーザアカウントを設定する。機関用シャイニーサーバーの場合は、サーバー管理者に連絡して権限を要求してください。
- JUMPnソースコード41 をローカルマシンにダウンロードします。インストールは必要ありません。いずれかのサーバーを開きます。R または ui。RStudio で R ファイルを作成し、RStudio IDE の右上にある [ サーバーに公開 ] ドロップダウン メニューをクリックします。
- 「アカウントに公開」パネルで、サーバーアドレスを入力します。[公開] ボタンを押します。デプロイが成功したかどうかは、RStudio からアプリケーションがデプロイされた RShiny サーバーに自動的にリダイレクトされると検証されます。
2. サンプルデータセットを使用したデモ実行
注: JUMPn は、公開された B 細胞プロテオミクス データセットを使用したデモ実行を提供しています。デモランは、発現差のあるタンパク質の定量マトリックスを入力として受け取り、共発現クラスタリング、経路濃縮、PPIネットワーク解析を順次実行する合理化されたワークフローを示しています。
- JUMPnのホームページ(図2)で、[解析 の開始] ボタンをクリックしてJUMPn解析を開始します。
- [解析の開始]ページの左下隅にある[図3]で、[デモB細胞プロテオミクスデータのアップロード]ボタンをクリックします。データのアップロードが成功したことを通知するダイアログボックスが表示されます。
- ページの右下隅にある [ JUMPn 分析の送信] ボタンをクリックして、既定のパラメーターを使用してデモの実行を開始します。分析の経過を示す進行状況バーが表示されます。進行状況バーが満たされるまで待ちます (3 分かかります)。
- デモの実行が完了すると、ダイアログ ボックスが表示され、実行の成功メッセージと結果フォルダーへの絶対パスが表示されます。 [結果に進む ]をクリックして続行します。
- この Web ページは、まず WGCNA による共発現クラスターの結果にユーザーを案内します。ダイアログウィンドウの [結果の表示 ]をクリックして続行します。
- 結果ページ 1: WGCNA 出力ページの左側にあるタンパク質共発現パターンを見つけます。[式形式の選択] ドロップダウン ボックスをクリックして、2 つの図形式間を移動します。
- [ 傾向] を選択して傾向プロットを表示し、各線はサンプル全体の個々のタンパク質の存在量を表します。各線の色は、発現パターンが共発現クラスターコンセンサス(すなわち、WGCNAアルゴリズムによって定義される「固有遺伝子」)にどの程度近いかを表す。
- [箱ひげ図]を選択して、各サンプルの共発現パターンを箱ひげ図形式で表示します。
- WGCNA出力ページの右側にある経路/オントロジーエンリッチメントヒートマップを表示します。各クラスターの最も高度に濃縮された経路はヒートマップにまとめて表示され、色の強度はベンジャミニ・ホッホベルク調整されたp値を反映しています。
- ウェブページを下にスクロールして、個々のタンパク質の発現パターンを表示します。
- ドロップダウンボックスを使用して、 共発現クラスターを選択し 、各クラスターのタンパク質を表示します(デフォルトはクラスター1です)。表内の特定のタンパク質を選択すると、表の下の棒グラフが自動的に更新され、そのタンパク質の存在量が反映されます。
- 表の右側にある [検索 ] ボックスを使用して、特定のタンパク質名を検索します。
- PPI 結果を表示するには、上部の [結果] ページ 2: [PPI 出力] をクリックします。
- [ 共発現クラスターの選択 ] をクリックして、特定の共発現クラスター (デフォルトはクラスター 1) の結果を表示します。このページのすべての図パネルの表示は、新しく選択されたクラスターに対して更新されます。
- 選択した共発現クラスターの PPI ネットワークを左側の図パネルに表示します。
- [ グループで選択] ドロップダウンボックスをクリックして、ネットワーク内の個々のPPIモジュールをハイライト表示します。[ネットワークレイアウト 形式の選択] ドロップダウンボックスをクリックして、ネットワークレイアウトを変更します(デフォルトは Fruchterman Reingoldによるものです)。
- マウスとトラックパッドを使用して、手順 2.11.3 ~ 2.11.5 を実行します。
- 必要に応じて、PPI ネットワークをズームインまたはズームアウトします。ネットワーク内の各ノードの遺伝子名は、十分にズームインすると表示されます。
- ズームインしたら、特定のタンパク質を選択してクリックし、そのタンパク質とそのネットワーク近隣を強調表示します。
- ネットワーク内の特定のノード(タンパク質)をドラッグして、レイアウト内の位置を変更します。これにより、ネットワークレイアウトをユーザが再編成することができる。
- PPI 結果ページの右側のパネルで、PPI 結果の解釈に役立つ共発現クラスター・レベルの情報を表示します。
- 選択したクラスターの共発現パターンをデフォルトで箱ひげ図として表示します。
- 詳細については 、「式フォーマットの選択」ドロップダウン・ ボックスをクリックするか、ステップ 2.12.3-2.12.5 で説明したように表示されます。
- [傾向] を選択して、共発現パターンの傾向プロットを表示します。
- 「経路バープロット」を選択して、共発現クラスターの有意に富んだ経路を表示します。
- 「経路円プロット」を選択して、共発現クラスターの有意に富んだ 経路を円プロット 形式で表示します。
- 「 結果ページ 2: PPI 出力」 Web ページを下にスクロールして、個々の PPI モジュール・レベルで結果を表示します。[モジュール の選択] ドロップダウン・ボックスをクリックして、表示する特定のPPIモジュールを選択します(デフォルトでは、クラスタ1:モジュール1 が表示されます)。
- 左側のパネルでPPIモジュールを表示します。ネットワーク画面を操作するには、ステップ 2.11.2 から 2.11.5 に従ってください。
- 右側のパネルに経路/オントロジーエンリッチメント結果を表示します。「 パスウェイアノテーションスタイルを選択」 ドロップダウンボックスをクリックすると、詳細情報が表示されます。
- Barplotを選択して、選択したPPIモジュールの有意に強化された経路を表示します。
- 円プロットを選択して、選択したPPIモジュールの有意に強化された経路を円 プロット の形式で表示します。
- ヒートマップを選択して、有意に濃縮された経路および選択したPPIモジュールからの関連遺伝子名を表示する。
- [表]を選択して、経路/オントロジー用語の名前、遺伝子名、フィッシャーの正確検定によるP値など、詳細な経路濃縮結果を表示します。
- パブリケーション テーブルをスプレッドシート形式で表示する: 絶対パス (両方の結果ページの上部に印刷) に従って、 ComprehensiveSummaryTables.xlsx という名前のパブリケーション スプレッドシート テーブルを見つけます。
3. 入力ファイルの準備とJUMPnへのアップロード
注: JUMPn は、発現差のあるタンパク質 (教師あり法) または最も変動の激しいタンパク質 (教師なし法) のいずれかの定量マトリックスを入力として受け取ります。プロジェクトの目的が、複数の条件(例えば、異なる疾患群、または生物学的プロセスの時系列分析)にわたって変化したタンパク質を理解することである場合、DE分析を行う教師付き方法が好ましい。さもなければ、最も可変的なタンパク質を選択する教師なしアプローチが探索目的のために使用され得る。
- 各タンパク質を行、各サンプルを列とするタンパク質定量テーブルを生成します。最新の質量分析ベースのプロテオミクスソフトウェアスイート(例えば、JUMPスイート13,14,39、プロテオームディスカバラー、Maxquant 15,46)を介してこれを達成します。
- 変数プロテオームを定義します。
- プロテオミクスソフトウェアスイートが提供する統計解析結果を使用して、発現差(DE)タンパク質を定義します(たとえば、p値<0.05に調整)。
- あるいは、ユーザは、DEまたはほとんどの可変タンパク質のいずれかを定義するために、例Rコード47 に従うことができる。
- 定義した変数プロテオームを使用して入力ファイルをフォーマットします。
メモ: 必要な入力ファイル形式 (図 4) にはヘッダー行が含まれています。カラムには、タンパク質アクセッション(または任意の一意のID)、GN(公式の遺伝子記号)、タンパク質の説明(またはユーザー提供の情報)、および個々のサンプルのタンパク質定量が含まれます。- 手順 3.1 で指定した列の順序に従いますが、ヘッダーの列名はユーザーに対して柔軟です。
- TMT(または類似の)定量プロテオームの場合、要約されたTMTレポーター強度を入力定量値として使用する。ラベルのないデータの場合は、正規化されたスペクトルカウント(例えば、NSAF48)または強度ベースの方法(例えば、Maxquant46によって報告されたLFQ強度またはiBAQタンパク質強度)のいずれかを使用する。
- 欠損値は JUMPn 分析に許可されます。定量マトリックスでこれらをNAとしてラベル付けしてください。ただし、サンプルの 50% 以上で定量化を伴うタンパク質のみを使用することをお勧めします。
- 結果の入力ファイルを.txt、.xlsx、または.csv形式で保存します (3 つすべてが JUMPn でサポートされています)。
- 入力ファイルをアップロードする:
- [ ブラウザ] ボタンをクリックし、入力ファイルを選択します(図3の左パネル)。ファイル形式 (xlsx、 csv、および txt がサポートされています) は自動的に検出されます。
- 入力ファイルに強度に似た定量化値(例えば、JUMP suite39によって生成された値)または比のような値(例えば、Proteome Discovererから)が含まれている場合は、[データのlog2変換の実行]オプションに[はい]を選択します。それ以外の場合、データはすでにログ変換されている可能性があるため、このオプションで [いいえ] を選択します。
4. 共発現クラスタリング解析
注:我々のグループ25、26、27およびその他28、29、31は、WGCNA49が定量的プロテオミクスの共発現クラスタリング分析のための有効な方法であることを証明した。JUMPnは、WGCNA分析25,50のための3段階の手順に従う:(i)トポロジカルオーバーラップマトリックス(TOM;遺伝子/タンパク質間の定量類似性によって決定される)に基づく動的ツリー切断51による共発現遺伝子/タンパク質クラスターの初期定義。(ii)冗長性を低減するための類似のクラスターのマージ(固有遺伝子類似性の樹状図に基づく)。(iii)ピアソン相関の最小カットオフを超える各クラスターへの遺伝子/タンパク質の最終割り当て。
- WGCNA パラメーターを構成します (図 3、中央パネル)。次の 3 つのパラメーターは、それぞれ 3 つのステップを制御します。
- クラスターの最小サイズを 30 に設定します。このパラメータは、TOMベースのハイブリッド動的ツリー切断の最初のステップ(i)において、各共発現クラスターに必要なタンパク質の最小数を定義する。値が大きいほど、アルゴリズムによって返されるクラスターの数は少なくなります。
- 最小クラスター距離を 0.2 に設定します。この値を大きくすると (たとえば、0.2 ~ 0.3 から)、ステップ (ii) 中にクラスターのマージが多くなり、クラスターの数が少なくなる可能性があります。
- 最小 kME を 0.7 に設定します。タンパク質は、ステップ(ii)で定義された最も相関のあるクラスターに割り当てられますが、ピアソン相関がこの閾値を超えるタンパク質のみが保持されます。このステップで失敗したタンパク質は、どのクラスターにも割り当てられません (最終レポートでは、失敗したタンパク質の場合は「NA」クラスター)。
- 分析を開始します。共発現クラスタリング分析を送信するには、次の 2 つの方法があります。
- 右下隅にある [ JUMPn 解析の送信] ボタンをクリックして、WGCNA の包括的な解析を自動的に開始し、その後に PPI ネットワーク解析を開始します。
- または、WGCNA ステップのみを実行するように選択します (特にパラメーターのチューニングを目的として、ステップ 4.2.3-4.2.4 を参照)。
- [解析の開始]ページの下部にある[高度なパラメータ]ボタンをクリックします。新しいパラメータウィンドウがポップアップ表示されます。下部のウィジェットで、[分析モードの選択]、[WGCNAのみ]を選択してから、[閉じる]をクリックして続行します。
- [ 分析の開始 ] ページで、[ JUMPn 分析の送信 ] ボタンをクリックします。
- 上記のいずれの場合も、分析の送信時に進行状況バーが表示されます。
メモ: 解析が完了すると (通常、 WGCNA のみ の解析では 1 分、包括的な解析では <<3 分)、ダイアログボックスが表示され、成功実行メッセージと結果フォルダへの絶対パスが表示されます。
- 手順 2.4 ~ 2.8 に示すように、WGCNA の結果を確認します (図 5)。ファイルco_exp_clusters_3colums.txtへの絶対パスは 、結果ページの上部で強調表示されていることに注意してください: WGCNA 出力 各タンパク質のクラスターメンバーシップを記録し、 PPI のみ 分析の入力として使用します。
- トラブルシューティング。次の 3 つの一般的なケースについて説明します。以下で説明するようにパラメーターが更新されたら、ステップ 4.2.2-4.2.4 に従って、新しい WGCNA 結果を生成します。
- データから 1 つの重要な共発現パターンが予期されるが、アルゴリズムによって見落とされた場合は、ステップ 4.4.2 から 4.4.4 に従ってください。
- 欠損クラスターは、小さな共発現クラスター、すなわち、このパターンを示すタンパク質の限られた数(例えば、<30)に対して特に可能性が高い。再解析の前に、タンパク質定量マトリックスの入力ファイルを再検討し、その重要な共発現パターンに付着するいくつかの陽性対照タンパク質を見つけます。
- 小さなクラスタをレスキューするには、最小クラスタサイズを小さくし(たとえば、10;10未満のクラスタサイズは堅牢ではない可能性があるため推奨されません)、最小クラスタ距離を減らします(たとえば、0.1;ここでは0としての設定も許可され、自動クラスタマージはスキップされます)。
- 更新されたパラメータで共発現クラスタリングステップを実行した後、まず、クラスターが 共発現パターンプロットからレスキューされたかどうかを確認し、次に詳細な タンパク質定量 からタンパク質アクセッションを検索して陽性対照を確認します(検索前に左側のドロップダウンウィジェットから適切な共発現クラスターを選択してください)。
メモ: レスキューには、パラメータのチューニングと再実行を複数回繰り返す必要がある場合があります。 - どのクラスターにも割り当てることができないタンパク質が多すぎる場合は、手順 4.4.6 ~ 4.4.7 を実行します。
注: 通常、タンパク質のわずかな割合 (通常は <10%)は、データセットの一般的な発現パターンのいずれにも従わない外れ値タンパク質である可能性があるため、クラスターに割り当てられない場合があります。しかしながら、そのようなパーセンテージが有意である場合(例えば、>30%)、無視できない追加の共発現パターンが存在することを示唆している。 - [ 最小クラスター サイズ] パラメーターと [最小クラスター距離] パラメーターの両方を減らして、「新しい」共発現クラスターを検出してこの状況を軽減します。
- さらに、 最小ピアソン相関(kME) パラメータを小さくして、これらの「NAクラスター」タンパク質を縮小します。
注:このパラメータを調整しても、新しいクラスターは生成されませんが、代わりに、以前に失敗したタンパク質をより低い閾値で受け入れることによって、「既存の」クラスターのサイズが増加します。しかし、これはまた、より多くのノイズの多いタンパク質が現在許容されているため、各クラスターの不均一性を増加させる。 - 2 つのクラスターのパターンの違いは非常に小さいです。ステップ 4.4.9-4.4.11 に従って、それらを 1 つのクラスターにマージします。
- [ 最小クラスター距離] パラメーターを増やして、この問題を解決します。
- ただし、状況によっては、アルゴリズムが目的のパターンを返さない場合があります。このような瞬間に、マージするファイルco_exp_clusters_3colums.txt(ステップ4.3のファイル)内のクラスタメンバーシップを手動で調整または編集します。
- ポストエディットされたファイルをダウンストリーム PPI ネットワーク解析の入力として受け取ります。手動編集の場合は、クラスター割り当ての基準を正当化し、手動編集の手順を記録します。
5. タンパク質間相互作用ネットワーク解析
注:共発現クラスターをPPIネットワークに重ね合わせることによって、各共発現クラスターは、より小さなPPIモジュールにさらに層別化される。解析は、各共発現クラスターに対して実行され、2つの段階を含む:第1段階では、JUMPnは、共発現クラスターからPPIネットワーク上のタンパク質を重ね合わせ、接続されたすべての構成要素(すなわち、接続されたノード/タンパク質の複数のクラスター;例として、 図6Aを参照)を見つける。次いで、コミュニティまたはモジュール(密に接続されたノードの)は、トポロジカルオーバーラップ行列(TOM)法52を使用して、接続された各構成要素について反復的に検出されるであろう。
- PPIネットワーク解析のパラメータを設定します(図3の右パネル)。
- 最小 PPI モジュール サイズを 2 に設定します。このパラメーターは、第 1 ステージ分析から切り離された構成部品の最小サイズを定義します。指定したパラメータより小さい成分は、最終結果から削除されます。
- 最大PPIモジュールサイズを40に設定します。このしきい値を超えた大型の切断されたコンポーネントは、第 2 段階の TOM ベースの分析を受けます。第2段階の分析では、各大きな成分をさらに小さなモジュールに分割し、各モジュールには、おそらく元の成分全体よりも密に接続されたタンパク質が含まれています。
- 分析を開始します。PPI ネットワーク解析を送信するには、次の 2 つの方法があります。
- [ JUMPn分析の送信] ボタンをクリックして、デフォルトでWGCNA分析に続くPPI分析を自動的に実行します。
- または、カスタマイズされた共発現クラスター結果をアップロードし、ステップ 5.2.3 から 5.2.5 に従って PPI のみ 分析を実行します。
- co_exp_clusters_3colums.txtしたファイルの形式に従って入力ファイルを準備します (サブセクション 4.4 を参照)。
- [解析の開始]ページの下部にある[高度なパラメータ]ボタンをクリックします。新しいパラメータウィンドウがポップアップ表示されます。上位セッション「PPIのみ」分析の共表現クラスタ結果をアップロードするセッションで、「ブラウザ」をクリックして、ステップ5.2.3で準備した入力ファイルをアップロードします。
- 下部のウィジェットで 、[分析モードの選択]、[ PPIのみ ]を選択し、[ 閉じ る]をクリックして続行します。[ 分析の開始 ] ページで、[ JUMPn 分析の送信 ] ボタンをクリックします。
- 分析が終了したら(通常は<3分)、手順2.10~2.15に示すようにPPI結果を調べます(図6)。
- オプションの高度なステップ) パラメータをチューニングしてPPIモジュール化を調整します。
- [ 最大モジュール サイズ] パラメーターを大きくして、PPI 結果に含まれるタンパク質を増やすことができます。カスタマイズされたPPIネットワークをアップロードして、文書化されていない相互作用をカバーするために、ステップ5.4.2-5.4.3に従います。
- [解析の開始]ページの下部にある[高度なパラメータ]ボタンをクリックします。新しいパラメータウィンドウがポップアップ表示されます。カスタマイズされた PPI ファイルを準備します。このファイルには、
、C onnection、 およびの形式の 3 つの列が含まれます。ここでは、各タンパク質の正式な遺伝子名によって が提示されています。 - 「PPI データベースのアップロード」で、「参照」ボタンをクリックして、カスタマイズされた PPI ファイルをアップロードします。
6. 経路濃縮分析
注: 共発現クラスターと PPI モジュールの両方の JUMPn 派生階層構造は、フィッシャーの正確検定を使用して、過剰に表現された経路で自動的に注釈が付けられます。使用される経路/トポロジーデータベースには、Gene Ontology (GO)、KEGG、Hallmark、Reactomeなどがあります。ユーザーは、高度なオプションを使用して、分析用にカスタマイズされたデータベースをアップロードできます(たとえば、人間以外の種からのデータを分析する場合など)。
- デフォルトでは、経路エンリッチメント分析は、共発現クラスタリングおよびPPIネットワーク分析によって自動的に開始される。
- 経路エンリッチメント結果の表示:
- 手順 2.7、2.12、および 2.15 に従って、結果ページにさまざまな形式を視覚化します。スプレッドシートのパブリケーション テーブルの詳細な結果を (包括的な概要テーブル.xlsx ファイルで表示します (手順 2.16)。
- (オプションの詳細ステップ)経路エンリッチメント分析用にカスタマイズされたデータベースをアップロードする:
- 通常、種のすべての遺伝子の正式な遺伝子名を含む遺伝子背景ファイルを準備します。
- オントロジーライブラリファイルを手順6.3.3-6.3.4で準備します。
- EnrichR53 や MSigDB54 などの一般公開 Web サイトからオントロジー ライブラリ ファイルをダウンロードします。例えば、ショウジョウバエのオントロジーをEnrichRのウェブサイト55からダウンロードしてください。
- ダウンロードしたファイルを、最初の列として経路名、2番目の列として公式の遺伝子記号(「/」で区切られたもの)の2つの列で必要な形式で編集します。詳細なファイル形式については、JUMPn R 光沢のあるソフトウェアの ヘルプ ページで説明されています。
注:遺伝子背景とオントロジーライブラリ(ショウジョウバエを例に使用)のサンプルファイルをJUMPn GitHubサイト56で見つけてください。 - [解析の開始]ページの下部にある[ 高度なパラメータ] ボタンをクリックします。新しいパラメータウィンドウがポップアップ表示されます。
- 「経路エンリッチメント分析のバックグラウンド・ファイルをアップロード」項目を見つけ、「ブラウザー」をクリックして、ステップ 6.3.1 で準備したバックグラウンド・ファイルをアップロードします。次に、セッションで、パスウェイエンリッチメント分析に使用する背景を選択し、[ユーザー指定の背景]をクリックします。
- 「経路エンリッチメント分析用のオントロジーライブラリファイルをアップロード」項目を検索し、「ブラウザ」をクリックして、ステップ6.3.2-6.3.4で準備したオントロジーライブラリファイルをアップロードします。次に、セッションで、[パスウェイエンリッチメント分析用のデータベースを選択]で、[.xlsx形式のユーザー指定データベース]をクリックします。
- 右下隅にある [ JUMPn 分析の送信] ボタンをクリックして、カスタマイズされたデータベースを使用して分析を開始します。
7. サンプルサイズの大きいデータセットの分析
注: JUMPn は、サンプル サイズが大きいデータセット (最大 200 個のサンプルがテスト済み) の分析をサポートします。大きなサンプルサイズの視覚化を容易にするために、共発現クラスタリング結果の表示を容易にするために、サンプルグループを指定する追加のファイル(「メタファイル」と名付けられた)が必要である。
- メタファイルを準備してアップロードします。
- 手順7.1.2-7.1.3に従って、各サンプルのグループ情報(コントロールグループや疾患グループなど)を指定するメタファイルを準備します。
- メタファイルに少なくとも2つの列が含まれていることを確認してください:列1には、タンパク質定量マトリックスファイル(ステップ3.3で準備したように)の列名と順序と同一のサンプル名が含まれている必要があります。列 2 以降は、ユーザーが定義した任意の数のフィーチャのグループ割り当てに使用されます。列の数は柔軟です。
- メタ・ファイルの最初の行に、各列の列名が含まれていることを確認してください。2行目以降は、グループやその他の特徴(性別、年齢、治療など)の個々のサンプル情報をリストする必要があります。
- メタファイルをアップロードするには、[分析の開始]ページの下部にある[高度なパラメータ]ボタンをクリックします。新しいパラメータウィンドウがポップアップ表示されます。ステップ 7.1.5 に進みます。
- [メタファイルのアップロード]項目を見つけ、[ブラウザ]をクリックしてバックグラウンドファイルをアップロードします。予期しない形式または一致しないサンプル名がJUMPnによって検出されると、メタファイルのさらなるフォーマットに関するエラーメッセージがポップアップ表示されます(手順7.1.1-7.1.3)。
- 共発現クラスタリング分析のパラメータを調整する: 最小ピアソン相関を 0.2 に設定します。このパラメータは、サンプルサイズが大きいため緩和する必要があります。
- 右下隅にある [JUMPn 分析を送信]ボタンをクリックして、分析を送信します。
- 分析結果の表示: 共発現クラスター パターンを表示することを除いて、すべてのデータ出力は同じです。
- [結果ページ 1: WGCNA 出力] ページで、共発現クラスターを箱ひげ図として視覚化し、サンプルをユーザー定義のサンプル グループまたは特徴によって層別化します。プロット内の各ドットは、WGCNAアルゴリズムによって計算された固有遺伝子(すなわち、クラスターのコンセンサスパターン)を表す。
- ユーザーがサンプルをグループ化するために複数の特徴(年齢、性別、治療など)を提供した場合は、[ 表現形式の選択] ドロップダウンボックスをクリックして、サンプルをグループ化するための別の特徴を選択します。
Subscription Required. Please recommend JoVE to your librarian.
Representative Results
我々は、JUMPnの性能を最適化および評価するために、公開されたディーププロテオミクスデータセット25、26、27、30(図5および図6)およびデータシミュレーション57(表1)を使用した。WGCNAを介した共発現タンパク質クラスタリング解析では、サンプル間で有意に変化するタンパク質(統計解析によって検出された発現差(DE)タンパク質など)を入力として利用することをお勧めします。非DEタンパク質を解析に含めると、(入力サイズが大きいため)プログラムによって返される共発現クラスターが増える可能性がありますが、システムレベルの解析のために実際のシグナル(DEタンパク質など)とバックグラウンド(残りの非DE)を混合すると、シグナルが希釈され、根底にあるネットワーク構造がマスクされる可能性があるという仮説を立てています。これを試験するために、シミュレーション解析を2つの異なる条件下で実施した:i)高度に動的なプロテオーム(例えば、T細胞活性化において50%変化した25)およびii)比較的安定なプロテオーム(例えば、AD26において2%のプロテオーム変化)。高度に動的なプロテオームについて、我々の公表された結果の同じクラスターサイズおよび発現パターン(すなわち、固有遺伝子)に従って、50%プロテオームから6つの共発現クラスターをシミュレートした25。同様に、比較的安定したプロテオームについて、我々は最近のADプロテオミクス研究26に続いて、2%プロテオームから3つのクラスターをシミュレートした。予想通り、タンパク質の入力数を増やすと、検出されたクラスターの数が増加します(表1)。非常にダイナミックなプロテオームの場合、すべてのタンパク質を入力として使用すると、真のクラスターのほとんど(シミュレートされた6つの真正なクラスターのうち5つ、83%の想起)を63%の精度で捕捉できます(返された8つのクラスターのうち5つは真陽性であり、残りの3つのクラスターは偽陽性です)。しかし、比較的安定なプロテオームの場合、非DEタンパク質で入力サイズを大きくすると、精度が劇的に低下します(表1)。たとえば、プロテオーム全体を入力として使用して、169個のモジュールが検出され、そのうち正しいのは2個のみです(精度は1.2%、検出されたモジュールの残りの98.8%は誤検知です)。したがって、これらの結果は、変更されたプロテオームのみを入力として選択すると、特に比較的安定したプロテオームの場合に、共発現解析の精度が向上することを示している。
共発現タンパク質クラスターの検出に続いて、各クラスターに経路濃縮分析を使用してJUMPnによって注釈が付けられます(図1)。現在のバージョンには、Gene Ontology (GO)、KEGG、Hallmark、Reactome など、一般的に使用される 4 つの経路データベースが含まれています。ユーザーは、GMT形式54で独自のデータベースをコンパイルし、JUMPnにアップロードすることもできます。経路エンリッチメント分析のために複数のデータベースを統合すると、より包括的なビューが提供される可能性があります。ただし、異なる経路データベースのサイズは大きく異なるため、特定の(特に大規模な)データベースに望ましくないバイアスが発生する可能性があります。JUMPn 内には 2 つのソリューションが用意されています。第1に、統計的アプローチを用いて、ベンジャミニ・ホッホベルク法58による多重仮説検定に対して公称p値が調整(またはペナルティ)され、より大きなデータベースでは、小さなデータベースからのものよりも同じ調整済みp水準に達するために、より有意な名義p値が必要である。第 2 に、JUMPn は 各 データベースの上位の有意にエンリッチされたパスウェイを個別に強調表示するため、データベース固有の上位エンリッチド パスウェイが常に表示されます。
経路濃縮分析と同様に、STRING59,60、BioPlex61,62、およびInWeb_IM 63データベースを組み合わせて複合PPIネットワークをコンパイルしました。BioPlexデータベースは、アフィニティー精製に続いてヒト細胞株の質量分析を使用して作成されましたが、STRINGとInWebにはさまざまなソースからの情報が含まれています。したがって、STRINGおよびInWebデータベースは、高品質を保証するためにエッジスコアによってさらにフィルタリングされ、カットオフはスケールフリー基準24に最も適合することによって決定された。最終的にマージされたPPIネットワークは、約1,100,000個のエッジを有する20,000以上のヒト遺伝子をカバーする(表2)。この包括的なインタラクトームは、敏感なPPI分析のための当社のJUMPnソフトウェアにバンドルされ、公開されています。
分析が完了すると、JUMPn は 3 つの個別のシートで構成されるパブリケーション テーブル スプレッドシート ファイル (包括的な概要テーブル.xlsx) を生成します。最初のシートには、行ごとに 1 つのタンパク質を持つ共発現タンパク質クラスターの結果が含まれています: 最初の列は各入力タンパク質のクラスターメンバーシップを示し、残りの列は、タンパク質アクセッション、遺伝子名、タンパク質の説明、および個々のサンプルの定量を含むユーザー入力ファイルからコピーされます。2番目のシートには、経路富化分析の結果が含まれており、各共発現クラスターにおいて有意に富化された経路が表示されている。この表は、最初に異なる経路データベースによって編成され、次いで共発現クラスター、機能的経路、経路遺伝子の総数、個々のクラスター内の遺伝子の総数、重複した遺伝子数および名前、富化フォールド、フィッシャー正確検定由来 P値およびベンジャミニ・ホッホベルク偽発見率によってソートされる。3 番目のシートには、行ごとに 1 つの PPI モジュールを使用した PPI モジュール分析の結果が含まれています。その列には、モジュール名(共発現メンバーシップとモジュールIDによって定義され、 例えば、Cluster1_Module1)、マッピングされたタンパク質および数、ならびに経路データベースに対してモジュールタンパク質を検索することによって定義される機能的経路が含まれる。
図1:JUMPnのワークフロー 発現差(DE)タンパク質の最上位変数の定量化マトリックスをインプットとして取り、WGCNAアルゴリズムによってタンパク質を共発現クラスターにグループ化する。次に、各共発現に経路濃縮分析によって注釈が付けられ、さらにタンパク質間相互作用(PPI)ネットワークに重ね合わせて、高密度に接続されたタンパク質モジュール同定が行われる。 この図の拡大版を表示するには、ここをクリックしてください。
図 2: JUMPn のようこそページ。 この図の拡大版を表示するには、ここをクリックしてください。
図3:JUMPnの入力ページ このページには、共発現クラスタリングおよび PPI ネットワーク分析用の入力ファイル・アップロード・パネルとパラメーター構成パネルがそれぞれ含まれています。 この図の拡大版を表示するには、ここをクリックしてください。
図4:定量化行列の入力ファイルの例 カラムには、タンパク質アクセッション(または任意の一意のID)、GN(公式遺伝子記号)、タンパク質の説明(またはユーザー提供の情報)、および個々のサンプルのタンパク質定量が含まれます。 この図の拡大版を表示するには、ここをクリックしてください。
図5:JUMPnによって報告された共発現クラスターの結果。 共発現クラスタリングパターン(A)、クラスター全体のトップ濃縮経路ヒートマップ(B)、および各クラスターの詳細なタンパク質存在量(C)が示されています。ユーザーは、さまざまな表示オプションを選択し、選択ボックスを介して異なるクラスター間を移動できます。 この図の拡大版を表示するには、ここをクリックしてください。
図 6: JUMPn によって報告された PPI ネットワーク解析結果。 グローバルなモジュール間ネットワーク(A)が示され、その後に個々のモジュールのサブネットワーク(B)とその著しく濃縮された経路(C)が続きます。ユーザーは、さまざまな表示オプションを選択し、選択ボックスを介して異なるクラスターとモジュール間を移動できます。 この図の拡大版を表示するには、ここをクリックしてください。
% 分析用トップタンパク質 | # シミュレートされたモジュール | # 検出されたモジュール | # 再キャプチャされたモジュール1 | 精度2 | リコール3 |
高動的プロテオーム(例えば、T細胞活性化中):50%プロテオームからの6つのシミュレートされたモジュール | |||||
2 | 6 | 2 | 2 | 1 | 0.33 |
5 | 6 | 2 | 2 | 1 | 0.33 |
10 | 6 | 3 | 3 | 1 | 0.5 |
20 | 6 | 4 | 4 | 1 | 0.67 |
50 | 6 | 6 | 6 | 1 | 1 |
100 | 6 | 8 | 5 | 0.63 | 0.83 |
比較的安定したプロテオーム(例えば、ADの病因中):2%プロテオームからの3つのシミュレートされたモジュール | |||||
1 | 3 | 1 | 1 | 1 | 0.33 |
2 | 3 | 3 | 3 | 1 | 1 |
5 | 3 | 8 | 3 | 0.38 | 1 |
10 | 3 | 13 | 3 | 0.23 | 1 |
20 | 3 | 19 | 3 | 0.16 | 1 |
50 | 3 | 71 | 2 | 0.03 | 0.67 |
100 | 3 | 169 | 2 | 0.01 | 0.67 |
1再捕獲されたモジュールは、固有遺伝子がシミュレートされた固有遺伝子の1つと高度に相関する(ピアソンR>0.95)検出されたモジュールである。 | |||||
2精度 = 再キャプチャされたモジュール数 / 検出されたモジュール数 | |||||
3リコール = #再キャプチャされたモジュール / #シミュレートされたモジュール |
表1:共発現クラスター検出のシミュレーション研究。
PPI ネットワーク | いいえ。ノード数 | いいえ。エッジの数 |
バイオプレックス 3.0 複合 (293T + HCT116) | 14,551 | 1,67,399 |
InBio_Map_core_2016_09_12 | 17,429 | 6,08,166 |
文字列 (v11.0) | 18,954 | 5,87,482 |
複合PPIネットワーク | 20,485 | 11,52,607 |
表2:ヒトタンパク質間相互作用(PPI)ネットワークの統計。 PPIネットワークは、高品質を保証するためにエッジスコアによってフィルタリングされ、スコアカットオフはスケールフリー基準に最も適合することによって決定されます。
Subscription Required. Please recommend JoVE to your librarian.
Discussion
ここでは、深い定量的プロテオミクスデータ25,26,27,30,64を用いて分子機構を解剖するための複数のプロジェクトに適用されているJUMPnソフトウェアとそのプロトコルを紹介しました。JUMPnソフトウェアとプロトコルは、共発現ネットワーク解析のためのDEタンパク質の検討、包括的で高品質のPPIネットワークのコンパイル、合理化されたユーザーフレンドリーなインターフェースを備えた厳格な統計分析(例えば、複数の仮説検定の検討による)など、完全に最適化されています。JUMPnによって同定された複数のタンパク質モジュールは、機能実験研究25、27または独立した患者コホート26によって検証されており、JUMPnを多様な生物学的プロセスの根底にある重要な分子および経路を同定するための効果的なツールとして例示している。
このプロトコルの重要なステップには、共発現クラスターおよびPPIモジュールの最適な結果の生成が含まれ、これにはパラメータチューニングの複数回の反復、およびカスタマイズされたPPIネットワークのアップロードが必要な場合がある。我々のプロトコルでは、重要なクラスターの欠落、割り当てられていないタンパク質の割合が高い、2つの冗長クラスターのマージ、PPIモジュール内の重要なタンパク質の欠落を処理する方法など、一般的な実用的なシナリオについて議論しました。ユーザーは、いくつかの陽性対照タンパク質を調製し、最終的な共発現クラスターにおけるそれらの存在を確認することをお勧めします。PPIネットワークデータベースが不完全であるため、ポジティブコントロールが最終的なPPIモジュールに含まれないことがあります。これを部分的に緩和するために、PPIネットワークを最新バージョンのBioPlex V362 およびSTRING V1160に更新しました。さらに、JUMPnを使用すると、ユーザーはカスタマイズされたPPIネットワークをアップロードできます。例えば、重要な陽性対照タンパク質を餌として用いたアフィニティー精製質量分析(AP-MS)実験に由来する新規な相互作用は、よりカスタマイズされた分析のために現在の複合PPIネットワークと統合され得る。
各共発現タンパク質クラスターの経路富化解析のフレームワークを使用することにより、転写因子(TF)活性を推測するためにJUMPnを拡張することができる。この仮定は、共発現クラスター内に特定のTFの標的遺伝子の過剰発現が存在する場合(すなわち、これらの標的は差次的に発現され、同じ発現パターンに従う)、そのTFの活性は、その標的タンパク質の存在量が一貫して変化するため、実験条件にわたって潜在的に変化する。技術的には、これは、現在の経路データベースをTFターゲットデータベース(例えば、ENCODEプロジェクト65から)で置き換えることによって、JUMPnを介して単純に達成することができる。同様に、キナーゼ活性は、キナーゼ基質データベースを利用して、深いホスホプロテオミクスを入力として取ることによっても推測され得る。一例として、我々は脳腫瘍の病因の根底にある調節不全のTFおよびキナーゼの同定に成功した64。実際、活動推論のためのネットワークアプローチの使用は、ヒト疾患の調節不全のドライバーを特定するための強力なアプローチとして浮上している66、67。
JUMPnソフトウェアは、幅広いデータ型に簡単に適用できます。例示的な例として等圧標識定量プロテオームを使用したが、同じプロトコルは、標識のない定量化プロテオミクスデータ、ならびにゲノムワイド発現プロファイル(例えば、RNA-seqまたはマイクロアレイによって定量;遺伝子およびタンパク質発現プロファイルの両方にJUMPnを適用する我々の最近の例27を参照されたい)にも適用可能である。ホスホプロテオミクスデータは、共発現ホスホサイトを同定するためにJUMPnによって取得され得、続いてキナーゼ活性推論25が続いた。さらに、AP-MSアプローチによって生成されたインタラクトームデータも適切であり、それによって、類似の餌相互作用強度および化学量論に従う獲物タンパク質が共発現クラスターを形成し、さらにデータ解釈のために既知のPPIと重複する68。
現在のバージョンの JUMPn には制限があります。まず、インストール手順はコマンドラインベースであり、コンピュータサイエンスの基本的な知識が必要です。これは、特に計算上の背景を持たない生物学者からのJUMPnのより広範な使用を妨げる。より理想的な実装は、オンラインサーバーにJUMPnを公開することです。第二に、現在のデータベースは、ヒト疾患研究に焦点を当てているため、人間中心です。マウスによって生成されたプロテオミクスデータも、そのようなヒト中心のデータベース25、27を用いてJUMPnによって分析されており、ほとんどのPPIが両方の種にわたって保存されていると仮定すると69、70である。マウス特異的シグナル伝達はこのアプローチでは捉えられないが、これらのヒト研究では関心がない。ただし、哺乳類以外のモデルシステム(ゼブラフィッシュ、フライ、酵母など)では、種固有のデータベースを作成し、高度なオプションを使用してJUMPnにアップロードする必要があります。追加の種の資源は、将来のJUMPnリリースを通じて提供される可能性があります。第三に、オントロジー/経路解析の現在のステップにはかなりの時間がかかり、並列コンピューティングによってさらに最適化することができます。
結論として、我々は、システム生物学アプローチによって共発現し、潜在的に物理的に相互作用するタンパク質モジュールを同定および視覚化するための定量的プロテオミクスデータを探求するためのJUMPnソフトウェアおよびプロトコルを提示する。JUMPnを他の53,71,72と区別する主な機能には、(i)JUMPnが経路とネットワーク解析の4つの主要なコンポーネントを統合して合理化することが含まれます(図1)。(ii)単純な遺伝子リストを入力として受け取るほとんどの経路解析ソフトウェアとは異なり、JUMPnは定量化マトリックスから始まり、それによって定量的情報を文献に文書化された経路およびネットワークとシームレスに統合することができる。(iii)共発現タンパク質クラスターと相互作用モジュールの両方が、既知の経路によって自動的に注釈が付けられ、ユーザーフレンドリーなウェブブラウザを使用してR/光沢のある相互作用プラットフォームを介して視覚化される。(iv) 最終結果は、Excel 形式で容易に公開できる 3 つの表に編成されます。したがって、JUMPnとこのプロトコルは、定量的プロテオミクスデータを用いてメカニズムを解剖するための多くの研究に広く適用できると期待しています。
Subscription Required. Please recommend JoVE to your librarian.
Disclosures
著者らは開示するものは何もありません。
Acknowledgments
資金援助は、国立衛生研究所(NIH)(R01AG047928、R01AG053987、RF1AG064909、RF1AG068581、およびU54NS110435)およびALSAC(米国レバノンシリア関連慈善団体)によって提供されました。MS解析は、NIHがんセンター支援助成金(P30CA021765)によって部分的に支援されたセントジュード小児研究病院のプロテオミクスおよびメタボロミクスセンターで実施された。コンテンツは著者の責任であり、必ずしも国立衛生研究所の公式見解を表すものではありません。
Materials
Name | Company | Catalog Number | Comments |
MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7. | Apple Inc. | MacBook Pro 13'' | Hardware used for software development and testing |
Anoconda | Anaconda, Inc. | version 4.9.2 | https://docs.anaconda.com/anaconda/install/ |
miniconda | Anaconda, Inc. | version 4.9.2 | https://docs.conda.io/en/latest/miniconda.html |
RStudio | RStudio Public-benefit corporation | version 4.0.3 | https://www.rstudio.com/products/rstudio/download/ |
Shiny Server | RStudio Public-benefit corporation | https://shiny.rstudio.com/articles/shinyapps.html |
References
- Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
- Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
- Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
- Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
- Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
- Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
- Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
- Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R.
Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013). - Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer's disease. Analytical Chemistry. 92, 7162-7170 (2020).
- Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
- Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
- Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
- Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
- Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
- Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
- Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
- Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
- Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
- High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
- Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
- Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
- Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
- Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
- Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell's functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
- Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
- Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer's disease progression. Neuron. 105, 975-991 (2020).
- Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
- Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer's disease. Cell Systems. 4, 60-72 (2017).
- Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer's disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
- Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
- Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
- Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
- Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
- Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
- Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
- Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
- Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
- Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
- Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
- Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, Anaconda. miniconda (2021). RStudio (2021) Shiny Server 2301-2319 (2021).
- JUMPn. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021).
- Anaconda. , Available from: https://docs.anaconda.com/anaconda/install/ (2021).
- miniconda. , Available from: https://docs.conda.io/en/latest/miniconda.html (2021).
- RStudio. , Available from: https://www.rstudio.com/products/rstudio/download/ (2021).
- Shiny Server. , Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021).
- Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
- R code. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021).
- Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
- Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article 17 (2005).
- Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
- Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
- Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
- Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
- Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
- FlyEn rich r. , Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021).
- JUMPn GitHub. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly_ (2021).
- Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
- Benjamini, Y., Hochberg, Y. Controlling the false discovery rate - a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
- Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
- Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
- Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
- Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
- Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
- Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
- Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
- Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
- Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
- Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
- Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
- Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
- Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
- Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).