Genetics

細菌集団における階層遺伝子型とアクセサリゲノム遺伝子座のヒューリスティックマイニング

Published: December 7, 2021 doi: 10.3791/63115

Natasha Pavlovikj*¹, Joao Carlos Gomes-Neto*^2,3, Andrew K. Benson^2,3

¹Department of Computer Science and Engineering, University of Nebraska-Lincoln, ²Department of Food Science and Technology, University of Nebraska-Lincoln, ³Nebraska Food for Health Center, University of Nebraska-Lincoln

* These authors contributed equally

Summary

この分析計算プラットフォームは、細菌集団ゲノミクスに関心のある微生物学者、生態学者、疫学者に実用的なガイダンスを提供します。具体的には、ここで提示された研究は、i)階層遺伝子型の系統発生誘導マッピングを実行する方法を示した。ii)遺伝子型の周波数ベースの分析;iii)親族関係とクローン性分析iv)系統鑑別補助遺伝子座の同定。

Abstract

細菌の全ゲノムシーケンシング(WGS)の日常的かつ体系的な使用は、公衆衛生研究所および規制当局によって実施される疫学的調査の精度および分解能を向上させている。公開されている大量のWGSデータは、病原性集団を大規模に研究するために使用することができる。最近、細菌のWGSデータを用いた再現性、自動化、スケーラブルな階層ベースの集団ゲノム解析を可能にするために、ProkEvoと呼ばれる自由に利用可能な計算プラットフォームが公開されました。ProkEvoのこの実装は、集団の標準的な遺伝子型マッピングと、生態学的推論のためのアクセサリーゲノムコンテンツのマイニングを組み合わせることの重要性を実証しました。特に、ここで強調した研究は、Rプログラミング言語を使用した母集団スケールの階層分析にProkEvo派生出力を使用しました。主な目的は、微生物学者、生態学者、疫学者に実用的なガイドを提供することでした。ii)生態学的適合性の代理としての遺伝子型の頻度分布を評価すること。iii)特定の遺伝子型分類を用いて親族関係および遺伝的多様性を決定すること。iv)アクセサリー遺伝子座を区別する系統をマップする。再現性と移植性を高めるために、Rマークダウンファイルを使用して分析アプローチ全体を実証しました。サンプルデータセットには、人獣共通感染症の食品媒介病原体 サルモネラ・ ニューポートの2,365の分離株からのゲノムデータが含まれていました。階層的遺伝子型(Serovar -> BAPS1 -> ST -> cgMLST)の系統発生に基づくマッピングは、集団の遺伝子構造を明らかにし、配列型(ST)を分化遺伝子型の要石として強調した。最も優勢な3つの系統にわたって、ST5とST118はクローン性の高いST45系統型よりも最近になって共通の祖先を共有した。STベースの相違は、補助抗菌薬耐性(AMR)遺伝子座の分布によってさらに強調された。最後に、系統学にアンカーされたビジュアライゼーションを使用して、階層的な遺伝子型とAMRコンテンツを組み合わせて、血縁関係構造と系統特異的なゲノムシグネチャを明らかにしました。この分析アプローチを組み合わせることで、汎ゲノム情報を使用してヒューリスティック細菌集団ゲノム解析を実施するためのガイドラインがいくつか提供されます。

Introduction

公衆衛生研究所および規制当局による日常的なサーベイランスおよび疫学的調査の基礎としての細菌全ゲノムシーケンシング(WGS)の使用の増加は、病原体の発生調査を大幅に強化した1,2,3,4。その結果、大量の非同定WGSデータが現在公開されており、複数の貯水池、地理的領域、および環境の種類にわたる集団構造、遺伝子型頻度、および遺伝子/対立遺伝子頻度に基づく研究を含む、病原性種の集団生物学の側面を前例のない規模で研究するために使用することができます⁵.最も一般的に使用されるWGS誘導疫学的調査は、共有コアゲノムコンテンツのみを使用した分析に基づいており、共有(保存された)コンテンツのみが遺伝子型分類(例えば、バリアント呼び出し)に使用され、これらのバリアントは疫学的分析およびトレースの基礎となる¹、²^、⁶^、⁷.典型的には、細菌コアゲノムベースのジェノタイピングは、7〜数千の遺伝子座⁸^、⁹^、¹⁰を用いてマルチ遺伝子座配列タイピング(MLST)アプローチを用いて実施される。これらのMLSTベースの戦略は、事前に組み立てられたまたは組み立てられたゲノム配列を高度にキュレーションされたデータベースにマッピングし、それによって対立遺伝子情報を疫学的および生態学的分析のための再現可能な遺伝子型単位に組み合わせることを包含する^11,12。例えば、このMLSTベースの分類は、低レベルの配列タイプ(ST)またはST系統(7遺伝子座)と、より高いレベルのコアゲノムMLST(cgMLST)バリアント(〜300〜3,000遺伝子座)の2つのレベルの分解能で遺伝子型情報を生成できます¹⁰。

MLSTベースの遺伝子型分類は、実験室間で計算上移植性が高く、再現性が高いため、細菌種レベル^13,14の下の正確なサブタイピングアプローチとして広く受け入れられています。しかしながら、細菌集団は、種固有の様々な程度のクローナリティ(すなわち、遺伝子型の均質性)、遺伝子型間の階層的親族関係の複雑なパターン15,16,17、および付属ゲノム含有量の分布における広範囲の変動^18,19によって構造化されている。.したがって、より包括的なアプローチは、離散的な分類を超えてMLST遺伝子型に進み、異なる解像度のスケールでの遺伝子型の階層的関係を組み込み、アクセサリゲノムコンテンツを遺伝子型分類にマッピングし、集団ベースの推論を容易にする18,20,21。.さらに、解析は、遠縁の遺伝子型の間でも、付属ゲノム遺伝子座の遺伝の共有パターンに焦点を当てることもできる^21,22。全体として、この組み合わせアプローチは、集団構造と、地理空間的または環境的勾配間の特定のゲノム組成物(例えば、遺伝子座)の分布との間の関係の不可知論的尋問を可能にする。このようなアプローチは、特定の集団の生態学的特徴に関する基本的および実用的な情報の両方をもたらし、その結果、食用動物や人間などの貯水池全体の熱帯および分散パターンを説明することができる。

このシステムベースの階層的集団指向アプローチでは、識別可能なゲノムシグネチャを予測するのに十分な統計的検出力を得るために、大量のWGSデータが必要です。したがって、このアプローチには、何千もの細菌ゲノムを一度に処理できる計算プラットフォームが必要です。最近、ProkEvoが開発され、パンゲノムマッピング²⁰を含む統合的な階層ベースの細菌集団分析を可能にする、自由に利用可能で、自動化され、ポータブルで、スケーラブルなバイオインフォマティクスプラットフォームです。ProkEvoは、中規模から大規模の細菌データセットの研究を可能にしながら、ユーザーがカスタマイズできるテスト可能で推論可能な疫学的および生態学的仮説および表現型予測を生成するためのフレームワークを提供します。この研究は、ProkEvo 由来の出力ファイルを階層的な集団分類とアクセサリゲノムマイニングの分析と解釈のための入力として利用する方法に関するガイドを提供することで、そのパイプラインを補完します。ここで提示された症例研究は、 サルモネラ・エンテリカ 系統I人獣共通感染症血清Sの個体群を利用した。例としてニューポートは、微生物学者、生態学者、疫学者に、i)階層遺伝子型をマッピングするために自動化された系統発生依存アプローチを使用する方法についての実用的なガイドラインを提供することを特に目的としていました。ii)生態学的適合性を評価するための代理として遺伝子型の頻度分布を評価すること。iii)独立した統計的アプローチを用いて系統特異的なクローン性の程度を決定すること。iv)集団構造の文脈においてアクセサリゲノムコンテンツをマイニングする方法の例として、系統分化性AMR遺伝子座をマッピングする。より広義には、この分析アプローチは、標的種に関係なく進化的および生態学的パターンを推測するために使用できる規模で集団ベースのゲノム解析を実行するための一般化可能なフレームワークを提供する。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. 入力ファイルの準備

メモ: プロトコルはこちらから入手できます - https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code。このプロトコルは、研究者がこのFigshareリポジトリで利用可能な必要な出力を得るためにProkEvo(または同等のパイプライン)を特に使用していることを前提としています(https://figshare.com/account/projects/116625/articles/15097503 - ログイン資格情報が必要です - ユーザーはファイルにアクセスするために無料のアカウントを作成する必要があります)。注目すべきは、ProkEvoはNCBI-SRAリポジトリからゲノム配列を自動的にダウンロードし、入力²⁰としてゲノム同定のリストを含む.txtファイルと、 Sに関するこの作業に使用されたファイルのみを必要とすることです。ニューポートUSA分離株は、ここ(https://figshare.com/account/projects/116625/articles/15097503?file=29025729)で提供されています。この細菌ゲノミクスプラットフォームをインストールして使用する方法の詳細については、こちら(https://github.com/npavlovikj/ProkEvo/wiki/2.-Quick-start)^{20を参照してください。}

前述のようにコアゲノム系統発生を生成する^20, これは、バイオインフォマティクスプラットフォーム²⁰の一部ではない.FastTreeは、入力ファイルとしてRoary²⁴コアゲノムアライメントを必要とします。系統発生ファイルの名前は newport_phylogeny.tree (https://figshare.com/account/projects/116625/articles/15097503?file=29025690) です。
サルモネラ菌およびcgMLSTバリアント呼び出しデータの血清変数分類に関する情報を含むSISTR²⁵出力を生成します(sistr_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025699)。
サブグループまたはハプロタイプ(fastbaps_partition_baps_prior_l6.csv〜https://figshare.com/account/projects/116625/articles/15097503?file=29025684)へのゲノムのBAPSレベル1〜6分類を含むfastbaps ^26,27によってBAPSファイルを生成する。
MLSTプログラム(https://github.com/tseemann/mlst)²⁸(salmonellast_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025696)を用いて、MLSTベースのゲノムのSTへの分類を生成する。
ゲノムごとにマッピングされたAMR遺伝子座を含む https://github.com/tseemann/abricate ファイルとしてABRicate(.csv)²⁹出力を生成します(sabricate_resfinder_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025693)。
注:ユーザーはProkEvoバイオインフォマティクスパイプラインの特定の部分をオフにすることができます(詳細については、こちらを確認してください - https://github.com/npavlovikj/ProkEvo/wiki/4.2.-Remove-existing-bioinformatics-tool-from-ProkEvo)。ここで紹介する分析アプローチは、バイオインフォマティクスパイプラインの実行後に集団ベースの分析を行う方法のガイドラインを提供します。

2. 統計ソフトウェアと統合開発環境 (IDE) アプリケーションをダウンロードしてインストールする

Linux、Mac、またはPC³⁰用のRソフトウェアの最新の無料で利用可能なバージョンをダウンロードしてください。デフォルトのインストール手順に従います。
RStudioデスクトップIDEの最新の無料版をここ^{からダウンロードしてください 31}.デフォルトの手順に従ってインストールします。
注: 次のステップは、コード使用率の詳細情報を含む、使用可能なスクリプトに含まれており、この作業 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd) で提示された出力と数値を生成するために順番に実行する必要があります。ユーザーは、Pythonなどのこの分析/統計分析を実行するために別のプログラミング言語を使用することを決定できます。その場合は、スクリプトのステップをフレームワークとして使用して、分析を実行します。

3. データサイエンスライブラリのインストールとアクティベーション

分析の最初のステップとして、すべてのデータサイエンスライブラリを一度にインストールします。スクリプトを再実行する必要があるたびにライブラリをインストールしないでください。ライブラリのインストールには、install.packages() 関数を使用します。または、IDE 内の 「パッケージ」 タブをクリックして、パッケージを自動的にインストールすることもできます。必要なすべてのライブラリをインストールするために使用されるコードは、ここに示されています。
# Tidyverseをインストールする
install.packages("tidyverse")
# スキムルのインストール
install.packages("skimr")
# ビーガンをインストールする
install.packages("vegan")
# フォーキャットをインストールする
install.packages("forcats")
# ナニアールのインストール
install.packages("naniar")
# ggpubr をインストールする
install.packages("ggpubr")
# ggrepelをインストールする
install.packages("ggrepel")
# 再形成2をインストールする
install.packages("reshape2")
# RColorBrewerをインストールする
install.packages("RColorBrewer")
# ggtreeをインストールする
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("ggtree")
#ggtreeのインストールはインストールに関する質問を促します - 答えはすべての依存関係をインストール/更新するための "a"です
インストール直後に、スクリプトの先頭にある library() 関数を使用して、すべてのライブラリまたはパッケージをアクティブ化します。必要なすべてのパッケージをアクティベートする方法のデモを次に示します。
# ライブラリとパッケージをアクティベートする
ライブラリ(整頓)
ライブラリ(スキムル)
図書館(ビーガン)
ライブラリ(フォーキャット)
図書館(ナニアル)
ライブラリ(グツリー)
ライブラリ(グパブ)
ライブラリ(グレペル)
ライブラリ(リシェイプ2)
ライブラリ(RColorBrewer)
次のように、コードチャックで {r, include = FALSE} を使用して、ライブラリとパッケージのインストールとアクティブ化に使用されるコードの出力を抑制します。
''' {r, include = FALSE}
# Tidyverseをインストールする
install.packages("tidyverse")
```
注: この手順はオプションですが、最終的な html、doc、または pdf レポートに不要なコードのチャンクが表示されないようにします。
すべてのライブラリの特定の機能の簡単な説明と、さらに情報を収集するための便利なリンクについては、ステップ 3.4.1 から 3.4.11 を参照してください。
1. Tidyverse - データ入力、視覚化、解析と集計、統計モデリングなど、データサイエンスに使用されるこのパッケージのコレクションを使用します。典型的には、ggplot2(データ可視化)およびdplyr(データラングリングおよびモデリング)は、このライブラリ³²に存在する実用的なパッケージである。
2. skimr - このパッケージは、欠損値³³ の識別を含むデータフレームの要約統計を生成するために使用します。
3. ビーガン - 多様性に基づく統計(アルファおよびベータ多様性など)の計算など、コミュニティ生態学の統計分析にこのパッケージを使用します³⁴。
4. forcats - このパッケージを使用して、分類の順序変更などのカテゴリ変数を操作します。このパッケージは Tidyverse ライブラリ³² の一部です。
5. naniar - このパッケージを使用して、viss_miss() 関数³⁵ を使用して、データフレーム内の変数間の欠損値の分布を視覚化します。
6. ggtree - 系統樹³⁶ の可視化にこのパッケージを使用します。
7. ggpubr - ggplot2 ベースのビジュアライゼーションの品質を向上させるために、このパッケージを使用します³⁷.
8. ggrepel - グラフ³⁸ 内のテキストラベル付けにこのパッケージを使用します。
9. reshape2 - このパッケージの melt() 関数を使用して、データフレームをワイドフォーマットからロングフォーマット³⁹ に変換します。
10. RColorBrewer - ggplot2ベースのビジュアライゼーション⁴⁰の色を管理するためにこのパッケージを使用してください。
11. 探索的データ分析には、head() を使用してデータフレーム内の最初のオブザベーションをチェックし、tail() でデータフレームの最後のオブザベーションをチェックし、is.na() でデータフレーム全体の欠損値を持つ行数をカウントし、dim() でデータセット内の行と列の数をチェックし、table() で変数全体のオブザベーションをカウントします。と sum() を使用して、オブザベーションまたはインスタンスの総数をカウントします。

4. データ入力と分析

メモ: この分析の各ステップの詳細については、使用可能なスクリプト (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd) を参照してください。ただし、考慮すべき重要な点がいくつかあります。

read_csv() 関数を使用して、すべての遺伝子型分類 (serovar、BAPS、ST、および cgMLST) を含むすべてのゲノムデータ入力を行います。
複数データセットの集計の前に、名前を変更し、新しい変数を作成し、各データセットから目的の列を選択します。
独立したデータセットから欠損値を削除しないでください。すべてのデータセットが集計されるまで待って、欠損値を変更または除外します。データセットごとに新しい変数が作成されると、欠損値はデフォルトで新しく生成された分類の 1 つに分類されます。
ハイフンや尋問マークなどの誤った文字がないか確認し、NA (該当なし) に置き換えます。欠損値についても同じことを行います。
遺伝子型の階層的順序(血清->BAPS1->ST->cgMLST)に基づいてデータを集約し、個々のゲノム同定に基づいてグループ化する。
複数の戦略を使用して欠損値をチェックし、このような不整合を明示的に処理します。ゲノムを削除するか、分類が信頼できない場合にのみデータから単離してください。それ以外の場合は、分析の実行を検討し、ケースバイケースで NA を削除します。
注: このような値を 先験的に処理する戦略を確立することを強くお勧めします。すべてのゲノムや、変数全体で欠損値を持つ分離株を削除しないでください。例えば、ゲノムは、cgMLSTバリアント番号を有さずにST分類を有し得る。その場合でも、ゲノムはSTベースの解析に引き続き使用できます。
すべてのデータセットが集計されたら、それらをフォローアップ分析の複数の場所で使用できるデータフレーム名またはオブジェクトに割り当てて、用紙内のすべての図に対して同じメタデータファイルを生成する必要がなくなります。

5. 分析の実施と可視化の生成

注: すべての解析と視覚化の作成に必要な各ステップの詳細な説明は、このホワイトペーパーのマークダウンファイル (https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code) に記載されています。各図のコードはチャンクで区切られ、スクリプト全体を順番に実行する必要があります。さらに、各メイン図と補足図のコードは、個別のファイルとして提供されます ( 補足ファイル 1 および 補足ファイル 2 を参照)。ここでは、各主要図と補足図を生成する際に考慮すべきいくつかの重要なポイント(コードスニペット付き)を示します。

ggtreeを使用して、遺伝子型情報とともに系統樹をプロットします(図1)。
1. xlim() 関数と gheatmap(width = ) 関数内の数値をそれぞれ変更することで、リングの直径と幅を含む ggtree 図形のサイズを最適化します (以下のコード例を参照)。
  tree_plot <- ggtree(ツリー、レイアウト= "円形") + xlim(-250, NA)
  figure_1 <- ギートマップ(tree_plot、d4、オフセット=.0、幅=20、コルネーム=FALSE)
  注:系統学的プロットに使用できるプログラムのより詳細な比較については、この研究²⁰をチェックしてください。この研究は、データセットのサイズを小さくするなど、ggtreeベースのビジュアライゼーションを改善するための戦略を特定しようとする試みを強調しましたが、枝の長さとツリートポロジはphandango⁴¹と比較してそれほど明確に区別できませんでした。
2. すべてのメタデータをできるだけ少ないカテゴリに集約して、系統樹 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_1.Rmd) を使用して複数のデータレイヤーをプロットするときに、色付けパネルの選択を容易にします。関心のある質問とドメインの知識に基づいてデータ集約を実行します。
棒グラフを使用して相対度数を評価します(図2)。
1. ST 系統と cgMLST バリアントの両方のデータを集約して、視覚化を容易にします。データ集約に使用する経験的または統計的なしきい値を選択しながら、質問されている質問を検討します。
2. カットオフを決定するためにSTリネージュの周波数分布を検査するために使用できるコード例については、以下を参照してください。
  st_dist <- d2 %>% group_by(ST) %>% # ST 列のグループ
  count() %>% # オブザベーションの数を数えます
  arrange(desc(n)) # カウントを降順に並べる
3. マイナー(低周波)STを集約する方法を示すコード例については、以下を参照してください。以下に示すように、5、31、45、46、118、132、または 350 として番号が付けられていない ST は、「その他の ST」としてグループ化されます。cgMLST バリアント (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_2.Rmd) にも同様のコードを使用します。
  d2$st <- ifelse(d2$ST == 5, "ST5", # マイナー S が [その他] として集計される新しい ST 列を作成します。
  ifelse(d2$ST == 31, "ST31",
  ifelse(d2$ST == 45, "ST45",
  ifelse(d2$ST == 46, "ST46",
  ifelse(d2$ST == 118, "ST118",
  ifelse(d2$ST == 132, "ST132", ifelse(d2$ST == 350, "ST350", "Other STs"))))))))
ネストされたアプローチを使用して、各 BAPS1 サブグループ内の各 ST 系統の割合を計算し、祖先的に関連している (同じ BAPS1 サブグループに属する) ST を特定します (図 3)。以下のコードは、BAPS1 サブグループ (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_3.Rmd) 全体で ST ベースの比率を計算する方法を示しています。
baps <- d2b %>% filter(serovar == "Newport") %>% # filter Newport serovars
select(baps_1, ST) %>% # baps_1列と ST 列の選択
mutate(ST = as.numeric(ST)) %>% # ST カラムを数値に変更
drop_na(baps_1、ST) %>% # NA のドロップ
group_by(baps_1、ST) %>% # baps_1とSTによるグループ化
summarise(n = n()) %>% # 観測値を数える
mutate(prop = n/sum(n)*100) # 比率を計算する
Resfinderベースの遺伝子アノテーション結果を用いて、ST系統にわたるAMR遺伝子座の分布をプロットする(図4)。
注:レスファインダーは生態学的および疫学的研究で広く使用されています⁴²。タンパク質コード遺伝子の注釈は、データベースがキュレーションおよび更新される頻度によって異なります。提案されたバイオインフォマティクスパイプラインを使用する場合、研究者は、異なるデータベース²⁰にわたってAMRベースの遺伝子座分類を比較することができる。継続的に更新されているデータベースを確認してください。誤呼び出しを避けるために、古いデータベースや厳選されていないデータベースは使用しないでください。
1. 経験的または統計的しきい値を使用して、最も重要なAMR遺伝子座を除外し、視覚化を容易にします。ここに示すような、すべてのST系統にわたるすべてのAMR遺伝子座の計算された比率を含む生の.csvファイルを提供します(https://figshare.com/account/projects/116625/articles/15097503?file=29025687)。
2. 次のコードを使用して、各STのAMR比率を計算します(https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_4.Rmd)。
  # ST45の計算
  d2c <- data6 %>% filter(st == "ST45") # ST45データを最初にフィルタリングする
  #ST45の場合、AMR遺伝子座の比率を計算し、比率を10%より大きくするだけです
  d3c <- d2c %>% 選択(id, gene) %>% # 列の選択
  group_by(id, gene) %>% # id と遺伝子によるグループ化
  要約(カウント = n()) %>% # 観測値のカウント
  mutate(count = replace(count, count == 2, 1)) %>% # 2 に等しいカウントを 1 に置き換えて、各遺伝子のコピーを 1 つだけ考慮する (重複は信頼できないかもしれない) が、研究者はそれらを除外するか保持するかを決定できる。研究者がそれらを除外したい場合は、 filter(count != 2)関数を使用するか、そのままにしておきます
  filter(count <= 1) # フィルタカウントが 1 以下
  d4c <- d3c %>% group_by(遺伝子) %>% # 遺伝子別群
  要約(値 = n()) %>% # 観測値のカウント
  mutate(total = table(data1$st)[6]) %>% # st mutate(prop = (value/total)*100) # 比率を計算する
  d5c <- d4c %>% mutate(st = "ST45") # st カラムを作成し、ST 情報を追加する
3. すべてのSTについて計算が完了したら、次のコードを使用してデータセットを1つのデータフレームとして結合します。
  # データセットの結合
  d6 <- rbind(d5a, d5b, d5c, d5d, d5e, d5f, d5g, d5h) # 行バインドデータセット
4. 計算された比率を含む.csvファイルをエクスポートするには、次のコードを使用します。
  # STおよびAMR遺伝子座情報を含むデータテーブルをエクスポートする
  abx_newport_st <- d6 write.csv(abx_newport_st,"abx_newport_st.csv", row.names = FALSE)
5. ST系統にわたるAMRベースの分布をプロットする前に、次に示すように、しきい値に基づいてデータをフィルタリングして視覚化を容易にします。
  # 10%以上の比率でAMR遺伝子座をフィルタリングする
  d7 <- d6 %>% filter(prop >= 10) # 経験的または統計的にしきい値を決定する
ggtreeを使用して、コアゲノム系統発生を階層的な遺伝子型分類およびAMRデータとともに単一のプロットにプロットします(図5)。
1. 上記のパラメータを使用してggtree内の図のサイズを最適化します(ステップ5.1.1を参照)。
2. 変数を集計するか、遺伝子の存在や不在などの二項分類を使用して、視覚化を最適化します。プロットに追加されるフィーチャが多いほど、色付けの選択プロセスが難しくなります (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_5.Rmd)。
  注: 補足図 - コード全体の詳細な説明は、こちら (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd) で確認できます。
ggplot2の散布図をデータ集約なしで使用して、ST系統またはcgMLSTバリアントの分布を表示しながら、最も頻度の高い遺伝子型を強調します(補足図1)(https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s1.Rmd)。
入れ子になった解析を行い、STベースの遺伝的多様性を垣間見ることができるように、cgMLSTバリアントの割合を通じてST系統の組成を評価し、最も頻度の高いバリアントとその遺伝的関係を特定します(つまり、同じSTに属するcgMLSTバリアントは、異なるSTに属するものよりも最近祖先を共有していました)(補足図2) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s2.Rmd)。
群集生態学メトリック、すなわちシンプソンの多様性のD指数を使用して、主要なST系統⁴³ の各々のクローン性または遺伝子型多様性の程度を測定する(補足図3)。
1. BAPSレベル1~6およびcgMLSTを含む遺伝子型分解能の異なるレベルで、ST系統全体の多様性の指標を計算します。以下は、遺伝子型分解能の BAPS レベル 1 (BAPS1) でこの計算を行う方法のコード例です。
  # BAPS レベル 1 (BAPS1)
  # ST と BAPS1 を NA で削除し、ST と BAPS1 でグループ化し、シンプソンのインデックスを計算します。
  baps1 <- data6 %>%
  select(st, BAPS1) %>% # 列の選択
  drop_na(st, BAPS1) %>% # ドロップ NA
  group_by(st, BAPS1) %>% # 列によるグループ化
  summarise(n = n()) %>% # 観測値を数える
  変異(シンプソン=多様性(n、"シンプソン")))%>% #多様性を計算する
  group_by(st) %>% # 列ごとにグループ化
  summarise(simpson = mean(simpson)) %>% # インデックスの平均を計算する
  melt(id.vars=c("st"), measure.vars="simpson",
  variable.name="index", value.name="value") %>% # 長いフォーマットに秘密裏に
  mutate(strat = "BAPS1") # strat カラムを作成する
  注:より遺伝的に多様な集団(すなわち、遺伝子型分解能の異なる層におけるより多くの変異体)は、cgMLSTレベルでより高い指標を有し、BAPSレベル2から6(https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s3.Rmd)に向かう指数ベースの値を増加させる。
すべての分解能レベルにおけるBAPSサブグループの相対頻度(BAPS1-6)をプロットすることによって、ST系統の遺伝子型多様性の程度を調べる(補足図4)。母集団が多様であればあるほど、BAPS サブグループ (ハプロタイプ) の分布はまばらになり、BAPS1 (低レベルの分解能) から BAPS6 (より高いレベルの分解能) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s4.Rmd) に移行します。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

集団ゲノミクス解析に計算プラットフォームProkEvoを利用することで、細菌WGSデータマイニングの最初のステップは、コアゲノム系統発生の文脈で階層的な集団構造を調べることからなる(図1)。 Sの場合。 エンテリカ 系統Iは、Sで例示される。ニューポートデータセットは、母集団が以下のように階層的に構造化されている:血清(最低レベルの分解能)、BAPS1サブグループまたはハプロタイプ、ST系統、およびcgMLSTバリアント(最高レベルの分解能)²⁰。階層的集団構造のこの系統学的誘導分析は、特に以下の点を調べることを可能にする:i) サルモネラ菌の場合、SISTRベースの誤分類ゲノムの系統学的分布を他の血清に;ii)集団の遺伝的または親族関係の構造;iii)遺伝子型解決の異なるレベルでの多様化のパターン;iv)進化的、生態学的、または疫学的パターンの根底にある主要な遺伝子型単位の同定;v)BAPS1サブグループまたはハプロタイプ組成を介したST系統間の祖先関係、およびST系統内のcgMLST変異体間の祖先関係;vi)cgMLST変異体組成物によるST系統の遺伝子型均質性の程度の部分図。

図1: S の階層遺伝子型の系統発生誘導マッピングニューポートの人口。コアゲノム系統学(黒中心の円)を用いて、血清型(分解能が最も低いレベル - 最も内側の色付きの円)、BAPSレベル1(BAPS1)サブグループまたはハプロタイプ、ST系統、およびcgMLSTバリアント(最高レベルの解像度 - 最も外側の色の円)を含む階層遺伝子型をマッピングした。セロバールはニューポート (S. Newport)または「その他の血清」は、コアゲノムMLST情報を利用し、計算プラットフォームProkEvoの一部として実行されたゲノムのSISTRアルゴリズム分類に基づく。BAPS1は、ProkEvo内のコアゲノムデータを使用して、集団を関連するハプロタイプのサブグループまたはクラスターに不可知論的に層別化します。BAPS1は、ST間の祖先関係を正確に捉えたため、血清とST系統の間に階層的に配置されています。 ST系統は、7つのゲノム散在遺伝子座を用いた正準MLST解析に基づいて形成されています。主要なSTまたは最も頻度の高いST(割合>1%)のみがグラフに描かれました。最後に、最も頻度の高いcgMLSTバリアント(比率>3.5%)のみを使用して、S の階層構造全体を示しました。ニューポートの個体群(n = 2,365 USAの分離株のみ)。カテゴリ「その他のST」または「その他のcgMLST」は、それぞれマイナーまたは低周波の系統またはバリアントで構成され、データセットに基づいて経験的または統計的に設定する必要がある任意に行われるしきい値設定が行われます。この図の拡大版を表示するには、ここをクリックしてください。

次に、すべての階層遺伝子型の相対頻度を使用して、全体的な分布と最も頻繁に観察される分類(すなわち、遺伝子型)を評価した(図2)。図2C-Dでは、データの視覚化(次元削減)を容易にするために、頻度の低い(マイナーな)ST系統またはcgMLSTバリアントをそれぞれ「他のST」または「他のcgMLST」として集約した。サンプリングが環境やホスト間で体系的に行われ、適切に統計的に検出力が与えられている場合、頻度分布は生態学的適合性の代理になる可能性があります。すなわち、最も頻度の高い系統または変異体は、より高い適応度を有すると予測することができ、続いて、そのような定量的形質の根底にある原因遺伝子決定因子を決定するためのさらなる調査⁶^、³⁰。

図2: S の割合異なる解像度レベルでのニューポート階層遺伝子型。 (a)セロバールはSの表現型 である。コア遺伝子座とOおよびH抗原コード遺伝子座(表面タンパク質)との間の遺伝性の高い連鎖不平衡のためにコアゲノムデータのみからのみ予測できる エンテリカ 系譜I集団。ProkEvoを使用する場合、 サルモネラ菌 のゲノムはSISTRプログラムを使用して自動的に血清型に分類されます。Sのみですが。 NCBIからのニューポート(Newport)ゲノムは推定上ダウンロードされ、いくつかはProkEvo内で「他の血清型」として分類されている。全ゲノムの約2%(2,365個中48個)がS以外に分類された。ニューポートセロバー。(B) BAPS レベル 1 (BAPS1) サブグループまたはハプロタイプの割合。BAPS1 が階層スキームのセロバール系統と ST 系統の間に挿入されるのは、ST 間の祖先関係を正確かつ不可知論的に捉えたからである。(C) 主要な ST 系統の割合は、相対頻度で 1% >した ST のみを表していた。マイナーSTは「その他のST」としてグループ化された。(D)主要なcgMLST変異体の割合は、相対頻度で>3%であった4つの優勢なcgMLSTのみを示した。残りの cgMLSTS は「その他の cgMLST」としてグループ化されました。(B-D)SISTRによって「その他の血清型」(2.03%)として分類されたゲノムは、BAPS1、ST、およびcgMLSTの相対頻度をプロットする前にデータから除外された。(C-D)STデータとcgMLSTデータの両方をプロットするために使用される閾値は任意に定義されており、ケースバイケースで経験的に確立されるべきである。この図の拡大版を表示するには、ここをクリックしてください。

あるいは、散布図を使用して、データ集約を行わずに、ST系統またはcgMLSTバリアントの両方の分布と比率を評価することもできます(補足図1)。この散布図の使用は、両方の遺伝子型について100分の1(数千ではないにしても)の分類が典型的に発生するため、ST系統およびcgMLSTバリアントにとって特に有用である。このまばらな分布は、serovar レベルと BAPS1 レベルの解像度では一般的に発生しません。これは、シーケンスが継承可能にいくつかのサブグループまたはカテゴリに折りたたまれる低レベルの解像度であるためです。

次に、ST間の祖先関係を、BAPS1サブグループまたはハプロタイプによるST系統の相対頻度の評価を含むネストアプローチを用いて調べた(図3)。同じBAPS1サブグループに属するST系統は、他のSTよりも最近共通の祖先を共有していた可能性が高かった(すなわち、ST5およびST118対ST45)。同様に、ST系統内のcgMLST多様体の分布を調べることによって、ST間の遺伝子型不均一性の程度を捕捉することができ、同時にそれらの遺伝的組成を評価し、cgMLST間の祖先関係を明らかにすることができる(すなわち、密接に関連したcgMLST変異体は、同じST系統またはクローン複合体に属する)(補足図2)。

図 3: S の BAPS1 サブグループ内にネストされた ST 系統の分布ニューポートの人口。 このプロットは、「その他の血清型」(データ全体の2.03%)として分類されたゲノムを除いた、各BAPSレベル1サブグループまたはハプロタイプ内のST系統分布を示しています。各BAPS1サブグループの主要なST(比率>1%)は、各グラフで強調表示されています。円の直径が大きいほど、特定のST系統に対する比率が高くなります。この図の拡大版を表示するには、ここをクリックしてください。

Sのパターンを考えると。ニューポート個体群の多様化は、主にST組成によって推進されているようであり(図1)、シンプソンの多様性のD指数(補足図3)を含むSTベースのクローン性(すなわち、遺伝的均質性)の程度を評価するために2つの統計的アプローチが用いられ、BAPSレベル1〜6を用いたBAPSサブグループまたはハプロタイプの分布(補足図4).集団のクローン性の程度を評価することは、以下の側面を解明することができる:i)遺伝的多様性および集団構造のより良い理解;ii)ST系統などの主要な遺伝子型単位にわたる多様化のパターンの微調整分析;iii)集団内に存在する新規サブクラスターを明らかにする可能性のある不可解な遺伝子型単位を見つけるためにアクセサリーゲノムマイニングを使用する必要性の指標となる。集団がコアゲノムレベルでクローン性が高いほど、バリアントを区別するのが難しくなり、アクセサリゲノムコンテンツは、集団をユニークな生態学的分布に関連する意味のある遺伝子型単位に層別化するために有益である可能性が高くなります^18,19,21。

AMR遺伝子座を鑑別するST系統の相対頻度を評価し、Sに連結されたユニークなアクセサリーゲノムシグネチャを同定した。ニューポートの人口構造(図4)。解析のこのステップは、AMR分布が公衆衛生関連形質であるため、AMR分布に焦点を当てたが、代謝経路、病原性因子などを含むアクセサリゲノムの他の構成要素を調べるために、同じアプローチを教師付き(標的型)または不可知論的方法で適用することができる。顕著なことに、mdf(A)_1 および aac(6')-Iaa_1 遺伝子座は S によって祖先的に獲得されたように見える。ニューポートの人口;一方、ST45は多剤耐性であると予測される。驚くべきことに、これらのデータはまた、他の主要なST系統であるST5およびST118が、ST45と比較して多剤感受性である可能性が高いことを示唆している。これらの点は、データセットに存在するバイアスのために慎重に検討する必要があります。しかし、これは、より堅牢なWGSデータ収集から行うことができる潜在的な疫学的推論を表しています。

一般に、階層的遺伝子型へのアクセサリゲノムマッピングを行う際に考慮すべきいくつかの点はここにある:i)頻度分布を定量的形質として考えるが、遺伝子座の対立遺伝子組成が形質分散を変化させる可能性があることに留意する。さらに、遺伝子座または遺伝子座の存在は、表現型が多遺伝子性であり得るか、または原因遺伝子座の対立遺伝子組成に応じて変化する(例えば、タンパク質の活性部位上の非同義変異が機能に影響を及ぼす可能性がより高い)ため、機能を示すべきであるが因果関係はない。ii)遺伝子座分布は、集団内で固定されている(例えば、すべてのST系統にわたって高頻度で見出される)遺伝子、または特定のST系統およびcgMLST変異体によって最近獲得された遺伝子を実証することができ、生態学的または疫学的パターンを反映し得る;iii)多剤耐性はゲノミクスデータから予測できる。そして、AMR遺伝子座または他の経路の分布が特定の系統によって強く連結されているか、または一般的に遺伝している場合、表現型は、ST系統の場合のような階層的遺伝子型からの推論によって予測することができる^45,46;iv)実験室での表現型の測定は、計算予測を検証するために依然として決定論的である。

図4:Sの主要なST系統にわたるAMR遺伝子座の分布。ニューポートの人口。主要なST系統にわたる選択された数のAMR遺伝子座の相対頻度ベースの分布(集団の>1%)。マイナーSTは「その他のST」としてグループ化された。Sに分類されるゲノムのみ。 SISTRアルゴリズムによるニューポートは分析に保持された。10%以上の相対頻度を有するAMR遺伝子座を、データ可視化のために選択した。これは、データセットごとに決定する必要がある任意のしきい値です。比率は、遺伝子の存在または不在からなる二項行列を用いて計算した。この図の拡大版を表示するには、ここをクリックしてください。

最後に、系統学アンカー付き可視化を用いて、遺伝子発生に基づいてAMR遺伝子座分布を区別するST系統とともに、階層的な集団構造データを体系的に統合した(図5)。集団構造と付属のゲノム組成を組み合わせることで、任意のデータセットで次の一連の質問に答えることができます:1)集団はどのように構造化されていますか?ST は互いにどのように関連し、BAPS1 サブグループを通じて祖先的にどのように関連していますか?cgMLSTコンポジションはST間でどの程度変動しますか?2)系統分岐パターンと全体的なツリートポロジは何ですか?3)アクセサリーゲノムはどのように分布していますか?アクセサリーゲノム組成物は、ほとんどの場合、祖先から取得したものか、最近由来したものか?系統またはバリアント固有のパターンは何ですか?表現型予測と生態学的推論とは何ですか?ニッチ超越遺伝子とニッチ特定遺伝子はあるのか?観察されたパターンは、病原体の場合の疫学にどのように関連し、または情報を提供しますか?系統またはバリアントは、アクセサリゲノムコンテンツに基づいて有益にサブクラスタリングできますか?

図5:S内の主要なST系統を区別する階層的遺伝子型および付属AMR遺伝子座の系統発生誘導マッピング。ニューポートの人口。コアゲノム系統学(黒中心の円)を用いて、血清型(分解能が最も低いレベル - 最も内側の色の円)、BAPSレベル1(BAPS1)サブグループまたはハプロタイプ、ST系統、およびcgMLST変異体(最高レベルの分解能 - 最も外側の色の円)を含む階層的遺伝子型をマッピングし、AMR遺伝子座が存在する場合は濃い青色、存在しない場合は灰色に着色した。セロバールはニューポート (S. Newport)またはSISTRアルゴリズム分類に基づく「その他の血清」。BAPS1は、ST間の祖先関係を正確かつ不可知論的に捉えたため、血清系とST系統の間に階層的に配置されています。主要なSTまたは最も頻度の高いST(割合>1%)のみがグラフに描かれました。また、最も優勢なcgMLSTバリアント(割合>3.5%)のみを使用して、S の階層構造全体を示した。ニューポートの個体群(n = 2,365 USAの分離株のみ)。カテゴリ「その他のST」または「その他のcgMLST」は、それぞれマイナーまたは低周波の系統またはバリアントで構成され、閾値は任意に行われ、データセットに基づいて設定する必要があります。10%以上の相対頻度を有するAMR遺伝子座を、データ可視化のために選択した。この特定のグラフは、主にST31、ST45、およびST132系統に生じるAMR遺伝子座のユニークな分布を示す。この図の拡大版を表示するには、ここをクリックしてください。

補足図1:Sに対するST系統およびcgMLSTバリアントの疎分布。ニューポートの人口。 (A) 低周波STを集約しないST系統の割合。比率>1%のSTがプロットで強調表示されている。(B) 低周波cgMLSTを集約しないcgMLSTバリアントの割合。比率が3%>cgMLSTがプロットで強調表示されます。(A-B)ST データと cgMLST データの両方をプロットするために使用されるしきい値は任意に定義されており、データセットに基づいて設定する必要があります。SISTRによって「その他の血清型」(2.03%)として分類されたゲノムは、STおよびcgMLSTの両方の相対頻度をプロットする前に、データから除外された。円の直径が大きいほど、ST系統またはcgMLSTバリアントの比率が高くなります。このファイルをダウンロードするには、ここをクリックしてください。

補足図2:SのST系統内にネストされたcgMLSTバリアントの分布。ニューポートの人口。 このプロットは、「その他の血清型」(データ全体の2.03%)として分類されたゲノムを除いた、ST系統にわたるcgMLSTバリアント分布を示しています。各ST系統の主要なcgMLST(割合>15%)は、各グラフで強調表示されている。円の直径が大きいほど、特定のcgMSLTバリアントの比率が高くなります。低周波STは「その他のST」としてグループ化された。このファイルをダウンロードするには、ここをクリックしてください。

補足図3:BAPSレベル1〜6ハプロタイプまたはcgMLST遺伝子型をSの入力データとして使用したST系統にわたるシンプソンのDベースの遺伝的多様性の程度。ニューポートの人口。各ST系統のクローン性または遺伝的多様性の程度を、BAPSレベル1(分解能の最低レベル)から6(最高レベルの分解能)サブグループまたはハプロタイプを含む、分解能の異なる遺伝子型層にわたって計算し、さらに変異体のcgMLSTベースの分布を使用することによって計算した。指標値が高いほど、遺伝的多様性の程度は高くなります。非常に多様なST系統は、BAPS1からBAPS6に向かうより高い指数値を有する(すなわち、BAPS1からBAPS6に移行すると、典型的には指数が増加し、最終的には頭打ちになる)。Sに分類されるゲノムのみ。 SISTRプログラムによるニューポートは分析に保持された。低周波STは「その他のST」としてグループ化された。このファイルをダウンロードするには、ここをクリックしてください。

補足図4: S .ニューポート集団の主要なST系統にわたるBAPSレベル1〜6のサブグループまたはハプロタイプの分布。 BAPS サブグループまたはハプロタイプの相対的な周波数ベースの分布は、ST の主要な系統全体にわたって、最低レベル (BAPS1) から最高レベルの分解能 (BAPS6) までです。主要なSTは、>1%の割合に基づいて選択された。Sに分類されるゲノムのみ。 SISTRプログラムによるニューポートは分析に保持された。クローナリティの程度が高いほど、BAPS1からBAPS6に移行する際のBAPSサブグループまたはハプロタイプの分布の疎化または広がりは少なくなります。言い換えれば、より遺伝的に多様なST系統は、BAPSレベル6(最高分解能)でより広い範囲のBAPSサブグループを有する。低周波STは「その他のST」としてグループ化された。このファイルをダウンロードするには、ここをクリックしてください。

補足ファイル1:物質リストとゲノムリストへのリンク このファイルをダウンロードするにはここをクリックしてください。

補足ファイル2:Rを用いた階層ベースの細菌集団ゲノミクス解析 このファイルをダウンロードするにはここをクリックしてください。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

システムベースのヒューリスティックおよび階層的集団構造解析の利用は、ユニークな生態学的および疫学的パターンを説明する可能性のある細菌データセット内の新規ゲノムシグネチャを特定するためのフレームワークを提供する²⁰。さらに、集団構造へのアクセサリゲノムデータのマッピングは、貯水池6、²⁰、²¹^、⁴⁵^、⁴⁶にわたるST系統またはcgMLST変異体の広がりを促進する祖先獲得および/または最近由来する形質を推測するために使用することができる。より広義には、細菌集団における汎ゲノムコンテンツ分布の世界的な評価は、集団が最近^18,21に耐えたかもしれない生態学的指向性または地球空間的/時間的ボトルネックの根底にある多様化のパターンを明らかにすることができる。病原性種の場合、臨床的対環境的分離株の集団構造をマイニングすることによって、人獣共通感染症事象に関連する遺伝的決定因子が同定され、診断およびサーベイランスの改善に使用され得る³³^、³⁴。ヒトの健康を改善するために使用される胃腸プロバイオティクス株の場合と同様に、望ましいニッチ特異的生着特性を有する遺伝子型を同定するために、同じアプローチを非病原性種に適用することができる^49,50,51。しかし、細菌のWGSデータを集団ベースの問い合わせに利用するには、ProkEvo²⁰のような再現可能で自動化されたスケーラブルな計算プラットフォームを使用する必要があります。どのような計算アプローチにも警告とニュアンスが伴いますが、一般的に、ProkEvoなどの自由に利用可能で、十分に文書化され、ポータブルでユーザーフレンドリーなプラットフォームは、ヒューリスティックな細菌集団ベースのゲノミクスを行う微生物学者、生態学者、疫学者の作業を容易にすることができます。

本研究では、ProkEvo由来の出力を使用して、WGSデータから有用な形質を予測するとともに、さまざまな解像度レベルで関心のある遺伝子型をマッピングおよび追跡するために使用できる階層的集団構造分析を実施する方法が実証されました。この計算プロトコルはRプログラミング言語を使用して書かれましたが、フレームワークや概念的アプローチは、たとえばPandasライブラリを利用してPythonなどの他の言語に一般化できます。入力データはProkEvo²⁰によって生成されるため、後続の分析のために出力とデータ形式を標準化するという点で直面するいくつかのハードルが回避されます。系統発生を除き、他のすべての入力データセットは表形式で提供され、品質管理、集計、解析、および統合が容易になり、データ解釈に役立つレポートを生成できます。ただし、このプロトコルを使用している間、再現性を高めるためにいくつかの重要な手順を強調することが重要です:i)ソフトウェアバージョンが常に更新および追跡されていることを確認してください。ii)使用されているデータサイエンスライブラリのバージョンを追跡し、好ましくは時間の経過とともに更新する。iii)標的細菌集団について理解されていることに照らして、ProkEvoまたは同様のパイプラインによって生成された出力を理解するために、ドメイン知識の専門知識を使用してデータを品質管理する。iv)モデリングアプローチを使用する前に探索的データ分析を実施する。v)経験的知識および/または統計的評価に基づいてデータを集約する。vi) 先験的に 欠損値に対処し、それについて一貫性と完全に透明である戦略を定義する。vii) R を使う場合、Tidyverse が提供するすべてのパッケージを使うようにしてください、なぜならこのコレクションは関数型プログラミング、移植性、最適化を容易にし、自由に利用できるからです。viii)ビジュアライゼーションアプローチは、尋ねられている質問と描写されているデータに最も適切に適用できる適切なタイプのプロットとカラーリングスキームを取得するために試行錯誤する必要があるため、困難な場合があることに注意してください。

注目すべきは、このプロトコルには、さらに改善できるいくつかの制限があります。例えば、ProkEvoは、Roaryプログラム(〜2,000〜3,000ゲノム)を利用しながら、コアゲノムアライメントステップが同時に生成される場合、汎ゲノム解析に使用できるゲノムの数に固有の限界があります²⁴。これはパイプライン内の非常に特殊なボトルネックであり、コアゲノムアライメント(すなわち、計算要求の厳しいステップ)に依存するため、BAPSハプロタイプに分類できるゲノムの数に影響を与える。しかしながら、コア−ゲノムアライメントは、他のプログラム⁵²を用いて行うことができ、そのようなアルゴリズムは、理論的には、ProkEvoに容易に組み込むことができる。それ以外の場合、データセットは戦略的にランダムなサブセットに分割することも、問題の生物の個体群構造を考慮するなどして別の方法で分割することもできます。あるいは、ProkEvoを単一のゲノムで実行して、STベースの注釈、抗生物質耐性および毒性遺伝子組成、プラスミドのマッピングを得ることもできますが、パイプラインは集団ベースのゲノミクス用に設計されました。注目すべきは、BAPS1-6分類が必要でない場合、Roaryのコアゲノムアライメントオプションをオフにすることができ、その場合、ProkEvoは数十万分の1のゲノムで使用できます - 利用可能なコンピュータコアの数に基づいてのみ制限されます。新しいプログラムを実装する方法や、ProkEvo 内の Roary のコアゲノムアライメントオプションをオフにする方法の例は、それぞれ次の GitHub リンク (https://github.com/npavlovikj/ProkEvo/wiki/4.1.-Add-new-bioinformatics-tool-to-ProkEvo) と (https://github.com/npavlovikj/ProkEvo/wiki/4.3.-Change-running-options-for-existing-tool-in-ProkEvo) にあります。アクセサリーゲノムマイニングの場合、不可知論的解析は汎ゲノムの利用に依存します。Roary²⁴によって生成されたRtabファイルは、ここでは特に使用されていませんでしたが、代わりに、Resfinderデータベース(https://github.com/tseemann/abricate)を使用してAMR遺伝子座をABRicateにマッピングする方法を戦略的に実証しました。それにもかかわらず、代わりに汎ゲノムファイルを使用してアクセサリゲノムマッピングの範囲を拡大するオプションがあり、これは現在のアプローチの拡張として実用的に見ることができる(例えば、新しい列として表形式データセットに含まれるより多くの遺伝子座)。ProkEvoによって行われた汎ゲノムマッピングは、遺伝子座構成に関するバイナリ情報のみを提供し、現在、遺伝子間の一塩基多型の同定には使用できないことに言及することが重要です。

このプロトコルのもう1つの制限は、系統樹の視覚化です。現在、ggtreeが最適なプログラムですが、それは枝の長さを正確に検査することができず、系統学に多くのデータ層を追加する必要があるときに面倒になります。あるいは、phandango 41は、同じ目標を達成するために容易に使用できる、ユーザフレンドリーでスケーラブルなウェブページフォーマットのGUI(https://jameshadfield.github.io/phandango/#/)⁴¹であり、ProkEvo出力でそれを使用する方法に関するさらなる詳細情報が最近公開された²⁰。iTOLのような他のツールは、系統発生に依存するデータ⁵³の視覚化にも使用できますが、GUIを使用する必要があり、自動スクリプトに組み込むことはできません。また、正確なコアゲノム系統発生は、水平遺伝子導入の不可解なデータセット依存の影響のために推定することが困難な場合があります。Gubbins⁵⁴のようなプログラムはその目的のために使用することができますが、系統発生の正しい推定のために全ゲノムアライメントとST系統特異的データセットを使用する必要性など、特定の制限もあります。代わりに、他の系統発生に依存しないアプローチを展開することができ、その結果、多次元解析の場合のように、メタデータまたはアクセサリゲノム情報を統合するために他のタイプの視覚化が必要になります^55,56。最後に、定量化される最も重要なAMR遺伝子座をフィルタリングすることに加えて、マイナーST系統およびcgMLST変異体を集約するために、経験的かつ任意のアプローチを使用した。このタイプのデータ集約は、ドメイン知識の専門知識を使用して経験的に行うことができますが、表示する必要がある分布の割合の先験的基準を定義するか、四分位範囲、標準偏差、歪度などの分布関連のメトリックを使用して最終的にしきい値を定義することによって、統計的に達成することもできます。重要なことに、マイナー遺伝子型の定義は、サンプルサイズ、および環境サンプルの種類の偏りが遺伝子型組成に直接影響する可能性があるため、データの性質によって直接影響されます。いずれにせよ、主な考慮事項は、集団構造へのアクセサリゲノム含有量のマッピングが、ニッチ超越またはニッチ特定遺伝子^57,58,59などの生態学的多様化の潜在的な遺伝的決定要因を同定することを可能にすることである。

利用可能な R スクリプトは、現在の作業の自動化のために設計されましたが、提供されたすべてのスクリプトは、抽象的でデプロイ可能なデータサイエンスライブラリ (たとえば、ProkEvo パイプラインの不可欠な部分) になるようにさらに開発する必要があります。それにもかかわらず、BAPSレベル1ジェノタイピングまたはクラスタリングスキームの使用など、このアプローチを利用することにはいくつかの特定の利点があります。セロバール系統とST系統の間のBAPSレベル1サブグループまたはハプロタイプの配置は、サルモネラ菌集団の遺伝子構造に基づいて経験的に定義されたが、カンピロバクター・ジェジュニおよび黄色ブドウ球菌²⁰などの他の種にも適用可能であるようである。さらに、BAPS1はST系統間の祖先関係を正確に捉え、特に系統学的用途が限られている²⁰の場合に、進化的解析のためのスケーラブルなアプローチを提供します。さらに、階層的関係と多様化のパターンを調べるためのネストされたアプローチの使用は、BAPS1サブグループを使用するST系統間、およびST系統を使用するcgMLSTバリアント間の祖先の同定を容易にし、集団構造を評価する際に遺伝子型分解能が低いものから高いものへと順次進む。ST系統およびcgMLSTバリアントの頻度分布は、体系的に収集され統計的に検出されるサンプルから引き出された場合、生態学的適応度の代理となり得ることを繰り返すことが重要です^1,6,43。その結果、優勢なST系統およびcgMLST変異体は、その特定の環境または宿主における集団におけるそれらの優勢のための生物学的メカニズムの基礎となり得る固有のゲノム特徴を含む可能性が高い。

本明細書では、2つの独立した統計的指標を用いて、集団のクローン性の程度を評価し、これは、集団の遺伝的多様性の補助的な理解を可能にし、これは、サンプルバイアス、集団ボトルネック、または創始者効果の過去の発生を示し得る。特に、ST系統にわたるBAPSレベル1〜6サブグループの不可知論的評価は、SISTRによって生成された サルモネラ cgMLST変異レベルを見るだけでは典型的に解決できない遺伝的多様性の理解を洗練させることができる。前述のように、汎ゲノムの他の特徴は、集団構造にマッピングすることができ、プラスミドおよびビルレンス遺伝子組成を含むファイルは、不可知論的汎ゲノムデータセットとともに他のAMRデータベースの利用に加えて、ProkEvo²⁰によって自動的に生成される。注目すべきことに、ProkEvoは現在、細菌染色体に存在するAMR遺伝子座とプラスミドとの間の分化を可能にしていない。生態学的および疫学的メタデータは、すべてのゲノム情報を含む.csvファイルに他の変数を組み込むことによって、この分析アプローチに容易に統合することもできます。特に、ここで紹介する研究は、ユーザーによるデータマイニングとカスタマイズを容易にするヒューリスティック集団ゲノミクス分析に焦点を当てた研究者によって使用されるように設計された、スケーラブルでポータブルな計算プラットフォームProkEvoの利用を特に補完するものです。他のプラットフォームは、ジェノタイピング、集団構造解析、および/またはEnterobase⁵、PATRIC⁶⁰、およびBacWGSTdb⁶¹などのアクセサリゲノムのマッピングに使用することができる。後者は、スケーラブルで複雑な分析のためにクラスタコンピューティングをカスタマイズして利用しようとしない研究者にとって、ゲノミクスデータマイニングを容易にする優れたリソースです。ここで紹介する分析アプローチは、ローカルマシン上の再現可能なスクリプトを使用して、またはクラウドまたは高性能の計算プラットフォームを使用して、集団ゲノミクス分析を実行する柔軟性を持たせたい研究者向けに特別に調整されています。

結論として、この研究で提示された分析Rベースのプラットフォームは、微生物学者、生態学者、疫学者に、i)系統発生依存アプローチを使用して階層遺伝子型をマッピングする方法に関する実用的なガイドを提供することを目標としていました。ii)生態学的適合性を評価するための代理として遺伝子型の頻度分布を評価すること。iii)独立した統計的アプローチを用いて系統特異的なクローン性の程度を決定すること。iv)集団構造の文脈においてアクセサリゲノムコンテンツをマイニングする方法の例として、系統分化性AMR遺伝子座をマッピングする。ここで提供するスクリプトは、ローカルマシンまたは高性能計算プラットフォームのいずれかで使用できます。実験的および環境微生物学者にとって、このアプローチは、最終的に集団レベルで文脈化することができるさらなる機械論的研究のためのユニークな形質および候補経路を特定することを目的としたデータセットの研究を容易にする。生態学者は、中程度から大規模なデータセットを分析できることで、理論的には、親族関係と多様化のパターンを考慮しながら、集団内の選択のシグネチャを見つけるために必要な統計的検出力を高めることができることによって、このアプローチの恩恵を受けることができます。最後に、疫学者は、関心のある遺伝子型単位を定義し、AMRなどの公衆衛生関連特性を予測することによって、診断およびサーベイランスのための独自の実用的な情報を活用できます。より広義には、この分析ガイダンスは、ProkEvoを利用して集団ベースのゲノム解析を実行するための一般化可能なフレームワークを提供し、このアプローチは他の細菌種に一般化可能であるため、病原性および非病原性種の進化的および生態学的パターンを推測するために使用することができる。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

著者らは、競合する利益は存在しないと宣言している。

Acknowledgments

この研究は、UNL-IANR農業研究部門と国立抗菌薬耐性研究教育研究所、および食品科学技術局(UNL)のネブラスカ州食品保健センターから提供された資金によって支援された。この研究は、ネブラスカ研究イニシアチブの支援を受けているUNLのHolland Computing Center(HCC)を利用することによってのみ完了することができました。また、HCCを通じて、米国国立科学財団と米国エネルギー省の科学局が支援するオープンサイエンスグリッド(OSG)が提供するリソースにアクセスできることにも感謝しています。この研究は、国立科学財団(助成金#1664162)から資金提供を受けているPegasus Workflow Management Softwareを使用した。

Materials

Name	Company	Catalog Number	Comments
amr_data_filtered			https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw			https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output			https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny			https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra			https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC			any high-performance platform
mlst_output			https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output			https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

DOWNLOAD MATERIALS LIST

References

Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
Worby, C. J., Chang, H. -H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
Zhou, Z., Alikhan, N. -F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user's guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
Alikhan, N. -F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 - Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
Seemann, T. MLST. GitHub. , Available from: https://github.com/tseemann/mist (2020).
Seemann, T. ABRicate. GitHub. , Available from: https://github.com/tseemann/abricate (2020).
R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. at. Available from: https://cran.r-project.org (2021).
Studio Team. RStudio: Integrated Development for R. Studio, PBC. , Boston, MA. Available from: http://www.rstudio.com (2020).
Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
rOpenSci: The skimr package. GitHub. , Berkeley, CA. Available from: https://github.com/ropensci/skimr/ (2021).
Oksanen, J., et al. vegan: Community ecology package. R package version 2.5-5. , Available from: https://CRAN.R-project.org/package=vegan (2019).
Tierney, N. J., Cook, D. H. Expanding tidy data principles to facilitate missing data exploration, visualization and assessment of imputations. arXiv. , Available from: http://arxiv.org/abs/1809.02264 (2020).
Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
Kassambara, A. ggpubr: "ggplot2" Based Publication Ready Plots. R package version 0.4.0. , Available from: https://CRAN.R-project.org/package=ggpubr (2020).
Slowikowski, K. ggrepel: Automatically Position Non-Overlapping Text Labels with "ggplot2”. R package version 0.9.1. , Available from: https://CRAN.R-project.org/package=ggrepel (2021).
Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
Neuwirth, E. RColorBrewer: ColorBrewer Palettes. R package version 1.1-2. , Available from: https://CRAN.R-project.org/package=RColorBrewer (2014).
Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Genetics

細菌集団における階層遺伝子型とアクセサリゲノム遺伝子座のヒューリスティックマイニング

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.