Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

박테리아 집단에서 계층적 유전자형과 부속 게놈 유전자형의 휴리스틱 마이닝

Published: December 7, 2021 doi: 10.3791/63115
* These authors contributed equally

Summary

이 분석 전산 플랫폼은 박테리아 집단 유전체학에 관심이있는 미생물 학자, 생태 학자 및 역학자에게 실질적인 지침을 제공합니다. 구체적으로, 여기에 제시된 연구는 수행 방법을 보여주었습니다 : i) 계층 적 유전자형의 계통 유도 매핑; ii) 유전자형의 빈도 기반 분석; iii) 친족관계 및 클론성 분석; iv) 혈통 차별화 액세서리 유전자좌의 확인.

Abstract

박테리아 전체 게놈 시퀀싱 (WGS)의 일상적이고 체계적인 사용은 공중 보건 실험실 및 규제 기관이 수행하는 역학 조사의 정확성과 해상도를 향상시키고 있습니다. 공개적으로 이용 가능한 대량의 WGS 데이터를 사용하여 병원성 집단을 대규모로 연구 할 수 있습니다. 최근에는 박테리아 WGS 데이터를 사용하여 재현 가능하고 자동화되고 확장 가능한 계층 적 기반 집단 게놈 분석을 가능하게하기 위해 ProkEvo라는 자유롭게 사용할 수있는 계산 플랫폼이 게시되었습니다. ProkEvo의 이러한 구현은 생태 추론을위한 액세서리 게놈 콘텐츠의 마이닝과 인구의 표준 유전자형 매핑을 결합하는 것이 중요하다는 것을 보여주었습니다. 특히, 여기서 강조된 연구는 R 프로그래밍 언어를 사용한 인구 규모 계층적 분석을 위해 ProkEvo 파생 출력을 사용했습니다. 주요 목표는 미생물 학자, 생태 학자 및 역학자를위한 실용적인 가이드를 제공하는 것이 었습니다 : i) 계층 적 유전자형의 계통 안내 매핑을 사용하는 방법; ii) 생태적 적합성을 위한 프록시로서 유전자형의 빈도 분포를 평가하고; iii) 특정 유전자형 분류를 사용하여 혈연 관계 및 유전 적 다양성을 결정; iv) 부속 유전자좌를 차별화하는 계보를 지도한다. 재현성과 이식성을 향상시키기 위해 R markdown 파일을 사용하여 전체 분석 접근 방식을 시연했습니다. 예제 데이터 세트에는 동물 유행성 식품 매개 병원균 살모넬라 뉴포트의 2,365 단리물로부터의 게놈 데이터가 포함되었습니다. 계층적 유전자형(Serovar -> BAPS1 -> ST-> cgMLST)의 계통-앵커 매핑은 집단 유전 구조를 밝혀내고, 서열 유형(ST)을 키스톤 분화 유전자형으로 강조했다. 세 가지 가장 지배적 인 혈통에 걸쳐, ST5와 ST118은 고도로 클론 ST45 계통형보다 더 최근에 공통 조상을 공유했습니다. ST-기반 차이는 부속 항미생물 내성 (AMR) 유전자좌의 분포에 의해 더욱 강조되었다. 마지막으로, 계통 고정 시각화를 사용하여 계층 적 유전자형과 AMR 함량을 결합하여 혈연 구조 및 혈통 별 게놈 서명을 밝혀 냈습니다. 결합된이 분석 접근법은 범 게놈 정보를 사용하여 휴리스틱 박테리아 집단 게놈 분석을 수행하기위한 몇 가지 지침을 제공합니다.

Introduction

공중 보건 실험실 및 규제 기관의 일상적인 감시 및 역학 조사의 기초로 박테리아 전체 게놈 시퀀싱 (WGS)의 사용이 증가함에 따라 병원체 발병 조사 1,2,3,4가 크게 향상되었습니다. 그 결과, 대량의 비식별된 WGS 데이터가 현재 공개적으로 이용 가능하며, 여러 저장소, 지리적 지역 및 환경 유형에 걸친 집단 구조, 유전자형 빈도 및 유전자/대립유전자 빈도에 기초한 연구를 포함하여 전례 없는 규모로 병원성 종의 집단 생물학의 측면을 연구하는 데 사용될 수 있습니다5 . 가장 일반적으로 사용되는 WGS 유도 역학 조사는 공유 코어 게놈 콘텐츠만을 사용하는 분석을 기반으로하며, 공유 (보존 된) 콘텐츠 만으로는 유전자형 분류 (예 : 변형 호출)에 사용되며 이러한 변형은 역학 분석 및 추적 1,2,6,7의 기초가됩니다. . 전형적으로, 박테리아 코어-게놈-기반 유전자형은 7 내지 수천 개의 유전자좌 8,9,10을 사용하는 다중 유전자좌 서열 타이핑(MLST) 접근법으로 수행된다. 이러한 MLST 기반 전략은 고도로 큐레이팅된 데이터베이스 상에 미리 조립되거나 조립된 게놈 서열의 매핑을 포함하며, 이에 따라 대립유전자 정보를 역학 및 생태학적 분석을 위한 재현 가능한 유전자형 단위로 결합한다(11,12). 예를 들어, 이러한 MLST 기반 분류는 두 가지 수준의 분해능에서 유전자형 정보를 생성할 수 있다: 저수준 서열 유형(STs) 또는 ST 계보(7개 유전자좌), 및 상위 레벨 코어-게놈 MLST(cgMLST) 변이체(~300-3,000 유전자좌)10.

MLST 기반 유전자형 분류는 실험실에서 계산적으로 휴대가 용이하고 재현성이 높기 때문에 박테리아 종 수준13,14 아래의 정확한 하위 타이핑 접근법으로 널리 받아 들여지고 있습니다. 그러나, 박테리아 집단은 종-특이적 다양한 정도의 클론성(즉, 유전자형 균질성), 유전자형 15,16,17 사이의 계층적 친족관계의 복잡한 패턴, 및 부속 게놈 함량의 분포에서의 광범위한 변동으로 구조화된다 18,19 . 따라서보다 전체적인 접근 방식은 MLST 유전자형으로의 개별 분류를 넘어 다양한 해상도의 유전자형의 계층 적 관계를 통합하고 액세서리 게놈 내용을 유전자형 분류에 매핑하여 인구 기반 추론을 용이하게합니다 18,20,21 . 더욱이, 분석은 또한 멀리 관련된 유전자형21,22 사이에서 액세서리 게놈 유전자좌의 상속의 공유 패턴에 초점을 맞출 수 있다. 전반적으로, 결합된 접근법은 집단 구조 사이의 관계와 지리공간적 또는 환경적 구배들 사이의 특정 게놈 조성물(예를 들어, 유전자좌)의 분포에 대한 불가지론적 심문을 가능하게 한다. 이러한 접근법은 특정 집단의 생태 학적 특성에 대한 근본적이고 실용적인 정보를 제공 할 수 있으며, 이는 차례로 식량 동물이나 인간과 같은 저수지에 걸친 그들의 트로피즘과 분산 패턴을 설명 할 수 있습니다.

이 시스템 기반 계층적 집단 중심 접근법은 구별 가능한 게놈 서명을 예측하기에 충분한 통계적 능력을 위해 대량의 WGS 데이터를 필요로 한다. 결과적으로이 접근법은 수천 개의 박테리아 게놈을 한 번에 처리 할 수있는 전산 플랫폼을 필요로합니다. 최근에, ProkEvo는 개발되었으며 자유롭게 이용 가능하고, 자동화되고, 휴대가 가능하며, 확장 가능한 생물 정보학 플랫폼으로, 범게놈 매핑(pan-genomic mapping)(20)을 포함한 통합 계층적 기반 박테리아 집단 분석을 가능하게 한다. ProkEvo는 중대형 박테리아 데이터 세트를 연구하는 동시에 사용자가 사용자 정의 할 수있는 검증 가능하고 추론 가능한 역학 및 생태 학적 가설 및 표현형 예측을 생성하는 프레임 워크를 제공합니다. 이 작업은 ProkEvo 파생 출력 파일을 계층 적 집단 분류 및 액세서리 게놈 마이닝의 분석 및 해석을위한 입력으로 활용하는 방법에 대한 가이드를 제공하는 파이프 라인을 보완합니다. 여기에 제시된 사례 연구는 살모넬라 엔테리카 혈통 I zoonotic serovar S의 인구를 활용했습니다. Newport를 예로 들자면, 미생물학자, 생태학자 및 역학자에게 다음과 같은 방법에 대한 실질적인 지침을 제공하는 것을 특별히 목표로 하였다: i) 계층적 유전자형을 매핑하기 위해 자동화된 계통학-의존적 접근법을 사용한다; ii) 생태학적 적합성을 평가하기 위한 프록시로서 유전자형의 빈도 분포를 평가하는 단계; iii) 독립적 인 통계적 접근법을 사용하여 혈통 별 클론성 정도를 결정; iv) 집단 구조의 맥락에서 부속 게놈 함량을 마이닝하는 방법의 예로서 혈통-차별화 AMR 유전자좌를 지도화한다. 보다 광범위하게,이 분석 접근법은 표적 종에 관계없이 진화 및 생태 패턴을 추론하는 데 사용할 수있는 규모로 인구 기반 게놈 분석을 수행하는 일반화 가능한 프레임 워크를 제공합니다.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. 입력 파일 준비

참고: 프로토콜은 여기에서 사용할 수 있습니다 - https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. 이 프로토콜은 연구원이이 Figshare 저장소에서 사용할 수있는 필요한 출력을 얻기 위해 ProkEvo (또는 유사한 파이프 라인)를 특별히 사용했다고 가정합니다 (https://figshare.com/account/projects/116625/articles/15097503 - 로그인 자격 증명이 필요합니다 - 사용자는 파일에 액세스 할 수있는 무료 계정을 만들어야합니다!). 참고로, ProkEvo는 NCBI-SRA 저장소에서 게놈 서열을 자동으로 다운로드하며 입력20으로 게놈 식별 목록을 포함하는 .txt 파일 만 필요하며 S에서이 작업에 사용되는 파일 만 있으면됩니다. 뉴포트 USA 격리물은 여기에 제공됩니다 (https://figshare.com/account/projects/116625/articles/15097503?file=29025729).  이 박테리아 유전체학 플랫폼을 설치하고 사용하는 방법에 대한 자세한 정보는 여기에서 확인할 수 있습니다 (https://github.com/npavlovikj/ProkEvo/wiki/2.-Quick-start)20

  1. 앞서 기술한 바와 같이 FastTree(23)를 사용하여 코어-게놈 계통학을 생성하며, 이는 생물정보학 플랫폼(20)의 일부가 아니다. FastTree는 Roary24 코어-게놈 정렬을 입력 파일로 필요로 합니다. 필로제니 파일의 이름은 newport_phylogeny.tree(https://figshare.com/account/projects/116625/articles/15097503?file=29025690)입니다.
  2. 살모넬라 균 및 cgMLST 변이체 호출 데이터에 대한 혈청 분류에 관한 정보를 포함하는 SISTR25 출력을 생성합니다 (sistr_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025699).
  3. BAPS 수준1-6 게놈을 하위 그룹 또는 일배체형으로 분류하는 것을 포함하는 패스트밥 26,27에 의해 BAPS 파일을 생성한다(fastbaps_partition_baps_prior_l6.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025684).
  4. MLST 프로그램 (https://github.com/tseemann/mlst)28 (salmonellast_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025696)을 사용하여 게놈을 ST로 분류하는 MLST 기반 분류를 생성합니다.
  5. ABRicate (https://github.com/tseemann/abricate)29 출력을 게놈 당 매핑된 AMR 유전자좌를 포함하는 .csv 파일로 생성합니다 (sabricate_resfinder_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025693).
    참고: 사용자는 ProkEvo 생물정보학 파이프라인의 특정 부분을 끌 수 있습니다(자세한 내용은 여기를 확인하십시오 - https://github.com/npavlovikj/ProkEvo/wiki/4.2.-Remove-existing-bioinformatics-tool-from-ProkEvo). 여기에 제시된 분석 접근법은 생물 정보학 파이프 라인이 실행 된 후 집단 기반 분석을 수행하는 방법에 대한 지침을 제공합니다.

2. 통계 소프트웨어 및 통합 개발 환경(IDE) 응용 프로그램을 다운로드하여 설치합니다.

  1. Linux, Mac 또는 PC30용 R 소프트웨어의 최신 버전을 무료로 다운로드할 수 있습니다. 기본 설치 단계를 따릅니다.
  2. RStudio 데스크탑 IDE의 최신 버전을 여기에서 자유롭게 사용할 수 있는 버전을 다운로드31. 설치의 기본 단계를 따릅니다.
    참고: 다음 단계는 코드 사용률에 대한 자세한 정보를 포함하여 사용 가능한 스크립트에 포함되어 있으며 이 작업에 제공된 출력과 수치를 생성하기 위해 순차적으로 실행해야 합니다(https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). 사용자는 파이썬과 같은 분석적/통계적 분석을 수행하기 위해 다른 프로그래밍 언어를 사용하기로 결정할 수 있다. 이 경우 스크립트의 단계를 프레임워크로 사용하여 분석을 수행합니다.

3. 데이터 과학 라이브러리 설치 및 활성화

  1. 분석의 첫 번째 단계로 모든 데이터 과학 라이브러리를 한 번에 설치합니다. 스크립트를 다시 실행해야 할 때마다 라이브러리를 설치하지 마십시오. 라이브러리 설치에 install.packages() 함수를 사용하십시오. 또는 사용자는 IDE 내부의 패키지 탭을 클릭하고 패키지를 자동으로 설치할 수 있습니다. 필요한 모든 라이브러리를 설치하는 데 사용되는 코드는 다음과 같습니다.
    # 티디버스 설치
    install.packages("tidyverse")
    # 스키머 설치

    install.packages("skimr")
    # 비건 설치
    install.packages("vegan")
    # 포캣 설치
    install.packages("forcats")
    # 나니아르 설치
    install.packages("naniar")
    # ggpubr 설치
    install.packages("ggpubr")
    # ggrepel 설치
    install.packages("ggrepel")
    # 재구성 설치2
    install.packages("reshape2")
    # RColorBrewer 설치
    install.packages("RColorBrewer")
    # ggtree 설치
    if (!requireNamespace("BiocManager", 조용히 = TRUE))
    install.packages("BiocManager")
    BiocManager::install("ggtree")
    # ggtree의 설치는 설치에 대한 질문을 표시합니다 - 대답은 모든 종속성을 설치 / 업데이트하는 "a"입니다.
  2. 설치 직후 스크립트 시작 부분에 library() 함수를 사용하여 모든 라이브러리 또는 패키지를 활성화합니다. 다음은 필요한 모든 패키지를 활성화하는 방법에 대한 데모입니다.
    # 라이브러리와 패키지 활성화
    도서관 (깔끔한)
    도서관 (스키머)
    도서관(비건)
    도서관 (포캣)
    도서관 (나니아르)
    라이브러리 (ggtree)
    라이브러리 (ggpubr)
    도서관 (ggrepel)
    라이브러리 (모양 변경2)
    도서관 (RColorBrewer)
  3. 다음과 같이 코드 척에 {r, include = FALSE}를 사용하여 라이브러리 및 패키지 설치 및 활성화에 사용되는 코드를 출력하지 않습니다.
    ''' {r, 포함 = FALSE}
    # 티디버스 설치

    install.packages("tidyverse")
    ```

    참고: 이 단계는 선택 사항이지만 최종 html, doc 또는 pdf 보고서에 불필요한 코드 청크가 표시되지 않도록 합니다.
  4. 모든 라이브러리의 특정 기능에 대한 간략한 설명과 추가 정보를 수집하는 몇 가지 유용한 링크는 3.4.1-3.4.11단계를 참조하십시오.
    1. Tidyverse - 데이터 입력, 시각화, 구문 분석 및 집계, 통계 모델링을 포함하여 데이터 과학에 사용되는 이 패키지 컬렉션을 사용합니다. 전형적으로, ggplot2(데이터 시각화) 및 dplyr(데이터 랭글링 및 모델링)는 이 라이브러리(32)에 존재하는 실용적인 패키지들이다.
    2. skimr - 누락된 값(33)의 식별을 포함하는 데이터 프레임의 요약 통계를 생성하기 위해 이 패키지를 사용한다.
    3. 비건 - 다양성 기반 통계 (예 : 알파 및 베타 다양성) 계산과 같은 지역 사회 생태 통계 분석에이 패키지를 사용하십시오.34).
    4. forcats -이 패키지를 사용하여 분류 순서 재정렬과 같은 범주 변수로 작업하십시오. 이 패키지는 Tidyverse 라이브러리(32)의 일부이다.
    5. naniar - 이 패키지를 사용하여 viss_miss() 함수35를 사용하여 데이터 프레임의 변수에 걸쳐 누락된 값의 분포를 시각화합니다.
    6. ggtree - 계통 발생 나무(36)의 시각화를 위해 이 패키지를 사용한다.
    7. ggpubr - ggplot2 기반 시각화(37)의 품질을 향상시키기 위해 이 패키지를 사용하십시오.
    8. ggrepel - 그래프38 내부의 텍스트 라벨링을 위해이 패키지를 사용하십시오.
    9. reshape2 - 이 패키지의 melt() 함수를 사용하여 데이터 프레임을 와이드 포맷39로 변환합니다.
    10. RColorBrewer - ggplot2 기반 시각화(40)에서 색상을 관리하기 위해 이 패키지를 사용하십시오.
    11. 탐색적 데이터 분석을 위해 다음과 같은 기본 함수를 사용합니다. head() 는 데이터 프레임의 첫 번째 관측치를 확인하고, tail()은 데이터 프레임의 마지막 관측치를 확인하고, is.na()는 데이터 프레임에서 누락된 값이 있는 행의 수를 계산하고, dim()은 데이터 세트의 행과 열 수를 확인하고, table()은 변수에서 관측치를 계산하고, sum() 을 사용하여 관측치 또는 인스턴스의 총 수를 계산합니다.

4. 데이터 입력 및 분석

참고: 이 분석의 각 단계에 대한 자세한 내용은 사용 가능한 스크립트(https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd)에서 찾을 수 있습니다. 그러나 고려해야 할 몇 가지 중요한 사항은 다음과 같습니다.

  1. read_csv() 함수를 사용하여 모든 유전자형 분류(혈청형, BAPS, ST 및 cgMLST)를 포함한 모든 게놈 데이터 입력을 수행합니다.
  2. 다중 데이터 집합 집계 전에 이름을 바꾸고, 새 변수를 만들고, 각 데이터 세트에서 관심 있는 열을 선택합니다.
  3. 독립 데이터 세트에서 누락된 값을 제거하지 마십시오. 누락된 값을 수정하거나 제외하기 위해 모든 데이터 세트가 집계될 때까지 기다립니다. 각 데이터 세트에 대해 새 변수가 만들어지면 누락된 값은 기본적으로 새로 생성된 분류 중 하나로 분류됩니다.
  4. 하이픈이나 심문 표시와 같은 잘못된 문자가 있는지 확인하고 NA로 바꿉니다(해당되지 않음). 누락 된 값에 대해서도 동일한 작업을 수행하십시오.
  5. 유전자형의 계층적 순서 (혈청-> BAPS1 -> ST-> cgMLST)에 기초하고, 개별 게놈 식별에 기초하여 그룹화함으로써 데이터를 집계한다.
  6. 여러 전략을 사용하여 누락 된 값을 확인하고 이러한 불일치를 명시 적으로 처리하십시오. 분류가 신뢰할 수없는 경우에만 게놈을 제거하거나 데이터에서 분리하십시오. 그렇지 않으면 수행 중인 분석을 고려하고 사례별로 NA를 제거합니다.
    참고 : 이러한 값을 선험적으로 다루는 전략을 수립하는 것이 좋습니다. 모든 게놈을 제거하거나 변수에서 누락 된 값을 가진 격리물을 제거하지 마십시오. 예를 들어, 게놈은 cgMLST 변이체 번호를 갖지 않고 ST 분류를 가질 수 있다. 이 경우, 게놈은 여전히 ST 기반 분석에 사용될 수 있다.
  7. 모든 데이터 세트가 집계되면 후속 분석의 여러 위치에서 사용할 수 있는 데이터 프레임 이름 또는 개체에 할당하여 논문의 모든 그림에 대해 동일한 메타데이터 파일을 생성할 필요가 없도록 합니다.

5. 분석 수행 및 시각화 생성

참고: 모든 분석 및 시각화를 생성하는 데 필요한 각 단계에 대한 자세한 설명은 이 문서의 마크다운 파일(https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code)에서 찾을 수 있습니다. 각 그림의 코드는 청크로 구분되며 전체 스크립트를 순차적으로 실행해야 합니다. 또한 각 기본 및 보충 그림에 대한 코드는 별도의 파일로 제공됩니다(보충 파일 1 및 보충 파일 2 참조). 다음은 각 기본 및 보충 수치를 생성하는 동안 고려해야 할 몇 가지 필수 사항 (코드 스 니펫 포함)입니다.

  1. ggtree를 사용하여 유전자형 정보와 함께 계통수를 플로팅합니다(그림 1).
    1. xlim() 및 gheatmap(width = ) 함수 내부의 숫자 값을 각각 변경하여 링의 직경과 너비를 포함한 ggtree 그림 크기를 최적화합니다(아래 예제 코드 참조).
      tree_plot <- ggtree (트리, 레이아웃 = "원형") + xlim (-250, NA)
      figure_1 <- gheatmap(tree_plot, d4, 오프셋=.0, 너비=20, colnames = FALSE)
      참고 : 계통 발생 플로팅에 사용할 수있는 프로그램을보다 자세히 비교하려면이 작업20을 확인하십시오. 이 작업은 데이터 세트 크기를 줄이는 것과 같은 ggtree 기반 시각화를 개선하기위한 전략을 식별하려는 시도를 강조했지만 분기 길이와 트리 토폴로지는 phandango41에 비해 명확하게 구별되지 않았습니다.
    2. 계통발생 트리(https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_1.Rmd)로 여러 계층의 데이터를 플로팅할 때 색상 패널을 쉽게 선택할 수 있도록 모든 메타데이터를 가능한 한 적은 범주로 집계합니다. 관심 및 도메인 지식에 대한 질문을 기반으로 데이터 집계를 수행합니다.
  2. 막대 그림을 사용하여 상대 주파수를 평가합니다(그림 2).
    1. ST 계보 및 cgMLST 변형 모두에 대한 데이터를 집계하여 시각화를 용이하게 합니다. 데이터 집계에 사용되는 경험적 또는 통계적 임계값을 선택하면서 묻는 질문을 고려합니다.
    2. 차단을 결정하기 위해 ST 계보의 주파수 분포를 검사하는 데 사용할 수 있는 예제 코드는 아래를 참조하십시오.
      st_dist <- d2 %>% group_by(ST) %>% # ST 컬럼에 의한 그룹
      count() %>% # 관측치 수를 계산합니다.
      arrange(desc(n)) # 카운트를 감소 순서로 정렬합니다.
    3. 마이너(저주파) ST를 집계하는 방법을 보여주는 예제 코드는 아래를 참조하십시오. 아래에 설명된 바와 같이, 5, 31, 45, 46, 118, 132 또는 350으로 번호가 매겨지지 않은 ST는 함께 "다른 ST"로 그룹화됩니다. cgMLST 변형(https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_2.Rmd)에 대해 유사한 코드를 사용합니다.
      d2$st <- ifelse(d2$ST == 5, "ST5", # 마이너 S T가 기타로 집계되는 새 ST 열을 만듭니다.
      ifelse(d2$ST == 31, "ST31",
      ifelse(d2$ST == 45, "ST45",
      ifelse(d2$ST == 46, "ST46",
      ifelse(d2$ST == 118, "ST118",
      ifelse(d2$ST == 132, "ST132", ifelse(d2$ST == 350, "ST350", "Other STs"))))))
  3. 중첩된 접근 방식을 사용하여 각 BAPS1 하위 그룹 내의 각 ST 계보의 비율을 계산하여 조상과 관련된(동일한 BAPS1 하위 그룹에 속하는) ST를 식별합니다(그림 3). 아래 코드는 BAPS1 하위 그룹(https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_3.Rmd)에서 ST 기반 비율을 계산하는 방법을 보여 줍니다.
    baps <- d2b %>% filter(serovar == "Newport") %>% # filter Newport serovars
    선택(baps_1, ST) %>% # baps_1 및 ST 열 선택
    mutate(ST = as.numeric(ST)) %>% # ST 열을 숫자로 변경
    drop_na(baps_1, ST) %>% # NA 드롭
    group_by(baps_1, ST) %>% # baps_1 및 ST에 의한 그룹
    summarise(n = n()) %>% # 카운트 관측치
    mutate(prop = n/sum(n)*100) # 비율 계산
  4. Resfinder 기반 유전자 주석 결과를 사용하여 ST 계통에 걸친 AMR 유전자좌의 분포를 플로팅한다(그림 4).
    참고 : Resfinder는 생태 및 역학 연구42에서 널리 사용되었습니다. 단백질 코딩 유전자의 주석은 데이터베이스가 얼마나 자주 큐레이팅되고 업데이트되는지에 따라 달라질 수 있다. 제안된 생물정보학 파이프라인을 사용하는 경우, 연구원은 상이한 데이터베이스(20)에 걸친 AMR 기반 유전자좌 분류를 비교할 수 있다. 지속적으로 업데이트되는 데이터베이스를 확인해야 합니다. 오콜을 피하기 위해 오래되었거나 잘못 큐레이팅된 데이터베이스를 사용하지 마십시오.
    1. 경험적 또는 통계적 역치를 사용하여 시각화를 용이하게 하기 위해 가장 중요한 AMR 유전자좌를 필터링합니다. 여기에 표시된 것과 같이 모든 ST 계보에 걸쳐 모든 AMR 유전자좌의 계산된 비율을 포함하는 원시 .csv 파일을 제공합니다(https://figshare.com/account/projects/116625/articles/15097503?file=29025687).
    2. 다음 코드를 사용하여 각 ST에 대한 AMR 비율을 계산합니다(https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_4.Rmd).
      # ST45에 대한 계산
      d2c <- data6 %>% filter(st == "ST45") # ST45 데이터를 먼저 필터링
      # ST45의 경우 AMR 유전자좌의 비율을 계산하고 10 %보다 큰 비율 만 유지하십시오.

      d3c <- d2c %>% select(id, gene) %>% # 선택 열
      group_by(id, gene) %>% # id 및 유전자별 그룹
      요약(개수 = n()) %>% # 관측치 개수
      mutate(count = replace(count, count == 2, 1)) %>% #2와 같은 카운트를 1로 대체하여 각 유전자의 사본 하나만 고려하지만(중복은 신뢰할 수 없을 수 있음), 연구원은 이를 제외하거나 유지하기로 결정할 수 있습니다. 연구원이 그들을 배제하고 싶다면 필터 (count != 2) 함수를 사용하거나 그대로 두십시오.
      filter(개수 <= 1) # 필터 카운트가 1보다 작거나 같음
      d4c <- d3c %>% group_by(유전자) %>% # 유전자별 군
      요약(값 = n()) %>% # 카운트 관측치
      mutate(total = table(data1$st)[6]) %>% # st mutate 의 총 카운트를 가져옵니다 (prop = (value/total)*100) # 백분율 계산
      d5c <- d4c %>% mutate(st = "ST45") # st 열 만들기 및 ST 정보 추가
    3. 모든 ST에 대해 계산이 완료되면 다음 코드를 사용하여 데이터 세트를 하나의 데이터 프레임으로 결합합니다.
      # 데이터 세트 결합
      d6 <- rbind(d5a, d5b, d5c, d5d, d5e, d5f, d5g, d5h) # 행 바인딩 데이터 세트
    4. 계산된 비율이 포함된 .csv 파일을 내보내려면 코드를 사용합니다.
      # ST 및 AMR 유전자좌 정보를 포함하는 데이터 테이블 내보내기
      abx_newport_st <- d6 쓰기.csv(abx_newport_st,"abx_newport_st.csv", row.names = FALSE)
    5. ST 계보 전반에 걸친 AMR 기반 분포를 플로팅하기 전에 아래와 같이 임계값을 기준으로 데이터를 필터링하여 시각화를 용이하게 합니다.
      # 10%보다 높거나 같은 비율을 가진 AMR 유전자좌 필터링
      d7 <- d6 %>% filter(prop >= 10) # 경험적 또는 통계적으로 역치를 결정
  5. 계층적 유전자형 분류 및 AMR 데이터와 함께 코어-게놈 계통학을 ggtree를 사용하여 단일 플롯에 플로팅합니다(그림 5).
    1. 위에서 언급 한 매개 변수를 사용하여 ggtree 내부의 그림 크기를 최적화하십시오 (5.1.1 단계 참조).
    2. 변수를 집계하거나 유전자 존재 또는 부재와 같은 이진 분류를 사용하여 시각화를 최적화합니다. 플롯에 피쳐가 추가될수록 채색 선택 과정이 어려워집니다(https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_5.Rmd).
      참고 : 보충 그림 - 전체 코드에 대한 자세한 설명은 여기에서 찾을 수 있습니다 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd).
  6. 데이터 집계 없이 ggplot2의 산점도를 사용하여 ST 계통 또는 cgMLST 변이체의 분포를 표시하면서 가장 빈번한 유전자형을 강조 표시합니다(보충 그림 1)(https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s1.Rmd).
  7. ST 기반 유전 다양성을 엿볼 수 있도록 cgMLST 변이체의 비율을 통해 ST 혈통의 구성을 평가하기 위해 중첩 분석을 수행하면서 가장 빈번한 변이체와 유전 관계 (즉, 동일한 ST에 속하는 cgMLST 변이체는 별개의 ST에 속하는 것보다 더 최근에 조상을 공유했습니다) (보충 그림 2 ) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s2.Rmd).
  8. 지역 사회 생태학 지표, 즉 Simpson의 다양성 D 지수를 사용하여 각 주요 ST 계통43 의 클론성 또는 유전자형 다양성의 정도를 측정하십시오 (보충 그림 3).
    1. BAPS 레벨 1~6 및 cgMLST를 포함한 다양한 수준의 유전자형 분해능에서 ST 계통에 걸친 다양성 지수를 계산합니다. 다음은 유전자형 분해능의 BAPS 레벨 1(BAPS1)에서 이 계산을 수행하는 방법에 대한 코드 예제입니다.
      # BAPS 레벨 1 (BAPS1)
      # ST와 BAPS1을 NA로 드롭하고 ST와 BAPS1로 그룹화 한 다음 Simpson의 인덱스를 계산합니다.
      baps1 <- 데이터6 %>%
      선택(st, BAPS1) %>% # 열 선택
      drop_na(st, BAPS1) %>% # NA 드롭
      group_by(st, BAPS1) %>% # 열별 그룹
      summarise(n = n()) %>% # 카운트 관측치
      mutate(simpson = diversity(n, "simpson")) %>% # 다양성 계산
      열별로 group_by(st) %>% # 그룹
      summarise(simpson = mean(simpson)) %>% # 인덱스의 평균을 계산합니다.
      melt(id.vars=c("st"), measure.vars="simpson",
      variable.name="index", value.name="value") %>% # 긴 형식으로 은밀한
      mutate(strat = "BAPS1") # strat 열 만들기
      참고: 보다 유전적으로 다양한 집단(즉, 유전자형 분해능의 상이한 계층에서 더 많은 변이체)은 cgMLST 수준에서 더 높은 지수를 가지며 BAPS 레벨 2에서 6(https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s3.Rmd)으로 증가하는 인덱스 기반 값을 생성합니다.
  9. 모든 분해능 수준(BAPS1-6)에서 BAPS 하위집단의 상대적 빈도를 플로팅하여 ST 계통의 유전자형 다양성 정도를 조사한다(보충 그림 4). 모집단이 다양할수록 BAPS 하위 그룹(일배체형)의 분포가 BAPS1(낮은 해상도 수준)에서 BAPS6(더 높은 수준의 분해능)(https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s4.Rmd)으로 이동하게 됩니다.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

집단 유전체학 분석을 위해 전산 플랫폼 ProkEvo를 활용함으로써, 박테리아 WGS 데이터 마이닝의 첫 번째 단계는 코어-게놈 계통학의 맥락에서 계층적 집단 구조를 조사하는 것으로 구성됩니다(그림 1). S의 경우. 엔테리카 계보 I, S에 의해 예시된 바와 같이 . 뉴포트 데이터 세트는, 모집단이 다음과 같이 계층적으로 구조화된다: 세로바(최저 해상도 수준), BAPS1 하위군 또는 일배체형, ST 계통 및 cgMLST 변이체(최고 수준의 분해능)20. 계층적 집단 구조에 대한 이러한 계통학-유도 분석은 구체적으로 다음과 같은 점들이 조사될 수 있게 한다: i) 살모넬라균의 경우에 SISTR-기반 잘못 분류된 게놈의 계통발생학적 분포를 다른 혈청으로 분포; ii) 집단의 유전적 또는 친족관계 구조; iii) 유전자형 분해능의 상이한 수준에서의 다양화 패턴; iv) 진화적, 생태학적 또는 역학적 패턴의 기초가 되는 주요 유전자형 단위(들)의 확인; v) BAPS1 하위군 또는 일배체형 조성을 통한 ST 계통 사이의 조상 관계, 및 ST 계보 내의 cgMLST 변이체에 걸친 조상 관계; 및 vi) cgMLST 변이체 조성물에 의한 ST 계통의 유전자형 균질성의 정도에 대한 부분적 관점.

Figure 1
그림 1: S에 대한 계층적 유전자형의 계통 유도 매핑 . 뉴포트 인구. 코어-게놈 계통학(검정 중심 원)을 사용하여 혈청(가장 낮은 수준의 해상도 - 가장 안쪽에 있는 컬러 원), BAPS 수준 1(BAPS1) 하위군 또는 일배체형, ST 계통 및 cgMLST 변이체(최고 수준의 해상도 - 최외곽 착색 원)를 포함한 계층적 유전자형을 매핑했습니다. Serovars는 Newport (S. Newport) 또는 "Other serovars"는 코어-게놈 MLST 정보를 활용한 게놈의 SISTR 알고리즘 분류에 기초하며, ProkEvo 전산 플랫폼의 일부로 실행되었다. BAPS1은 Prokevo 내의 코어 게놈 데이터를 사용하여 집단을 관련 일배체형의 하위 그룹 또는 클러스터로 불가지론적으로 계층화합니다. BAPS1은 ST 사이의 조상 관계를 정확하게 포착했기 때문에 혈청과 ST 계통 사이에 계층적으로 배치됩니다. ST 계통은 일곱 개의 게놈 산란 유전자좌를 사용하는 정식 MLST 분석을 기반으로 형성됩니다. 주요 또는 가장 빈번한 ST (비율 >1 %)만 그래프에 묘사되었습니다. 마지막으로, S에 대한 전체 계층 구조를 보여주기 위해 가장 빈번한 cgMLST 변이체 (비율 >3.5 %)만이 사용되었습니다 . 뉴포트 인구 (n = 2,365 USA만 격리됨). 범주 "기타 ST" 또는 "기타 cgMLSTs"는 각각 마이너 또는 저주파 계보 또는 변형으로 구성되며, 임계값은 데이터 세트에 따라 경험적 또는 통계적으로 설정되어야 하는 임의적으로 수행됩니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

그런 다음 모든 계층적 유전자형의 상대적 빈도를 사용하여 전체 분포 및 가장 빈번하게 관찰되는 분류(즉, 유전자형)를 평가하였다(그림 2). 도 2C-D에서, 덜 빈번한(사소한) ST 계보 또는 cgMLST 변이체는 데이터 시각화(차원성 감소)를 용이하게 하기 위해 각각 "다른 ST들" 또는 "다른 cgMLST들"로서 집계되었다. 샘플링이 환경 및/또는 호스트 간에 체계적으로 수행되고 통계적으로 적절하게 구동되는 경우, 주파수 분포는 생태적 적합성을 위한 프록시가 될 수 있습니다. 즉, 가장 빈번한 혈통 또는 변이체는 더 높은 체력을 가질 것으로 예측될 수 있으며, 그러한 양적 특성 6,30의 기초가 되는 원인 유전 결정인자를 결정하기 위한 추가 조사가 뒤따를 수 있다.

Figure 2
그림 2: S 의 비율 뉴포트 계층적 유전자형은 다양한 해상도 수준에서. (A) Serovars는 S의 표현형 이다. 코어-유전자좌와 O 및 H 항원-코딩 유전자좌 (표면 단백질) 사이의 상속가능한 높은 결합 불균형으로 인해 코어-게놈 데이터로부터 단독으로 예측될 수 있는 장내 계보 I 집단. ProkEvo를 사용할 때, 살모넬라 게놈은 SISTR 프로그램을 사용하여 혈청으로 자동 분류됩니다. S . NCBI의 Newport (Newport) 게놈은 추정적으로 다운로드되었으며, 일부는 ProkEvo 내에서 "다른 혈청"으로 분류되었습니다. 모든 게놈의 약 2%(2,365개 중 48개)가 S가 아닌 다른 것으로 분류되었다 . 뉴포트 세로바르. (b) BAPS 레벨 1 (BAPS1) 하위군 또는 일배체형의 비율. BAPS1은 ST 사이의 조상 관계를 정확하고 불가지론적으로 포착했기 때문에 계층 적 체계에서 혈청과 ST 계통 사이에 삽입됩니다. (C) 주요 ST 계보의 비율은 상대 주파수에서 1 %> ST 만 묘사했습니다. 마이너 ST는 "다른 ST"로 그룹화되었습니다. (D) 주요 cgMLST 변이체의 비율은 상대 주파수에서 >3 %인 네 개의 우세한 cgMLST만을 보였다. 나머지 cgMLST는 "Other cgMLSTs"로 그룹화되었다. (B-D) SISTR에 의해 "다른 혈청"(2.03%)으로 분류된 게놈은 BAPS1, ST 및 cgMLST 상대 주파수를 플로팅하기 전에 데이터로부터 여과되었다. (C-D) ST 및 cgMLST 데이터를 모두 플로팅하는 데 사용되는 임계값은 임의로 정의되었으며 사례별로 경험적으로 설정되어야 합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

대안적으로, 산점도는 어떠한 데이터 집계 없이 ST 계보 또는 cgMLST 변이체 둘 다의 분포 및 비율을 평가하는데 사용될 수 있다(보충 그림 1). 산점도의 이러한 사용은 ST 혈통 및 cgMLST 변이체에 특히 유용한데, 그 이유는 두 유전자형 모두에 대한 수백, 수천은 아니더라도 분류의 전형적인 발생 때문이다. 이 희소 분포는 일반적으로 혈청 및 BAPS1 분해능 수준에 대해 발생하지 않는데, 이는 시퀀스가 상속 가능하게 몇 개의 하위 그룹 또는 범주로 축소되는 낮은 수준의 분해능에 있기 때문입니다.

다음으로, ST 사이의 조상 관계를 BAPS1 하위군 또는 일배체형에 의한 ST 계통의 상대적 빈도를 평가하는 것을 포함하는 중첩된 접근법을 사용하여 조사하였다(도 3). 동일한 BAPS1 하위군에 속하는 ST 계통은 다른 ST(즉, ST5 및 ST118 대 ST45)보다 더 최근에 공통 조상을 공유했을 가능성이 더 높았다. 유사하게, ST 계통 내의 cgMLST 변이체의 분포를 조사함으로써, ST에 걸친 유전자형 이질성의 정도를 포착할 수 있고, 그들의 유전 성분을 평가하고 cgMLSTs 사이의 조상 관계를 밝혀내면서 (즉, 밀접하게 관련된 cgMLST 변이체는 동일한 ST 계보 또는 클론 복합체에 속함) (보충 그림 2).

Figure 3
그림 3: S에 대한 BAPS1 하위 그룹 내에 중첩된 ST 계보의 분포 . 뉴포트 인구. 이 플롯은 "다른 혈청형"으로 분류된 게놈을 제외한 각 BAPS 수준 1 하위군 또는 일배체형 내의 ST 계보 분포를 묘사한다(전체 데이터의 2.03%). 각 BAPS1 하위 그룹에 대한 주요 ST (비율 >1 %)가 각 그래프에서 강조 표시됩니다. 원 직경이 클수록 특정 ST 계보에 대한 비율이 높아집니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

S의 패턴을 감안할 때. 뉴포트 집단 다양화는 대부분 ST 조성에 의해 주도되는 것으로 나타났고(도 1), 심슨의 D 다양성 지수(보충 그림 3), BAPS 수준 1-6을 이용한 BAPS 하위군 또는 일배체형의 분포를 포함하는 ST 기반 클론성 정도(즉, 유전적 동질성)를 평가하기 위해 두 가지 통계적 접근법이 사용되었다(보충 도 4 ). 집단의 클론성 정도를 평가하는 것은 다음과 같은 측면을 해명할 수 있다: i) 유전적 다양성과 집단 구조에 대한 더 나은 이해; ii) ST 계보와 같은 주요 유전자형 단위에 걸친 다양화 패턴의 미세 조정 분석; iii) 집단에 존재하는 새로운 하위 클러스터를 나타낼 수있는 비밀 유전자형 단위를 찾기 위해 액세서리 게놈 마이닝을 사용할 필요성의 지표가 될 수 있습니다. 집단이 코어 게놈 수준에 있을수록, 변종 사이를 구별하기가 더 어려워지고, 부속 게놈 내용이 독특한 생태적 분포와 관련된 의미있는 유전자형 단위로 집단을 계층화하는 데 도움이 될 가능성이 커진다18,19,21.

AMR 유전자좌를 분화시키는 ST 계보의 상대적 빈도를 평가하여 S 에 연결된 독특한 부속 게놈 서명을 확인하였다. 뉴포트 인구 구조(그림 4). 분석의이 단계는 공중 보건 관련 특성이기 때문에 AMR 분포에 초점을 맞추었지만 대사 경로, 독성 인자 등을 포함한 액세서리 게놈의 다른 구성 요소를 검사하기 위해 감독 (표적화) 또는 불가지론적 방식으로 동일한 접근법을 적용 할 수 있습니다. 눈에 띄게, mdf(A)_1aac(6')-Iaa_1 유전자좌는 S에 의해 조상적으로 획득된 것으로 보인다 . 뉴포트 인구; 반면, ST45는 다중 약물 내성일 것으로 예측된다. 놀랍게도, 이들 데이터는 또한 다른 주요 ST 계통인 ST5 및 ST118이 ST45와 비교할 때 다중 약물 감수성이 더 높다는 것을 시사한다. 이러한 점은 데이터 세트에 존재하는 편향 때문에 신중하게 고려해야합니다. 그러나 이것은 더 강력한 WGS 데이터 수집으로 만들 수있는 잠재적 인 역학 추론을 나타냅니다.

일반적으로, 계층적 유전자형에 대한 부속 게놈 매핑을 수행할 때 고려해야 할 몇 가지 사항이 있다: i) 주파수 분포를 정량적 특성으로 간주하지만 유전자좌의 대립유전자 구성이 형질 분산을 변화시킬 수 있다는 것을 인지해야 한다. 더욱이, 유전자좌 또는 유전자좌의 존재는 기능을 나타내지만 인과관계가 아니어야 하는데, 그 표현형은 다원성일 수 있거나, 원인 유전자좌에 대한 대립유전자 조성물에 따라 변할 수 있기 때문이다 (예를 들어, 단백질의 활성 부위 상의 비동의어 돌연변이가 기능에 영향을 미칠 가능성이 더 높음); ii) 유전자좌 분포는 집단에 고정되어 있거나 (예를 들어, 모든 ST 혈통에 걸쳐 높은 빈도로 발견됨) 또는 최근에-특정 ST 계통 및 cgMLST 변이체에 의해 획득되는 유전자를 입증할 수 있고, 생태학적 또는 역학적 패턴을 반영할 수 있고; iii) 다중-약물 내성은 유전체학 데이터로부터 예측될 수 있다. 그리고 AMR 유전자좌 또는 다른 경로의 분포가 특정 혈통에 의해 강하게 연결되거나 일반적으로 유전되는 경우, 표현형은 ST 계통45,46의 경우와 같은 계층 적 유전자형으로부터의 추론에 의해 예측 될 수있다. iv) 실험실에서 표현형을 측정하는 것은 계산 예측을 검증하기 위해 여전히 결정론적입니다.

Figure 4
그림 4: S의 주요 ST 계통에 걸친 AMR 유전자좌의 분포 . 뉴포트 인구. 주요 ST 계통에 걸쳐 선택된 수의 AMR 유전자좌의 상대적 주파수 기반 분포 (모집단의 >1 %). 마이너 ST는 "다른 ST"로 그룹화되었습니다. 오직 게놈만이 S로 분류된다 . SISTR 알고리즘에 의한 뉴포트는 분석에 유지되었다. 상대 빈도가 10%보다 크거나 같은 AMR 유전자좌가 데이터 시각화를 위해 선택되었다. 이는 각 데이터 세트에 대해 결정되어야 하는 임의의 임계값입니다. 비율은 유전자 존재 또는 부재로 구성된 이진 매트릭스를 사용하여 계산되었다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

마지막으로, 계통 앵커 시각화를 사용하여 유전자 발생에 기초하여 AMR 유전자좌 분포를 분화시키는 ST 계통과 함께 계층적 집단 구조 데이터를 체계적으로 통합하였다(도 5). 인구 구조와 액세서리 게놈 구성을 결합함으로써 주어진 데이터 세트에서 다음과 같은 질문 세트를 해결할 수 있습니다 : 1) 인구는 어떻게 구성됩니까? ST는 BAPS1 하위 그룹을 통해 서로 그리고 조상과 어떻게 관련되어 있습니까? ST에서 cgMLST 구성은 얼마나 변수입니까? 2) 계통발생학적 분지화 패턴과 전체 트리 토폴로지는 무엇입니까? 3) 액세서리 게놈은 어떻게 분포되어 있습니까? 액세서리 게놈 구성은 대부분 조상이 획득했거나 최근에 파생 된 것일 가능성이 있습니까? 계보 또는 변형 별 패턴은 무엇입니까? 표현형 예측과 생태 추론은 무엇입니까? 틈새 시장을 초월하는 대 틈새 시장을 지정하는 유전자가 있습니까? 관찰 된 패턴은 병원균의 경우 역학과 어떻게 관련되거나 알려줍니까? 혈통 또는 변종은 액세서리 게놈 내용을 기반으로 유익하게 하위 클러스터링 될 수 있습니까?

Figure 5
도 5: S내의 주요 ST 혈통을 구별하는 계층적 유전자형 및 부속 AMR 유전자좌의 계통-유도 매핑 . 뉴포트 인구. 코어 게놈 계통학 (검은 색 중심 원)을 사용하여 혈청 (가장 낮은 수준의 해상도 - 가장 안쪽의 유색 원), BAPS 수준 1 (BAPS1) 하위 그룹 또는 일배체형, ST 계통 및 cgMLST 변형 (최고 수준의 해상도 - 최외곽 색 원)과 함께 존재하는 경우 진한 파란색으로 채색 된 AMR 유전자좌와 부재 한 경우 회색으로 채색되었습니다. Serovars는 Newport (S. Newport) 또는 SISTR 알고리즘 분류에 기초한 "기타 혈청". BAPS1은 ST 사이의 조상 관계를 정확하고 불가지론적으로 포착했기 때문에 혈청과 ST 계통 사이에 계층적으로 배치됩니다. ST 혈통은 일곱 개의 게놈 산란 유전자좌를 사용하는 정식 MLST 분석을 기반으로 형성됩니다. 주요 또는 가장 빈번한 ST (비율 >1 %)만 그래프에 묘사되었습니다. 또한, S에 대한 전체 계층적 구조를 보여주기 위해 가장 우세한 cgMLST 변이체(비율 >3.5%)만이 사용되었다 . 뉴포트 인구 (n = 2,365 USA만 격리됨). 범주 "기타 ST" 또는 "기타 cgMLSTs"는 각각 마이너 또는 저주파 계보 또는 변형으로 구성되며 임계값은 임의로 수행되었으며 데이터 세트를 기반으로 설정해야 합니다. 상대 빈도가 10%보다 크거나 같은 AMR 유전자좌가 데이터 시각화를 위해 선택되었다. 이 특정 그래프는 ST31, ST45 및 ST132 계통에서 주로 발생하는 AMR 유전자좌의 독특한 분포를 보여준다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

보충 그림 1: S에 대한 ST 계보 및 cgMLST 변이체의 희소 분포 . 뉴포트 인구. (A) 저주파 ST를 집계하지 않고 ST 계보의 비율. 비율 >1%의 ST는 플롯에서 강조 표시됩니다. (B) 저주파 cgMLST를 집계하지 않고 cgMLST 변이체의 비율. 비율이 3%> cgMLST는 플롯에서 강조 표시됩니다. (A-B) ST 및 cgMLST 데이터를 모두 플로팅하는 데 사용되는 임계값은 임의로 정의되었으며 데이터 세트를 기반으로 설정해야 합니다. SISTR에 의해 "다른 혈청"(2.03%)으로 분류된 게놈은 ST 및 cgMLST 상대 빈도를 모두 플로팅하기 전에 데이터로부터 여과되었다. 원 직경이 클수록 ST 계보 또는 cgMLST 변형에 대한 비율이 높아집니다. 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 그림 2: S에 대한 ST 계보 내에 중첩된 cgMLST 변이체의 분포 . 뉴포트 인구. 이 플롯은 "다른 혈청"(전체 데이터의 2.03%)으로 분류된 게놈을 제외한 ST 계통에 걸친 cgMLST 변이체 분포를 묘사합니다. 각 ST 계보에 대한 주요 cgMLST(비율 >15%)가 각 그래프에서 강조 표시됩니다. 원 직경이 클수록 특정 cgMSLT 변이체에 대한 비율이 높아집니다. 저주파 ST들은 "다른 ST들"로서 그룹화되었다. 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 그림 3: BAPS 수준 1-6 일배체형 또는 cgMLST 유전자형을 S에 대한 입력 데이터로 사용하는 ST 계통에 걸친 Simpson의 D 기반 유전 다양성 정도 . 뉴포트 인구. 각 ST 혈통의 클론성 또는 유전적 다양성의 정도는 BAPS 수준 1 (최저 분해능 수준) 내지 6 (분해능의 최고 수준) 하위군 또는 일배체형을 포함하는 상이한 유전자형 분해능 층에 걸쳐 계산되었고, 추가로 cgMLST 기반 변이체 분포를 사용하여 계산되었다. 지수 값이 높을수록 유전 적 다양성의 정도가 높아집니다. 매우 다양한 ST 계통은 BAPS1에서 BAPS6으로 이동하는 더 높은 인덱스 값을 갖는다(즉, 일반적으로 BAPS1에서 BAPS6으로 갈 때 지수가 증가하고 결국 고원화된다). 오직 게놈만이 S로 분류된다 . SISTR 프로그램에 의한 뉴포트는 분석에 유지되었다. 저주파 ST들은 "다른 ST들"로서 그룹화되었다. 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 그림 4: S . Newport 집단의 주요 ST 혈통에 걸친 BAPS 수준 1-6 하위집단 또는 일배체형의 분포. BAPS 서브그룹 또는 일배체형의 상대적 주파수 기반 분포로, 주요 ST 계보에 걸쳐 최저(BAPS1)에서 최고 수준의 분해능(BAPS6)까지. 주요 ST는 >1%의 비율을 갖는 것을 기준으로 선택되었다. 오직 게놈만이 S로 분류된다 . SISTR 프로그램에 의한 뉴포트는 분석에 유지되었다. 클론성의 정도가 높을수록, BAPS 하위군 또는 일배체형의 분포가 덜 희박하거나 확산되어 BAPS1에서 BAPS6으로 갈 때 된다. 즉, 보다 유전적으로 다양한 ST 계통은 BAPS 레벨 6(최고 분해능도)에서 더 넓은 범위의 BAPS 하위집단을 갖는다. 저주파 ST들은 "다른 ST들"로서 그룹화되었다. 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 파일 1 : 재료 목록 및 게놈 목록에 대한 링크이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 파일 2 : R을 사용한 계층 적 기반 박테리아 집단 유전체학 분석 이 파일을 다운로드하려면 여기를 클릭하십시오.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

시스템 기반 휴리스틱 및 계층적 집단 구조 분석의 활용은 독특한 생태학적 및 역학적 패턴(20)을 설명할 수 있는 잠재력을 갖는 박테리아 데이터세트에서 새로운 게놈 서명을 식별하기 위한 프레임워크를 제공한다. 추가적으로, 집단 구조에 대한 부속 게놈 데이터의 매핑은 저장고(6,20,21,45,46)에 걸쳐 ST 계통 또는 cgMLST 변이체의 확산을 용이하게 하는 조상-획득 및/또는 최근 유래된 형질을 추론하는데 사용될 수 있다. 보다 광범위하게, 박테리아 집단의 범 게놈 함량 분포에 대한 세계적인 평가는 인구가 최근에18,21을 견뎌 냈을 수있는 생태 트로피즘 또는 지구 공간 / 시간적 병목 현상의 밑바닥에있는 다양 화 패턴을 나타낼 수 있습니다. 병원성 종의 경우에, 임상 대 환경 격리물의 집단 구조를 채굴함으로써, 동물성 사건과 관련된 유전적 결정인자가 확인되고 진단 및 감시를 개선하는데 사용될 수 있다(33,34). 동일한 접근법이 인간 건강을 개선하기 위해 사용되는 위장관 프로바이오틱 균주의 경우와 같이 바람직한 틈새 특이적 생착 특성을 갖는 유전자형을 확인하기 위해 비병원성 종에 적용될 수 있다 49,50,51. 그러나 인구 기반 문의에 박테리아 WGS 데이터를 활용하려면 ProkEvo20과 같은 재현 가능하고 자동화되고 확장 가능한 컴퓨팅 플랫폼을 사용해야합니다. 모든 전산 접근법에는 주의사항과 뉘앙스가 따르지만, 일반적으로 ProkEvo와 같은 자유롭게 사용할 수 있고 잘 문서화되고 휴대가 가능하며 사용자 친화적인 플랫폼은 휴리스틱 박테리아 집단 기반 유전체학을 수행하는 미생물학자, 생태학자 및 역학자의 작업을 용이하게 할 수 있습니다.

본 연구에서는 ProkEvo 파생 출력을 사용하여 WGS 데이터에서 유용한 특성을 예측하는 것과 함께 다양한 수준의 해상도에서 관심있는 유전자형을 매핑하고 추적하는 데 사용할 수있는 계층 적 인구 구조 분석을 수행하는 방법을 시연했습니다. 이 계산 프로토콜은 R 프로그래밍 언어를 사용하여 작성되었지만 프레임 워크 또는 개념적 접근 방식은 예를 들어 Pandas 라이브러리의 활용을 통해 Python과 같은 다른 언어로 일반화 할 수 있습니다. 입력 데이터는 ProkEvo20에 의해 생성되므로 후속 분석을 위해 출력 및 데이터 형식을 표준화하는 측면에서 몇 가지 장애물에 직면하지 않습니다. 계통학을 제외하고 다른 모든 입력 데이터 세트는 쉽게 품질 제어, 집계, 구문 분석 및 통합되어 데이터 해석에 유용한 보고서를 생성할 수 있는 테이블 형식으로 제공됩니다. 그러나이 프로토콜을 사용하는 동안 재현성을 향상시키기위한 몇 가지 중요한 단계를 강조하는 것이 중요합니다 : i) 소프트웨어 버전이 항상 업데이트되고 추적되는지 확인하십시오. ii) 사용되는 데이터 과학 라이브러리의 버전을 추적하고 시간이 지남에 따라 업데이트하는 것이 좋습니다. iii) 표적 박테리아 집단에 대해 이해되는 것에 비추어 ProkEvo 또는 유사한 파이프라인에 의해 생성된 출력을 이해하기 위해 도메인 지식 전문 지식을 사용하여 데이터를 품질 관리; iv) 모델링 접근법을 사용하기 전에 탐색 데이터 분석을 수행합니다. v) 경험적 지식 및/또는 통계적 평가를 기반으로 데이터를 집계하는 행위; vi) 누락 된 값을 선험적으로 다루고 그것에 대해 일관되고 완전히 투명하게하는 전략을 정의하십시오. vii) R을 사용하는 경우이 컬렉션은 기능 프로그래밍, 이식성, 최적화를 용이하게하고 자유롭게 사용할 수 있기 때문에 Tidyverse에서 제공하는 모든 패키지를 사용해보십시오. viii) 시각화 접근법은 질문되는 질문과 묘사되는 데이터에 가장 적절하게 적용 할 수있는 올바른 유형의 플롯 및 채색 체계를 얻기 위해 시행 착오가 필요하기 때문에 어려울 수 있음을 알고 있어야합니다.

참고로,이 프로토콜에는 더 개선 될 수있는 몇 가지 제한 사항이 있습니다. 예를 들어, ProkEvo는 Roary 프로그램 (~ 2,000-3,000 게놈)을 활용하면서 코어 게놈 정렬 단계가 동시에 생성된다면 범게놈 분석에 사용할 수있는 게놈 수에 대한 본질적인 한계를 가지고 있습니다 24. 이는 파이프라인에서 매우 특정한 병목 현상으로, BAPS 일배체형으로 분류될 수 있는 게놈의 수에 영향을 미치는데, 이는 코어-게놈 정렬(즉, 고도로 계산적으로 요구되는 단계)에 의존하기 때문이다. 그러나, 코어-게놈 정렬은 다른 프로그램(52)과 함께 행해질 수 있고, 이러한 알고리즘은, 이론적으로, ProkEvo에 쉽게 통합될 수 있다. 그렇지 않으면, 데이터 세트는 전략적으로 무작위 서브셋으로 분할될 수 있거나, 또는 문제의 유기체의 집단 구조를 고려하는 것과 같은 다른 기초에서 분할될 수 있다. 대안적으로, ProkEvo는 ST 기반 주석, 항생제 내성 및 독성 유전자 조성, 플라스미드의 매핑을 얻기 위해 단일 게놈으로 실행될 수 있지만, 파이프라인은 집단 기반 유전체학을 위해 설계되었다. 주목할 만하게도, BAPS1-6 분류가 필요하지 않은 경우, Roary의 코어 게놈 정렬 옵션을 끌 수 있으며,이 경우 ProkEvo는 수천 개의 게놈과 함께 사용할 수 있습니다 - 사용 가능한 컴퓨터 코어 수에 따라 제한됩니다. ProkEvo 내에서 Roary에서 새 프로그램을 구현하는 방법 또는 코어 게놈 정렬 옵션을 끄는 방법에 대한 예는 각각 다음 GitHub 링크 (https://github.com/npavlovikj/ProkEvo/wiki/4.1.-Add-new-bioinformatics-tool-to-ProkEvo) 및 (https://github.com/npavlovikj/ProkEvo/wiki/4.3.-Change-running-options-for-existing-tool-in-ProkEvo)에서 찾을 수 있습니다. 액세서리 게놈 마이닝의 경우, 불가지론적 분석은 범게놈의 활용에 달려 있다. Roary24에 의해 생성 된 Rtab 파일은 여기에서 특별히 사용되지 않았지만 대신 Resfinder 데이터베이스 (https://github.com/tseemann/abricate)를 사용하여 AMR loci를 ABRicate와 매핑하는 방법을 전략적으로 시연했습니다. 그럼에도 불구하고, 대신 범게놈 파일을 사용하여 액세서리 게놈 매핑의 범위를 확장하는 옵션이 있는데, 이는 현재 접근법의 확장으로 실질적으로 볼 수 있다(예를 들어, 새로운 컬럼으로서 테이블 형식 데이터세트에 더 많은 유전자좌가 포함됨). ProkEvo에 의해 수행 된 범 게놈 매핑은 유전자좌 조성 측면에서 바이너리 정보 만 제공했으며, 현재는 유전자에 걸친 단일 뉴클레오티드 다형성의 확인에 사용할 수 없다는 것을 언급하는 것이 중요합니다.

이 프로토콜의 또 다른 한계는 계통 발생 나무의 시각화입니다. 현재 ggtree는 선택 프로그램이지만 분기 길이를 정확하게 검사 할 수 없으며 많은 데이터 계층을 계통에 추가해야하는 경우 번거로워집니다. 대안적으로, 판당고(41)는 동일한 목표를 달성하기 위해 쉽게 사용될 수 있는 사용자 친화적이고, 확장 가능한 웹 페이지 포맷된 GUI(https://jameshadfield.github.io/phandango/#/)(41)이며, ProkEvo 출력과 함께 이를 사용하는 방법에 대한 추가 상세한 정보가 최근에 공개되었다(20). iTOL과 같은 다른 도구들도 데이터(53)의 계통학-의존적 시각화에 사용될 수 있지만, GUI를 사용해야 하며 자동화된 스크립트에 통합될 수 없다. 또한, 정확한 코어-게놈 계통학은 수평 유전자 전달의 비밀 데이터 세트-의존적 영향으로 인해 추정하기 어려울 수 있다. Gubbins54와 같은 프로그램은 이러한 목적으로 사용될 수 있지만, 계통의 정확한 추정을 위해 전체 게놈 정렬 및 ST 계보 별 데이터 세트를 사용할 필요성과 같은 특정 제한 사항이 있습니다. 대신에, 다른 계통학-독립적 접근법들이 배치될 수 있고, 이는 다차원 분석(55,56)의 경우에서와 같이, 메타데이터 또는 액세서리 게놈 정보를 통합하기 위해 다른 유형의 시각화를 필요로 하게 된다. 마지막으로, 정량화될 가장 중요한 AMR 유전자좌를 필터링하는 것 외에도 사소한 ST 계보 및 cgMLST 변이체를 집계하기 위해 경험적이고 임의적인 접근법이 사용되었다. 이러한 유형의 데이터 집계는 도메인 지식 전문 지식을 사용하여 경험적으로 수행 할 수 있지만 표시해야하는 분포의 비율에 대한 선험적 기준을 정의하거나 사분위 범위, 표준 편차 또는 왜곡과 같은 분포 관련 메트릭을 사용하여 궁극적으로 임계 값을 정의함으로써 통계적으로 달성 될 수도 있습니다. 중요하게도, 경미한 유전자형에 대한 정의는 표본 크기 및 환경 샘플의 유형에서의 편향이 유전자형 조성에 직접적으로 영향을 미칠 수 있기 때문에 데이터의 성질에 직접적으로 영향을 받는다. 그럼에도 불구하고, 주요 고려 사항은 부속 게놈 내용을 인구 구조에 매핑하면 틈새 초월 또는 틈새 지정 유전자57,58,59와 같은 생태 다양성의 잠재적 유전 적 결정 요인을 식별 할 수 있다는 것입니다.

사용 가능한 R 스크립트는 현재 작업의 자동화를 위해 설계되었지만 제공된 모든 스크립트는 추상적이고 배포 가능한 데이터 과학 라이브러리가되기 위해 추가로 개발되어야하며, 예를 들어 ProkEvo 파이프 라인의 필수적인 부분이 될 수 있습니다. 그럼에도 불구하고, BAPS 레벨 1 지노타이핑 또는 클러스터링 스킴의 사용과 같은 이러한 접근법을 활용하는 몇 가지 특정한 이점이 있다. 혈청과 ST 혈통 사이의 BAPS 레벨 1 하위군 또는 일배체형의 배치는 살모넬라 집단의 유전 구조에 기초하여 경험적으로 정의되었지만, 캄필로박터 제주니스타필로코커스 아우레우스20과 같은 다른 종에도 적용될 수 있는 것으로 보인다. 더욱이, BAPS1은 ST 계통 사이의 조상 관계를 정확하게 포착하고, 특히 계통발생학적 응용이 제한될 때(20)에 진화 분석을 위한 확장 가능한 접근법을 제공한다. 또한, 계층 적 관계와 다양 화 패턴을 조사하기위한 중첩 된 접근 방식을 사용하면 BAPS1 하위 그룹을 사용하는 ST 계통과 ST 계통을 사용하는 cgMLST 변종 간의 조상 식별이 용이 해지고 집단 구조를 평가할 때 더 낮은 유전자형 분해능에서 더 높은 유전자형 분해능으로 연속적으로 이동합니다. ST 계보 및 cgMLST 변이체의 주파수 분포가 체계적으로 수집되고 통계적으로 구동되는 샘플에서 도출 된 경우 생태 적합성1,6,43의 대리자가 될 수 있음을 반복하는 것이 중요합니다. 결과적으로, 우세한 ST 계통 및 cgMLST 변이체는 그 특정 환경 또는 숙주에서의 집단에서의 그들의 우세를 위한 생물학적 메카니즘의 기초가 될 수 있는 독특한 게놈 특징을 함유할 가능성이 있다.

본원에서, 집단의 클론성의 정도를 평가하기 위해 두 개의 독립적인 통계 통계적 지표가 사용되었고, 이는 표본 편향, 집단 병목 현상 또는 창시자 효과의 과거 발생을 나타낼 수 있는 집단 유전적 다양성의 보조 이해를 허용한다. 특히, ST 혈통에 걸친 BAPS 수준 1-6 하위군에 대한 불가지론적 평가는 SISTR에 의해 생성된 살모넬라 cgMLST 변이체 수준을 보는 것만으로는 일반적으로 해결할 수 없는 유전적 다양성에 대한 이해를 개선할 수 있다. 앞서 언급한 바와 같이, 범게놈의 다른 특징들은 플라스미드 및 독성 유전자 조성물을 포함하는 집단 구조 및 파일들 상에 매핑될 수 있고, 불가지론적 범게놈 데이터세트와 함께 다른 AMR 데이터베이스의 활용 이외에도, ProkEvo20에 의해 자동으로 생성된다. 참고로, ProkEvo는 현재 박테리아 염색체 대 플라스미드에 존재하는 AMR 유전자좌 사이의 분화를 허용하지 않는다. 생태 학적 및 역학적 메타 데이터는 또한 모든 게놈 정보를 포함하는 .csv 파일에 다른 변수를 통합함으로써이 분석 접근법에 쉽게 통합 될 수 있습니다. 특히, 여기에 제시된 연구는 확장 가능하고 휴대용 컴퓨팅 플랫폼 ProkEvo의 활용을 구체적으로 보완합니다.이 플랫폼은 사용자가 데이터 마이닝 및 사용자 정의를 용이하게하는 휴리스틱 인구 유전체학 분석에 중점을 둔 연구원이 사용하도록 설계되었습니다. 다른 플랫폼은 Enterobase5, PATRIC60 및 BacWGSTdb61과 같은 액세서리 게놈의 유전자형, 집단 구조 분석 및/또는 매핑에 사용될 수 있다. 후자는 확장 가능하고 복잡한 분석을 위해 클러스터 컴퓨팅을 사용자 정의하고 활용하려는 연구자를위한 유전체학 데이터 마이닝을 용이하게하는 우수한 리소스입니다. 여기에 제시된 분석 접근법은 로컬 머신에서 재현 가능한 스크립트를 사용하거나 클라우드 또는 고성능 컴퓨팅 플랫폼을 사용하여 인구 유전체학 분석을 수행 할 수있는 유연성을 갖기를 원하는 연구자를 위해 특별히 조정되었습니다.

결론적으로,이 연구에서 제시된 분석 R 기반 플랫폼은 미생물 학자, 생태 학자 및 역학자를위한 실용적인 가이드를 제공하는 것을 목표로했습니다 : i) 계통 학적 의존적 접근법을 사용하여 계층 적 유전자형을 매핑하는 방법; ii) 생태학적 적합성을 평가하기 위한 프록시로서 유전자형의 빈도 분포를 평가하는 단계; iii) 독립적 인 통계적 접근법을 사용하여 혈통 별 클론성 정도를 결정; iv) 집단 구조의 맥락에서 부속 게놈 함량을 마이닝하는 방법의 예로서 혈통-차별화 AMR 유전자좌를 지도화한다. 여기에 제공된 스크립트는 로컬 컴퓨터 또는 고성능 계산 플랫폼에서 사용할 수 있습니다. 실험 및 환경 미생물 학자의 경우,이 접근법은 궁극적으로 인구 수준에서 맥락화 될 수있는 추가 기계론적 연구를위한 고유 한 특성 및 후보 경로를 식별하기위한 데이터 세트에 대한 연구를 용이하게합니다. 생태 학자들은 중등도에서 대규모의 데이터 세트를 분석 할 수 있기 때문에 이론적으로 혈연 관계와 다양 화 패턴을 고려하면서 인구에서 선택의 서명을 찾는 데 필요한 통계적 힘을 증가시킬 수 있음으로써이 접근법의 이점을 누릴 수 있습니다. 마지막으로, 역학자들은 관심 있는 유전자형 단위를 정의하고 AMR과 같은 공중 보건 관련 특성을 예측함으로써 진단 및 감시를 위한 고유한 실용적인 정보를 활용할 수 있습니다. 보다 광범위하게,이 분석 지침은 ProkEvo를 활용하여 다른 박테리아 종에 대한 접근 방식이 일반화 될 수 있기 때문에 병원성 및 비 병원성 종에 대한 진화 및 생태 패턴을 추론하는 데 사용할 수있는 집단 기반 게놈 분석을 수행하는 일반화 가능한 프레임 워크를 제공합니다.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

저자들은 경쟁하는 이익이 존재하지 않는다고 선언했다.

Acknowledgments

이 연구는 UNL-IANR 농업 연구 부서와 국립 항균 내성 연구 및 교육 연구소 및 식품 과학 기술부 (UNL)의 네브래스카 식품 보건 센터에서 제공하는 기금으로 지원되었습니다. 이 연구는 네브래스카 연구 이니셔티브의 지원을받는 UNL의 네덜란드 컴퓨팅 센터 (HCC)를 활용해야만 완료 될 수 있습니다. 우리는 또한 HCC를 통해 국립 과학 재단과 미국 에너지부의 과학 사무소가 지원하는 개방형 과학 그리드 (OSG)가 제공하는 자원에 액세스 할 수있게 해줘서 고맙습니다. 이 작품은 국립 과학 재단 (보조금 #1664162)이 자금을 지원하는 페가수스 워크 플로우 관리 소프트웨어를 사용했습니다.

Materials

Name Company Catalog Number Comments
amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

DOWNLOAD MATERIALS LIST

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user's guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 - Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. Seemann, T. MLST. GitHub. , Available from: https://github.com/tseemann/mist (2020).
  29. Seemann, T. ABRicate. GitHub. , Available from: https://github.com/tseemann/abricate (2020).
  30. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. at. Available from: https://cran.r-project.org (2021).
  31. Studio Team. RStudio: Integrated Development for R. Studio, PBC. , Boston, MA. Available from: http://www.rstudio.com (2020).
  32. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  33. rOpenSci: The skimr package. GitHub. , Berkeley, CA. Available from: https://github.com/ropensci/skimr/ (2021).
  34. Oksanen, J., et al. vegan: Community ecology package. R package version 2.5-5. , Available from: https://CRAN.R-project.org/package=vegan (2019).
  35. Tierney, N. J., Cook, D. H. Expanding tidy data principles to facilitate missing data exploration, visualization and assessment of imputations. arXiv. , Available from: http://arxiv.org/abs/1809.02264 (2020).
  36. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  37. Kassambara, A. ggpubr: "ggplot2" Based Publication Ready Plots. R package version 0.4.0. , Available from: https://CRAN.R-project.org/package=ggpubr (2020).
  38. Slowikowski, K. ggrepel: Automatically Position Non-Overlapping Text Labels with "ggplot2”. R package version 0.9.1. , Available from: https://CRAN.R-project.org/package=ggrepel (2021).
  39. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  40. Neuwirth, E. RColorBrewer: ColorBrewer Palettes. R package version 1.1-2. , Available from: https://CRAN.R-project.org/package=RColorBrewer (2014).
  41. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  42. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  43. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  44. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  45. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  46. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  47. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  48. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  49. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  50. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  51. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  52. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  53. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  54. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  55. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  56. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  57. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  58. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  59. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  60. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  61. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Tags

유전학 문제 178
박테리아 집단에서 계층적 유전자형과 부속 게놈 유전자형의 휴리스틱 마이닝
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Pavlovikj, N., Gomes-Neto, J. C.,More

Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter