Waiting
登录处理中...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Bakteriyel Popülasyonlarda Hiyerarşik Genotiplerin ve Aksesuar Genom Loci'nin Sezgisel Madenciliği

Published: December 7, 2021 doi: 10.3791/63115
* These authors contributed equally

Summary

Bu analitik hesaplama platformu, bakteriyel popülasyon genomiği ile ilgilenen mikrobiyologlar, ekolojistler ve epidemiyologlar için pratik rehberlik sağlar. Özellikle, burada sunulan çalışma nasıl gerçekleştirileceğini göstermiştir: i) hiyerarşik genotiplerin filogeni rehberliğinde haritalanması; ii) genotiplerin frekansa dayalı analizi; iii) akrabalık ve klonalite analizleri; iv) Soy farklılaştırıcı aksesuar lokuslarının tanımlanması.

Abstract

Bakteriyel tüm genom dizilemesinin (WGS) rutin ve sistematik kullanımı, Halk Sağlığı laboratuvarları ve düzenleyici kurumlar tarafından yürütülen epidemiyolojik araştırmaların doğruluğunu ve çözünürlüğünü arttırmaktadır. Halka açık WGS verilerinin büyük hacimleri, patojenik popülasyonları büyük ölçekte incelemek için kullanılabilir. Son zamanlarda, bakteriyel WGS verilerini kullanarak tekrarlanabilir, otomatik ve ölçeklenebilir hiyerarşik tabanlı popülasyon genomik analizlerini mümkün kılmak için ProkEvo adlı ücretsiz olarak kullanılabilen bir hesaplama platformu yayınlandı. ProkEvo'nun bu uygulaması, popülasyonların standart genotipik haritalamasını ekolojik çıkarım için aksesuar genomik içerik madenciliği ile birleştirmenin önemini göstermiştir. Özellikle, burada vurgulanan çalışma, R programlama dilini kullanarak popülasyon ölçekli hiyerarşik analizler için ProkEvo'dan türetilmiş çıktıları kullandı. Temel amaç, mikrobiyologlar, ekolojistler ve epidemiyologlar için nasıl yapılacağını göstererek pratik bir rehber sağlamaktı: i) hiyerarşik genotiplerin filogeni rehberliğinde bir haritasını kullanmak; ii) genotiplerin frekans dağılımlarını ekolojik uygunluk için bir vekil olarak değerlendirmek; iii) belirli genotipik sınıflandırmaları kullanarak akrabalık ilişkilerini ve genetik çeşitliliği belirlemek; ve iv) aksesuar lokuslarını farklılaştıran harita soyu. Tekrarlanabilirliği ve taşınabilirliği artırmak için, tüm analitik yaklaşımı göstermek için R markdown dosyaları kullanılmıştır. Örnek veri kümesi, zoonotik gıda kaynaklı patojen Salmonella Newport'un 2.365 izolatından genomik veriler içeriyordu. Hiyerarşik genotiplerin (Serovar -> BAPS1 -> ST -> cgMLST) filogeni bağlantılı haritalanması, genotipi farklılaştıran kilit taşı olarak dizi tiplerini (ST'ler) vurgulayarak popülasyon genetik yapısını ortaya koymuştur. En baskın üç soy boyunca, ST5 ve ST118, yüksek klonal ST45 filotipinden daha yakın zamanda ortak bir atayı paylaştı. ST bazlı farklılıklar, aksesuar antimikrobiyal direnç (AMR) lokuslarının dağılımı ile daha da vurgulanmıştır. Son olarak, akrabalık yapısını ve soya özgü genomik imzaları ortaya çıkarmak için hiyerarşik genotipleri ve AMR içeriğini birleştirmek için filogeni bağlantılı bir görselleştirme kullanıldı. Kombine olarak, bu analitik yaklaşım, pan-genomik bilgileri kullanarak sezgisel bakteri popülasyonu genomik analizleri yapmak için bazı kılavuzlar sağlar.

Introduction

Halk Sağlığı laboratuvarları ve düzenleyici kurumlar tarafından rutin sürveyans ve epidemiyolojik araştırmalar için bir temel olarak bakteriyel tüm genom dizilemesinin (WGS) artan kullanımı, patojen salgın araştırmalarını önemli ölçüde artırmıştır 1,2,3,4. Sonuç olarak, büyük hacimli kimliksizleştirilmiş WGS verileri artık kamuya açıktır ve patojenik türlerin popülasyon biyolojisinin yönlerini benzeri görülmemiş bir ölçekte incelemek için kullanılabilir: popülasyon yapıları, genotip frekansları ve çoklu rezervuarlar, coğrafi bölgeler ve ortam türleri arasındaki gen / alel frekansları5 . En sık kullanılan WGS rehberliğindeki epidemiyolojik araştırmalar, yalnızca paylaşılan (korunmuş) içeriğin tek başına genotipik sınıflandırma (örneğin, varyant çağrısı) için kullanıldığı paylaşılan çekirdek-genomik içeriği kullanan analizlere dayanır ve bu varyantlar epidemiyolojik analiz ve izleme için temel oluşturur 1,2,6,7 . Tipik olarak, bakteriyel çekirdek-genom tabanlı genotipleme, yedi ila birkaç bin lokus 8,9,10 kullanılarak çok lokuslu dizi tipleme (MLST) yaklaşımlarıyla gerçekleştirilir. Bu MLST tabanlı stratejiler, önceden monte edilmiş veya bir araya getirilmiş genomik dizilerin yüksek küratörlü veritabanlarına haritalandırılmasını kapsar, böylece allelik bilgileri epidemiyolojik ve ekolojik analiz için tekrarlanabilir genotipik birimlerde birleştirir11,12. Örneğin, bu MLST tabanlı sınıflandırma iki çözünürlük düzeyinde genotipik bilgi üretebilir: düşük seviyeli dizi tipleri (ST'ler) veya ST soyları (7 lokus) ve daha üst düzey çekirdek-genom MLST (cgMLST) varyantları (~ 300-3.000 lokus)10.

MLST tabanlı genotipik sınıflandırma, hesaplamalı olarak taşınabilir ve laboratuvarlar arasında yüksek oranda tekrarlanabilir, bu da bakteri türü seviyesi 13,14'ün altında doğru bir alt tipleme yaklaşımı olarak yaygın olarak kabul edilmesini sağlar. Bununla birlikte, bakteri popülasyonları, türe özgü değişen klonalite dereceleri (yani, genotipik homojenlik), genotipler arasındaki hiyerarşik akrabalığın karmaşık kalıpları 15,16,17 ve aksesuar genomik içeriğinin dağılımındaki geniş bir varyasyon yelpazesi ile yapılandırılmıştır18,19 . Bu nedenle, daha bütünsel bir yaklaşım, MLST genotiplerine ayrık sınıflandırmaların ötesine geçer ve farklı çözünürlük ölçeklerinde genotiplerin hiyerarşik ilişkilerini, aksesuar genomik içeriğin genotipik sınıflandırmalara eşlenmesiyle birlikte dahil eder, bu da popülasyon tabanlı çıkarımı kolaylaştırır 18,20,21 . Dahası, analizler ayrıca uzaktan ilişkili genotipler21,22 arasında aksesuar genomik lokusların ortak kalıtım kalıplarına da odaklanabilir. Genel olarak, kombine yaklaşım, popülasyon yapısı arasındaki ilişkilerin agnostik sorgulanmasını ve belirli genomik bileşimlerin (örneğin, lokuslar) jeo-uzamsal veya çevresel gradyanlar arasında dağılımını sağlar. Böyle bir yaklaşım, belirli popülasyonların ekolojik özellikleri hakkında hem temel hem de pratik bilgiler verebilir ve bu da tropizmlerini ve gıda hayvanları veya insanlar gibi rezervuarlar arasındaki dağılım modellerini açıklayabilir.

Bu sistem tabanlı hiyerarşik popülasyon odaklı yaklaşım, ayırt edilebilir genomik imzaları tahmin etmek için yeterli istatistiksel güç için büyük miktarda WGS verisi gerektirir. Sonuç olarak, yaklaşım aynı anda binlerce bakteri genomunu işleyebilen bir hesaplama platformu gerektirir. Son zamanlarda, ProkEvo geliştirilmiştir ve pan-genomik haritalama20 dahil olmak üzere bütünleştirici hiyerarşik tabanlı bakteri popülasyonu analizlerine izin veren serbestçe kullanılabilir, otomatik, taşınabilir ve ölçeklenebilir bir biyoinformatik platformudur. ProkEvo, orta ila büyük ölçekli bakteri veri kümelerinin incelenmesine izin verirken, kullanıcı tarafından özelleştirilebilen test edilebilir ve çıkarılabilir epidemiyolojik ve ekolojik hipotezler ve fenotipik tahminler üretmek için bir çerçeve sağlar. Bu çalışma, ProkEvo'dan türetilmiş çıktı dosyalarının hiyerarşik popülasyon sınıflandırmalarının ve aksesuar genomik madenciliğinin analizi ve yorumlanması için girdi olarak nasıl kullanılacağına dair bir kılavuz sağlamada bu boru hattını tamamlamaktadır. Burada sunulan vaka çalışmasında Salmonella enterica soyu I zoonotik serovar S popülasyonu kullanılmıştır. Örnek olarak Newport ve özellikle mikrobiyologlar, ekolojistler ve epidemiyologlar için aşağıdaki konularda pratik kılavuzlar sağlamayı amaçlamıştır: i) hiyerarşik genotipleri haritalamak için otomatik filogeniye bağımlı bir yaklaşım kullanmak; ii) genotiplerin frekans dağılımını ekolojik uygunluğu değerlendirmek için bir vekil olarak değerlendirmek; iii) bağımsız istatistiksel yaklaşımlar kullanarak soya özgü klonalite derecelerini belirlemek; ve iv) popülasyon yapısı bağlamında aksesuar genomik içeriğinin nasıl çıkarılacağına dair bir örnek olarak soy farklılaştırıcı AMR lokuslarını haritalandırın. Daha geniş anlamda, bu analitik yaklaşım, hedeflenen türlerden bağımsız olarak evrimsel ve ekolojik kalıpları çıkarmak için kullanılabilecek bir ölçekte popülasyon tabanlı bir genomik analiz gerçekleştirmek için genelleştirilebilir bir çerçeve sağlar.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Giriş dosyalarını hazırlama

NOT: Protokol burada mevcuttur - https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. Protokol, araştırmacının bu Figshare deposunda gerekli çıktıları elde etmek için özellikle ProkEvo'yu (veya karşılaştırılabilir bir boru hattını) kullandığını varsayar (https://figshare.com/account/projects/116625/articles/15097503 - giriş kimlik bilgileri gereklidir - Kullanıcı dosya erişimine sahip olmak için ücretsiz bir hesap oluşturmalıdır!). Not olarak, ProkEvo genomik dizileri NCBI-SRA deposundan otomatik olarak indirir ve yalnızca giriş20 olarak genom tanımlamalarının bir listesini içeren bir .txt dosyası ve S üzerindeki bu çalışma için kullanılanı gerektirir. Newport USA izolatları burada verilmiştir (https://figshare.com/account/projects/116625/articles/15097503?file=29025729).  Bu bakteri genomik platformunun nasıl kurulacağı ve kullanılacağı hakkında ayrıntılı bilgiye buradan ulaşabilirsiniz (https://github.com/npavlovikj/ProkEvo/wiki/2.-Quick-start)20

  1. Biyoinformatikplatform 20'nin bir parçası olmayan daha önce tarif edildiği gibi20 FastTree23'ü kullanarak çekirdek-genom filogenisi oluşturun. FastTree, giriş dosyası olarak Roary24 çekirdek-genom hizalamasını gerektirir. Filogeni dosyası newport_phylogeny.tree (https://figshare.com/account/projects/116625/articles/15097503?file=29025690) olarak adlandırılır.
  2. Salmonella ve cgMLST varyant çağrı verileri için serovar sınıflandırmaları ile ilgili bilgileri içeren SISTR25 çıktısı oluşturun (sistr_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025699).
  3. Genomların BAPS düzeyleri1-6 sınıflandırmasını alt gruplara veya haplotiplere (fastbaps_partition_baps_prior_l6.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025684) içeren fastbaps 26,27 ile BAPS dosyası oluşturun.
  4. MLST programını (https://github.com/tseemann/mlst)28 (salmonellast_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025696) kullanarak genomların ST'lere MLST tabanlı sınıflandırmasını oluşturun.
  5. ABRicate (https://github.com/tseemann/abricate)29 çıktısını, genom başına eşlenen AMR lokuslarını içeren bir .csv dosyası olarak oluşturun (sabricate_resfinder_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025693).
    NOT: Kullanıcı ProkEvo biyoinformatik boru hattının belirli parçalarını kapatabilir (daha fazla bilgi için burayı kontrol edin - https://github.com/npavlovikj/ProkEvo/wiki/4.2.-Remove-existing-bioinformatics-tool-from-ProkEvo). Burada sunulan analitik yaklaşım, biyoinformatik boru hattı çalıştırıldıktan sonra popülasyon tabanlı bir analizin nasıl yapılacağına dair kılavuzlar sağlar.

2. İstatistiksel yazılım ve entegre geliştirme ortamı (IDE) uygulamasını indirin ve yükleyin

  1. Linux, Mac veya PC30 için R yazılımının ücretsiz olarak kullanılabilen en güncel sürümünü indirin. Varsayılan yükleme adımlarını izleyin.
  2. RStudio masaüstü IDE'nin ücretsiz olarak kullanılabilen en güncel sürümünü buradan indirin31. Yükleme için varsayılan adımları izleyin.
    NOT: Sonraki adımlar, kod kullanımının ayrıntılı bilgileri de dahil olmak üzere kullanılabilir komut dosyasına dahil edilmiştir ve bu çalışmada (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd) sunulan çıktıları ve şekilleri oluşturmak için sırayla çalıştırılmalıdır. Kullanıcı bu analitik/istatistiksel analizi yapmak için Python gibi başka bir programlama dili kullanmaya karar verebilir. Bu durumda, analizi gerçekleştirmek için komut dosyalarındaki adımları bir çerçeve olarak kullanın.

3. Veri bilimi kitaplıklarını yükleme ve etkinleştirme

  1. Analizin ilk adımı olarak tüm veri bilimi kitaplıklarını bir kerede yükleyin. Komut dosyasının her yeniden çalıştırılması gerektiğinde kitaplıkları yüklemekten kaçının. Kitaplık yüklemesi için install.packages() işlevini kullanın. Alternatif olarak, kullanıcı IDE'nin içindeki Paketler sekmesine tıklayıp paketleri otomatik olarak yükleyebilir. Gerekli tüm kitaplıkları yüklemek için kullanılan kod burada sunulmuştur:
    # Tidyverse yükleyin
    install.packages("tidyverse")
    # Skimr yükle

    install.packages("skimr")
    # Vegan yükleyin
    install.packages("vegan")
    # Forcats'i yükle
    install.packages("forcats")
    # Naniar yükle
    install.packages("naniar")
    # ggpubr yükle
    install.packages("ggpubr")
    # ggrepel yükle
    install.packages("ggrepel")
    # Reshape2'yi yükleyin
    install.packages("reshape2")
    # RColorBrewer'ı yükleyin
    install.packages("RColorBrewer")
    # ggtree'yi yükle
    if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
    BiocManager::install("ggtree")
    # ggtree'nin kurulumu, yükleme hakkında bir soru soracaktır - cevap tüm bağımlılıkları yüklemek / güncellemek için "a" dır.
  2. Yüklemeden hemen sonra, komut dosyasının başındaki library() işlevini kullanarak tüm kitaplıkları veya paketleri etkinleştirin. İşte gerekli tüm paketlerin nasıl etkinleştirileceğine dair bir gösterim:
    # Kütüphaneleri ve paketleri etkinleştirin
    kütüphane (tidyverse)
    kütüphane (skimr)
    kütüphane (vegan)
    kütüphane (forcats)
    kütüphane(naniar)
    kütüphane(ggtree)
    kütüphane(ggpubr)
    kütüphane (ggrepel)
    kütüphane(reshape2)
    kütüphane (RColorBrewer)
  3. Kitaplık ve paket yükleme ve etkinleştirme için kullanılan kodun çıktısını, kod kıkırdamasında {r, include = FALSE} kullanarak aşağıdaki gibi bastırın:
    ''' {r, include = FALSE}
    # Tidyverse yükleyin

    install.packages("tidyverse")
    ```

    NOT: Bu adım isteğe bağlıdır, ancak son html, doc veya pdf raporunda gereksiz kod parçalarının gösterilmesini önler.
  4. Tüm kütüphanelerin belirli işlevlerinin kısa bir açıklaması ve daha fazla bilgi toplamak için bazı yararlı bağlantılar için, 3.4.1-3.4.11 numaralı adımlara bakın.
    1. Tidyverse - veri girişi, görselleştirme, ayrıştırma ve toplama ve istatistiksel modelleme dahil olmak üzere veri bilimi için kullanılan bu paket koleksiyonunu kullanın. Tipik olarak, ggplot2 (veri görselleştirme) ve dplyr (veri düzenleme ve modelleme) bu kitaplık32'de bulunan pratik paketlerdir.
    2. skimr - eksik değerlerin tanımlanması da dahil olmak üzere veri çerçevelerinin özet istatistiklerini oluşturmak için bu paketi kullanın33.
    3. vegan - Bu paketi, çeşitliliğe dayalı istatistiklerin hesaplanması gibi topluluk ekolojisi istatistiksel analizleri için kullanın (örneğin, alfa ve beta-çeşitlilik)34.
    4. forcats - sınıflandırmaları yeniden sıralama gibi kategorik değişkenlerle çalışmak için bu paketi kullanın. Bu paket Tidyverse kütüphanesi32'nin bir parçasıdır.
    5. naniar - viss_miss() işlevi35'i kullanarak eksik değerlerin bir veri çerçevesindeki değişkenler arasındaki dağılımını görselleştirmek için bu paketi kullanın.
    6. ggtree - filogenetik ağaçların görselleştirilmesi için bu paketi kullanın36.
    7. ggpubr - ggplot2 tabanlı görselleştirmelerin kalitesini artırmak için bu paketi kullanın37.
    8. ggrepel - grafik38'in içindeki metin etiketlemesi için bu paketi kullanın.
    9. reshape2 - veri çerçevelerinin genişten uzun format39'a dönüştürülmesi için bu paketteki melt() işlevini kullanın.
    10. RColorBrewer - ggplot2 tabanlı görselleştirmelerde renkleri yönetmek için bu paketi kullanın40.
    11. Keşifsel veri analizi için aşağıdaki temel işlevleri kullanın: bir veri çerçevesindeki ilk gözlemleri kontrol etmek için head(), bir veri çerçevesinin son gözlemlerini kontrol etmek için tail(), is.na() bir veri çerçevesi boyunca eksik değerlere sahip satırların sayısını saymak, bir veri kümesindeki satır ve sütun sayısını denetlemek için dim(), bir değişkendeki gözlemleri saymak için table(), ve sum() gözlem veya örneklerin toplam sayısını saymak için.

4. Veri girişi ve analizi

NOT: Bu çözümlemenin her adımıyla ilgili ayrıntılı bilgi mevcut komut dosyasında (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd) bulunabilir. Ancak, dikkat edilmesi gereken bazı önemli noktalar şunlardır:

  1. read_csv() fonksiyonunu kullanarak tüm genotipik sınıflandırmalar (serovar, BAPS, ST ve cgMLST) dahil olmak üzere tüm genomik veri girişini yapın.
  2. Yeniden adlandırın, yeni değişkenler oluşturun ve çoklu veri kümesi toplamadan önce her veri kümesinden ilgilenilen sütunları seçin.
  3. Herhangi bir bağımsız veri kümesinden eksik değerleri kaldırmayın. Eksik değerleri değiştirmek veya hariç tutmak için tüm veri kümeleri toplanana kadar bekleyin. Her veri kümesi için yeni değişkenler oluşturulursa, eksik değerler varsayılan olarak yeni oluşturulan sınıflandırmalardan birinde kategorize edilir.
  4. Kısa çizgiler veya sorgulama işaretleri gibi hatalı karakterler olup olmadığını kontrol edin ve bunları NA (Uygulanamaz) ile değiştirin. Eksik değerler için de aynısını yapın.
  5. Genotiplerin hiyerarşik sırasına (serovar -> BAPS1 -> ST -> cgMLST) dayanan verileri toplayın ve bireysel genom tanımlamalarına göre gruplandırın.
  6. Birden fazla strateji kullanarak eksik değerleri kontrol edin ve bu tür tutarsızlıklarla açıkça ilgilenin. Sadece sınıflandırma güvenilmez ise bir genomu kaldırın veya verilerden izole edin. Aksi takdirde, yapılan analizi göz önünde bulundurun ve NA'ları duruma göre kaldırın.
    NOT: Bu tür değerlerle a priori olarak başa çıkmak için bir strateji oluşturulması şiddetle tavsiye edilir. Herhangi bir değişkende eksik değerlere sahip tüm genomları veya izolatları çıkarmaktan kaçının. Örneğin, bir genom cgMLST varyant numarasına sahip olmadan ST sınıflandırmasına sahip olabilir. Bu durumda, genom ST tabanlı analiz için hala kullanılabilir.
  7. Tüm veri kümeleri toplandıktan sonra, kağıttaki her şekil için aynı meta veri dosyasını oluşturmak zorunda kalmamak için bunları izleme analizinde birden çok konumda kullanılabilecek bir veri çerçevesi adına veya nesnesine atayın.

5. Analizler yapın ve görselleştirmeler oluşturun

NOT: Tüm analiz ve görselleştirmeleri üretmek için gereken her adımın ayrıntılı bir açıklaması bu makalenin markdown dosyasında bulunabilir (https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code). Her şekil için kod parçalar halinde ayrılır ve tüm komut dosyası sırayla çalıştırılmalıdır. Ek olarak, her ana ve tamamlayıcı şekil için kod ayrı bir dosya olarak sağlanır (bkz. Ek Dosya 1 ve Ek Dosya 2). İşte her bir ana ve ek rakamı oluştururken göz önünde bulundurulması gereken bazı önemli noktalar (kod parçacıklarıyla).

  1. Genotipik bilgilerle birlikte filogenetik bir ağacı çizmek için ggtree kullanın (Şekil 1).
    1. Sırasıyla xlim() ve gheatmap(width = ) işlevlerinin içindeki sayısal değerleri değiştirerek halkaların çapı ve genişliği de dahil olmak üzere ggtree şekil boyutunu optimize edin (aşağıdaki örnek koda bakın).
      tree_plot <- ggtree(ağaç, düzen = "dairesel") + xlim(-250, NA)
      figure_1 <- gheatmap(tree_plot, d4, offset=.0, width=20, colnames = FALSE)
      NOT: Filogenetik çizim için kullanılabilecek programların daha ayrıntılı bir karşılaştırması için, bu çalışma20'yi kontrol edin. Çalışma, veri kümesi boyutunu küçültme gibi ggtree tabanlı görselleştirmeleri geliştirmek için stratejiler belirleme girişimini vurguladı, ancak dal uzunlukları ve ağaç topolojisi, phandango41'e kıyasla açıkça ayırt edici değildi.
    2. Filogenetik ağaçla birden fazla veri katmanı çizerken renklendirme paneli seçimini kolaylaştırmak için tüm meta verileri mümkün olduğunca az kategoride toplayın (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_1.Rmd). İlgi alanı ve alan bilgisi sorusuna dayalı veri toplamayı gerçekleştirin.
  2. Göreli frekansları değerlendirmek için bir çubuk grafiği kullanın (Şekil 2).
    1. Görselleştirmeleri kolaylaştırmak için hem ST soyları hem de cgMLST değişkenleri için verileri toplayın. Sorulan soruyu göz önünde bulundurarak veri toplama için kullanılan ampirik veya istatistiksel bir eşik seçin.
    2. Kesmeyi belirlemek için ST soylarının frekans dağılımını incelemek için kullanılabilecek bir örnek kod için aşağıya bakın:
      st_dist <- d2 %>% group_by(ST) %>% # grubunu ST sütununa göre gruplandırın
      count() %>% # gözlem sayısını sayın
      rerange(desc(n)) # sayımları azalan sırada düzenleyin
    3. Küçük (düşük frekanslı) ST'lerin nasıl toplanabileceğini gösteren bir kod örneği için aşağıya bakın. Aşağıda gösterildiği gibi, 5, 31, 45, 46, 118, 132 veya 350 olarak numaralandırılmayan ST'ler "Diğer ST'ler" olarak gruplandırılmıştır. cgMLST varyantları (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_2.Rmd) için benzer bir kod kullanın.
      d2$st <- ifelse(d2$ST == 5, "ST5", # küçük S T'lerin Diğerleri olarak toplandığı yeni bir ST sütunu oluşturun
      ifelse(d2$ST == 31, "ST31",
      ifelse(d2$ST == 45, "ST45",
      ifelse(d2$ST == 46, "ST46",
      ifelse(d2$ST == 118, "ST118",
      ifelse(d2$ST == 132, "ST132", ifelse(d2$ST == 350, "ST350", "Diğer ST'ler"))))))))
  3. Atasal olarak ilişkili (aynı BAPS1 alt grubuna ait) ST'leri tanımlamak üzere her BAPS1 alt grubundaki her ST soyunun oranını hesaplamak için iç içe geçmiş bir yaklaşım kullanın (Şekil 3). Aşağıdaki kod, ST tabanlı oranın BAPS1 alt grupları arasında nasıl hesaplanabileceğini örneklemektedir (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_3.Rmd):
    baps <- d2b %>% filtre(serovar == "Newport") %>% # filtre Newport serovarları
    select(baps_1, ST) %>% # baps_1 ve ST sütunlarını seçin
    mutate(ST = as.numeric(ST)) %>% # ST sütununu sayısal olarak değiştirin
    drop_na(baps_1, ST) %>% # bırakma NA'lar
    group_by ve ST'ye göre baps_1(>, ST) % baps_1% # grubu
    summarise(n = n()) %>% # sayım gözlemleri
    mutate(prop = n/sum(n)*100) # oranları hesapla
  4. Resfinder tabanlı gen ek açıklamasını kullanarak AMR lokuslarının ST soyları arasındaki dağılımını çizin (Şekil 4).
    NOT: Resfinder ekolojik ve epidemiyolojik çalışmalarda yaygın olarak kullanılmaktadır42. Protein kodlayan genlerin ek açıklaması, veritabanlarının ne sıklıkta küratörlüğünü ve güncellendiğini kontrol ettiğine bağlı olarak değişebilir. Önerilen biyoinformatik boru hattını kullanıyorsa, araştırmacı farklı veritabanlarındaki AMR tabanlı lokus sınıflandırmalarını karşılaştırabilir20. Hangi veritabanlarının sürekli güncellendiğini kontrol ettiğinizden emin olun. Yanlış çağrıları önlemek için güncel olmayan veya kötü seçilmiş veritabanlarını kullanmayın.
    1. Görselleştirmeleri kolaylaştırmak amacıyla en önemli AMR lokuslarını filtrelemek için ampirik veya istatistiksel bir eşik kullanın. Burada gösterildiği gibi tüm ST soylarındaki tüm AMR lokuslarının hesaplanan oranlarını içeren ham bir .csv dosyası sağlayın (https://figshare.com/account/projects/116625/articles/15097503?file=29025687).
    2. Aşağıdaki kodu kullanarak her ST için AMR oranını hesaplayın (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_4.Rmd):
      # ST45 için hesaplamalar
      d2c <- veri%6 %> filtre(st == "ST45") # önce ST45 verilerini filtreleyin
      # ST45 için, AMR lokuslarının oranını hesaplayın ve oranı sadece% 10'dan büyük tutun

      d3c <- d2c %>% select(id, gene) %>% # select columns
      group_by(id, gen) %>% # id ve gene göre grup
      summarize(count = n()) %>% # sayım gözlemleri
      mutate(count = replace(count, count == 2, 1)) %>% # Her genin yalnızca bir kopyasını dikkate almak için 2'ye eşit sayımları 1 ile değiştirin (çoğaltmalar güvenilir olmayabilir), ancak araştırmacı bunları hariç tutmaya veya tutmaya karar verebilir. Araştırmacı bunları hariç tutmak istiyorsa, filter(count != 2) işlevini kullanın veya olduğu gibi bırakın
      filter(count <= 1) # filtre 1'in altında veya 1'e eşit sayılır
      d4c <- d3c %>% group_by(gen) %>% # genlere göre grup
      summarize(value = n()) %>% # sayım gözlemleri
      mutate(total = table(data1$st)[6]) %>% # st mutate(prop = (değer/toplam)*100) toplam sayılarını alın # oranları hesaplayın
      d5c <- d4c %>% mutasyon(st = "ST45") # bir st sütunu oluşturun ve ST bilgileri ekleyin
    3. Tüm ST'ler için hesaplamalar yapıldıktan sonra, aşağıdaki kodu kullanarak veri kümelerini tek bir veri çerçevesi olarak birleştirin:
      # Veri kümelerini birleştirme
      d6 <- rbind(d5a, d5b, d5c, d5d, d5e, d5f, d5g, d5h) # satır bağlama veri kümeleri
    4. Hesaplanan oranları içeren .csv dosyasını dışa aktarmak için şu kodu kullanın:
      # ST ve AMR loci bilgilerini içeren veri tablosunu dışa aktarma
      abx_newport_st <- d6 write.csv(abx_newport_st,"abx_newport_st.csv", row.names = FALSE)
    5. ST soyları arasında AMR tabanlı dağılımı çizmeden önce, görselleştirmeleri kolaylaştırmak için verileri aşağıda gösterildiği gibi bir eşiğe göre filtreleyin:
      # AMR lokuslarını %10'a eşit veya daha yüksek oranda filtreleyin
      d7 <- %> filtre(prop >= 10) # eşik ampirik veya istatistiksel olarak belirler
  5. Çekirdek-genom filogenisini, hiyerarşik genotipik sınıflandırmalar ve AMR verileriyle birlikte ggtree kullanarak tek bir grafikte çizin (Şekil 5).
    1. Yukarıda belirtilen parametreleri kullanarak ggtree içindeki şekil boyutunu optimize edin (bkz. adım 5.1.1.).
    2. Değişkenleri toplayarak veya gen varlığı ya da yokluğu gibi ikili sınıflandırmaları kullanarak görselleştirmeleri optimize edin. Grafiğe ne kadar çok özellik eklenirse, renklendirme seçim süreci o kadar zorlaşır (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_5.Rmd).
      NOT: Ek şekiller - tüm kodun ayrıntılı açıklaması burada bulunabilir (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd).
  6. En sık görülen genotipleri vurgularken ST soylarının veya cgMLST varyantlarının dağılımını görüntülemek için ggplot2'de veri toplama olmadan bir dağılım grafiği kullanın (Ek Şekil 1) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s1.Rmd).
  7. ST tabanlı genetik çeşitliliğe bir göz atmak için ST soylarının bileşimini cgMLST varyantlarının oranı ile değerlendirmek için iç içe geçmiş bir analiz yapın, aynı zamanda en sık görülen varyantları ve genetik ilişkilerini (yani, aynı ST'ye ait olan cgMLST varyantları, farklı ST'lere ait olanlardan daha yakın zamanda bir atayı paylaştı) (Ek Şekil 2 ) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s2.Rmd).
  8. Ana ST soylarının her birinin klonalite derecesini veya genotipik çeşitliliğini ölçmek için topluluk ekolojisi metriğini, yani Simpson'ın D çeşitlilik indeksini kullanın43 (Ek Şekil 3).
    1. BAPS seviye 1 ila 6 ve cgMLST dahil olmak üzere farklı genotipik çözünürlük seviyelerinde ST soyları arasındaki çeşitlilik indeksini hesaplayın. Aşağıda, genotipik çözünürlüğün BAPS seviye 1'inde (BAPS1) bu hesaplamanın nasıl yapılacağına ilişkin kod örneği verilmiştir:
      # BAPS seviye 1 (BAPS1)
      # ST'leri ve BAPS1'i NA'larla bırakın, ST ve BAPS1'e göre gruplandırın ve ardından Simpson endeksini hesaplayın
      baps1 <- veri6 %>%
      select(st, BAPS1) %>% # select sütunları
      drop_na(st, BAPS1) %>% # bırakma NA'lar
      group_by(st, BAPS1) %>% # sütunlara göre gruplandır
      summarise(n = n()) %>% # sayım gözlemleri
      mutate(simpson = diversity(n, "simpson")) %>% # çeşitliliği hesapla
      group_by(st) %>% # sütuna göre gruplandır
      summarise(simpson = mean(simpson)) %>% # indeksin ortalamasını hesaplayın
      melt(id.vars=c("st"), measure.vars="simpson",
      variable.name="index", value.name="value") %>% # uzun formatta gizli
      mutate(strat = "BAPS1") # bir strat sütunu oluşturun
      NOT: Genetik olarak daha çeşitli bir popülasyon (yani, farklı genotipik çözünürlük katmanlarında daha fazla varyant), cgMLST düzeyinde daha yüksek bir indekse sahiptir ve BAPS seviye 2'den 6'ya (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s3.Rmd) giden artan bir indeks tabanlı değerler üretir.
  9. Tüm çözünürlük düzeylerinde (BAPS1-6) BAPS alt gruplarının göreceli sıklığını çizerek ST soylarının genotipik çeşitliliğinin derecesini inceleyin (Ek Şekil 4). Popülasyon ne kadar çeşitli olursa, BAPS alt gruplarının (haplotipler) dağılımı o kadar seyrek hale gelir BAPS1'den (düşük çözünürlük seviyesi) BAPS6'ya (daha yüksek çözünürlük seviyesi) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s4.Rmd).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Popülasyon genomik analizleri için hesaplama platformu ProkEvo'yu kullanarak, bakteriyel WGS veri madenciliğinde ilk adım, hiyerarşik popülasyon yapısını bir çekirdek-genom filogenisi bağlamında incelemekten ibarettir (Şekil 1). S. durumunda. enterica soyu I, S tarafından örneklendiği gibi . Newport veri kümesi, popülasyon hiyerarşik olarak aşağıdaki gibi yapılandırılmıştır: serovar (en düşük çözünürlük düzeyi), BAPS1 alt grupları veya haplotipleri, ST soyları ve cgMLST varyantları (en yüksek çözünürlük düzeyi)20. Hiyerarşik popülasyon yapısının bu filojeni rehberliğindeki analizi, özellikle aşağıdaki noktaların incelenmesine izin verir: i) SISTR tabanlı yanlış sınıflandırılmış genomların Salmonella durumunda diğer serovarlara filogenetik dağılımı; ii) popülasyonun genetik veya akrabalık yapısı; iii) Genotipik çözünürlüğün farklı seviyelerinde çeşitlendirme paterni; iv) evrimsel, ekolojik veya epidemiyolojik kalıpların altında yatan başlıca genotipik birimlerin tanımlanması; v) BAPS1 alt grupları veya haplotip kompozisyonu yoluyla ST soyları arasında ve ST soyları içindeki cgMLST varyantları arasında atasal ilişkiler; ve vi) bir ST soyunun genotipik homojenlik derecesinin cgMLST varyant bileşimi tarafından kısmi görünümü.

Figure 1
Şekil 1: S için hiyerarşik genotiplerin filogeni rehberliğinde haritalanması . Newport nüfusu. Serovar (en düşük çözünürlük seviyesi - en içteki renkli daire), BAPS seviye 1 (BAPS1) alt grupları veya haplotipleri, ST soyları ve cgMLST varyantları (en yüksek çözünürlük seviyesi - en dıştaki renkli daire) dahil olmak üzere hiyerarşik genotipleri haritalamak için bir çekirdek-genom filogenisi (siyah merkezli daire) kullanıldı. Serovarlar Newport (S. Newport) veya "Diğer serovarlar", çekirdek-genom MLST bilgisini kullanan ve hesaplama platformu ProkEvo'nun bir parçası olarak çalışan genomların SISTR algoritmik sınıflandırmasına dayanmaktadır. BAPS1, ProkEvo içindeki çekirdek-genomik verileri kullanarak popülasyonu agnostik olarak alt gruplara veya ilgili haplotip kümelerine ayırır. BAPS1, serovar ve ST soyları arasına hiyerarşik olarak yerleştirilir, çünkü ST'ler arasındaki atasal ilişkileri doğru bir şekilde yakalamıştır. ST soyları, yedi genom dağınık lokus kullanılarak kanonik MLST analizine dayanarak oluşturulur. Grafikte sadece majör veya en sık görülen ST'ler (oran >%1) gösterilmiştir. Son olarak, S için tüm hiyerarşik yapıyı göstermek için yalnızca en sık görülen cgMLST varyantları (oran >% 3.5) kullanılmıştır . Newport nüfusu (n = 2.365 ABD sadece izole eder). "Diğer ST'ler" veya "Diğer cgMLST'ler" kategorisi, sırasıyla küçük veya düşük frekanslı soylardan veya değişkenlerden oluşur ve veri kümesine göre ampirik veya istatistiksel olarak ayarlanması gereken eşikleme keyfi olarak yapılır. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

Tüm hiyerarşik genotiplerin göreceli frekansları daha sonra genel dağılımı ve en sık gözlenen sınıflandırmaları (yani genotipleri) değerlendirmek için kullanıldı (Şekil 2). Şekil 2C-D'de, daha az sıklıkta (minör) ST soyları veya cgMLST varyantları, veri görselleştirmeyi kolaylaştırmak (boyutsallık azaltma) için sırasıyla "Diğer ST'ler" veya "Diğer cgMLST'ler" olarak toplanmıştır. Örnekleme ortamlar ve / veya konakçılar arasında sistematik olarak yapılırsa ve uygun şekilde istatistiksel olarak güçlendirilirse, frekans dağılımı ekolojik uygunluk için bir vekil haline gelebilir. Yani, en sık görülen soyların veya varyantların daha yüksek zindeliğe sahip olduğu tahmin edilebilir, bu da böyle bir nicel özelliğin altında yatan nedensel genetik belirleyicileri belirlemek için daha fazla araştırma yapılmasını gerektirir 6,30.

Figure 2
Şekil 2: S oranı Newport hiyerarşik genotipleri farklı çözünürlük seviyelerinde. (A) Serovarlar S'nin fenotipleridir. Çekirdek-lokuslar ile O ve H antijenik-kodlayan lokuslar (yüzey proteinleri) arasındaki kalıtsal yüksek bağlantı dengesizliği nedeniyle yalnızca çekirdek-genomik verilerden tahmin edilebilen enterika soy I popülasyonu. ProkEvo kullanırken, Salmonella genomları SISTR programı kullanılarak otomatik olarak serovarlara sınıflandırılır. Sadece S. NCBI'den Newport (Newport) genomlarının indirildiği varsayılmıştır, bazıları ProkEvo içinde "Diğer serovarlar" olarak sınıflandırılmıştır. Tüm genomların yaklaşık% 2'si (2.365'ten 48'i) S dışında sınıflandırıldı . Newport serovar. (B) BAPS seviye 1 (BAPS1) alt gruplarının veya haplotiplerinin oranı. BAPS1, hiyerarşik şemada serovar ve ST soyları arasına yerleştirilir, çünkü ST'ler arasındaki atasal ilişkileri doğru ve agnostik bir şekilde yakalamıştır. (C) Büyük ST soylarının oranı, yalnızca göreceli sıklıkta% 1'> olan ST'leri tasvir etmiştir. Minör ST'ler "Diğer ST'ler" olarak gruplandırıldı. (D) Majör cgMLST varyantlarının oranı, göreceli frekansta% >3 olan sadece dört baskın cgMLST göstermiştir. Geri kalan cgMLST'ler "Diğer cgMLST'ler" olarak gruplandırıldı. (B-D) SISTR tarafından "Diğer serovarlar" (% 2.03) olarak sınıflandırılan genomlar, BAPS1, ST ve cgMLST göreceli frekanslarını çizmeden önce verilerden filtrelendi. (C-D) Hem ST hem de cgMLST verilerini çizmek için kullanılan eşikler keyfi olarak tanımlanmıştır ve duruma göre ampirik olarak belirlenmelidir. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

Alternatif olarak, herhangi bir veri toplama olmadan, hem ST soylarının hem de cgMLST varyantlarının dağılımını ve oranını değerlendirmek için bir dağılım grafiği kullanılabilir (Ek Şekil 1). Bir dağılım grafiğinin bu kullanımı, ST soyları ve cgMLST varyantları için özellikle yararlıdır, çünkü her iki genotip için binlerce olmasa da yüzlerce, sınıflandırmaların tipik oluşumu nedeniyle. Bu seyrek dağılım genellikle serovar ve BAPS1 çözünürlük seviyeleri için gerçekleşmez, çünkü bunlar kalıtsal olarak birkaç alt gruba veya kategoriye çöken dizilerle daha düşük bir çözünürlük seviyesindedir.

Daha sonra, ST'ler arasındaki atasal ilişkiler, ST soylarının göreceli sıklığının BAPS1 alt grupları veya haplotipler tarafından değerlendirilmesini kapsayan iç içe geçmiş bir yaklaşım kullanılarak incelenmiştir (Şekil 3). Aynı BAPS1 alt grubuna ait olan ST soylarının, diğer ST'lerden daha yakın zamanda ortak bir atayı paylaşmış olma olasılığı daha yüksekti (yani, ST5 ve ST118'e karşı ST45). Benzer şekilde, cgMLST varyantlarının ST soyları içindeki dağılımını inceleyerek, ST'ler arasındaki genotipik heterojenlik derecesi, genetik bileşimlerini değerlendirirken ve cgMLST'ler arasındaki atasal ilişkiyi ortaya çıkarırken yakalanabilir (yani, yakından ilişkili cgMLST varyantları aynı ST soyuna veya klonal komplekse aittir) (Ek Şekil 2).

Figure 3
Şekil 3: S için BAPS1 alt grupları içinde yuvalanmış ST soylarının dağılımı . Newport nüfusu. Bu çizim, "Diğer serovarlar" (tüm verilerin% 2.03'ü) olarak sınıflandırılan genomlar hariç, her BAPS seviye 1 alt grubu veya haplotipi içindeki ST soy dağılımını göstermektedir. Her BAPS1 alt grubu için majör ST'ler (oran >%1) her grafikte vurgulanır. Daire çapı ne kadar büyük olursa, belirli ST soyu için oran o kadar yüksek olur. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

S. deseninin olduğu göz önüne alındığında. Newport popülasyon çeşitliliğinin çoğunlukla ST bileşimi (Şekil 1) tarafından yönlendirildiği ortaya çıktı, ST tabanlı klonalite derecesini (yani genetik homojenliği) değerlendirmek için Simpson'ın D çeşitlilik indeksi (Ek Şekil 3) ve BAPS alt gruplarının veya haplotiplerinin BAPS seviyeleri 1-6 kullanılarak dağılımı dahil olmak üzere iki istatistiksel yaklaşım kullanıldı (Ek Şekil 4 ). Bir popülasyonun klonalite derecesini değerlendirmek aşağıdaki hususları açıklığa kavuşturabilir: i) genetik çeşitliliğin ve popülasyon yapısının daha iyi anlaşılması; ii) ST soyları gibi başlıca genotipik birimler arasındaki çeşitlendirme kalıplarının ince ayar analizi; ve iii) popülasyonda mevcut yeni alt kümeleri ortaya çıkarabilecek şifreli genotipik birimleri bulmak için aksesuar genom madenciliğinin kullanılmasının gerekliliğinin bir göstergesi olmak. Bir popülasyon çekirdek-genom düzeyinde ne kadar klonal olursa, varyantlar arasında ayrım yapmak o kadar zorlaşır ve aksesuar genom içeriğinin, popülasyonu benzersiz ekolojik dağılımlarla ilişkili anlamlı genotipik birimlere katmanlaştırmak için bilgilendirici olma olasılığı o kadar artar18,19,21.

AMR lokuslarını farklılaştıran ST soyunun göreceli sıklığı, S'ye bağlı benzersiz aksesuar genomik imzaları tanımlamak için değerlendirildi. Newport nüfus yapısı (Şekil 4). Analizin bu adımı, Halk Sağlığı ile ilişkili bir özellik olduğu için AMR dağılımına odaklanmıştır, ancak aynı yaklaşım, metabolik yollar, virülans faktörleri vb. dahil olmak üzere aksesuar genomunun diğer bileşenlerini incelemek için denetimli (hedeflenmiş) veya agnostik bir şekilde uygulanabilir. Dikkat çekici bir şekilde, mdf(A)_1 ve aac(6')-Iaa_1 lokusları, S tarafından atalardan edinilmiş gibi görünmektedir. Newport nüfusu; oysa ST45'in çoklu ilaca dirençli olduğu tahmin edilmektedir. Çarpıcı bir şekilde, bu veriler aynı zamanda diğer büyük ST soylarının, ST5 ve ST118'in, ST45 ile karşılaştırıldığında çoklu ilaca duyarlı olma ihtimalinin daha yüksek olduğunu göstermektedir. Veri kümesinde bulunan önyargılar nedeniyle bu noktalar dikkatlice düşünülmelidir; ancak bu, daha sağlam WGS veri koleksiyonlarından yapılabilecek potansiyel bir epidemiyolojik çıkarımı temsil eder.

Genel olarak, hiyerarşik genotipler üzerinde bir aksesuar genom haritalaması yaparken göz önünde bulundurulması gereken bazı noktalar şunlardır: i) frekans dağılımını nicel bir özellik olarak düşünün, ancak bir lokusun allelik bileşiminin özellik varyansını değiştirebileceğini unutmayın. Dahası, bir lokus veya lokusun varlığı fonksiyonun göstergesi olmalı, ancak nedensel olmamalıdır, çünkü fenotip polijenik olabilir veya nedensel lokus için allelik bileşime göre değişebilir (örneğin, bir proteinin aktif bölgesinde eşanlamlı olmayan bir mutasyonun fonksiyonu etkileme olasılığı daha yüksektir); ii) lokus dağılımı, popülasyonda sabit olan (örneğin, tüm ST soylarında yüksek sıklıkta bulunan) veya yakın zamanda belirli ST soyları ve cgMLST varyantları tarafından edinilen genleri gösterebilir ve ekolojik veya epidemiyolojik kalıbı yansıtabilir; iii) çoklu ilaç direnci genomik verilerden tahmin edilebilir. Ve eğer AMR lokuslarının veya diğer yolakların dağılımı belirli soylar tarafından güçlü bir şekilde bağlanmışsa veya yaygın olarak kalıtılıyorsa, fenotipler, ST soyları45,46 örneğinde olduğu gibi, hiyerarşik genotiplerden çıkarım yoluyla tahmin edilebilir; ve iv) laboratuvarda fenotiplerin ölçülmesi, hesaplamalı tahminleri doğrulamak için hala deterministiktir.

Figure 4
Şekil 4: AMR lokuslarının S'nin başlıca ST soyları arasındaki dağılımı. Newport nüfusu. Seçilen sayıda AMR lokusunun majör ST soyları arasında göreceli frekansa dayalı dağılımı (popülasyonun% >1'i). Minör ST'ler "Diğer ST'ler" olarak gruplandırıldı. Sadece S olarak sınıflandırılan genomlar. Newport tarafından SISTR algoritması analizde tutulmuştur. Veri görselleştirme için göreli frekansı %10'dan büyük veya buna eşit olan AMR lokusları seçilmiştir. Bu, her veri kümesi için belirlenmesi gereken rasgele bir eşiktir. Oranlar, gen varlığı veya yokluğundan oluşan ikili bir matris kullanılarak hesaplandı. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

Son olarak, hiyerarşik popülasyon yapısı verilerini, gen oluşumuna dayalı AMR lokus dağılımını farklılaştıran ST soyu ile birlikte sistematik olarak entegre etmek için filogeni bağlantılı bir görselleştirme kullanılmıştır (Şekil 5). Popülasyon yapısını aksesuar genomik kompozisyonla birleştirerek, aşağıdaki sorular herhangi bir veri kümesinde ele alınabilir: 1) Popülasyon nasıl yapılandırılır? ST'ler BAPS1 alt grupları aracılığıyla birbirleriyle ve atalarıyla nasıl ilişkilidir? ST'ler arasında cgMLST bileşimi ne kadar değişkendir? 2) Filogenetik dallanma paterni ve genel ağaç topolojisi nedir? ve 3) Aksesuar genomu nasıl dağıtılır? Aksesuar genomik bileşimi büyük olasılıkla atalardan edinilmiş mi yoksa yakın zamanda türetilmiş mi? Soy veya varyanta özgü desen nedir? Fenotipik tahmin ve ekolojik çıkarım nedir? Niş aşan ve niş belirleyici genler var mı? Gözlemlenen model, patojenler durumunda epidemiyolojiyi nasıl ilişkilendirir veya bilgilendirir? Soylar veya varyantlar, aksesuar genomik içeriğine dayalı olarak bilgilendirici bir şekilde alt kümelenebilir mi?

Figure 5
Şekil 5: Hiyerarşik genotiplerin ve S içindeki ana ST soyları arasında ayrım yapan aksesuar AMR lokuslarının filogeni rehberliğinde haritalanması . Newport nüfusu. Serovar (en düşük çözünürlük seviyesi - en içteki renkli daire), BAPS seviye 1 (BAPS1) alt grupları veya haplotipleri, ST soyları ve cgMLST varyantları (en yüksek çözünürlük seviyesi - en dıştaki renkli daire) dahil olmak üzere hiyerarşik genotipleri haritalamak için bir çekirdek-genom filogenisi (siyah merkezli daire), varsa koyu mavi veya yoksa gri renkte AMR lokusları ile birlikte kullanıldı. Serovarlar Newport (S. Newport) veya SISTR algoritmik sınıflandırmasına dayanan "Diğer serovarlar". BAPS1, serovar ve ST soyları arasına hiyerarşik olarak yerleştirilir, çünkü ST'ler arasındaki atasal ilişkileri doğru ve agnostik olarak yakalamıştır. Grafikte sadece majör veya en sık görülen ST'ler (oran >%1) gösterilmiştir. Ayrıca, S için tüm hiyerarşik yapıyı göstermek için yalnızca en baskın cgMLST varyantları (oran >% 3.5) kullanılmıştır . Newport nüfusu (n = 2.365 ABD sadece izole eder). "Diğer ST'ler" veya "Diğer cgMLST'ler" kategorisi sırasıyla küçük veya düşük frekanslı soylardan veya değişkenlerden oluşur ve eşik oluşturma keyfi olarak yapılmıştır ve veri kümesine göre ayarlanmalıdır. Veri görselleştirme için göreli frekansı %10'dan büyük veya buna eşit olan AMR lokusları seçilmiştir. Bu özel grafik, ağırlıklı olarak ST31, ST45 ve ST132 soylarında meydana gelen AMR lokuslarının benzersiz bir dağılımını göstermektedir. Bu şeklin daha büyük bir versiyonunu görüntülemek için lütfen buraya tıklayın.

Ek Şekil 1: S için ST soylarının ve cgMLST varyantlarının seyrek dağılımı . Newport nüfusu. (A) Düşük frekanslı ST'leri toplamadan ST soylarının oranı. %>1 oranındaki ST'ler grafikte vurgulanmıştır. (B) Düşük frekanslı cgMLST'leri toplamadan cgMLST varyantlarının oranı. Oran >% 3 olan cgMLST'ler grafikte vurgulanır. (A-B) Hem ST hem de cgMLST verilerini çizmek için kullanılan eşikler keyfi olarak tanımlanmıştır ve veri kümesine göre oluşturulmalıdır. SISTR tarafından "Diğer serovarlar" (% 2.03) olarak sınıflandırılan genomlar, hem ST hem de cgMLST göreceli frekanslarını çizmeden önce verilerden filtrelendi. Daire çapı ne kadar büyük olursa, ST soyu veya cgMLST varyantı için oran o kadar yüksek olur. Bu Dosyayı indirmek için lütfen tıklayınız.

Ek Şekil 2: S için ST soyları içinde iç içe geçmiş cgMLST varyantlarının dağılımı . Newport nüfusu. Bu çizim, "Diğer serovarlar" (tüm verilerin% 2.03'ü) olarak sınıflandırılan genomlar hariç, ST soyları arasındaki cgMLST varyant dağılımını göstermektedir. Her ST soyu için başlıca cgMLST'ler (oran >%15) her grafikte vurgulanır. Daire çapı ne kadar büyük olursa, spesifik cgMSLT varyantı için oran o kadar yüksek olur. Düşük frekanslı ST'ler "Diğer ST'ler" olarak gruplandırıldı. Bu Dosyayı indirmek için lütfen tıklayınız.

Ek Şekil 3: Simpson'ın ST soyları arasında BAPS seviyeleri 1-6 haplotipleri veya cgMLST genotiplerini S için giriş verisi olarak kullanan D tabanlı genetik çeşitlilik derecesi . Newport nüfusu. Her ST soyunun klonalite veya genetik çeşitlilik derecesi, BAPS seviyeleri 1 (en düşük çözünürlük seviyesi) ila 6 (en yüksek çözünürlük seviyesi) alt grupları veya haplotipleri dahil olmak üzere farklı genotipik çözünürlük katmanları boyunca ve ayrıca varyantların cgMLST tabanlı dağılımı kullanılarak hesaplanmıştır. İndeks değeri ne kadar yüksek olursa, genetik çeşitlilik derecesi de o kadar yüksek olur. Çok çeşitli ST soyları, BAPS1'den BAPS6'ya giden daha yüksek indeks değerlerine sahiptir (yani, tipik olarak endeks artar ve sonunda BAPS1'den BAPS6'ya giderken platolar). Sadece S olarak sınıflandırılan genomlar. Newport tarafından SISTR programı analizde tutuldu. Düşük frekanslı ST'ler "Diğer ST'ler" olarak gruplandırıldı. Bu Dosyayı indirmek için lütfen tıklayınız.

Ek Şekil 4: BAPS düzeylerinin 1-6 alt gruplarının veya haplotiplerin S. Newport popülasyonunun ana ST soyları arasında dağılımı. BAPS alt gruplarının veya haplotiplerinin, ana ST soyları arasında, en düşükten (BAPS1) en yüksek çözünürlük seviyesine (BAPS6) göreceli frekans tabanlı dağılımı. Majör ST'ler %>1 oranlarına göre seçildi. Sadece S olarak sınıflandırılan genomlar. Newport tarafından SISTR programı analizde tutuldu. Klonalite derecesi ne kadar yüksek olursa, BAPS1'den BAPS6'ya geçerken BAPS alt gruplarının veya haplotiplerinin dağılımı o kadar az seyrek veya yayılmış olur. Başka bir deyişle, genetik olarak daha çeşitli bir ST soyunun, BAPS seviye 6'da (en yüksek çözünürlük derecesi) daha geniş bir BAPS alt grubu yelpazesi vardır. Düşük frekanslı ST'ler "Diğer ST'ler" olarak gruplandırıldı. Bu Dosyayı indirmek için lütfen tıklayınız.

Ek Dosya 1: Materyal listesi ve genom listesine bağlantılar Bu Dosyayı indirmek için lütfen buraya tıklayın.

Ek Dosya 2: R kullanarak hiyerarşik tabanlı bakteri popülasyonu genomik analizi Bu Dosyayı indirmek için lütfen buraya tıklayın.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Sistem tabanlı sezgisel ve hiyerarşik popülasyon yapısı analizinin kullanılması, benzersiz ekolojik ve epidemiyolojik kalıpları açıklama potansiyeline sahip bakteri veri kümelerindeki yeni genomik imzaları tanımlamak için bir çerçeve sağlar20. Ek olarak, aksesuar genom verilerinin popülasyon yapısına haritalanması, ST soylarının veya cgMLST varyantlarının rezervuarlar 6,20,21,45,46 arasında yayılmasını kolaylaştıran atalardan edinilmiş ve / veya yakın zamanda türetilmiş özellikleri çıkarmak için kullanılabilir. Daha geniş anlamda, bakteri popülasyonlarındaki pan-genomik içerik dağılımının küresel bir değerlendirmesi, bir popülasyonun yakın zamanda18,21'e dayanmış olabileceği ekolojik tropizmlerin veya jeo-mekansal / zamansal darboğazların altında yatan çeşitlilik kalıplarını ortaya çıkarabilir. Patojenik türler söz konusu olduğunda, klinik ve çevresel izolatların popülasyon yapısını araştırarak, zoonotik olaylarla ilişkili genetik belirleyiciler tanımlanabilir ve tanı ve sürveyansı iyileştirmek için kullanılabilir33,34. Aynı yaklaşım, insan sağlığını iyileştirmek için kullanılan gastrointestinal probiyotik suşlarda olduğu gibi, arzu edilen nişe özgü engrafting özelliklerine sahip genotipleri tanımlamak için patojenik olmayan türlere de uygulanabilir 49,50,51. Bununla birlikte, popülasyon tabanlı sorgulamalar için bakteriyel WGS verilerinin kullanılması, ProkEvo20 gibi tekrarlanabilir, otomatik ve ölçeklenebilir hesaplama platformlarının kullanılmasını gerektirir. Herhangi bir hesaplama yaklaşımı, uyarıları ve nüansları ile birlikte gelir, ancak genel olarak, serbestçe kullanılabilir, iyi belgelenmiş, taşınabilir ve ProkEvo gibi kullanıcı dostu platformlar, sezgisel bakteri popülasyonu tabanlı genomik yapan mikrobiyologların, ekolojistlerin ve epidemiyologların çalışmalarını kolaylaştırabilir.

Bu çalışmada, WGS verilerinden yararlı özelliklerin tahmin edilmesinin yanı sıra, farklı çözünürlük düzeylerinde ilgi genotiplerini haritalamak ve izlemek için kullanılabilecek hiyerarşik bir popülasyon yapısı analizi yapmak için ProkEvo türevi çıktıların nasıl kullanılacağı gösterilmiştir. Bu hesaplama protokolü R programlama dili kullanılarak yazılmıştır, ancak çerçeve veya kavramsal yaklaşım, örneğin Pandas kütüphanesinin kullanılmasıyla Python gibi diğer dillere genellenebilir. Giriş verileri ProkEvo20 tarafından üretilir, bu da sonraki analizler için çıktıların ve veri formatlarının standartlaştırılması açısından bazı engellerin karşılaşılmasını önler. Filojeniler hariç, diğer tüm giriş veri kümeleri, veri yorumlama için yararlı raporlar oluşturmak üzere kolayca kalite kontrolü, toplanma, ayrıştırılma ve entegre edilebilen tablo biçiminde gelir. Bununla birlikte, bu protokolü kullanırken tekrarlanabilirliği artırmak için birkaç kritik adımı vurgulamak önemlidir: i) yazılım sürümlerinin her zaman güncellendiğinden ve izlendiğinden emin olun; ii) kullanılan veri bilimi kütüphanelerinin sürümlerini izlemek ve tercihen zaman içinde güncellemek; iii) hedeflenen bakteri popülasyonu için anlaşılanlar ışığında ProkEvo veya benzer bir boru hattı tarafından üretilen çıktıları anlamlandırmak için alan bilgisi uzmanlığını kullanarak verilerin kalite kontrolü; iv) herhangi bir modelleme yaklaşımını kullanmadan önce keşifsel bir veri analizi yapmak; v) verileri ampirik bilgiye ve/veya istatistiksel değerlendirmelere dayanarak toplamak; vi) Eksik değerlerle a priori olarak başa çıkmak için bir strateji tanımlamak ve bu konuda tutarlı ve tamamen şeffaf olmak; vii) R kullanıyorsanız, Tidyverse tarafından sağlanan tüm paketleri kullanmaya çalışın, çünkü bu koleksiyon işlevsel programlamayı, taşınabilirliği, optimizasyonu kolaylaştırır ve serbestçe kullanılabilir; ve viii) görselleştirme yaklaşımlarının zor olabileceğinin farkında olun, çünkü sorulan soru ve tasvir edilen veriler için en uygun şekilde uygulanabilir olan doğru çizim ve renklendirme şemasını elde etmek için biraz deneme yanılma gerekir.

Not olarak, bu protokol daha da geliştirilebilecek bazı sınırlamalarla birlikte gelir. Örneğin, ProkEvo, Roary programını (~ 2.000-3.000 genom) kullanırken çekirdek-genom hizalama adımı eşzamanlı olarak üretilirse, pan-genomik analiz için kaç genomun kullanılabileceğine dair içsel bir sınıra sahiptir24. Bu, boru hattında, çekirdek-genom hizalamasına (yani, hesaplama açısından oldukça zorlu bir adım) bağlı olduğu için BAPS haplotiplerine sınıflandırılabilecek genom sayısını etkileyecek çok spesifik bir darboğazdır. Bununla birlikte, çekirdek-genom hizalaması diğer programlarla yapılabilir52 ve bu tür algoritmalar, teoride, ProkEvo'ya kolayca dahil edilebilir. Aksi takdirde, veri kümeleri stratejik olarak rastgele alt kümelere veya söz konusu organizmanın popülasyon yapısını göz önünde bulundurarak başka bir temelde bölünebilir. Alternatif olarak, ProkEvo, ST tabanlı ek açıklama, antibiyotik direnci ve virülans gen bileşimi ve plazmidlerin haritalanmasını elde etmek için tek bir genomla çalıştırılabilir, ancak boru hattı popülasyon tabanlı genomikler için tasarlanmıştır. Dikkate değer, eğer BAPS1-6 sınıflandırmalarına ihtiyaç duyulmuyorsa, Roary'nin çekirdek-genom hizalama seçeneği kapatılabilir ve bu durumda, ProkEvo binlerce genomun yüzde biri ile kullanılabilir - sadece mevcut bilgisayar çekirdeği sayısına göre sınırlıdır. Yeni bir programın nasıl uygulanacağına veya ProkEvo içindeki Roary'deki çekirdek-genom hizalama seçeneğinin nasıl kapatılacağına dair bir örnek, sırasıyla aşağıdaki GitHub bağlantılarında (https://github.com/npavlovikj/ProkEvo/wiki/4.1.-Add-new-bioinformatics-tool-to-ProkEvo) ve (https://github.com/npavlovikj/ProkEvo/wiki/4.3.-Change-running-options-for-existing-tool-in-ProkEvo) bulunabilir. Aksesuar genomik madenciliği durumunda, agnostik bir analiz pan-genomik kullanımına bağlıdır. Burada özel olarak kullanılmayan Roary24 tarafından oluşturulan Rtab dosyası, bunun yerine, Resfinder veritabanını (https://github.com/tseemann/abricate) kullanarak AMR lokuslarının ABRicate ile nasıl eşleneceği stratejik olarak gösterilmiştir. Bununla birlikte, aksesuar genomik haritalamanın kapsamını, bunun yerine mevcut yaklaşımın bir genişlemesi olarak görülebilen bir pan-genomik dosya kullanarak genişletme seçeneği vardır (örneğin, tablo veri kümesine yeni sütunlar olarak dahil edilen daha fazla lokus). ProkEvo tarafından yapılan pan-genomik haritalamanın sadece lokus bileşimi açısından ikili bilgi sağladığını ve şu anda genler arasında tek nükleotid polimorfizmlerinin tanımlanması için kullanılamayacağını belirtmek önemlidir.

Bu protokolün bir başka sınırlaması da filogenetik ağacın görselleştirilmesidir. Şu anda, ggtree tercih edilen programdır, ancak bu, dal uzunluklarını doğru bir şekilde inceleyememe pahasına gelir ve filogeniye birçok veri katmanının eklenmesi gerektiğinde hantal hale gelir. Alternatif olarak, phandango 41, aynı hedefe ulaşmak için kolayca kullanılabilecek kullanıcı dostu, ölçeklenebilir bir web sayfası formatlı GUI (https://jameshadfield.github.io/phandango/#/)41'dir ve ProkEvo çıkışlarıyla nasıl kullanılacağına dair daha ayrıntılı bilgiler yakın zamanda yayınlanmıştır20. iTOL gibi diğer araçlar daveri 53'ün filogeniye bağımlı görselleştirmesi için kullanılabilir, ancak bir GUI kullanılmasını gerektirir ve otomatik komut dosyalarına dahil edilemez. Ayrıca, yatay gen transferinin şifreli veri kümesine bağımlı etkisi nedeniyle doğru çekirdek-genom filojenilerinin tahmin edilmesi zor olabilir. Gubbins54 gibi programlar bu amaçla kullanılabilir, ancak filojenilerin doğru tahmini için tüm genom hizalaması ve ST soyuna özgü veri kümelerinin kullanılması ihtiyacı gibi belirli sınırlamalarla birlikte gelirler. Bunun yerine, filogeniden bağımsız diğer yaklaşımlar uygulanabilir, bu da çok boyutlu analiz55,56'da olduğu gibi, meta verileri veya aksesuar genomik bilgilerini entegre etmek için başka görselleştirme türlerini gerektirir. Son olarak, küçük ST soylarını ve cgMLST varyantlarını toplamak için ampirik ve keyfi bir yaklaşım kullanıldı, ayrıca ölçülecek en önemli AMR lokuslarını filtrelemeye ek olarak. Bu tür veri toplama, etki alanı bilgisi uzmanlığı kullanılarak ampirik olarak yapılabilir, ancak görüntülenmesi gereken dağılımın oranının a priori kriterini tanımlayarak veya sonuçta bir eşik tanımlamak için çeyrekler arası aralık, standart sapma veya çarpıklık gibi dağıtımla ilgili metrikler kullanılarak istatistiksel olarak da elde edilebilir. Önemli olarak, minör genotiplerin tanımı, verilerin doğasından doğrudan etkilenir, çünkü örneklem büyüklüğü ve çevresel numune türlerindeki önyargı, genotipik bileşimi doğrudan etkileyebilir. Ne olursa olsun, temel düşünce, aksesuar genom içeriğinin popülasyon yapısına haritalanmasının, niş aşan veya niş belirleyici genler gibi ekolojik çeşitliliğin potansiyel genetik belirleyicilerinin tanımlanmasına izin vermesidir57,58,59.

Mevcut R betikleri mevcut çalışmanın otomasyonu için tasarlanmış olsa da, sağlanan tüm komut dosyalarının, örneğin ProkEvo boru hattının ayrılmaz bir parçası olabilecek soyut ve dağıtılabilir bir veri bilimi kitaplığı haline gelmesi için daha da geliştirilmesi gerekecektir. Bununla birlikte, BAPS seviye 1 genotipleme veya kümeleme şemasının kullanılması gibi bu yaklaşımı kullanmanın bazı özel avantajları vardır. BAPS seviye 1 alt gruplarının veya haplotiplerin serovar ve ST soyları arasındaki yerleşimi, Salmonella popülasyonunun genetik yapısına dayanarak ampirik olarak tanımlanmıştır, ancak Campylobacter jejuni ve Staphylococcus aureus20 gibi diğer türlere uygulanabilir görünmektedir. Dahası, BAPS1, ST soyları arasındaki atasal ilişkiyi doğru bir şekilde yakalar ve özellikle filogenetik uygulamalar sınırlı olduğunda evrimsel analiz için ölçeklenebilir bir yaklaşım sunar20. Ayrıca, hiyerarşik ilişkileri ve çeşitlendirme kalıplarını incelemek için iç içe geçmiş bir yaklaşımın kullanılması, BAPS1 alt gruplarını kullanarak ST soyları arasında ve ST soylarını kullanan cgMLST varyantları arasında ataların tanımlanmasını kolaylaştırır ve popülasyon yapısını değerlendirmede art arda daha düşük genotipik çözünürlüğe geçer. ST soylarının ve cgMLST varyantlarının frekans dağılımının, sistematik olarak toplanan ve istatistiksel olarak güçlendirilmiş bir örneklemden çekildiği takdirde, ekolojik uygunluk 1,6,43 için bir vekil olabileceğini tekrarlamak önemlidir. Sonuç olarak, baskın ST soyları ve cgMLST varyantlarının, söz konusu ortamdaki veya konakçıdaki popülasyondaki baskınlıkları için biyolojik mekanizmanın temeli olabilecek benzersiz genomik özellikler içermesi muhtemeldir.

Burada, popülasyonun klonalite derecesini değerlendirmek için iki bağımsız istatistiksel metrik kullanılmıştır; bu, popülasyon genetik çeşitliliğinin yardımcı bir şekilde anlaşılmasını sağlar; bu, numune yanlılığının, popülasyon darboğazlarının veya kurucu etkisinin geçmişte ortaya çıktığını gösterebilir. Özellikle, ST soyları boyunca BAPS düzeyleri 1-6 alt gruplarının agnostik değerlendirmesi, SISTR tarafından üretilen Salmonella cgMLST varyant seviyesine bakarak tipik olarak çözülemeyen genetik çeşitlilik anlayışını geliştirebilir. Daha önce de belirtildiği gibi, pan-genomun diğer özellikleri popülasyon yapısına eşlenebilir ve agnostik pan-genom veri kümesi ile birlikte diğer AMR veritabanlarının kullanımına ek olarak, plazmid ve virülans gen bileşimi içeren dosyalar ProkEvo20 tarafından otomatik olarak oluşturulur. Not olarak, ProkEvo şu anda bakteriyel kromozomda bulunan AMR lokusları ile plazmidler arasında ayrım yapılmasına izin vermemektedir. Ekolojik ve epidemiyolojik meta veriler, diğer değişkenlerin tüm genomik bilgileri içeren bir .csv dosyasına dahil edilmesiyle bu analitik yaklaşıma kolayca entegre edilebilir. Özellikle, burada sunulan çalışma, özellikle kullanıcı tarafından veri madenciliğini ve özelleştirmeyi kolaylaştıran sezgisel popülasyon genomik analizlerine odaklanan araştırmacılar tarafından kullanılmak üzere tasarlanan ölçeklenebilir ve taşınabilir hesaplama platformu ProkEvo'nun kullanımını tamamlamaktadır. Diğer platformlar genotipleme, popülasyon yapısı analizi ve / veya Enterobase5, PATRIC60 ve BacWGSTdb61 gibi aksesuar genomların haritalanması için kullanılabilir. İkincisi, ölçeklenebilir ve karmaşık analizler için küme hesaplamayı özelleştirmek ve kullanmak istemeyen araştırmacılar için genomik veri madenciliğini kolaylaştıran mükemmel kaynaklardır. Burada sunulan analitik yaklaşım, yerel makinelerinde tekrarlanabilir komut dosyaları kullanarak veya bulut veya yüksek performanslı bir hesaplama platformu kullanarak bir popülasyon genomik analizi yapma esnekliğine sahip olmak isteyen araştırmacılar için özel olarak uyarlanmıştır.

Sonuç olarak, bu çalışmada sunulan analitik R tabanlı platform, mikrobiyologlar, ekolojistler ve epidemiyologlar için aşağıdaki konularda pratik bir rehber sağlamayı amaçlamıştır: i) hiyerarşik genotipleri haritalamak için filogeniye bağımlı yaklaşımların kullanılması; ii) genotiplerin frekans dağılımını ekolojik uygunluğu değerlendirmek için bir vekil olarak değerlendirmek; iii) bağımsız istatistiksel yaklaşımlar kullanarak soya özgü klonalite derecelerini belirlemek; ve iv) popülasyon yapısı bağlamında aksesuar genomik içeriğinin nasıl çıkarılacağına dair bir örnek olarak soy farklılaştırıcı AMR lokuslarını haritalandırın. Burada sağlanan komut dosyaları yerel bir makinede veya yüksek performanslı bir hesaplama platformunda kullanılabilir. Deneysel ve çevresel mikrobiyologlar için bu yaklaşım, sonuçta popülasyon düzeyinde bağlamsallaştırılabilecek daha ileri mekanik çalışmalar için benzersiz özellikleri ve aday yolları tanımlamayı amaçlayan veri kümelerinin çalışmalarını kolaylaştırır. Ekolojistler, orta-büyük veri kümelerini analiz ederek, teoride, akrabalık ilişkilerini ve çeşitlendirme kalıplarını göz önünde bulundururken, bir popülasyonda seçilim imzalarını bulmak için gereken istatistiksel gücü artırarak bu yaklaşımdan yararlanabilirler. Son olarak, epidemiyologlar, genotipik ilgi birimlerini tanımlayarak ve AMR gibi Halk Sağlığı ile ilişkili özellikleri tahmin ederek teşhis ve gözetim için benzersiz pratik bilgilerden yararlanabilirler. Daha geniş anlamda, bu analitik kılavuz, yaklaşım diğer bakteri türlerine genellenebilir olduğundan, patojenik ve patojenik olmayan türler için evrimsel ve ekolojik kalıpları çıkarmak için kullanılabilecek popülasyon tabanlı bir genomik analiz gerçekleştirmek için ProkEvo'yu kullanmak için genelleştirilebilir bir çerçeve sunmaktadır.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Yazarlar, rakip çıkarların olmadığını ilan etmişlerdir.

Acknowledgments

Bu çalışma, UNL-IANR Tarımsal Araştırma Bölümü ve Ulusal Antimikrobiyal Direnç Araştırma ve Eğitim Enstitüsü ve Gıda Bilimi ve Teknolojisi Departmanı'ndaki (UNL) Nebraska Sağlık için Gıda Merkezi tarafından sağlanan fonlarla desteklenmiştir. Bu araştırma ancak Nebraska Araştırma Girişimi'nden destek alan UNL'deki Hollanda Bilgi İşlem Merkezi'ni (HCC) kullanarak tamamlanabildi. Ayrıca, HCC aracılığıyla, Ulusal Bilim Vakfı ve ABD Enerji Bakanlığı Bilim Ofisi tarafından desteklenen Açık Bilim Şebekesi (OSG) tarafından sağlanan kaynaklara erişebildiğimiz için minnettarız. Bu çalışmada Ulusal Bilim Vakfı tarafından finanse edilen Pegasus İş Akışı Yönetim Yazılımı kullanılmıştır (hibe #1664162).

Materials

Name Company Catalog Number Comments
amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

DOWNLOAD MATERIALS LIST

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user's guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 - Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. Seemann, T. MLST. GitHub. , Available from: https://github.com/tseemann/mist (2020).
  29. Seemann, T. ABRicate. GitHub. , Available from: https://github.com/tseemann/abricate (2020).
  30. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. at. Available from: https://cran.r-project.org (2021).
  31. Studio Team. RStudio: Integrated Development for R. Studio, PBC. , Boston, MA. Available from: http://www.rstudio.com (2020).
  32. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  33. rOpenSci: The skimr package. GitHub. , Berkeley, CA. Available from: https://github.com/ropensci/skimr/ (2021).
  34. Oksanen, J., et al. vegan: Community ecology package. R package version 2.5-5. , Available from: https://CRAN.R-project.org/package=vegan (2019).
  35. Tierney, N. J., Cook, D. H. Expanding tidy data principles to facilitate missing data exploration, visualization and assessment of imputations. arXiv. , Available from: http://arxiv.org/abs/1809.02264 (2020).
  36. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  37. Kassambara, A. ggpubr: "ggplot2" Based Publication Ready Plots. R package version 0.4.0. , Available from: https://CRAN.R-project.org/package=ggpubr (2020).
  38. Slowikowski, K. ggrepel: Automatically Position Non-Overlapping Text Labels with "ggplot2”. R package version 0.9.1. , Available from: https://CRAN.R-project.org/package=ggrepel (2021).
  39. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  40. Neuwirth, E. RColorBrewer: ColorBrewer Palettes. R package version 1.1-2. , Available from: https://CRAN.R-project.org/package=RColorBrewer (2014).
  41. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  42. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  43. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  44. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  45. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  46. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  47. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  48. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  49. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  50. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  51. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  52. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  53. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  54. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  55. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  56. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  57. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  58. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  59. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  60. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  61. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Tags

Genetik Sayı 178
Bakteriyel Popülasyonlarda Hiyerarşik Genotiplerin ve Aksesuar Genom Loci'nin Sezgisel Madenciliği
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Pavlovikj, N., Gomes-Neto, J. C.,More

Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter