Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Heuristisk gruvdrift av hierarkiska genotyper och accessoriska genomlois i bakteriepopulationer

Published: December 7, 2021 doi: 10.3791/63115
* These authors contributed equally

Summary

Denna analytiska beräkningsplattform ger praktisk vägledning för mikrobiologer, ekologer och epidemiologer som är intresserade av bakteriell populationsgenomik. Specifikt visade det arbete som presenteras här hur man utför: i) fylogenistyrd kartläggning av hierarkiska genotyper; ii) Frekvensbaserad analys av genotyper. iii) släktskaps- och klonalitetsanalyser, iv) Identifiering av härstamningsdifferentierande tillbehörsplatser.

Abstract

Rutinmässig och systematisk användning av bakteriell helgenomsekvensering (WGS) förbättrar noggrannheten och upplösningen av epidemiologiska undersökningar som utförs av folkhälsolaboratorier och tillsynsmyndigheter. Stora volymer av offentligt tillgängliga WGS-data kan användas för att studera patogena populationer i stor skala. Nyligen publicerades en fritt tillgänglig beräkningsplattform kallad ProkEvo för att möjliggöra reproducerbara, automatiserade och skalbara hierarkiskbaserade populationsgenomiska analyser med hjälp av bakteriella WGS-data. Denna implementering av ProkEvo visade vikten av att kombinera standard genotypisk kartläggning av populationer med gruvdrift av tillbehörsgenomiskt innehåll för ekologisk inferens. I synnerhet använde det arbete som lyfts fram här ProkEvo-härledda utdata för populationsskalade hierarkiska analyser med hjälp av R-programmeringsspråket. Huvudsyftet var att ge en praktisk guide för mikrobiologer, ekologer och epidemiologer genom att visa hur man: i) använder en fylogenistyrd kartläggning av hierarkiska genotyper; ii) bedöma frekvensfördelningar av genotyper som en proxy för ekologisk lämplighet, iii) fastställa släktskapsförhållanden och genetisk mångfald med hjälp av specifika genotypiska klassificeringar, och iv) kartlinje som skiljer tillbehörsplatser. För att förbättra reproducerbarheten och portabiliteten användes R-markdown-filer för att demonstrera hela analysmetoden. Exempeldatasetet innehöll genomiska data från 2 365 isolat av den zoonotiska livsmedelsburna patogenen Salmonella Newport. Fylogeni-förankrad kartläggning av hierarkiska genotyper (Serovar -> BAPS1 -> ST -> cgMLST) avslöjade den populationsgenetiska strukturen och lyfte fram sekvenstyper (ST) som keystone som differentierar genotypen. Över de tre mest dominerande släkterna delade ST5 och ST118 en gemensam förfader nyligen än med den mycket klonala ST45-fylotypen. ST-baserade skillnader belystes ytterligare av fördelningen av tillbehörsplatser för antimikrobiell resistens (AMR). Slutligen användes en fylogeni-förankrad visualisering för att kombinera hierarkiska genotyper och AMR-innehåll för att avslöja släktskapsstrukturen och härstamningsspecifika genomiska signaturer. Tillsammans ger detta analytiska tillvägagångssätt några riktlinjer för att genomföra heuristiska bakteriella populationsgenomiska analyser med hjälp av pan-genomisk information.

Introduction

Den ökande användningen av bakteriell helgenomsekvensering (WGS) som grund för rutinmässig övervakning och epidemiologisk undersökning av folkhälsolaboratorier och tillsynsmyndigheter har väsentligt förbättrat undersökningar av patogenutbrott 1,2,3,4. Som en följd av detta är stora volymer avidentifierade WGS-data nu offentligt tillgängliga och kan användas för att studera aspekter av populationsbiologin hos patogena arter i en aldrig tidigare skådad skala, inklusive studier baserade på: populationsstrukturer, genotypfrekvenser och gen-/allelfrekvenser över flera reservoarer, geografiska regioner och typer av miljöer5 . De vanligaste WGS-styrda epidemiologiska undersökningarna baseras på analyser som endast använder det delade kärngenomiska innehållet, där det delade (bevarade) innehållet ensamt används för genotypisk klassificering (t.ex. variantanrop), och dessa varianter blir grunden för epidemiologisk analys och spårning 1,2,6,7 . Typiskt utförs bakteriell kärngenombaserad genotypning med MLST-metoder (multi-locus sequence typing) med hjälp av sju till några tusen loci 8,9,10. Dessa MLST-baserade strategier omfattar kartläggning av förmonterade eller sammansatta genomiska sekvenser på högt kuraterade databaser och kombinerar därmed allelisk information till reproducerbara genotypiska enheter för epidemiologisk och ekologisk analys11,12. Till exempel kan denna MLST-baserade klassificering generera genotypisk information på två upplösningsnivåer: sekvenstyper på lägre nivå (ST) eller ST-linjer (7 loci) och MLST-varianter (cgMLST) på högre nivå (~ 300-3000 loci)10.

MLST-baserad genotypisk klassificering är beräkningsmässigt bärbar och mycket reproducerbar mellan laboratorier, vilket gör den allmänt accepterad som en exakt subtypningsmetod under bakterieartsnivån13,14. Bakteriepopulationer är dock strukturerade med artspecifika varierande grader av klonalitet (dvs. genotypisk homogenitet), komplexa mönster av hierarkiskt släktskap mellan genotyper 15,16,17 och ett brett spektrum av variationer i fördelningen av accessoriskt genomiskt innehåll18,19 . Således går ett mer holistiskt tillvägagångssätt utöver diskreta klassificeringar i MLST-genotyper och införlivar de hierarkiska relationerna mellan genotyper vid olika upplösningsskalor, tillsammans med kartläggning av tillbehörsgenomiskt innehåll på genotypiska klassificeringar, vilket underlättar populationsbaserad inferens 18,20,21 . Dessutom kan analyser också fokusera på delade arvsmönster av accessoriska genomiska loci bland även avlägset besläktade genotyper21,22. Sammantaget möjliggör det kombinerade tillvägagångssättet agnostisk förhör av relationer mellan befolkningsstruktur och fördelningen av specifika genomiska kompositioner (t.ex. loci) bland geospatiala eller miljömässiga gradienter. Ett sådant tillvägagångssätt kan ge både grundläggande och praktisk information om de ekologiska egenskaperna hos specifika populationer som i sin tur kan förklara deras tropism och spridningsmönster över reservoarer, såsom livsmedelsdjur eller människor.

Detta systembaserade hierarkiska populationsorienterade tillvägagångssätt kräver stora volymer WGS-data för tillräcklig statistisk kraft för att förutsäga urskiljbara genomiska signaturer. Följaktligen kräver tillvägagångssättet en beräkningsplattform som kan bearbeta tusentals bakteriella genom samtidigt. Nyligen utvecklades ProkEvo och är en fritt tillgänglig, automatiserad, bärbar och skalbar bioinformatikplattform som möjliggör integrativa hierarkiska baserade bakteriepopulationsanalyser, inklusive pan-genomisk kartläggning20. ProkEvo möjliggör studier av måttliga till storskaliga bakteriedataset samtidigt som det ger ett ramverk för att generera testbara och infererbara epidemiologiska och ekologiska hypoteser och fenotypiska förutsägelser som kan anpassas av användaren. Detta arbete kompletterar den pipelinen genom att ge en guide om hur man använder ProkEvo-härledda utdatafiler som input för analyser och tolkning av hierarkiska befolkningsklassificeringar och accessorisk genomisk gruvdrift. Fallstudien som presenteras här utnyttjade populationen av Salmonella enterica lineage I zoonotisk serovar S. Newport som ett exempel och syftade specifikt till att ge praktiska riktlinjer för mikrobiologer, ekologer och epidemiologer om hur man: i) använder ett automatiserat fylogeniberoende tillvägagångssätt för att kartlägga hierarkiska genotyper; ii) bedöma frekvensfördelningen av genotyper som en proxy för utvärdering av ekologisk lämplighet, iii) bestämma härstamningsspecifika grader av klonalitet med hjälp av oberoende statistiska metoder; och iv) kartlägga härstamningsdifferentierande AMR-loci som ett exempel på hur man bryter tillbehörsgenomiskt innehåll i samband med befolkningsstrukturen. Mer allmänt ger detta analytiska tillvägagångssätt en generaliserbar ram för att utföra en populationsbaserad genomisk analys i en skala som kan användas för att härleda evolutionära och ekologiska mönster oavsett målart.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Förbered indatafiler

OBS: Protokollet finns här - https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. Protokollet förutsätter att forskaren specifikt har använt ProkEvo (eller en jämförbar pipeline) för att få nödvändiga utdata tillgängliga i detta Figshare-arkiv (https://figshare.com/account/projects/116625/articles/15097503 - inloggningsuppgifter krävs - Användaren måste skapa ett gratis konto för att få filåtkomst!). Observera att ProkEvo automatiskt laddar ner genomiska sekvenser från NCBI-SRA-förvaret och kräver endast en .txt-fil som innehåller en lista över genomidentifieringar som en ingång20, och den som används för detta arbete på S. Newport USA-isolat tillhandahålls här (https://figshare.com/account/projects/116625/articles/15097503?file=29025729).  Detaljerad information om hur man installerar och använder denna bakteriegenomikplattform finns här (https://github.com/npavlovikj/ProkEvo/wiki/2.-Quick-start)20

  1. Generera core-genome phylogeny med FastTree23 som tidigare beskrivits20, som inte ingår i bioinformatikplattformen20. FastTree kräver Roary24 core-genome alignment som en indatafil. Fylogenifilen heter newport_phylogeny.tree (https://figshare.com/account/projects/116625/articles/15097503?file=29025690).
  2. Generera SISTR25-utdata som innehåller information om serovarklassificeringar för Salmonella - och cgMLST-variantanropsdata (sistr_output.csv–https://figshare.com/account/projects/116625/articles/15097503?file=29025699).
  3. Generera BAPS-fil med fastbaps26,27 som innehåller BAPS-nivåerna 1-6 klassificering av genom i undergrupper eller haplotyper (fastbaps_partition_baps_prior_l6.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025684).
  4. Generera MLST-baserad klassificering av genom i ST med mlst-programmet (https://github.com/tseemann/mlst)28 (salmonellast_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025696).
  5. Generera ABRicate (https://github.com/tseemann/abricate)29-utdata som en .csv-fil som innehåller AMR-loci mappade per genom (sabricate_resfinder_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025693).
    OBS: Användaren kan stänga av specifika delar av ProkEvo bioinformatikrörledningen (kolla här för mer information - https://github.com/npavlovikj/ProkEvo/wiki/4.2.-Remove-existing-bioinformatics-tool-from-ProkEvo). Den analytiska metoden som presenteras här ger riktlinjer för hur man genomför en populationsbaserad analys efter att bioinformatikpipelinen har körts.

2. Ladda ner och installera applikationen statistisk programvara och integrerad utvecklingsmiljö (IDE)

  1. Ladda ner den senaste fritt tillgängliga versionen av R-programvaran för Linux, Mac eller PC30. Följ standardinstallationsstegen.
  2. Ladda ner den senaste fritt tillgängliga versionen av RStudio desktop IDE här31. Följ standardstegen för installation.
    Obs!: Nästa steg ingår i det tillgängliga skriptet, inklusive detaljerad information om kodanvändning, och bör köras sekventiellt för att generera utdata och siffror som presenteras i detta arbete (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). Användaren kan välja att använda ett annat programmeringsspråk för att genomföra denna analytiska/statistiska analys, till exempel Python. Använd i så fall stegen i skripten som ett ramverk för att utföra analysen.

3. Installera och aktivera datavetenskapsbibliotek

  1. Installera alla datavetenskapsbibliotek samtidigt som ett första steg i analysen. Undvik att installera biblioteken varje gång skriptet behöver köras igen. Använd funktionen install.packages() för biblioteksinstallation. Alternativt kan användaren klicka på fliken Paket inuti IDE och automatiskt installera paketen. Koden som används för att installera alla nödvändiga bibliotek presenteras här:
    # Installera Tidyverse
    install.packages("tidyverse")
    # Installera skimr

    install.packages("skimr")
    # Installera vegan
    install.packages("vegan")
    # Installera forcats
    install.packages("forcats")
    # Installera naniar
    install.packages("naniar")
    # Installera ggpubr
    install.packages("ggpubr")
    # Installera ggrepel
    install.packages("ggrepel")
    # Installera reshape2
    install.packages("reshape2")
    # Installera RColorBrewer
    install.packages("RColorBrewer")
    # Installera ggtree
    if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
    BiocManager::install("ggtree")
    # Installation av ggtree kommer att ställa en fråga om installation - svaret är "a" för att installera / uppdatera alla beroenden
  2. Aktivera alla bibliotek eller paket med funktionen library() i början av skriptet, direkt efter installationen. Här är en demonstration om hur du aktiverar alla nödvändiga paket:
    # Aktivera biblioteken och paketen
    bibliotek(tidyverse)
    bibliotek(skimr)
    bibliotek(vegan)
    bibliotek(forcats)
    bibliotek(naniar)
    bibliotek(ggtree)
    bibliotek(ggpubr)
    bibliotek(ggrepel)
    bibliotek(omformning2)
    bibliotek(RColorBrewer)
  3. Ignorera utmatning av koden som används för installation och aktivering av bibliotek och paket med hjälp av {r, include = FALSE} i kodchucken enligt följande:
    ''' {r, include = FALSE}
    # Installera Tidyverse

    install.packages("tidyverse")
    ```

    Det här steget är valfritt men undviker att visa bitar av onödig kod i den slutliga html-, doc- eller pdf-rapporten.
  4. En kort beskrivning av de specifika funktionerna i alla bibliotek tillsammans med några användbara länkar för att samla in ytterligare information finns i steg 3.4.1–3.4.11.
    1. Tidyverse – använd den här samlingen av paket som används för datavetenskap, inklusive datainmatning, visualisering, parsning och aggregering samt statistisk modellering. Vanligtvis är ggplot2 (datavisualisering) och dplyr (datavrängning och modellering) praktiska paket som finns i det här biblioteket32.
    2. skimr - använd det här paketet för att generera sammanfattande statistik över dataramar, inklusive identifiering av saknade värden33.
    3. vegan - använd detta paket för statistiska analyser av samhällsekologi, såsom beräkning av mångfaldsbaserad statistik (t.ex. alfa- och beta-mångfald)34.
    4. forcats - använd det här paketet för att arbeta med kategoriska variabler som ombeställning av klassificeringar. Det här paketet är en del av Tidyverse-biblioteket32.
    5. naniar – använd det här paketet för att visualisera fördelningen av saknade värden mellan variabler i en dataram med hjälp av funktionen viss_miss()35.
    6. ggtree - använd detta paket för visualisering av fylogenetiska träd36.
    7. ggpubr - använd det här paketet för att förbättra kvaliteten på ggplot2-baserade visualiseringar37.
    8. ggrepel - använd det här paketet för textmärkning inuti grafer38.
    9. reshape2 - använd melt()-funktionen från det här paketet för transformering av dataramar från brett till långt format39.
    10. RColorBrewer – använd det här paketet för att hantera färger i ggplot2-baserade visualiseringar40.
    11. Använd följande grundläggande funktioner för undersökande dataanalys: head() för att kontrollera de första observationerna i en dataram, tail() för att kontrollera de sista observationerna av en dataram, is.na() för att räkna antalet rader med saknade värden över en dataram, dim() för att kontrollera antalet rader och kolumner i en datauppsättning, tabell() för att räkna observationer över en variabel, och summa() för att räkna det totala antalet observationer eller instanser.

4. Datainmatning och analys

OBS: En detaljerad information om varje steg i denna analys finns i det tillgängliga skriptet (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). Här är dock några viktiga punkter att överväga:

  1. Gör all genomisk datainmatning, inklusive alla genotypiska klassificeringar (serovar, BAPS, ST och cgMLST) med funktionen read_csv().
  2. Byt namn på, skapa nya variabler och välj kolumner av intresse från varje datauppsättning före aggregering av flera datauppsättningar.
  3. Ta inte bort saknade värden från någon oberoende datauppsättning. Vänta tills alla datauppsättningar har aggregerats för att ändra eller exkludera saknade värden. Om nya variabler skapas för varje datauppsättning kategoriseras saknade värden som standard i en av de nyligen genererade klassificeringarna.
  4. Kontrollera om det finns felaktiga tecken som bindestreck eller förhörsmärken och ersätt dem med NA (ej tillämpligt). Gör samma sak för saknade värden.
  5. Aggregera data baserat på den hierarkiska ordningen av genotyper (serovar -> BAPS1 -> ST -> cgMLST) och genom gruppering baserat på de individuella genomidentifieringarna.
  6. Sök efter saknade värden med hjälp av flera strategier och hantera sådana inkonsekvenser uttryckligen. Ta bara bort ett genom eller isolera från data om klassificeringen är otillförlitlig. I annat fall bör du överväga den analys som görs och ta bort de na från fall till fall.
    OBS: Det rekommenderas starkt att upprätta en strategi för att hantera sådana värden a priori. Undvik att ta bort alla genom eller isolat med saknade värden i alla variabler. Till exempel kan ett genom ha ST-klassificering utan att ha cgMLST-variantnummer. I så fall kan arvsmassan fortfarande användas för den ST-baserade analysen.
  7. När alla datauppsättningar har aggregerats tilldelar du dem till ett dataramnamn eller objekt som kan användas på flera platser i uppföljningsanalysen för att undvika att behöva generera samma metadatafil för varje figur i papperet.

5. Genomföra analyser och generera visualiseringar

OBS: En detaljerad beskrivning av varje steg som behövs för att producera alla analyser och visualiseringar finns i markdown-filen för detta papper (https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code). Koden för varje figur separeras i segment och hela skriptet ska köras sekventiellt. Dessutom tillhandahålls koden för varje huvud- och tilläggssiffra som en separat fil (se tilläggsfil 1 och tilläggsfil 2). Här är några viktiga punkter (med kodavsnitt) som ska beaktas när du genererar varje huvud- och tilläggssiffror.

  1. Använd ggtree för att plotta ett fylogenetiskt träd tillsammans med genotypisk information (Figur 1).
    1. Optimera ggtree-figurstorleken, inklusive diameter och bredd på ringarna, genom att ändra de numeriska värdena inuti funktionerna xlim() respektive gheatmap(width = ) (se exempelkod nedan).
      tree_plot <- ggtree(träd, layout = "cirkulär") + xlim(-250, NA)
      figure_1 <- gheatmap(tree_plot, d4, offset=.0, width=20, colnames = FALSE)
      OBS: För en mer detaljerad jämförelse av program som kan användas för fylogenetisk plottning, kontrollera detta arbete20. Arbetet belyste ett försök att identifiera strategier för att förbättra ggtree-baserade visualiseringar som att minska datamängdens storlek, men grenlängder och trädtopologi var inte lika tydligt diskriminerande jämfört med phandango41.
    2. Aggregera alla metadata i så få kategorier som möjligt för att underlätta valet av färgpanel när du ritar flera lager av data med det fylogenetiska trädet (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_1.Rmd). Utför dataaggregeringen baserat på frågan om intresse och domänkunskap.
  2. Använd ett stapeldiagram för att bedöma relativa frekvenser (figur 2).
    1. Aggregera data för både ST-härstamningar och cgMLST-varianter för att underlätta visualiseringar. Välj ett empiriskt eller statistiskt tröskelvärde som används för dataaggregering, samtidigt som du överväger frågan som ställs.
    2. För en exempelkod som kan användas för att inspektera frekvensfördelningen för ST-linjer för att bestämma cut-offen se nedan:
      st_dist <- d2 %>% group_by(ST) %>% # grupp efter ST-kolumnen
      count() %>% # räkna antalet observationer
      arrange(desc(n)) # ordna räkningarna i minskande ordning
    3. En exempelkod som visar hur mindre (lågfrekventa) ST:er kan aggregeras finns nedan. Som visas nedan grupperas ST som inte är numrerade som 5, 31, 45, 46, 118, 132 eller 350 tillsammans som "Andra ST". Använd en liknande kod för cgMLST-varianter (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_2.Rmd).
      d2$st <- ifelse(d2$ST == 5, "ST5", # skapa en ny ST-kolumn för vilken mindre S T aggregeras som Övriga
      ifelse(d2$ST == 31, "ST31",
      ifelse(d2$ST == 45, "ST45",
      ifelse(d2$ST == 46, "ST46",
      ifelse(d2$ST == 118, "ST118",
      ifelse(d2$ST == 132, "ST132", ifelse(d2$ST == 350, "ST350", "Other STs")))))))
  3. Använd en kapslad metod för att beräkna andelen av varje ST-härstamning inom varje BAPS1-undergrupp för att identifiera ST som är släkt med förfäderna (tillhör samma BAPS1-undergrupp) (Figur 3). Koden nedan exemplifierar hur den ST-baserade andelen kan beräknas över BAPS1-undergrupper (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_3.Rmd):
    baps <- d2b %>% filter(serovar == "Newport") %>% # filter Newport serovarer
    select(baps_1, ST) %>% # välj kolumnerna baps_1 och ST
    mutate(ST = as.numeric(ST)) %>% # ändra ST-kolumnen till numerisk
    drop_na(baps_1, ST) %>% # droppe NA
    group_by(baps_1, ST) %>% # grupp efter baps_1 och ST
    summarise(n = n()) %>% # count observationer
    mutat(prop = n/summa(n)*100) # beräkna proportioner
  4. Plotta fördelningen av AMR-loci över ST-linjer med hjälp av Resfinder-baserade genannoteringsresultat (figur 4).
    OBS: Resfinder har använts i stor utsträckning i ekologiska och epidemiologiska studier42. Annotering av proteinkodande gener kan variera beroende på hur ofta databaser kurateras och uppdateras. Om man använder den föreslagna bioinformatikpipelinen kan forskaren jämföra AMR-baserade loci-klassificeringar över olika databaser20. Var noga med att kontrollera vilka databaser som uppdateras kontinuerligt. Använd inte inaktuella eller dåligt kuraterade databaser för att undvika felalls.
    1. Använd ett empiriskt eller statistiskt tröskelvärde för att filtrera bort de viktigaste AMR-loci för att underlätta visualiseringar. Ange en rå .csv-fil som innehåller de beräknade proportionerna för alla AMR-loci över alla ST-linjer, till exempel visas här (https://figshare.com/account/projects/116625/articles/15097503?file=29025687).
    2. Beräkna AMR-andelen för varje ST med hjälp av följande kod (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_4.Rmd):
      # Beräkningar för ST45
      d2c <- data6 %>% filter(st == "ST45") # filtrera ST45-data först
      # för ST45, beräkna andelen AMR-loci och håll endast andelen större än 10%

      d3c <- d2c %>% select (id, gen) %>% # välj kolumner
      group_by (id, gen) %>% # grupp efter id och gen
      summarize(count = n()) %>% # count observationer
      mutate(count = replace(count, count == 2, 1)) %>% # replace counts equal to 2 with 1 to only consider one copy of each gene (duplikat kanske inte är tillförlitligt), men forskaren kan besluta att utesluta eller behålla dem. Om forskaren vill utesluta dem, använd sedan funktionen filter (count != 2) eller lämna som den är
      filter (antal < = 1) # filterantal under eller lika med 1
      d4c <- d3c %>% group_by (gen) %>% # grupp för gen
      summarize(value = n()) %>% # count observationer
      mutate(total = table(data1$st)[6]) %>% # get the total counts of st mutate(prop = (value/total)*100) # calculate proportions
      d5c <- d4c %>% mutate(st = "ST45") # skapa en st-kolumn och lägg till ST-information
    3. När beräkningarna har gjorts för alla ST:er kombinerar du datauppsättningar som en dataram med hjälp av följande kod:
      # Kombinera datauppsättningar
      d6 <- rbind(d5a, d5b, d5c, d5d, d5e, d5f, d5g, d5h) # radbindningsdatauppsättningar
    4. Om du vill exportera .csv-filen som innehåller de beräknade proportionerna använder du koden:
      # Exportera datatabell som innehåller ST- och AMR-loci-information
      abx_newport_st <- d6 skriver.csv(abx_newport_st,"abx_newport_st.csv", row.names = FALSE)
    5. Innan du ritar den AMR-baserade distributionen över ST-linjer filtrerar du data baserat på ett tröskelvärde för att underlätta visualiseringar, enligt nedan:
      # Filtrera AMR-loci med en andel högre än eller lika med 10%
      d7 <- d6 %>% filter (prop > = 10) # bestämma tröskelvärdet empiriskt eller statistiskt
  5. Plotta kärngenomets fylogeni tillsammans med de hierarkiska genotypiska klassificeringarna och AMR-data i ett enda diagram med hjälp av ggtree (Figur 5).
    1. Optimera figurstorleken inuti ggtree med hjälp av ovan nämnda parametrar (se steg 5.1.1.).
    2. Optimera visualiseringar genom att aggregera variabler eller använda binär klassificering som gennärvaro eller frånvaro. Ju fler funktioner som läggs till i diagrammet, desto svårare blir färgvalsprocessen (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_5.Rmd).
      OBS: Kompletterande siffror - detaljerad beskrivning av hela koden finns här (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd).
  6. Använd ett spridningsdiagram i ggplot2, utan dataaggregering, för att visa fördelningen av ST-linjer eller cgMLST-varianter samtidigt som du markerar de vanligaste genotyperna (kompletterande figur 1) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s1.Rmd).
  7. Gör en kapslad analys för att bedöma sammansättningen av ST-linjer genom andelen cgMLST-varianter för att få en glimt av den ST-baserade genetiska mångfalden, samtidigt som man identifierar de vanligaste varianterna och deras genetiska relationer (dvs. cgMLST-varianter som tillhör samma ST delade en förfader nyligen än de som tillhör distinkta ST) (Kompletterande figur 2 ) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s2.Rmd).
  8. Använd samhällsekologimetrisk, nämligen Simpsons D-index för mångfald, för att mäta graden av klonalitet eller genotypisk mångfald för var och en av de viktigaste ST-slagen43 (kompletterande figur 3).
    1. Beräkna indexet för mångfald över ST-linjer på olika nivåer av genotypisk upplösning inklusive BAPS nivå 1 till 6 och cgMLST. Nedan följer kodexemplet på hur man gör denna beräkning på BAPS-nivå 1 (BAPS1) av genotypisk upplösning:
      # BAPS nivå 1 (BAPS1)
      # släpp ST och BAPS1 med NA, gruppera efter ST och BAPS1 och beräkna sedan Simpsons index
      baps1 <- data6 %>%
      select(st, BAPS1) %>% # välj kolumner
      drop_na(st, BAPS1) %>% # droppe NA
      group_by(st, BAPS1) %>% # gruppera efter kolumner
      summarise(n = n()) %>% # count observationer
      mutate(simpson = diversity(n, "simpson")) %>% # beräkna mångfald
      group_by(st) %>% # grupp för kolumn
      summarise(simpson = mean(simpson)) %>% # beräkna medelvärdet av indexet
      melt(id.vars=c("st"), measure.vars="simpson",
      variable.name="index", value.name="value") %>% # hemligt i långt format
      mutate(strat = "BAPS1") # skapa en strat-kolumn
      OBS: En mer genetiskt varierad population (dvs. fler varianter vid olika lager av genotypisk upplösning) har ett högre index på cgMLST-nivå och ger en ökande indexbaserad värde som går från BAPS-nivå 2 till 6 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s3.Rmd).
  9. Undersök graden av genotypisk mångfald av ST-linjer genom att plotta den relativa frekvensen av BAPS-undergrupper på alla upplösningsnivåer (BAPS1-6) (kompletterande figur 4). Ju mer diversifierad befolkningen är, desto glesare blir fördelningen av BAPS-undergrupper (haplotyper) från BAPS1 (lägre upplösningsnivå) till BAPS6 (högre upplösningsnivå) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s4.Rmd).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Genom att använda beräkningsplattformen ProkEvo för populationsgenomikanalyser består det första steget i bakteriell WGS-datautvinning av att undersöka den hierarkiska populationsstrukturen i samband med en kärngenomfylogeni (Figur 1). När det gäller S. enterica härstamning I, som exemplifieras av S. Newport-datauppsättning, populationen är hierarkiskt strukturerad enligt följande: serovar (lägsta upplösningsnivå), BAPS1-undergrupper eller haplotyper, ST-härstamningar och cgMLST-varianter (högsta upplösningsnivå)20. Denna fylogenistyrda analys av den hierarkiska populationsstrukturen gör det specifikt möjligt att undersöka följande punkter: i) fylogenetisk fördelning av SISTR-baserade felklassificerade genom till andra serovarer när det gäller Salmonella; ii) befolkningens genetiska struktur eller släktskapsstruktur, iii) diversifieringsmönster på olika nivåer av genotypisk upplösning, iv) Identifiering av större genotypiska enheter som ligger till grund för ett evolutionärt, ekologiskt eller epidemiologiskt mönster. v) förfädernas relationer mellan ST-släkter genom BAPS1-undergrupper eller haplotypsammansättning och mellan cgMLST-varianter inom ST-linjer; och vi) partiell bild av graden av genotypisk homogenitet hos en ST-härstamning av cgMLST-variantkompositionen.

Figure 1
Figur 1: Fylogenistyrd kartläggning av hierarkiska genotyper för S. Newport befolkning. En kärngenomfylogeni (svart centrerad cirkel) användes för att kartlägga hierarkiska genotyper, inklusive serovar (lägsta upplösningsnivå - innersta färgade cirkel), BAPS nivå 1 (BAPS1) undergrupper eller haplotyper, ST-linjer och cgMLST-varianter (högsta upplösningsnivå - yttersta färgade cirkeln). Serovars grupperades i Newport (S. Newport) eller "Andra serovarer" baserade på SISTR-algoritmisk klassificering av genom, som använde MLST-information om kärngenomet och kördes som en del av beräkningsplattformen ProkEvo. BAPS1 stratifierar agnostiskt populationen i undergrupper eller kluster av relaterade haplotyper med hjälp av kärngenomiska data inom ProkEvo. BAPS1 är hierarkiskt placerad mellan serovar- och ST-linjer eftersom den exakt fångade förfädernas relationer mellan ST. ST-linjer bildas baserat på kanonisk MLST-analys med hjälp av sju genomspridda loci. Endast större eller vanligaste ST (andel >1%) avbildades i diagrammet. Slutligen användes endast de vanligaste cgMLST-varianterna (andel >3,5%) för att visa hela den hierarkiska strukturen för S. Newport befolkning (n = 2 365 USA isolerar endast). Kategorin "Andra ST" eller "Andra cgMLST" som består av mindre eller lågfrekventa linjer eller varianter, med tröskelvärden som görs godtyckligt och som bör fastställas empiriskt eller statistiskt baserat på datauppsättningen. Klicka här för att se en större version av denna figur.

Relativa frekvenser av alla hierarkiska genotyper användes sedan för att utvärdera den totala fördelningen och de vanligast observerade klassificeringarna (dvs. genotyper) (figur 2). I figur 2C-D aggregerades mindre frekventa (mindre) ST-linjer eller cgMLST-varianter som "Andra ST" respektive "Andra cgMLST" för att underlätta datavisualisering (dimensionalitetsreduktion). Om provtagning sker systematiskt i olika miljöer och/eller värdar och är lämpligt statistiskt driven, kan frekvensfördelningen bli en proxy för ekologisk kondition. Det vill säga, de vanligaste släkterna eller varianterna kan då förutsägas ha högre kondition, vilket följer ytterligare undersökning för att bestämma de orsakande genetiska determinanterna som ligger till grund för ett sådant kvantitativt drag 6,30.

Figure 2
Figur 2: Andel S. Newport hierarkiska genotyper på olika upplösningsnivåer. (A) Serovarer är fenotyper av S. enterica lineage I-population som kan förutsägas enbart från kärngenomiska data på grund av den ärftliga obalansen med hög koppling mellan core-loci och O och H antigenkodande loci (ytproteiner). Vid användning av ProkEvo klassificeras Salmonella-genom automatiskt till serovarer med hjälp av SISTR-programmet. Även om bara S. Newport (Newport) genom från NCBI laddades förmodligen ner, vissa har klassificerats som "Andra serovarer" inom ProkEvo. Cirka 2% (48 av 2 365) av alla genom klassificerades som andra än S. Newport serovar. (B) Andelen undergrupper eller haplotyper på BAPS nivå 1 (BAPS1). BAPS1 infogas mellan serovar- och ST-linjer i det hierarkiska schemat eftersom det exakt och agnostiskt fångade förfädernas relationer mellan ST. (C) Andelen större ST-linjer avbildade endast ST som var > 1% i relativ frekvens. Mindre ST grupperades som "Andra ST". (D) Andelen större cgMLST-varianter visade endast fyra dominerande cgMLST som var >3% i relativ frekvens. Resten av cgMLST grupperades som "Övriga cgMLST". (B-D) Genom som klassificerats av SISTR som "Andra serovarer" (2,03%) filtrerades bort från data innan DE PLOTTADE BAPS1, ST och cgMLST relativa frekvenser. (C-D) Tröskelvärden som användes för att plotta både ST- och cgMLST-data definierades godtyckligt och bör fastställas empiriskt från fall till fall. Klicka här för att se en större version av denna figur.

Alternativt kan ett spridningsdiagram användas för att bedöma fördelningen och andelen av både ST-linjer eller cgMLST-varianter, utan någon dataaggregering (kompletterande figur 1). Denna användning av ett spridningsdiagram är särskilt användbart för ST-linjer och cgMLST-varianter på grund av den typiska förekomsten av hundradels, om inte tusentals, klassificeringar för båda genotyperna. Denna glesa fördelning förekommer vanligtvis inte för serovar- och BAPS1-upplösningsnivåerna, eftersom de ligger på en lägre upplösningsnivå med sekvenser som ärvt kollapsar i några undergrupper eller kategorier.

Därefter undersöktes förfädernas relationer mellan ST med hjälp av ett kapslad tillvägagångssätt som omfattar bedömning av den relativa frekvensen av ST-linjer av BAPS1-undergrupper eller haplotyper (figur 3). ST-linjer som tillhörde samma BAPS1-undergrupp var mer benägna att ha delat en gemensam förfader nyligen än med andra ST (dvs. ST5 och ST118 vs ST45). På samma sätt, genom att undersöka fördelningen av cgMLST-varianter inom ST-linjer, kan graden av genotypisk heterogenitet mellan ST- st fångas, samtidigt som man bedömer deras genetiska sammansättning och avslöjar förfädernas förhållande mellan cgMLST (dvs. när besläktade cgMLST-varianter tillhör samma ST-härstamning eller klonala komplex) (kompletterande figur 2).

Figure 3
Figur 3: Fördelning av ST-linjer kapslade inom BAPS1-undergrupper för S. Newport befolkning. Detta diagram visar ST-härstamningsfördelningen inom varje BAPS nivå 1-undergrupp eller haplotyp, exklusive genom som klassificeras som "Andra serovarer" (2,03% av hela data). Större ST (andel >1 %) för varje BAPS1-undergrupp markeras i varje diagram. Ju större cirkeldiameter, desto högre andel för den specifika ST-linjen. Klicka här för att se en större version av denna figur.

Med tanke på att mönstret av S. Newport befolkningsdiversifiering tycktes främst drivas av ST-sammansättning (figur 1), två statistiska metoder användes för att bedöma den ST-baserade graden av klonalitet (dvs. genetisk homogenitet), inklusive Simpsons D-index för mångfald (kompletterande figur 3) och fördelningen av BAPS-undergrupper eller haplotyper med HJÄLP av BAPS-nivåerna 1-6 (kompletterande figur 4 ). Att bedöma graden av klonalitet hos en population kan belysa följande aspekter: i) en bättre förståelse av genetisk mångfald och befolkningsstruktur; ii) Finjusteringsanalys av diversifieringsmönster mellan större genotypiska enheter, såsom ST-linjer. och iii) vara en indikator på nödvändigheten av att använda accessorisk genombrytning för att hitta kryptiska genotypiska enheter som kan avslöja nya delkluster som finns i befolkningen. Ju mer klonal en population är på kärngenomnivå, desto svårare blir det att skilja mellan varianter, och desto mer sannolikt kommer tillbehörets genominnehåll att vara informativt för att stratifiera befolkningen till meningsfulla genotypiska enheter associerade med unika ekologiska fördelningar 18,19,21.

Den relativa frekvensen av ST-härstamning som differentierar AMR-loci bedömdes för att identifiera unika accessoriska genomiska signaturer kopplade till S. Newport befolkningsstruktur (Figur 4). Detta steg i analysen var inriktat på AMR-distribution eftersom det är ett folkhälsoassocierat drag, men samma tillvägagångssätt kan tillämpas på ett övervakat (riktat) eller agnostiskt sätt för att undersöka andra komponenter i tillbehörsgenomet, inklusive metaboliska vägar, virulensfaktorer etc. Märkbart verkar mdf(A)_1 och aac(6')-Iaa_1 loci vara förfädersförvärvade av S. Newport befolkning; ST45 spås vara multiresistent. Slående nog tyder dessa data också på att de andra stora ST-slagen, ST5 och ST118, är mer benägna att vara mottagliga för flera läkemedel jämfört med ST45. Dessa punkter måste övervägas noggrant på grund av de fördomar som finns i datasetet. Detta representerar dock en potentiell epidemiologisk slutsats som kan göras från mer robusta WGS-datainsamlingar.

I allmänhet är här några punkter som ska beaktas när man utför en accessorisk genommappning på hierarkiska genotyper: i) betrakta frekvensfördelningen som ett kvantitativt drag men var medveten om att den alleliska sammansättningen av en locus kan förändra egenskapsvariansen. Dessutom bör närvaron av en locus eller loci vara en indikation på funktion men inte kausal, eftersom fenotypen kan vara polygen eller variera beroende på den alleliska sammansättningen för den orsakande locus (t.ex. en icke-synonym mutation på det aktiva stället för ett protein är mer sannolikt att påverka funktionen); ii) Loci-distribution kan visa gener som är fasta i populationen (t.ex. finns i hög frekvens över alla ST-linjer) eller nyligen förvärvade av specifika ST-linjer och cgMLST-varianter, och kan återspegla det ekologiska eller epidemiologiska mönstret; iii) multiresistens kan förutsägas från genomikdata. Och om fördelningen av AMR-loci eller andra vägar är starkt kopplad eller vanligtvis ärvd av specifika släkter, kan fenotyper förutsägas genom inferens från hierarkiska genotyper, såsom i fallet med ST-linjer45,46; och iv) mätning av fenotyper i laboratoriet är fortfarande deterministisk för att validera beräkningsförutsägelser.

Figure 4
Figur 4: Fördelning av AMR-loci över större ST-linjer i S. Newport befolkning. Relativ frekvensbaserad fördelning av ett utvalt antal AMR-loci över större ST-linjer (>1% av befolkningen). Mindre ST grupperades som "Andra ST". Endast genom som klassificeras som S. Newport av SISTR-algoritmen behölls i analysen. AMR-loci med en relativ frekvens större än eller lika med 10% valdes ut för datavisualisering. Detta är ett godtyckligt tröskelvärde som bör fastställas för varje datauppsättning. Proportionerna beräknades med hjälp av en binär matris bestående av gennärvaro eller frånvaro. Klicka här för att se en större version av denna figur.

Slutligen användes en fylogeni-förankrad visualisering för att systematiskt integrera de hierarkiska befolkningsstrukturdata tillsammans med ST-härstamning som differentierar AMR-loci-fördelningen baserat på genförekomst (figur 5). Genom att kombinera befolkningsstrukturen tillsammans med accessorisk genomisk sammansättning kan följande uppsättning frågor behandlas i en given dataset: 1) Hur är befolkningen strukturerad? Hur förhåller sig ST till varandra och förfäder genom BAPS1-undergrupper? Hur variabel är cgMLST-kompositionen över ST? 2) Vad är det fylogenetiska förgreningsmönstret och den övergripande trädtopologin? och 3) Hur distribueras tillbehörsgenomet? Är den accessoriska genomiska sammansättningen mest sannolikt förfädernas förvärvade eller nyligen härledda? Vad är härstamningen eller variantspecifikt mönster? Vad är den fenotypiska förutsägelsen och ekologiska slutsatsen? Finns det nischöverskridande kontra nischspecifika gener? Hur relaterar eller informerar det observerade mönstret epidemiologin när det gäller patogener? Kan släkter eller varianter vara informativt underkludrade baserat på tillbehörsgenomiskt innehåll?

Figure 5
Figur 5: Fylogenistyrd kartläggning av hierarkiska genotyper och kompletterande AMR-loci som skiljer mellan större ST-linjer inom S. Newport befolkning. En kärngenomfylogeni (svart centrerad cirkel) användes för att kartlägga hierarkiska genotyper, inklusive serovar (lägsta upplösningsnivå - innersta färgade cirkeln), BAPS nivå 1 (BAPS1) undergrupper eller haplotyper, ST-linjer och cgMLST-varianter (högsta upplösningsnivå - yttersta färgade cirkeln), tillsammans med AMR-loci färgade som mörkblå om de finns eller grå om de saknas. Serovars grupperades i Newport (S. Newport) eller "Andra serovarer" baserat på SISTR-algoritmisk klassificering. BAPS1 är hierarkiskt placerad mellan serovar- och ST-linjer eftersom den exakt och agnostiskt fångade förfädernas relationer mellan ST. ST-linjer bildas baserat på kanonisk MLST-analys med hjälp av sju genomspridda loci. Endast större eller vanligaste ST (andel >1%) avbildades i diagrammet. Dessutom användes endast de mest dominerande cgMLST-varianterna (andel >3,5%) för att visa hela den hierarkiska strukturen för S. Newport befolkning (n = 2 365 USA isolerar endast). Kategorin "Andra ST" eller "Andra cgMLST" bestod av mindre eller lågfrekventa linjer respektive varianter, och tröskelvärdet gjordes godtyckligt och bör fastställas baserat på datauppsättningen. AMR-loci med en relativ frekvens större än eller lika med 10% valdes ut för datavisualisering. Denna specifika graf visar en unik fördelning av AMR-loci som huvudsakligen förekommer i ST31-, ST45- och ST132-linjer. Klicka här för att se en större version av denna figur.

Kompletterande figur 1: Gles fördelning av ST-linjer och cgMLST-varianter för S. Newport befolkning. (A) Andelen ST-linjer utan att aggregera lågfrekventa ST. ST med en andel >1 % markeras i diagrammet. (B) Andelen cgMLST-varianter utan aggregerade lågfrekventa cgMLST.er. cgMLST med andel > 3% markeras i diagrammet. (A-B) Tröskelvärden som användes för att plotta både ST- och cgMLST-data definierades godtyckligt och bör fastställas baserat på datauppsättningen. Genom som klassificerats av SISTR som "Andra serovarer" (2,03%) filtrerades bort från data innan både ST- och cgMLST-relativa frekvenser plottades. Ju större cirkeldiameter, desto högre andel för antingen ST-härstamningen eller cgMLST-varianten. Klicka här för att ladda ner den här filen.

Kompletterande figur 2: Fördelning av cgMLST-varianter kapslade inom ST-linjer för S. Newport befolkning. Detta diagram visar cgMLST-variantfördelningen över ST-linjer, exklusive genom som klassificeras som "Andra serovarer" (2,03% av hela data). Större cgMLST (andel >15%) för varje ST-härstamning markeras i varje diagram. Ju större cirkeldiameter, desto högre andel för den specifika cgMSLT-varianten. Lågfrekventa ST grupperades som "Andra ST". Klicka här för att ladda ner den här filen.

Kompletterande figur 3: Simpsons D-baserade grad av genetisk mångfald över ST-linjer med BAPS-nivåer 1-6 haplotyper eller cgMLST-genotyper som indata för S. Newport befolkning. Graden av klonalitet eller genetisk mångfald för varje ST-härstamning beräknades över olika genotypiska upplösningsskikt, inklusive BAPS-nivå 1 (lägsta upplösningsnivå) till 6 (högsta upplösningsnivå) undergrupper eller haplotyper, och genom att dessutom använda cgMLST-baserad fördelning av varianter. Ju högre indexvärde, desto högre grad av genetisk mångfald. Mycket olika ST-linjer har högre indexvärden som går från BAPS1 till BAPS6 (dvs. vanligtvis ökar indexet och så småningom platåer när man går från BAPS1 till BAPS6). Endast genom som klassificeras som S. Newport av SISTR-programmet behölls i analysen. Lågfrekventa ST grupperades som "Andra ST". Klicka här för att ladda ner den här filen.

Kompletterande figur 4: Fördelning av BAPS-nivåer 1-6 undergrupper eller haplotyper över större ST-linjer i S. Newport-befolkningen. Relativ frekvensbaserad fördelning av BAPS-undergrupper eller haplotyper, över större ST-linjer, från den lägsta (BAPS1) till den högsta upplösningsnivån (BAPS6). Större ST valdes utifrån att ha en andel >1%. Endast genom som klassificeras som S. Newport av SISTR-programmet behölls i analysen. Ju högre grad av klonalitet, desto mindre gles eller spridd blir fördelningen av BAPS-undergrupper eller haplotyper när man går från BAPS1 till BAPS6. Med andra ord har en mer genetiskt diversifierad ST-härstamning ett bredare spektrum av BAPS-undergrupper på BAPS-nivå 6 (högsta upplösningsgrad). Lågfrekventa ST grupperades som "Andra ST". Klicka här för att ladda ner den här filen.

Kompletterande fil 1: Länkar till materiallista och genomlista Klicka här för att ladda ner den här filen.

Kompletterande fil 2: Hierarkisk-baserad bakteriell populationsgenomikanalys med R Klicka här för att ladda ner den här filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Användningen av en systembaserad heuristisk och hierarkisk populationsstrukturanalys ger ett ramverk för att identifiera nya genomiska signaturer i bakteriella dataset som har potential att förklara unika ekologiska och epidemiologiska mönster20. Dessutom kan kartläggningen av tillbehörsgenomdata till befolkningsstrukturen användas för att härleda förfädernas förvärvade och / eller nyligen härledda egenskaper som underlättar spridningen av ST-linjer eller cgMLST-varianter över reservoarer 6,20,21,45,46. Mer allmänt kan en global bedömning av pan-genomisk innehållsfördelning i bakteriepopulationer avslöja diversifieringsmönster som ligger till grund för de ekologiska tropismerna eller geospatiala / tidsmässiga flaskhalsar som en befolkning nyligen kan ha motstått18,21. När det gäller patogena arter kan genetiska determinanter associerade med zoonotiska händelser identifieras och användas för att förbättra diagnostiken och övervakningen33,34 genom att bryta populationsstrukturen för kliniska kontra miljöisolat. Samma tillvägagångssätt kan tillämpas på icke-patogena arter för att identifiera genotyper med önskvärda nischspecifika inympningsegenskaper, som i fallet med gastrointestinala probiotiska stammar som används för att förbättra människors hälsa 49,50,51. Ändå kräver användningen av bakteriella WGS-data för befolkningsbaserade förfrågningar användning av reproducerbara, automatiserade och skalbara beräkningsplattformar som ProkEvo20. Varje beräkningsmetod kommer med sina försiktighetsåtgärder och nyanser, men i allmänhet kan fritt tillgängliga, väldokumenterade, bärbara och användarvänliga plattformar som ProkEvo underlätta mikrobiologernas, ekologernas och epidemiologernas arbete med heuristisk bakteriell populationsbaserad genomik.

I det aktuella arbetet demonstrerades hur man använder ProkEvo-härledda utgångar för att genomföra en hierarkisk populationsstrukturanalys som kan användas för att kartlägga och spåra genotyper av intresse på olika upplösningsnivåer, tillsammans med att förutsäga användbara egenskaper från WGS-data. Detta beräkningsprotokoll skrevs med hjälp av R-programmeringsspråket, men ramverket eller konceptuella tillvägagångssättet är generaliserbart till andra språk som Python genom användning av Pandas-biblioteket, till exempel. Indata genereras av ProkEvo20, vilket förhindrar att vissa hinder ställs inför när det gäller att standardisera utdata och dataformat för efterföljande analys. Med undantag för fylogenier kommer alla andra indatauppsättningar i ett tabellformat som enkelt kan kvalitetskontrolleras, aggregeras, analyseras och integreras för att generera användbara rapporter för datatolkning. Det är dock viktigt att lyfta fram några kritiska steg för att förbättra reproducerbarheten när du använder detta protokoll: i) se till att programvaruversionerna alltid uppdateras och spåras; ii) spåra versionerna av de datavetenskapsbibliotek som används och helst uppdatera dem över tid; iii) kvalitetskontroll av data med hjälp av domänkunskapsexpertis för att förstå de resultat som genereras av ProkEvo eller en liknande pipeline, mot bakgrund av vad som förstås för den riktade bakteriepopulationen; iv) genomföra en undersökande dataanalys innan någon modelleringsmetod används, v) aggregera uppgifterna på grundval av empirisk kunskap och/eller statistiska bedömningar, vi) fastställa en strategi för att hantera saknade värden a priori och vara konsekvent och fullständigt transparent om den, vii) om du använder R, försök att använda alla paket som tillhandahålls av Tidyverse, eftersom denna samling underlättar funktionell programmering, bärbarhet, optimering och är fritt tillgänglig; och viii) vara medveten om att visualiseringsmetoder kan vara svåra eftersom det tar lite försök och fel för att få rätt typ av plot och färgschema som är mest lämpligt tillämpligt för den fråga som ställs och de data som skildras.

Observera att detta protokoll har vissa begränsningar som kan förbättras ytterligare. ProkEvo har till exempel en inneboende gräns för hur många genom som kan användas för pan-genomisk analys, om kärn-genomets anpassningssteg genereras samtidigt, samtidigt som Roary-programmet används (~ 2 000-3 000 genom)24. Det är en mycket specifik flaskhals i pipelinen som kommer att påverka antalet genom som kan klassificeras i BAPS-haplotyper eftersom det beror på core-genome-alignment (dvs. mycket beräkningsmässigt krävande steg). Core-genom-anpassning kan dock göras med andra program52, och sådana algoritmer kan i teorin enkelt införlivas i ProkEvo. Annars kan dataset delas upp strategiskt i slumpmässiga delmängder, eller på annan grund, t.ex. genom att ta hänsyn till populationsstrukturen hos organismen i fråga. Alternativt kan ProkEvo köras med ett enda genom för att få ST-baserad anteckning, antibiotikaresistens och virulensgensammansättning och kartläggning av plasmider, men pipelinen utformades för populationsbaserad genomik. Anmärkningsvärt, om BAPS1-6-klassificeringarna inte behövs, kan roarys kärngenomjusteringsalternativ stängas av, och i så fall kan ProkEvo användas med många hundradels tusentals genom - det är endast begränsat baserat på antalet tillgängliga datorkärnor. Ett exempel på hur man implementerar ett nytt program eller hur man stänger av alternativet för justering av kärngenomet i Roary inom ProkEvo finns i följande GitHub-länkar (https://github.com/npavlovikj/ProkEvo/wiki/4.1.-Add-new-bioinformatics-tool-to-ProkEvo) respektive (https://github.com/npavlovikj/ProkEvo/wiki/4.3.-Change-running-options-for-existing-tool-in-ProkEvo). När det gäller accessorisk genomisk gruvdrift beror en agnostisk analys på utnyttjandet av pan-genomic . Rtab-fil genererad av Roary24, som inte specifikt användes här, men istället demonstrerades det strategiskt hur man kartlägger AMR-loci med ABRicate med hjälp av Resfinder-databasen (https://github.com/tseemann/abricate). Det finns dock ett alternativ att utöka omfattningen av den accessoriska genomiska kartläggningen genom att i stället använda en pangenomisk fil, vilket praktiskt taget kan ses som en utvidgning av den nuvarande metoden (t.ex. fler loci som ingår i tabelldatauppsättningen som nya kolumner). Det är viktigt att nämna att den pangenomiska kartläggningen som gjordes av ProkEvo endast tillhandahöll binär information när det gäller loci-sammansättning och för närvarande inte kan användas för identifiering av enstaka nukleotidpolymorfismer över gener.

En annan begränsning av detta protokoll är visualiseringen av det fylogenetiska trädet. För närvarande är ggtree det valda programmet, men det kommer på bekostnad av att inte kunna inspektera grenlängder exakt och blir besvärligt när många lager av data måste läggas till i fylogenin. Alternativt är phandango41 ett användarvänligt, skalbart webbsidaformaterat GUI (https://jameshadfield.github.io/phandango/#/)41 som enkelt kan användas för att uppnå samma mål, och ytterligare detaljerad information om hur man använder den med ProkEvo-utgångar har nyligen publicerats20. Andra verktyg som iTOL kan också användas för fylogeniberoende visualisering av data53, men de kräver att man använder ett GUI och kan inte införlivas i automatiserade skript. Dessutom kan exakta kärngenomfylogenier vara svåra att uppskatta på grund av den kryptiska datasetberoende effekten av horisontell genöverföring. Program som Gubbins54 kan användas för detta ändamål, men de kommer också med vissa begränsningar som behovet av att använda helgenomriktning och ST-härstamningsspecifika dataset för korrekt uppskattning av fylogenier. Istället kan andra fylogeni-oberoende metoder användas, som sedan slutar kräva andra typer av visualiseringar för att integrera metadata eller tillbehörsgenomisk information, som i fallet med flerdimensionell analys55,56. Slutligen användes ett empiriskt och godtyckligt tillvägagångssätt för att aggregera mindre ST-linjer och cgMLST-varianter, förutom att filtrera de viktigaste AMR-loci som ska kvantifieras. Denna typ av dataaggregering kan göras empiriskt med hjälp av domänkunskapsexpertis, men kan också uppnås statistiskt genom att definiera a priori-kriterium för den andel av fördelningen som ska visas, eller genom att använda distributionsrelaterade mätvärden som interkvartilintervall, standardavvikelse eller skevhet, för att i slutändan definiera ett tröskelvärde. Viktigt är att definitionen för mindre genotyper påverkas direkt av dataens natur eftersom provstorlek och bias i typerna av miljöprover direkt kan påverka den genotypiska kompositionen. Oavsett är huvudövervägandet att kartläggningen av tillbehörsgenominnehåll på befolkningsstrukturen gör det möjligt att identifiera potentiella genetiska determinanter för ekologisk diversifiering, såsom nischöverskridande eller nischspecifika gener 57,58,59.

Även om de tillgängliga R-skripten utformades för automatisering av det aktuella arbetet, skulle alla tillhandahållna skript behöva vidareutvecklas för att bli ett abstrakt och distribuerat datavetenskapsbibliotek, som till exempel kan vara en integrerad del av ProkEvo-pipelinen. Ändå finns det några specifika fördelar med att använda detta tillvägagångssätt, såsom användningen av BAPS nivå 1 genotypning eller klusterschema. Placeringen av BAPS nivå 1-undergrupper eller haplotyper mellan serovar- och ST-linjer definierades empiriskt baserat på salmonellapopulationens genetiska struktur, men det verkar vara tillämpligt på andra arter som Campylobacter jejuni och Staphylococcus aureus20. Dessutom fångar BAPS1 exakt förfädernas förhållande mellan ST-linjer och ger ett skalbart tillvägagångssätt för evolutionär analys, särskilt när fylogenetiska tillämpningar är begränsade20. Dessutom underlättar användningen av ett kapslad tillvägagångssätt för att undersöka hierarkiska relationer och diversifieringsmönster identifieringen av anor mellan ST-linjer med hjälp av BAPS1-undergrupper och över cgMLST-varianter med hjälp av ST-linjer, som successivt går från lägre till högre genotypisk upplösning vid bedömningen av befolkningsstrukturen. Det är viktigt att upprepa att frekvensfördelningen av ST-linjer och cgMLST-varianter, om den hämtas från ett systematiskt insamlat och statistiskt drivet prov, kan bli en proxy för ekologisk kondition 1,6,43. Följaktligen kommer dominerande ST-linjer och cgMLST-varianter sannolikt att innehålla unika genomiska egenskaper som kan ligga till grund för den biologiska mekanismen för deras dominans i befolkningen i den specifika miljön eller värden.

Häri användes två oberoende statistiska mätvärden för att bedöma graden av klonalitet hos befolkningen, vilket möjliggör en extra förståelse av befolkningens genetiska mångfald, vilket kan indikera tidigare förekomst av provbias, flaskhalsar i befolkningen eller grundareffekten. I synnerhet kan den agnostiska bedömningen av BAPS-nivå 1-6 undergrupper över ST-linjer förfina förståelsen av genetisk mångfald som vanligtvis inte kan lösas genom att helt enkelt titta på Salmonella cgMLST-variantnivå som genereras av SISTR. Som tidigare nämnts kan andra funktioner i pan-genomet kartläggas på befolkningsstrukturen och filer som innehåller plasmid- och virulensgenkomposition, förutom användningen av andra AMR-databaser tillsammans med agnostisk pan-genom-dataset, genereras automatiskt av ProkEvo20. Observera att ProkEvo för närvarande inte tillåter differentiering mellan AMR-loci som finns i bakteriekromosomen kontra plasmider. Ekologiska och epidemiologiska metadata kan också enkelt integreras i detta analytiska tillvägagångssätt genom att införliva andra variabler i en .csv fil som innehåller all genomisk information. I synnerhet kompletterar det arbete som presenteras här specifikt användningen av den skalbara och bärbara beräkningsplattformen ProkEvo, som utformades för att användas av forskare med fokus på heuristiska populationsgenomikanalyser som underlättar datautvinning och anpassning av användaren. Andra plattformar kan användas för genotypning, populationsstrukturanalys och / eller kartläggning av tillbehörsgenom som Enterobase5, PATRIC60 ochBacWGSTdb61. Det senare är utmärkta resurser som underlättar genomikdatautvinning för forskare som inte vill anpassa och använda klusterberäkning för skalbar och komplex analys. Den analytiska metoden som presenteras här är speciellt skräddarsydd för forskare som vill ha flexibiliteten att utföra en populationsgenomikanalys med hjälp av reproducerbara skript på sin lokala maskin eller genom att använda en moln- eller högpresterande beräkningsplattform.

Sammanfattningsvis var den analytiska R-baserade plattformen som presenterades i detta arbete inriktad på att ge en praktisk guide för mikrobiologer, ekologer och epidemiologer om hur man: i) använder fylogeniberoende metoder för att kartlägga hierarkiska genotyper; ii) bedöma frekvensfördelningen av genotyper som en proxy för utvärdering av ekologisk lämplighet, iii) bestämma härstamningsspecifika grader av klonalitet med hjälp av oberoende statistiska metoder; och iv) kartlägga härstamningsdifferentierande AMR-loci som ett exempel på hur man bryter tillbehörsgenomiskt innehåll i samband med befolkningsstrukturen. Skripten som anges här kan användas på antingen en lokal dator eller en högpresterande beräkningsplattform. För experimentella och miljömässiga mikrobiologer underlättar detta tillvägagångssätt studier av dataset som syftar till att identifiera unika egenskaper och kandidatvägar för ytterligare mekanistiska studier som i slutändan kan kontextualiseras på befolkningsnivå. Ekologer kan dra nytta av detta tillvägagångssätt genom att kunna analysera måttliga till stora dataset, som i teorin ökar den statistiska kraften som behövs för att hitta signaturer för urval i en befolkning samtidigt som man överväger släktskapsrelationer och diversifieringsmönster. Slutligen kan epidemiologer utnyttja unik praktisk information för diagnostik och övervakning genom att definiera genotypiska intresseenheter och förutsäga folkhälsorelaterade egenskaper som AMR. Mer allmänt ger denna analytiska vägledning ett generaliserbart ramverk för att använda ProkEvo för att utföra en populationsbaserad genomisk analys som kan användas för att härleda evolutionära och ekologiska mönster för patogena och icke-patogena arter eftersom tillvägagångssättet är generaliserbart för andra bakteriearter.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Författarna har förklarat att det inte finns några konkurrerande intressen.

Acknowledgments

Detta arbete stöddes av finansiering från UNL-IANR Agricultural Research Division och National Institute for Antimicrobial Resistance Research and Education och av Nebraska Food for Health Center vid Food Science and Technology Department (UNL). Denna forskning kan endast slutföras genom att använda Holland Computing Center (HCC) vid UNL, som får stöd från Nebraska Research Initiative. Vi är också tacksamma för att ha tillgång, genom HCC, till resurser som tillhandahålls av Open Science Grid (OSG), som stöds av National Science Foundation och US Department of Energy Office of Science. Detta arbete använde Pegasus Workflow Management Software som finansieras av National Science Foundation (anslag #1664162).

Materials

Name Company Catalog Number Comments
amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

DOWNLOAD MATERIALS LIST

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user's guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 - Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. Seemann, T. MLST. GitHub. , Available from: https://github.com/tseemann/mist (2020).
  29. Seemann, T. ABRicate. GitHub. , Available from: https://github.com/tseemann/abricate (2020).
  30. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. at. Available from: https://cran.r-project.org (2021).
  31. Studio Team. RStudio: Integrated Development for R. Studio, PBC. , Boston, MA. Available from: http://www.rstudio.com (2020).
  32. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  33. rOpenSci: The skimr package. GitHub. , Berkeley, CA. Available from: https://github.com/ropensci/skimr/ (2021).
  34. Oksanen, J., et al. vegan: Community ecology package. R package version 2.5-5. , Available from: https://CRAN.R-project.org/package=vegan (2019).
  35. Tierney, N. J., Cook, D. H. Expanding tidy data principles to facilitate missing data exploration, visualization and assessment of imputations. arXiv. , Available from: http://arxiv.org/abs/1809.02264 (2020).
  36. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  37. Kassambara, A. ggpubr: "ggplot2" Based Publication Ready Plots. R package version 0.4.0. , Available from: https://CRAN.R-project.org/package=ggpubr (2020).
  38. Slowikowski, K. ggrepel: Automatically Position Non-Overlapping Text Labels with "ggplot2”. R package version 0.9.1. , Available from: https://CRAN.R-project.org/package=ggrepel (2021).
  39. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  40. Neuwirth, E. RColorBrewer: ColorBrewer Palettes. R package version 1.1-2. , Available from: https://CRAN.R-project.org/package=RColorBrewer (2014).
  41. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  42. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  43. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  44. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  45. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  46. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  47. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  48. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  49. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  50. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  51. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  52. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  53. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  54. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  55. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  56. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  57. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  58. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  59. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  60. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  61. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Tags

Genetik utgåva 178
Heuristisk gruvdrift av hierarkiska genotyper och accessoriska genomlois i bakteriepopulationer
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Pavlovikj, N., Gomes-Neto, J. C.,More

Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter