Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Heuristisk minedrift af hierarkiske genotyper og tilbehør genom Loci i bakteriepopulationer

Published: December 7, 2021 doi: 10.3791/63115
* These authors contributed equally

Summary

Denne analytiske beregningsplatform giver praktisk vejledning til mikrobiologer, økologer og epidemiologer, der er interesseret i bakteriel populationsgenomik. Specifikt demonstrerede det arbejde, der blev præsenteret her, hvordan man udfører: i) fylogeni-guidet kortlægning af hierarkiske genotyper; ii) frekvensbaseret analyse af genotyper iii) slægtskabs- og klonalitetsanalyser iv) identifikation af afstamningsdifferentierende tilbehør loci.

Abstract

Rutinemæssig og systematisk anvendelse af bakteriel helgenomsekventering (WGS) forbedrer nøjagtigheden og løsningen af epidemiologiske undersøgelser, der udføres af folkesundhedslaboratorier og regulerende organer. Store mængder offentligt tilgængelige WGS-data kan bruges til at studere patogene populationer i stor skala. For nylig blev en frit tilgængelig beregningsplatform kaldet ProkEvo offentliggjort for at muliggøre reproducerbare, automatiserede og skalerbare hierarkisk baserede populationsgenomiske analyser ved hjælp af bakterielle WGS-data. Denne implementering af ProkEvo demonstrerede vigtigheden af at kombinere standard genotypisk kortlægning af populationer med minedrift af tilbehør genomisk indhold til økologisk slutning. Især det arbejde, der fremhæves her, anvendte ProkEvo-afledte output til befolkningsskalerede hierarkiske analyser ved hjælp af programmeringssproget R. Hovedformålet var at give en praktisk vejledning til mikrobiologer, økologer og epidemiologer ved at vise, hvordan man: i) bruger en fylogeni-guidet kortlægning af hierarkiske genotyper; ii) vurdere frekvensfordelingen af genotyper som en proxy for økologisk egnethed iii) bestemme slægtskabsforhold og genetisk mangfoldighed ved hjælp af specifikke genotypiske klassifikationer og iv) kortlinje, der adskiller tilbehør loci. For at forbedre reproducerbarheden og portabiliteten blev R-markdown-filer brugt til at demonstrere hele den analytiske tilgang. Eksempeldatasættet indeholdt genomiske data fra 2.365 isolater af det zoonotiske fødevarebårne patogen Salmonella Newport. Fylogeni-forankret kortlægning af hierarkiske genotyper (Serovar -> BAPS1 -> ST -> cgMLST) afslørede populationens genetiske struktur og fremhævede sekvenstyper (ST'er) som den keystone-differentierende genotype. På tværs af de tre mest dominerende slægter delte ST5 og ST118 en fælles forfader for nylig end med den meget klonale ST45-fylotype. ST-baserede forskelle blev yderligere fremhævet ved fordelingen af antimikrobiel resistens (AMR) loci (accessory antimicrobial resistance). Endelig blev en fylogeni-forankret visualisering brugt til at kombinere hierarkiske genotyper og AMR-indhold for at afsløre slægtskabsstrukturen og slægtsspecifikke genomiske signaturer. Kombineret giver denne analytiske tilgang nogle retningslinjer for udførelse af heuristiske bakterielle populationsgenomiske analyser ved hjælp af pan-genomisk information.

Introduction

Den stigende anvendelse af bakteriel helgenomsekventering (WGS) som grundlag for rutinemæssig overvågning og epidemiologisk undersøgelse foretaget af folkesundhedslaboratorier og regulerende organer har væsentligt forbedret patogenudbrudsundersøgelser 1,2,3,4. Som følge heraf er store mængder afidentificerede WGS-data nu offentligt tilgængelige og kan bruges til at studere aspekter af patogene arters populationsbiologi i et hidtil uset omfang, herunder undersøgelser baseret på: populationsstrukturer, genotypefrekvenser og gen-/allelfrekvenser på tværs af flere reservoirer, geografiske regioner og typer af miljøer5 . De mest anvendte WGS-guidede epidemiologiske undersøgelser er baseret på analyser, der kun anvender det fælles kerne-genomiske indhold, hvor det delte (bevarede) indhold alene anvendes til genotypisk klassificering (f.eks. variantopkald), og disse varianter bliver grundlaget for epidemiologisk analyse og sporingaf 1,2,6,7 . Typisk udføres bakteriel kerne-genombaseret genotyping med MLST-tilgange (multi-locus sequence typing) ved hjælp af syv til et par tusinde loci 8,9,10. Disse MLST-baserede strategier omfatter kortlægning af præmonterede eller samlede genomiske sekvenser på stærkt kuraterede databaser og kombinerer derved allelisk information i reproducerbare genotypiske enheder til epidemiologisk og økologisk analyse11,12. For eksempel kan denne MLST-baserede klassificering generere genotypisk information på to opløsningsniveauer: sekvenstyper på lavere niveau (ST'er) eller ST-slægter (7 loci) og højere niveau kernegenom MLST (cgMLST) varianter (~ 300-3.000 loci)10.

MLST-baseret genotypisk klassificering er beregningsmæssigt bærbar og meget reproducerbar mellem laboratorier, hvilket gør den bredt accepteret som en nøjagtig sub-typing tilgang under bakterieartsniveau13,14. Bakteriepopulationer er imidlertid struktureret med artsspecifikke varierende grader af klonalitet (dvs. genotypisk homogenitet), komplekse mønstre af hierarkisk slægtskab mellem genotyper 15,16,17 og en bred vifte af variationer i fordelingen af tilbehørsgenomisk indhold 18,19 . Således går en mere holistisk tilgang ud over diskrete klassifikationer i MLST-genotyper og inkorporerer de hierarkiske forhold mellem genotyper på forskellige opløsningsskalaer sammen med kortlægning af tilbehørsgenomisk indhold på genotypiske klassifikationer, hvilket letter populationsbaseret slutning 18,20,21 . Desuden kan analyser også fokusere på fælles arvemønstre for tilbehør genomiske loci blandt selv fjernt beslægtede genotyper21,22. Samlet set muliggør den kombinerede tilgang agnostisk forhør af forholdet mellem populationsstruktur og fordelingen af specifikke genomiske sammensætninger (f.eks. Loci) blandt geospatiale eller miljømæssige gradienter. En sådan tilgang kan give både grundlæggende og praktiske oplysninger om de økologiske egenskaber ved specifikke populationer, der igen kan forklare deres tropisme og spredningsmønstre på tværs af reservoirer, såsom fødevaredyr eller mennesker.

Denne systembaserede hierarkiske populationsorienterede tilgang kræver store mængder WGS-data for tilstrækkelig statistisk kraft til at forudsige skelnelige genomiske signaturer. Derfor kræver tilgangen en beregningsplatform, der er i stand til at behandle mange tusinde bakterielle genomer på én gang. For nylig blev ProkEvo udviklet og er en frit tilgængelig, automatiseret, bærbar og skalerbar bioinformatikplatform, der giver mulighed for integrerende hierarkisk baserede bakteriepopulationsanalyser, herunder pan-genomisk kortlægning20. ProkEvo giver mulighed for undersøgelse af moderate til store bakterielle datasæt, samtidig med at der gives en ramme for at generere testbare og inferbare epidemiologiske og økologiske hypoteser og fænotypiske forudsigelser, der kan tilpasses af brugeren. Dette arbejde supplerer denne pipeline ved at give en vejledning i, hvordan man bruger ProkEvo-afledte outputfiler som input til analyser og fortolkning af hierarkiske populationsklassifikationer og tilbehør genomisk minedrift. Casestudiet, der præsenteres her, udnyttede populationen af Salmonella enterica-afstamning I zoonotisk serovar S. Newport som et eksempel og var specifikt rettet mod at give praktiske retningslinjer for mikrobiologer, økologer og epidemiologer om, hvordan man: i) bruger en automatiseret fylogeniafhængig tilgang til at kortlægge hierarkiske genotyper; ii) vurdere frekvensfordelingen af genotyper som en proxy for evaluering af økologisk egnethed iii) bestemme afstamningsspecifikke grader af klonalitet ved hjælp af uafhængige statistiske tilgange og iv) kortlægge afstamningsdifferentierende AMR loci som et eksempel på, hvordan man udvinder tilbehørsgenomisk indhold i forbindelse med befolkningsstrukturen. Mere bredt giver denne analytiske tilgang en generaliserbar ramme for at udføre en populationsbaseret genomisk analyse i en skala, der kan bruges til at udlede evolutionære og økologiske mønstre uanset den målrettede art.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Forbered inputfiler

BEMÆRK: Protokollen er tilgængelig her - https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. Protokollen forudsætter, at forskeren specifikt har brugt ProkEvo (eller en sammenlignelig pipeline) for at få de nødvendige output til rådighed i dette Figshare-lager (https://figshare.com/account/projects/116625/articles/15097503 - loginoplysninger er påkrævet - Brugeren skal oprette en gratis konto for at få filadgang!). Bemærk, at ProkEvo automatisk downloader genomiske sekvenser fra NCBI-SRA-arkivet og kun kræver en .txt-fil, der indeholder en liste over genomidentifikationer som input20, og den, der bruges til dette arbejde på S. Newport USA isolater findes her (https://figshare.com/account/projects/116625/articles/15097503?file=29025729).  Detaljerede oplysninger om, hvordan du installerer og bruger denne platform for bakteriel genomik, findes her (https://github.com/npavlovikj/ProkEvo/wiki/2.-Quick-start)20

  1. Generer kernegenomfylogeni ved hjælp af FastTree23 som tidligere beskrevet20, som ikke er en del af bioinformatikplatformen20. FastTree kræver Roary24 kerne-genom-justering som en inputfil. Fylogenifilen hedder newport_phylogeny.tree (https://figshare.com/account/projects/116625/articles/15097503?file=29025690).
  2. Generer SISTR25-output , der indeholder oplysninger om serovaskulære klassifikationer for Salmonella - og cgMLST-variantopkaldsdata (sistr_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025699).
  3. Generer BAPS-fil ved fastbaps26,27, der indeholder BAPS-niveauerne 1-6 klassificering af genomer i undergrupper eller haplotyper (fastbaps_partition_baps_prior_l6.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025684).
  4. Generer MLST-baseret klassificering af genomer i ST'er ved hjælp af MLST-programmet (https://github.com/tseemann/mlst)28 (salmonellast_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025696).
  5. Generer ABRicate (https://github.com/tseemann/abricate)29 output som en .csv fil, der indeholder AMR loci kortlagt pr. genom (sabricate_resfinder_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025693).
    BEMÆRK: Brugeren kan slukke for bestemte dele af ProkEvo bioinformatikrørledningen (se her for mere information - https://github.com/npavlovikj/ProkEvo/wiki/4.2.-Remove-existing-bioinformatics-tool-from-ProkEvo). Den analytiske tilgang, der præsenteres her, giver retningslinjer for, hvordan man foretager en populationsbaseret analyse, efter at bioinformatikrørledningen er kørt.

2. Download og installer den statistiske software og IDE-applikationen (Integrated Development Environment)

  1. Download den mest opdaterede frit tilgængelige version af R-softwaren til Linux, Mac eller PC30. Følg standardinstallationstrinnene.
  2. Download den mest opdaterede frit tilgængelige version af RStudio desktop IDE her31. Følg standardtrinnene for installation.
    BEMÆRK: De næste trin er inkluderet i det tilgængelige script, herunder detaljerede oplysninger om kodeudnyttelse, og skal køres sekventielt for at generere de output og tal, der præsenteres i dette arbejde (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). Brugeren kan beslutte at bruge et andet programmeringssprog til at udføre denne analytiske/statistiske analyse, f.eks. Python. I så fald skal du bruge trinnene i scripts som en ramme til at udføre analysen.

3. Installer og aktiver datavidenskabsbiblioteker

  1. Installer alle datavidenskabsbiblioteker på én gang som et første skridt i analysen. Undgå at installere bibliotekerne, hver gang scriptet skal køres igen. Brug funktionen install.packages() til biblioteksinstallation. Alternativt kan brugeren klikke på fanen Pakker inde i IDE og automatisk installere pakkerne. Koden, der bruges til at installere alle nødvendige biblioteker, præsenteres her:
    # Installer Tidyverse
    install.packages("tidyverse")
    # Installer skimr

    install.packages("skimr")
    # Installer vegansk
    install.packages("veganer")
    # Installer forkatte
    install.packages("forcats")
    # Installer naniar
    install.packages("naniar")
    # Installer ggpubr
    install.packages("ggpubr")
    # Installer ggrepel
    install.packages("ggrepel")
    # Installer omformning2
    install.packages("reshape2")
    # Installer RColorBrewer
    install.packages("RColorBrewer")
    # Installer ggtree
    hvis (!requireNamespace("BiocManager", stille = TRUE))
    install.packages("BiocManager")
    BiocManager::install("ggtree")
    # Installation af ggtree vil stille et spørgsmål om installation - svaret er "a" for at installere / opdatere alle afhængigheder
  2. Aktivér alle biblioteker eller pakker ved hjælp af biblioteksfunktionen () i begyndelsen af scriptet lige efter installationen. Her er en demonstration af, hvordan du aktiverer alle nødvendige pakker:
    # Aktivér bibliotekerne og pakkerne
    bibliotek(ryddeligt)
    bibliotek(skimr)
    bibliotek (vegansk)
    bibliotek(forcats)
    bibliotek(naniar)
    bibliotek(ggtree)
    bibliotek(ggpubr)
    bibliotek(ggrepel)
    bibliotek(omformning2)
    bibliotek(RColorBrewer)
  3. Undertrykke udsendelse af den kode, der bruges til installation og aktivering af bibliotek og pakke, ved hjælp af {r, include = FALSE} i kodepatronen som følger:
    ''' {r, include = FALSE}
    # Installer Tidyverse

    install.packages("tidyverse")
    ```

    BEMÆRK: Dette trin er valgfrit, men undgår at vise bidder af unødvendig kode i den endelige html-, doc- eller pdf-rapport.
  4. For en kort beskrivelse af de specifikke funktioner i alle biblioteker sammen med nogle nyttige links til indsamling af yderligere oplysninger henvises til trin 3.4.1-3.4.11.
    1. Tidyverse - brug denne samling af pakker, der bruges til datalogi, herunder dataindtastning, visualisering, parsing og aggregering og statistisk modellering. Typisk er ggplot2 (datavisualisering) og dplyr (data wrangling og modellering) praktiske pakker, der findes i dette bibliotek32.
    2. skimr - brug denne pakke til at generere sammenfattende statistikker over datarammer, herunder identifikation af manglende værdier33.
    3. veganer - brug denne pakke til statistiske analyser af samfundsøkologi, såsom beregning af mangfoldighedsbaserede statistikker (f.eks. Alfa- og beta-mangfoldighed)34.
    4. forcats - brug denne pakke til at arbejde med kategoriske variabler såsom ombestilling af klassifikationer. Denne pakke er en del af Tidyverse-biblioteket32.
    5. naniar - brug denne pakke til at visualisere fordelingen af manglende værdier på tværs af variabler i en dataramme ved hjælp af funktionen viss_miss ()35.
    6. ggtree - brug denne pakke til visualisering af fylogenetiske træer36.
    7. ggpubr - brug denne pakke til at forbedre kvaliteten af ggplot2-baserede visualiseringer37.
    8. ggrepel - brug denne pakke til tekstmærkning inde igraferne 38.
    9. reshape2 - brug smeltefunktionen () fra denne pakke til transformation af datarammer fra bredt til langt format39.
    10. RColorBrewer - brug denne pakke til at administrere farver i ggplot2-baserede visualiseringer40.
    11. Brug følgende grundlæggende funktioner til sonderende dataanalyse: hoved () til at kontrollere de første observationer i en dataramme, hale () til at kontrollere de sidste observationer af en dataramme, is.na () til at tælle antallet af rækker med manglende værdier på tværs af en dataramme, dim () for at kontrollere antallet af rækker og kolonner i et datasæt, tabel () for at tælle observationer på tværs af en variabel, og sum() for at tælle det samlede antal observationer eller forekomster.

4. Dataindtastning og -analyse

BEMÆRK: En detaljeret information om hvert trin i denne analyse kan findes i det tilgængelige script (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). Her er dog nogle vigtige punkter, der skal overvejes:

  1. Foretag al genomisk dataindtastning, herunder alle genotypiske klassifikationer (serovar, BAPS, ST og cgMLST) ved hjælp af funktionen read_csv ().
  2. Omdøb, opret nye variabler, og vælg kolonner af interesse fra hvert datasæt før sammenlægning af flere datasæt.
  3. Fjern ikke manglende værdier fra et uafhængigt datasæt. Vent, indtil alle datasæt er aggregeret, for at ændre eller ekskludere manglende værdier. Hvis der oprettes nye variabler for hvert datasæt, kategoriseres manglende værdier som standard i en af de nyoprettede klassifikationer.
  4. Kontroller, om der er fejlagtige tegn som bindestreger eller forhørsmærker, og erstat dem med NA (Ikke relevant). Gør det samme for manglende værdier.
  5. Aggregerede data baseret på den hierarkiske rækkefølge af genotyper (serovar -> BAPS1 -> ST -> cgMLST) og ved gruppering baseret på de enkelte genomidentifikationer.
  6. Kontroller for manglende værdier ved hjælp af flere strategier, og håndter sådanne uoverensstemmelser eksplicit. Fjern kun et genom eller isoler fra dataene, hvis klassificeringen er upålidelig. Ellers skal du overveje den analyse, der udføres, og fjerne de nationale myndigheder fra sag til sag.
    BEMÆRK: Det anbefales stærkt at etablere en strategi til at håndtere sådanne værdier a priori. Undgå at fjerne alle genomer eller isolater med manglende værdier på tværs af variabler. For eksempel kan et genom have ST-klassificering uden at have cgMLST-variantnummer. I så fald kan genomet stadig bruges til den ST-baserede analyse.
  7. Når alle datasæt er aggregeret, skal du tildele dem til et datarammenavn eller -objekt, der kan bruges flere steder i opfølgningsanalysen, for at undgå at skulle generere den samme metadatafil for hver figur i papiret.

5. Udfør analyser og generer visualiseringer

BEMÆRK: En detaljeret beskrivelse af hvert trin, der er nødvendigt for at producere alle analyser og visualiseringer, kan findes i markdown-filen til dette papir (https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code). Koden for hver figur er adskilt i bidder, og hele scriptet skal køres sekventielt. Derudover er koden for hvert hoved- og supplerende tal angivet som en separat fil (se Supplerende fil 1 og Supplerende fil 2). Her er nogle vigtige punkter (med kodestykker), der skal overvejes, når du genererer hvert hoved- og supplerende tal.

  1. Brug ggtree til at plotte et fylogenetisk træ sammen med genotypisk information (figur 1).
    1. Optimer ggtree-figurstørrelsen, inklusive diameter og bredde af ringe, ved at ændre de numeriske værdier inde i henholdsvis xlim() og gheatmap(width = ) funktionerne (se eksempelkode nedenfor).
      tree_plot <- ggtree(træ, layout = "cirkulær") + xlim(-250, NA)
      figure_1 <- gheatmap(tree_plot, d4, offset=.0, width=20, colnames = FALSE)
      BEMÆRK: For en mere detaljeret sammenligning af programmer, der kan bruges til fylogenetisk plotning, skal du kontrollere dette arbejde20. Arbejdet fremhævede et forsøg på at identificere strategier til forbedring af ggtree-baserede visualiseringer såsom at reducere datasætstørrelsen, men grenlængder og trætopologi var ikke så klart diskriminerende sammenlignet med phandango41.
    2. Saml alle metadata i så få kategorier som muligt for at lette valget af farvepanel, når du plotter flere lag data med det fylogenetiske træ (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_1.Rmd). Udfør dataaggregeringen baseret på spørgsmålet om interesse og domænekendskab.
  2. Brug et søjlediagram til at vurdere relative frekvenser (figur 2).
    1. Saml data for både ST-afstamninger og cgMLST-varianter for at lette visualiseringer. Vælg en empirisk eller statistisk tærskel, der bruges til dataaggregering, mens du overvejer det spørgsmål, der stilles.
    2. For et eksempel på en kode, der kan bruges til at inspicere frekvensfordelingen af ST-linjer for at bestemme afskæringen, se nedenfor:
      st_dist <- d2 %>% group_by(ST) %>% # gruppe efter ST-kolonnen
      tælle () %>% # tælle antallet af observationer
      arrangere(desc(n)) # arrangere optællingerne i faldende rækkefølge
    3. For et eksempel på en kode, der viser, hvordan mindre (lavfrekvente) ST'er kan aggregeres, henvises til nedenfor. Som vist nedenfor grupperes ST'er, der ikke er nummereret som 5, 31, 45, 46, 118, 132 eller 350, sammen som "Andre ST'er". Brug en lignende kode til cgMLST-varianter (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_2.Rmd).
      d2$st <- ifelse(d2$ST == 5, "ST5", # opret en ny ST-kolonne, for hvilken mindre S T'er aggregeres som Andre
      ifelse(d2$ST == 31, "ST31",
      ifelse(d2$ST == 45, "ST45",
      ifelse(d2$ST == 46, "ST46",
      ifelse(d2$ST == 118, "ST118",
      ifelse(d2$ST == 132, "ST132", ifelse(d2$ST == 350, "ST350", "Andre ST'er"))))))
  3. Brug en indlejret tilgang til at beregne andelen af hver ST-afstamning inden for hver BAPS1-undergruppe til at identificere ST'er, der er forfædres beslægtede (tilhører den samme BAPS1-undergruppe) (figur 3). Koden nedenfor eksemplificerer, hvordan den ST-baserede andel kan beregnes på tværs af BAPS1-undergrupper (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_3.Rmd):
    baps <- d2b %>% filter(serovar == "Newport") %>% # filter Newport serovar
    vælg (baps_1, ST) %>% # vælg baps_1 og ST kolonner
    mutere(ST = as.numeric(ST)) %>% # ændre ST-kolonnen til numerisk
    drop_na(baps_1, ST) %>% # drop NA'er
    group_by(baps_1, ST) %>% # gruppe efter baps_1 og ST
    summarise(n = n()) %>% # count observations
    mutere(prop = n/sum(n)*100) # beregne proportioner
  4. Plot fordelingen af AMR loci på tværs af ST-slægter ved hjælp af de Resfinder-baserede genannotationsresultater (figur 4).
    BEMÆRK: Resfinder har været meget udbredt i økologiske og epidemiologiske undersøgelser42. Annotation af proteinkodende gener kan variere afhængigt af hvor ofte databaser kurateres og opdateres. Hvis forskeren bruger den foreslåede bioinformatikpipeline, kan forskeren sammenligne AMR-baserede loci-klassifikationer på tværs af forskellige databaser20. Sørg for at kontrollere, hvilke databaser der løbende opdateres. Brug ikke forældede eller dårligt kuraterede databaser for at undgå fejlopkald.
    1. Brug en empirisk eller statistisk tærskel til at filtrere de vigtigste AMR-loci ud for at lette visualiseringer. Angiv en rå .csv fil, der indeholder de beregnede proportioner af alle AMR-loci på tværs af alle ST-afstamninger, som vist her (https://figshare.com/account/projects/116625/articles/15097503?file=29025687).
    2. Beregn AMR-andelen for hver ST ved hjælp af følgende kode (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_4.Rmd):
      # Beregninger for ST45
      d2c <- data6 %>% filter(st == "ST45") # filtrer ST45-data først
      # for ST45 skal du beregne andelen af AMR loci og kun holde en andel på over 10 %

      d3c <- d2c %>% vælg(id, gen) %>% # vælg kolonner
      group_by(id, gen) %>% # gruppe efter id og gen
      opsummere(tælle = n()) %>% # tælle observationer
      mutere(count = replace(count, count == 2, 1)) %>% # replace counts equal to 2 with 1 to only consider one copy of each gene (duplikationer er muligvis ikke pålidelige), men forskeren kan beslutte at udelukke eller beholde dem. Hvis forskeren ønsker at udelukke dem, skal du bruge filteret (count != 2) -funktionen eller ellers forlade som det er
      filter (antal < = 1) # filterantal under eller lig med 1
      d4c <- d3c %>% group_by(gen) %>% # gruppe efter gen
      opsummere(værdi = n()) %>% # antal observationer
      mutere(total = tabel(data1$st)[6]) %>% # få de samlede optællinger af st mutere(prop = (værdi/total)*100) # beregne proportioner
      d5c <- d4c %>% muterer(st = "ST45") # Opret en st-kolonne og tilføj ST-oplysninger
    3. Når beregningerne er udført for alle ST'er, skal du kombinere datasæt som én dataramme ved hjælp af følgende kode:
      # Kombiner datasæt
      d6 <- rbind(d5a, d5b, d5c, d5d, d5e, d5f, d5g, d5h) # row bind datasæt
    4. Hvis du vil eksportere .csv filen, der indeholder de beregnede proportioner, skal du bruge koden:
      # Eksporter datatabel, der indeholder ST- og AMR loci-oplysninger
      abx_newport_st <- d6 skriv.csv(abx_newport_st,"abx_newport_st.csv", row.names = FALSE)
    5. Før du plotter den AMR-baserede fordeling på tværs af ST-linjer, skal du filtrere dataene baseret på en tærskel for at lette visualiseringer, som vist nedenfor:
      # Filtrer AMR loci med andel højere end eller lig med 10%
      d7 <- d6 %>% filter(prop >= 10) # bestem tærsklen empirisk eller statistisk
  5. Plot kernegenomfylogeni sammen med de hierarkiske genotypiske klassifikationer og AMR-data i et enkelt plot ved hjælp af ggtree (figur 5).
    1. Optimer figurstørrelsen inde i ggtree ved hjælp af ovennævnte parametre (se trin 5.1.1.).
    2. Optimer visualiseringer ved at aggregere variabler eller bruge binær klassificering såsom gentilstedeværelse eller fravær. Jo flere funktioner der føjes til plottet, jo sværere bliver farvevalgsprocessen (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_5.Rmd).
      BEMÆRK: Supplerende tal - detaljeret beskrivelse af hele koden kan findes her (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd).
  6. Brug et punktdiagram i ggplot2 uden dataaggregering til at vise fordelingen af ST-afstamninger eller cgMLST-varianter, mens du fremhæver de hyppigste genotyper (supplerende figur 1) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s1.Rmd).
  7. Foretag en indlejret analyse for at vurdere sammensætningen af ST-slægter gennem andelen af cgMLST-varianter for at få et glimt af den ST-baserede genetiske mangfoldighed, samtidig med at de hyppigste varianter og deres genetiske forhold identificeres (dvs. cgMLST-varianter, der tilhører den samme ST, delte en forfader for nylig end dem, der tilhører forskellige ST'er) (supplerende figur 2 ) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s2.Rmd).
  8. Brug samfundsøkologimetrisk, nemlig Simpsons D-indeks for mangfoldighed, til at måle graden af klonalitet eller genotypisk mangfoldighed af hver af de store ST-slægter43 (supplerende figur 3).
    1. Beregn indekset for mangfoldighed på tværs af ST-slægter på forskellige niveauer af genotypisk opløsning, herunder BAPS niveau 1 til 6 og cgMLST. Nedenfor er kodeeksemplet på, hvordan du foretager denne beregning på BAPS-niveau 1 (BAPS1) af genotypisk opløsning:
      # BAPS niveau 1 (BAPS1)
      # drop ST'erne og BAPS1 med NA'er, gruppér efter ST og BAPS1 og beregn derefter Simpsons indeks
      baps1 <- data6%>%
      vælg (st, BAPS1) %>% # vælg kolonner
      drop_na (st, BAPS1) %>% # drop NA'er
      group_by(st, BAPS1) %>% # gruppe efter kolonner
      summarise(n = n()) %>% # count observations
      mutere(simpson = mangfoldighed(n, "simpson")) %>% # beregne mangfoldighed
      group_by(st) %>% # gruppe efter kolonne
      summarise(simpson = mean(simpson)) %>% # beregn gennemsnittet af indekset
      melt(id.vars=c("st"), measure.vars="simpson",
      variable.name="index", value.name="value") %>% # covert into long format
      mutere(strat = "BAPS1") # oprette en stratkolonne
      BEMÆRK: En mere genetisk forskelligartet population (dvs. flere varianter i forskellige lag af genotypisk opløsning) har et højere indeks på cgMLST-niveau og producerer en stigende indeksbaseret værdi, der går fra BAPS-niveau 2 til 6 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s3.Rmd).
  9. Undersøg graden af genotypisk mangfoldighed af ST-slægter ved at plotte den relative frekvens af BAPS-undergrupper på alle opløsningsniveauer (BAPS1-6) (supplerende figur 4). Jo mere forskelligartet befolkningen er, jo sparsommere bliver fordelingen af BAPS-undergrupper (haplotyper) fra BAPS1 (lavere opløsningsniveau) til BAPS6 (højere opløsningsniveau) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s4.Rmd).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Ved at anvende beregningsplatformen ProkEvo til populationsgenomiske analyser består det første skridt i bakteriel WGS-datamining i at undersøge den hierarkiske populationsstruktur i forbindelse med en kernegenomfylogeni (figur 1). For så vidt gældende for S. enterica slægt I, som eksemplificeret ved S. Newport datasæt, populationen er hierarkisk struktureret som følger: serovar (laveste opløsningsniveau), BAPS1-undergrupper eller haplotyper, ST-slægter og cgMLST-varianter (højeste opløsningsniveau)20. Denne fylogenistyrede analyse af den hierarkiske populationsstruktur gør det specifikt muligt at undersøge følgende punkter: i) fylogenetisk fordeling af SISTR-baserede fejlklassificerede genomer i andre serovarer i tilfælde af salmonella; ii) befolkningens genetiske eller slægtskabsstruktur iii) diversificeringsmønster på forskellige niveauer af genotypisk opløsning iv) identifikation af større genotypiske enheder, der ligger til grund for et evolutionært, økologisk eller epidemiologisk mønster v) forfædres forhold mellem ST-slægter gennem BAPS1-undergrupper eller haplotypesammensætning og på tværs af cgMLST-varianter inden for ST-slægter og vi) delvis visning af graden af genotypisk homogenitet af en ST-slægt ved hjælp af cgMLST-variantsammensætningen.

Figure 1
Figur 1: Fylogenistyret kortlægning af hierarkiske genotyper for S. Newport befolkning. En kerne-genomfylogeni (sort centreret cirkel) blev brugt til at kortlægge hierarkiske genotyper, herunder serovar (laveste opløsningsniveau - inderste farvede cirkel), BAPS niveau 1 (BAPS1) undergrupper eller haplotyper, ST-slægter og cgMLST-varianter (højeste opløsningsniveau - yderste farvede cirkel). Seroboer blev grupperet i Newport (S. Newport) eller "Andre serovaskulære" baseret på SISTR algoritmisk klassificering af genomer, som udnyttede kerne-genom MLST-information og kørte som en del af beregningsplatformen ProkEvo. BAPS1 stratificerer agnostisk populationen i undergrupper eller klynger af beslægtede haplotyper ved hjælp af kernegenomiske data inden for ProkEvo. BAPS1 er hierarkisk placeret mellem serovar- og ST-slægter, fordi den nøjagtigt fangede forfædrenes forhold mellem ST'er. ST-slægter dannes baseret på kanonisk MLST-analyse ved hjælp af syv genomspredte loci. Kun større eller hyppigste ST'er (andel >1%) blev afbildet i grafen. Endelig blev kun de hyppigste cgMLST-varianter (andel >3,5%) brugt til at vise hele den hierarkiske struktur for S. Newport befolkning (n = 2.365 USA isolerer kun). Kategorien "Andre ST'er" eller "Andre cgMLST'er" består af henholdsvis mindre eller lavfrekvente afstamninger eller varianter, med tærskler udført vilkårligt, som bør fastsættes empirisk eller statistisk baseret på datasættet. Klik her for at se en større version af denne figur.

Relative frekvenser af alle hierarkiske genotyper blev derefter brugt til at evaluere den samlede fordeling og hyppigst observerede klassifikationer (dvs. genotyper) (figur 2). I figur 2C-D blev mindre hyppige (mindre) ST-afstamninger eller cgMLST-varianter aggregeret som henholdsvis "Andre ST'er" eller "Andre cgMLST'er" for at lette datavisualisering (dimensionsreduktion). Hvis prøveudtagning systematisk udføres på tværs af miljøer og/eller værter og er passende statistisk drevet, kan frekvensfordeling blive en proxy for økologisk egnethed. Det vil sige, at de hyppigste slægter eller varianter derefter kunne forudsiges at have højere egnethed, hvilket fulgte yderligere undersøgelse for at bestemme de forårsagende genetiske determinanter, der ligger til grund for et sådant kvantitativt træk 6,30.

Figure 2
Figur 2: Andel af S. Newport hierarkiske genotyper på forskellige opløsningsniveauer. (A) Serofarer er fænotyper af S. enterica afstamning I population, der udelukkende kan forudsiges ud fra kerne-genomiske data på grund af den arvelige høje kobling uligevægt mellem core-loci og O og H antigenkodende loci (overfladeproteiner). Ved brug af ProkEvo klassificeres Salmonella-genomer automatisk til seroforer ved hjælp af SISTR-programmet. Selvom det kun er S. Newport (Newport) genomer fra NCBI blev angiveligt downloadet, nogle er blevet klassificeret som "Andre seromors" inden for ProkEvo. Ca. 2% (48 ud af 2.365) af alle genomer blev klassificeret som andre end S. Newport serovar. B) Andelen af BAPS-undergrupper på niveau 1 (BAPS1) eller haplotyper. BAPS1 indsættes mellem serovar- og ST-slægter i det hierarkiske skema, fordi det nøjagtigt og agnostisk fangede forfædrenes forhold mellem ST'er. (C) Andelen af større ST-slægter afbildede kun ST'er, der var > 1% i relativ frekvens. Mindre ST'er blev grupperet som "Andre ST'er". (D) Andelen af større cgMLST-varianter viste kun fire fremherskende cgMLST'er, der var >3% i relativ frekvens. Resten cgMLST'er blev grupperet som "Andre cgMLST'er". (B-D) Genomer klassificeret af SISTR som "Andre serovar" (2,03%) blev filtreret ud af dataene før plotning af BAPS1, ST og cgMLST relative frekvenser. (C-D) Tærskler, der blev anvendt til at plotte både ST- og cgMLST-data, blev vilkårligt defineret og bør fastsættes empirisk fra sag til sag. Klik her for at se en større version af denne figur.

Alternativt kan et scatter-plot bruges til at vurdere fordelingen og andelen af både ST-slægter eller cgMLST-varianter uden nogen dataaggregering (supplerende figur 1). Denne brug af et scatter-plot er især nyttigt for ST-slægter og cgMLST-varianter på grund af den typiske forekomst af hundrededele, hvis ikke tusinder, klassifikationer for begge genotyper. Denne sparsomme fordeling forekommer almindeligvis ikke for serovar- og BAPS1-opløsningsniveauerne, fordi de er på et lavere opløsningsniveau med sekvenser, der arveligt kollapser i nogle få undergrupper eller kategorier.

Dernæst blev de forfædres forhold mellem ST'er undersøgt ved hjælp af en indlejret tilgang, der omfatter vurdering af den relative frekvens af ST-slægter ved BAPS1-undergrupper eller haplotyper (figur 3). ST-slægter, der tilhørte den samme BAPS1-undergruppe, var mere tilbøjelige til at have delt en fælles forfader for nylig end med andre ST'er (dvs. ST5 og ST118 vs. ST45). Tilsvarende kan graden af genotypisk heterogenitet på tværs af ST'er ved at undersøge fordelingen af cgMLST-varianter inden for ST-slægter fanges, samtidig med at deres genetiske sammensætning vurderes og det forfædres forhold mellem cgMLST'er (dvs. nært beslægtede cgMLST-varianter tilhører den samme ST-slægt eller klonale kompleks) (supplerende figur 2).

Figure 3
Figur 3: Fordeling af ST-slægter indlejret i BAPS1-undergrupper for S. Newport befolkning. Dette plot viser ST-afstamningsfordelingen inden for hver BAPS niveau 1-undergruppe eller haplotype, eksklusive genomer klassificeret som "Andre serovarer" (2,03% af de samlede data). Større ST'er (andel >1 %) for hver BAPS1-undergruppe er fremhævet i hver graf. Jo større cirkeldiameteren er, desto højere er andelen for den pågældende ST-slægt. Klik her for at se en større version af denne figur.

I betragtning af at mønsteret af S. Newport-populationsdiversificering syntes hovedsagelig at være drevet af ST-sammensætning (figur 1), to statistiske tilgange blev anvendt til at vurdere den ST-baserede grad af klonalitet (dvs. genetisk homogenitet), herunder Simpsons D-indeks for mangfoldighed (supplerende figur 3) og fordelingen af BAPS-undergrupper eller haplotyper ved hjælp af BAPS-niveauer 1-6 (supplerende figur 4 ). En vurdering af graden af klonalitet i en population kan belyse følgende aspekter: i) en bedre forståelse af genetisk mangfoldighed og befolkningsstruktur; ii) finjusteringsanalyse af diversificeringsmønstre på tværs af større genotypiske enheder såsom ST-slægter og iii) være en indikator for nødvendigheden af at bruge accessorisk genomminedrift til at finde kryptiske genotypiske enheder, der kan afsløre nye underklynger, der er til stede i befolkningen. Jo mere klonal en population er på kernegenomniveau, jo sværere bliver det at skelne mellem varianter, og jo mere sandsynligt vil tilbehørsgenomets indhold være informativt til at stratificere befolkningen i meningsfulde genotypiske enheder forbundet med unikke økologiske fordelinger 18,19,21.

Den relative hyppighed af ST-afstamning, der differentierer AMR loci, blev vurderet for at identificere unikke tilbehørsgenomiske signaturer knyttet til S. Newport befolkningsstruktur (figur 4). Dette trin i analysen var fokuseret på AMR-distribution, fordi det er et folkesundhedsrelateret træk, men den samme tilgang kan anvendes på en overvåget (målrettet) eller agnostisk måde for at undersøge andre komponenter i tilbehørsgenomet, herunder metaboliske veje, virulensfaktorer osv. Det er bemærkelsesværdigt, at mdf(A)_1 og aac(6')-Iaa_1 loci synes at være forfædre-erhvervet af S. Newport befolkning; der henviser til, at ST45 forventes at være multiresistent. Påfaldende nok tyder disse data også på, at de andre store ST-slægter, ST5 og ST118, er mere tilbøjelige til at være multi-drug modtagelige sammenlignet med ST45. Disse punkter skal overvejes nøje på grund af de skævheder, der findes i datasættet; Dette repræsenterer imidlertid en potentiel epidemiologisk slutning, der kunne drages af mere robuste WGS-dataindsamlinger.

Generelt er her nogle punkter, der skal overvejes, når man udfører en tilbehørsgenomkortlægning på hierarkiske genotyper: i) overvej frekvensfordelingen som et kvantitativt træk, men vær opmærksom på, at den alleliske sammensætning af et locus kan ændre trækvarians. Desuden bør tilstedeværelsen af et locus eller loci være tegn på funktion, men ikke kausal, fordi fænotypen kan være polygen eller variere afhængigt af allelsammensætningen for det forårsagende locus (f.eks. er en ikke-synonym mutation på et proteins aktive sted mere tilbøjelig til at påvirke funktionen); ii) loci-fordeling kan påvise gener, der er faste i populationen (f.eks. findes i højfrekvent på tværs af alle ST-slægter) eller for nylig erhvervet af specifikke ST-slægter og cgMLST-varianter, og kan afspejle det økologiske eller epidemiologiske mønster iii) multiresistens kan forudsiges ud fra genomiske data. Og hvis fordelingen af AMR loci eller andre veje er stærkt forbundet eller almindeligt arvet af specifikke slægter, kan fænotyper forudsiges ved slutning fra hierarkiske genotyper, som i tilfælde af ST-slægter45,46; og iv) måling af fænotyper i laboratoriet er stadig deterministisk for at validere beregningsmæssige forudsigelser.

Figure 4
Figur 4: Fordeling af AMR loci på tværs af større ST-slægter af S. Newport befolkning. Relativ frekvensbaseret fordeling af et udvalgt antal AMR-loci på tværs af større ST-slægter (>1% af befolkningen). Mindre ST'er blev grupperet som "Andre ST'er". Kun genomer klassificeret som S. Newport af SISTR-algoritmen blev holdt i analysen. AMR loci med en relativ frekvens større end eller lig med 10% blev valgt til datavisualisering. Dette er en vilkårlig tærskel, der skal bestemmes for hvert datasæt. Proportionerne blev beregnet ved hjælp af en binær matrix sammensat af gentilstedeværelse eller fravær. Klik her for at se en større version af denne figur.

Endelig blev en fylogeniforankret visualisering brugt til systematisk at integrere de hierarkiske populationsstrukturdata sammen med ST-afstamning, der differentierede AMR loci-fordeling baseret på genforekomst (figur 5). Ved at kombinere populationsstrukturen sammen med den accessoriske genomiske sammensætning kan følgende sæt spørgsmål behandles i et givet datasæt: 1) Hvordan er populationen struktureret? Hvordan relaterer ST'er sig til hinanden og forfædre gennem BAPS1-undergrupper? Hvor variabel er cgMLST-sammensætningen på tværs af ST'er? 2) Hvad er det fylogenetiske forgreningsmønster og den overordnede trætopologi? og 3) Hvordan fordeles tilbehørsgenomet? Er den accessorisk genomiske sammensætning sandsynligvis forfædre-erhvervet eller nyligt afledt? Hvad er det slægts- eller variantspecifikke mønster? Hvad er den fænotypiske forudsigelse og økologiske slutning? Er der niche-transcenderende vs. niche-specificerende gener? Hvordan relaterer eller informerer det observerede mønster epidemiologien i tilfælde af patogener? Kan slægter eller varianter informativt undergruppes baseret på tilbehørsgenomisk indhold?

Figure 5
Figur 5: Fylogenistyret kortlægning af hierarkiske genotyper og tilbehør AMR loci, der skelner mellem større ST-slægter inden for S. Newport befolkning. En kerne-genomfylogeni (sort centreret cirkel) blev brugt til at kortlægge hierarkiske genotyper, herunder serovar (laveste opløsningsniveau - inderste farvede cirkel), BAPS niveau 1 (BAPS1) undergrupper eller haplotyper, ST-slægter og cgMLST-varianter (højeste opløsningsniveau - yderste farvede cirkel) sammen med AMR-loci farvet som mørkeblå, hvis den er til stede eller grå, hvis den er fraværende. Seroboer blev grupperet i Newport (S. Newport) eller "Andre seromors" baseret på SISTR algoritmisk klassifikation. BAPS1 er hierarkisk placeret mellem serovar- og ST-slægter, fordi den nøjagtigt og agnostisk fangede forfædrenes forhold mellem ST'er. ST-slægter dannes baseret på kanonisk MLST-analyse ved hjælp af syv genomspredte loci. Kun større eller hyppigste ST'er (andel >1%) blev afbildet i grafen. Desuden blev kun de mest dominerende cgMLST-varianter (andel >3,5%) brugt til at vise hele den hierarkiske struktur for S. Newport befolkning (n = 2.365 USA isolerer kun). Kategorien "Andre ST'er" eller "Andre cgMLST'er" består af henholdsvis mindre eller lavfrekvente afstamninger eller varianter, og tærsklen blev foretaget vilkårligt og bør fastsættes på grundlag af datasættet. AMR loci med en relativ frekvens større end eller lig med 10% blev valgt til datavisualisering. Denne specifikke graf viser en unik fordeling af AMR loci overvejende forekommende i ST31, ST45 og ST132 slægter. Klik her for at se en større version af denne figur.

Supplerende figur 1: Sparsom fordeling af ST-afstamninger og cgMLST-varianter for S. Newport befolkning. (A) Andelen af ST-afstamninger uden at aggregere lavfrekvente ST'er. ST'er med en andel >1% fremhæves i plottet. B) Andelen af cgMLST-varianter uden aggregering af lavfrekvente cgMLST'er. cgMLST'er med andel > 3% fremhæves i plottet. (A-B) Tærskler, der blev brugt til at plotte både ST- og cgMLST-data, blev vilkårligt defineret og bør fastsættes på grundlag af datasættet. Genomer klassificeret af SISTR som "Andre serobrere" (2,03%) blev filtreret ud af dataene, før de plotte både ST og cgMLST relative frekvenser. Jo større cirkeldiameteren er, desto højere er andelen for enten ST-afstamningen eller cgMLST-varianten. Klik her for at downloade denne fil.

Supplerende figur 2: Fordeling af cgMLST-varianter indlejret i ST-slægter for S. Newport befolkning. Dette plot viser cgMLST-variantfordelingen på tværs af ST-slægter, eksklusive genomer klassificeret som "Andre serovarer" (2,03% af de samlede data). Større cgMLST'er (andel >15%) for hver ST-afstamning er fremhævet i hver graf. Jo større cirkeldiameteren er, desto højere er andelen for den specifikke cgMSLT-variant. Lavfrekvente ST'er blev grupperet som "Andre ST'er". Klik her for at downloade denne fil.

Supplerende figur 3: Simpsons D-baserede grad af genetisk mangfoldighed på tværs af ST-slægter ved hjælp af BAPS-niveauer 1-6 haplotyper eller cgMLST-genotyper som inputdata for S. Newport befolkning. Graden af klonalitet eller genetisk mangfoldighed for hver ST-slægt blev beregnet på tværs af forskellige genotypiske opløsningslag, herunder BAPS-niveau 1 (laveste opløsningsniveau) til 6 (højeste opløsningsniveau) undergrupper eller haplotyper, og ved desuden at anvende den cgMLST-baserede fordeling af varianter. Jo højere indeksværdien er, desto højere er graden af genetisk mangfoldighed. Meget forskelligartede ST-afstamninger har højere indeksværdier, der går fra BAPS1 til BAPS6 (dvs. typisk stiger indekset og til sidst plateauer, når man går fra BAPS1 til BAPS6). Kun genomer klassificeret som S. Newport af SISTR-programmet blev holdt i analysen. Lavfrekvente ST'er blev grupperet som "Andre ST'er". Klik her for at downloade denne fil.

Supplerende figur 4: Fordeling af BAPS-niveau 1-6 undergrupper eller haplotyper på tværs af større ST-slægter af S. Newport-befolkningen. Relativ frekvensbaseret fordeling af BAPS-undergrupper eller haplotyper på tværs af større ST-slægter fra den laveste (BAPS1) til det højeste opløsningsniveau (BAPS6). Større ST'er blev udvalgt ud fra en andel >1%. Kun genomer klassificeret som S. Newport af SISTR-programmet blev holdt i analysen. Jo højere grad af klonalitet, jo mindre sparsom eller spredt bliver fordelingen af BAPS-undergrupper eller haplotyper, når man går fra BAPS1 til BAPS6. Med andre ord har en mere genetisk forskelligartet ST-slægt en bredere vifte af BAPS-undergrupper på BAPS-niveau 6 (højeste opløsningsgrad). Lavfrekvente ST'er blev grupperet som "Andre ST'er". Klik her for at downloade denne fil.

Supplerende fil 1: Links til materialeliste og genomliste Klik her for at downloade denne fil.

Supplerende fil 2: Hierarkisk baseret bakteriepopulationsgenomikanalyse ved hjælp af R Klik her for at downloade denne fil.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Anvendelsen af en systembaseret heuristisk og hierarkisk befolkningsstrukturanalyse giver en ramme for at identificere nye genomiske signaturer i bakterielle datasæt, der har potentiale til at forklare unikke økologiske og epidemiologiske mønstre20. Derudover kan kortlægningen af tilbehørsgenomdata på populationsstrukturen bruges til at udlede forfædres erhvervede og / eller nyligt afledte træk, der letter spredningen af ST-slægter eller cgMLST-varianter på tværs af reservoirer 6,20,21,45,46. Mere generelt kan en global vurdering af pan-genomisk indholdsfordeling i bakteriepopulationer afsløre diversificeringsmønstre, der ligger til grund for de økologiske tropismer eller geospatiale / tidsmæssige flaskehalse, som en befolkning måske for nylig har modstået18,21. For patogene arter kan genetiske determinanter forbundet med zoonotiske hændelser ved at udvinde populationsstrukturen af kliniske isolater vs. miljøisolater identificeres og anvendes til at forbedre diagnosticering og overvågning33,34. Den samme tilgang kan anvendes på ikke-patogene arter til at identificere genotyper med ønskelige nichespecifikke engrafting egenskaber, som i tilfælde af gastrointestinale probiotiske stammer, der anvendes til at forbedre menneskers sundhed 49,50,51. Alligevel kræver brugen af bakterielle WGS-data til befolkningsbaserede forespørgsler brug af reproducerbare, automatiserede og skalerbare beregningsplatforme som ProkEvo20. Enhver beregningsmæssig tilgang kommer med sine forbehold og nuancer, men generelt kan frit tilgængelige, veldokumenterede, bærbare og brugervenlige platforme som ProkEvo lette arbejdet hos mikrobiologer, økologer og epidemiologer, der udfører heuristisk bakteriel populationsbaseret genomik.

I det foreliggende arbejde blev det demonstreret, hvordan man bruger ProkEvo-afledte output til at gennemføre en hierarkisk populationsstrukturanalyse, der kan bruges til at kortlægge og spore genotyper af interesse på forskellige opløsningsniveauer sammen med forudsige nyttige træk fra WGS-data. Denne beregningsprotokol blev skrevet ved hjælp af R-programmeringssproget, men rammen eller den konceptuelle tilgang kan generaliseres til andre sprog som Python gennem brugen af Pandas-biblioteket, for eksempel. Inputdataene genereres af ProkEvo20, hvilket forhindrer, at nogle forhindringer står over for med hensyn til standardisering af output og dataformater til efterfølgende analyse. Med undtagelse af fylogenier findes alle andre inputdatasæt i et tabelformat, der let kan kvalitetskontrolleres, aggregeres, analyseres og integreres for at generere nyttige rapporter til datafortolkning. Det er dog vigtigt at fremhæve et par kritiske trin for at forbedre reproducerbarheden, mens du bruger denne protokol: i) Sørg for, at softwareversionerne altid opdateres og spores; ii) spore de versioner af datavidenskabsbibliotekerne, der anvendes, og helst opdatere dem over tid iii) kvalitetskontrol af dataene ved hjælp af ekspertise inden for domæneviden for at give mening om de output, der genereres af ProkEvo eller en lignende pipeline, i lyset af, hvad der forstås for den tiltænsede bakteriepopulation iv) foretage en sonderende dataanalyse, inden der anvendes en modelleringsmetode v) aggregere dataene på grundlag af empirisk viden og/eller statistiske vurderinger vi) fastlægge en strategi for håndtering af manglende værdier på forhånd og være konsekvent og fuldstændig gennemsigtig med hensyn hertil vii) hvis du bruger R, skal du prøve at bruge alle de pakker, der leveres af Tidyverse, fordi denne samling letter funktionel programmering, bærbarhed, optimering og er frit tilgængelig; og viii) være opmærksom på, at visualiseringsmetoder kan være vanskelige, fordi det kræver nogle forsøg og fejl at få den rigtige type plot og farveskema, der er mest passende anvendelig til det spørgsmål, der stilles, og de data, der portrætteres.

Bemærk, at denne protokol kommer med nogle begrænsninger, der kan forbedres yderligere. For eksempel har ProkEvo en iboende grænse for, hvor mange genomer der kan bruges til pan-genomisk analyse, hvis kerne-genomjusteringstrinnet genereres samtidigt, mens roary-programmet udnyttes (~ 2.000-3.000 genomer)24. Det er en meget specifik flaskehals i pipelinen, der vil påvirke antallet af genomer, der kan klassificeres i BAPS-haplotyper, da det afhænger af kerne-genom-justering (dvs. meget beregningsmæssigt krævende trin). Imidlertid kan kerne-genomjustering udføres med andre programmer52, og sådanne algoritmer kunne i teorien let indarbejdes i ProkEvo. Ellers kan datasæt strategisk opdeles i tilfældige delmængder eller på et andet grundlag, f.eks. ved at overveje populationsstrukturen i den pågældende organisme. Alternativt kan ProkEvo køres med et enkelt genom for at få ST-baseret annotation, antibiotikaresistens og virulensgensammensætning og kortlægning af plasmider, men pipelinen blev designet til populationsbaseret genomik. Bemærkelsesværdigt, hvis BAPS1-6-klassifikationerne ikke er nødvendige, kan Roarys kernegenomjusteringsmulighed slukkes, og i så fald kan ProkEvo bruges med mange hundrededele af tusinder af genomer - det er kun begrænset baseret på antallet af tilgængelige computerkerner. Et eksempel på, hvordan man implementerer et nyt program, eller hvordan man deaktiverer kernegenomjusteringsindstillingen i Roary inden for ProkEvo, findes i følgende GitHub-links (henholdsvis https://github.com/npavlovikj/ProkEvo/wiki/4.1.-Add-new-bioinformatics-tool-to-ProkEvo) og (https://github.com/npavlovikj/ProkEvo/wiki/4.3.-Change-running-options-for-existing-tool-in-ProkEvo). I tilfælde af tilbehør genomisk minedrift afhænger en agnostisk analyse af udnyttelsen af pan-genomisk . Rtab-fil genereret af Roary24, som ikke specifikt blev brugt her, men i stedet blev det strategisk demonstreret, hvordan man kortlægger AMR loci med ABRicate ved hjælp af Resfinder-databasen (https://github.com/tseemann/abricate). Ikke desto mindre er der mulighed for at udvide omfanget af den tilbehørsgenomiske kortlægning ved i stedet at bruge en pan-genomisk fil, som praktisk talt kan ses som en udvidelse af den nuværende tilgang (f.eks. Flere loci inkluderet i tabeldatasættet som nye kolonner). Det er vigtigt at nævne, at den pan-genomiske kortlægning udført af ProkEvo kun gav binær information med hensyn til loci-sammensætning og i øjeblikket ikke kan bruges til identifikation af enkeltnukleotidpolymorfier på tværs af gener.

En anden begrænsning af denne protokol er visualiseringen af det fylogenetiske træ. I øjeblikket er ggtree det valgte program, men det kommer på bekostning af at være ude af stand til nøjagtigt at inspicere grenlængder og bliver besværligt, når mange lag data skal tilføjes til fylogeni. Alternativt er phandango41 en brugervenlig, skalerbar websideformateret GUI (https://jameshadfield.github.io/phandango/#/)41, der let kan bruges til at nå det samme mål, og yderligere detaljerede oplysninger om, hvordan man bruger den med ProkEvo-output, er for nylig offentliggjort20. Andre værktøjer som iTOL kan også bruges til fylogeniafhængig visualisering af data53, men de kræver brug af en GUI og kan ikke indarbejdes i automatiserede scripts. Også nøjagtige kerne-genomfylogenier kan være vanskelige at estimere på grund af den kryptiske datasætafhængige virkning af vandret genoverførsel. Programmer som Gubbins54 kan bruges til dette formål, men de kommer også med visse begrænsninger, såsom behovet for at bruge helgenomjustering og ST-afstamningsspecifikke datasæt til korrekt estimering af fylogenier. I stedet kan andre fylogeni-uafhængige tilgange implementeres, som derefter ender med at kræve, at andre typer visualiseringer integrerer metadata eller tilbehør genomisk information, som i tilfælde af flerdimensionel analyse55,56. Endelig blev der anvendt en empirisk og vilkårlig tilgang til at aggregere mindre ST-slægter og cgMLST-varianter ud over at filtrere de vigtigste AMR-loci, der skulle kvantificeres. Denne type dataaggregering kan udføres empirisk ved hjælp af domænevidenekspertise, men kan også opnås statistisk ved at definere et forudgående kriterium for den andel af fordelingen, der skal vises, eller ved at bruge distributionsrelaterede målinger såsom interkvartilområde, standardafvigelse eller skævhed for i sidste ende at definere en tærskel. Det er vigtigt, at definitionen af mindre genotyper påvirkes direkte af dataenes art, da prøvestørrelse og bias i typerne af miljøprøver direkte kan påvirke den genotypiske sammensætning. Uanset hvad er hovedovervejelsen, at kortlægningen af tilbehørsgenomindhold på populationsstrukturen gør det muligt at identificere potentielle genetiske determinanter for økologisk diversificering, såsom nicheoverskridende eller niche-specificerende gener 57,58,59.

Selv om de tilgængelige R-scripts var designet til automatisering af det nuværende arbejde, skulle alle leverede scripts videreudvikles for at blive et abstrakt og implementerbart datavidenskabsbibliotek, der f.eks. kunne være en integreret del af ProkEvo-pipelinen. Ikke desto mindre er der nogle specifikke fordele ved at anvende denne tilgang, såsom brugen af BAPS niveau 1 genolympning eller klyngeordning. Placeringen af BAPS niveau 1-undergrupper eller haplotyper mellem serovar- og ST-slægter blev defineret empirisk baseret på salmonellapopulationens genetiske struktur, men det ser ud til at være gældende for andre arter såsom Campylobacter jejuni og Staphylococcus aureus20. Desuden fanger BAPS1 nøjagtigt det forfædres forhold mellem ST-slægter og giver en skalerbar tilgang til evolutionær analyse, især når fylogenetiske anvendelser er begrænset20. Desuden letter brugen af en indlejret tilgang til undersøgelse af hierarkiske relationer og diversificeringsmønstre identifikationen af herkomst mellem ST-slægter ved hjælp af BAPS1-undergrupper og på tværs af cgMLST-varianter ved hjælp af ST-slægter, der successivt går fra lavere til højere genotypisk opløsning ved vurdering af populationsstrukturen. Det er vigtigt at gentage, at frekvensfordelingen af ST-slægter og cgMLST-varianter, hvis den trækkes fra en systematisk indsamlet og statistisk drevet prøve, kan blive en proxy for økologisk egnethed 1,6,43. Derfor vil dominerende ST-slægter og cgMLST-varianter sandsynligvis indeholde unikke genomiske træk, der kan danne grundlag for den biologiske mekanisme for deres dominans i befolkningen i det pågældende miljø eller vært.

Heri blev to uafhængige statistiske målinger brugt til at vurdere graden af klonalitet af befolkningen, hvilket giver mulighed for en hjælpeforståelse af populationens genetiske mangfoldighed, hvilket kan indikere den tidligere forekomst af prøvebias, populationsflaskehalse eller grundlæggereffekt. Især kan den agnostiske vurdering af BAPS-niveau 1-6-undergrupper på tværs af ST-slægter forfine forståelsen af genetisk mangfoldighed, som typisk ikke kan løses ved blot at se på Salmonella cgMLST-variantniveauet genereret af SISTR. Som tidligere nævnt kan andre funktioner i pan-genomet kortlægges på populationsstrukturen, og filer, der indeholder plasmid- og virulensgensammensætning, ud over udnyttelsen af andre AMR-databaser sammen med agnostisk pan-genomdatasæt genereres automatisk af ProkEvo20. Bemærk, at ProkEvo i øjeblikket ikke tillader differentiering mellem AMR loci til stede i bakteriekromosomet vs. plasmider. Økologiske og epidemiologiske metadata kan også let integreres i denne analytiske tilgang ved at inkorporere andre variabler i en .csv fil, der indeholder al den genomiske information. Især supplerer det arbejde, der præsenteres her, specifikt udnyttelsen af den skalerbare og bærbare beregningsplatform ProkEvo, som blev designet til at blive brugt af forskere med fokus på heuristiske populationsgenomikanalyser, der letter datamining og tilpasning af brugeren. Andre platforme kan bruges til genotypning, populationsstrukturanalyse og/eller kortlægning af tilbehørsgenomer som Enterobase5, PATRIC60 ogBacWGSTdb61. Sidstnævnte er fremragende ressourcer, der letter genomics data mining for forskere, der ikke søger at tilpasse og udnytte cluster computing til skalerbar og kompleks analyse. Den analytiske tilgang, der præsenteres her, er specielt skræddersyet til forskere, der ønsker at have fleksibiliteten til at udføre en populationsgenomikanalyse ved hjælp af reproducerbare scripts på deres lokale maskine eller ved hjælp af en sky- eller højtydende beregningsplatform.

Afslutningsvis var den analytiske R-baserede platform, der blev præsenteret i dette arbejde, rettet mod at give en praktisk vejledning til mikrobiologer, økologer og epidemiologer om, hvordan man: i) bruger fylogeniafhængige tilgange til at kortlægge hierarkiske genotyper; ii) vurdere frekvensfordelingen af genotyper som en proxy for evaluering af økologisk egnethed iii) bestemme afstamningsspecifikke grader af klonalitet ved hjælp af uafhængige statistiske tilgange og iv) kortlægge afstamningsdifferentierende AMR loci som et eksempel på, hvordan man udvinder tilbehørsgenomisk indhold i forbindelse med befolkningsstrukturen. De scripts, der leveres her, kan bruges på enten en lokal maskine eller en højtydende beregningsplatform. For eksperimentelle og miljømæssige mikrobiologer letter denne tilgang undersøgelser af datasæt med det formål at identificere unikke træk og kandidatveje til yderligere mekanistiske undersøgelser, der i sidste ende kan kontekstualiseres på befolkningsniveau. Økologer kan drage fordel af denne tilgang ved at være i stand til at analysere moderate til store datasæt, der i teorien øger den statistiske magt, der er nødvendig for at finde signaturer af selektion i en befolkning, mens man overvejer slægtskabsforhold og diversificeringsmønstre. Endelig kan epidemiologer udnytte unikke praktiske oplysninger til diagnostik og overvågning ved at definere genotypiske interesseenheder og forudsige folkesundhedsrelaterede træk såsom AMR. Mere bredt giver denne analytiske vejledning en generaliserbar ramme for at udnytte ProkEvo til at udføre en populationsbaseret genomisk analyse, der kan bruges til at udlede evolutionære og økologiske mønstre for patogene og ikke-patogene arter, da tilgangen kan generaliseres til andre bakteriearter.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har erklæret, at der ikke findes konkurrerende interesser.

Acknowledgments

Dette arbejde blev støttet af finansiering fra UNL-IANR Agricultural Research Division og National Institute for Antimicrobial Resistance Research and Education og af Nebraska Food for Health Center ved Food Science and Technology Department (UNL). Denne forskning kunne kun afsluttes ved at bruge Holland Computing Center (HCC) ved UNL, som modtager støtte fra Nebraska Research Initiative. Vi er også taknemmelige for at have adgang gennem HCC til ressourcer fra Open Science Grid (OSG), som støttes af National Science Foundation og US Department of Energy's Office of Science. Dette arbejde brugte Pegasus Workflow Management Software, som er finansieret af National Science Foundation (bevilling #1664162).

Materials

Name Company Catalog Number Comments
amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

DOWNLOAD MATERIALS LIST

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user's guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 - Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. Seemann, T. MLST. GitHub. , Available from: https://github.com/tseemann/mist (2020).
  29. Seemann, T. ABRicate. GitHub. , Available from: https://github.com/tseemann/abricate (2020).
  30. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. at. Available from: https://cran.r-project.org (2021).
  31. Studio Team. RStudio: Integrated Development for R. Studio, PBC. , Boston, MA. Available from: http://www.rstudio.com (2020).
  32. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  33. rOpenSci: The skimr package. GitHub. , Berkeley, CA. Available from: https://github.com/ropensci/skimr/ (2021).
  34. Oksanen, J., et al. vegan: Community ecology package. R package version 2.5-5. , Available from: https://CRAN.R-project.org/package=vegan (2019).
  35. Tierney, N. J., Cook, D. H. Expanding tidy data principles to facilitate missing data exploration, visualization and assessment of imputations. arXiv. , Available from: http://arxiv.org/abs/1809.02264 (2020).
  36. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  37. Kassambara, A. ggpubr: "ggplot2" Based Publication Ready Plots. R package version 0.4.0. , Available from: https://CRAN.R-project.org/package=ggpubr (2020).
  38. Slowikowski, K. ggrepel: Automatically Position Non-Overlapping Text Labels with "ggplot2”. R package version 0.9.1. , Available from: https://CRAN.R-project.org/package=ggrepel (2021).
  39. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  40. Neuwirth, E. RColorBrewer: ColorBrewer Palettes. R package version 1.1-2. , Available from: https://CRAN.R-project.org/package=RColorBrewer (2014).
  41. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  42. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  43. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  44. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  45. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  46. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  47. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  48. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  49. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  50. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  51. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  52. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  53. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  54. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  55. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  56. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  57. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  58. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  59. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  60. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  61. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Tags

Genetik udgave 178
Heuristisk minedrift af hierarkiske genotyper og tilbehør genom Loci i bakteriepopulationer
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Pavlovikj, N., Gomes-Neto, J. C.,More

Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter