Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Heuristisk gruvedrift av hierarkiske genotyper og tilbehørsgenom loci i bakteriepopulasjoner

Published: December 7, 2021 doi: 10.3791/63115
* These authors contributed equally

Summary

Denne analytiske beregningsplattformen gir praktisk veiledning for mikrobiologer, økologer og epidemiologer som er interessert i bakteriell populasjonsgenomikk. Nærmere bestemt viste arbeidet som presenteres her hvordan man utfører: i) fylogenistyrt kartlegging av hierarkiske genotyper; ii) frekvensbasert analyse av genotyper; iii) slektskap og klonalitetsanalyser; iv) identifisering av avledningsdifferensiering av tilbehørsloci.

Abstract

Rutinemessig og systematisk bruk av bakteriell helgenomsekvensering (WGS) øker nøyaktigheten og oppløsningen av epidemiologiske undersøkelser utført av folkehelselaboratorier og reguleringsorganer. Store mengder offentlig tilgjengelige WGS-data kan brukes til å studere patogene populasjoner i stor skala. Nylig ble en fritt tilgjengelig beregningsplattform kalt ProkEvo publisert for å muliggjøre reproduserbare, automatiserte og skalerbare hierarkiske baserte populasjonsgenomiske analyser ved hjelp av bakterielle WGS-data. Denne implementeringen av ProkEvo viste viktigheten av å kombinere standard genotypisk kartlegging av populasjoner med gruvedrift av tilbehørsgenomisk innhold for økologisk inferens. Spesielt arbeidet som ble fremhevet her brukte ProkEvo-avledede utganger for befolkningsskalerte hierarkiske analyser ved hjelp av programmeringsspråket R. Hovedmålet var å gi en praktisk veiledning for mikrobiologer, økologer og epidemiologer ved å vise hvordan man: i) bruke en fylogenistyrt kartlegging av hierarkiske genotyper; ii) vurdere frekvensfordelinger av genotyper som proxy for økologisk kondisjon; iii) bestemme slektskapsrelasjoner og genetisk mangfold ved hjelp av spesifikke genotypiske klassifikasjoner; og iv) kartlegge avledning differensiere tilbehør loci. For å forbedre reproduserbarhet og bærbarhet ble R markdown-filer brukt til å demonstrere hele analytisk tilnærming. Eksempeldatasettet inneholdt genomiske data fra 2365 isoler av det zoonotiske matbårne patogenet Salmonella Newport. Fylogeni-forankret kartlegging av hierarkiske genotyper (Serovar -> BAPS1 -> ST -> cgMLST) avslørte populasjonens genetiske struktur, og fremhevet sekvenstyper (STs) som keystone differensierende genotype. På tvers av de tre mest dominerende avstamningene delte ST5 og ST118 en felles forfedre mer nylig enn med den svært klonede ST45-fylotypen. ST-baserte forskjeller ble ytterligere fremhevet av fordelingen av tilbehør antimikrobiell motstand (AMR) loci. Til slutt ble en fylogeni-forankret visualisering brukt til å kombinere hierarkiske genotyper og AMR-innhold for å avsløre slektskapsstrukturen og avledningsspesifikke genomiske signaturer. Til sammen gir denne analytiske tilnærmingen noen retningslinjer for å gjennomføre heuristiske bakterielle populasjonsgenomiske analyser ved hjelp av pangenomisk informasjon.

Introduction

Den økende bruken av bakteriell helgenomsekvensering (WGS) som grunnlag for rutinemessig overvåking og epidemiologisk undersøkelse fra folkehelselaboratorier og reguleringsorganer har betydelig forbedret patogenutbruddsundersøkelser 1,2,3,4. Som en konsekvens er store mengder avidentifiserte WGS-data nå offentlig tilgjengelige og kan brukes til å studere aspekter av populasjonsbiologien til patogene arter i en enestående skala, inkludert studier basert på: befolkningsstrukturer, genotypefrekvenser og gen / allelefrekvenser på tvers av flere reservoarer, geografiske regioner og typer miljøer5 . De mest brukte WGS-veiledede epidemiologiske henvendelsene er basert på analyser som bare bruker det delte kjernegenomiske innholdet, der det delte (konserverte) innholdet alene brukes til genotypisk klassifisering (f.eks. variantanrop), og disse variantene blir grunnlaget for epidemiologisk analyse og sporing 1,2,6,7 . Vanligvis utføres bakteriell kjernegenombasert genotyping med multi-locus sequencemetode (MLST) tilnærminger ved hjelp av syv til noen få tusen loci 8,9,10. Disse MLST-baserte strategiene omfatter kartlegging av forhåndsmonterte eller sammensatte genomiske sekvenser i svært kuraterte databaser, og kombinerer dermed allelisk informasjon i reproduserbare genotypiske enheter for epidemiologisk og økologisk analyse11,12. For eksempel kan denne MLST-baserte klassifiseringen generere genotypisk informasjon på to oppløsningsnivåer: sekvenstyper på lavere nivå (STs) eller ST-avstamninger (7 loci) og mlst-varianter på høyere nivå (cgMLST) (~ 300-3000 loci)10.

MLST-basert genotypisk klassifisering er beregningsmessig bærbar og svært reproduserbar mellom laboratorier, noe som gjør den allment akseptert som en nøyaktig sub-skrive tilnærming under bakterielle arter nivå13,14. Bakteriepopulasjoner er imidlertid strukturert med artsspesifikke varierende grad av klonalitet (dvs. genotypisk homogenitet), komplekse mønstre av hierarkisk slektskap mellom genotyper 15,16,17, og et bredt spekter av variasjoner i fordelingen av tilbehør genomisk innhold 18,19 . Dermed går en mer helhetlig tilnærming utover diskrete klassifikasjoner i MLST-genotyper og inkorporerer de hierarkiske relasjonene mellom genotyper i forskjellige oppløsningsskalaer, sammen med kartlegging av genomisk innhold på genotypiske klassifikasjoner, noe som letter befolkningsbasert inferens 18,20,21 . Videre kan analyser også fokusere på delte arvemønstre av tilbehør genomisk loci blant selv fjernt relaterte genotyper21,22. Samlet sett muliggjør den kombinerte tilnærmingen agnostisk avhør av sammenhenger mellom populasjonsstruktur og fordelingen av spesifikke genomiske komposisjoner (f.eks. loci) blant geospatiale eller miljømessige gradienter. En slik tilnærming kan gi både grunnleggende og praktisk informasjon om de økologiske egenskapene til bestemte populasjoner som igjen kan forklare deres tropisme og spredningsmønstre på tvers av reservoarer, for eksempel matdyr eller mennesker.

Denne systembaserte hierarkiske befolkningsorienterte tilnærmingen krever store mengder WGS-data for tilstrekkelig statistisk kraft til å forutsi gjenkjennelige genomiske signaturer. Følgelig krever tilnærmingen en beregningsplattform som er i stand til å behandle mange tusen bakterielle genomer samtidig. Nylig ble ProkEvo utviklet og er en fritt tilgjengelig, automatisert, bærbar og skalerbar bioinformatikkplattform som muliggjør integrerte hierarkiske bakterielle populasjonsanalyser, inkludert pangenomisk kartlegging20. ProkEvo tillater studiet av moderat til stor skala bakterielle datasett samtidig som det gir et rammeverk for å generere testbare og utledelige epidemiologiske og økologiske hypoteser og fenotypiske spådommer som kan tilpasses av brukeren. Dette arbeidet utfyller denne rørledningen for å gi en veiledning om hvordan man bruker ProkEvo-avledede utdatafiler som innspill til analyser og tolkning av hierarkiske befolkningsklassifiseringer og tilbehør genomisk gruvedrift. Casestudien som ble presentert her benyttet befolkningen i Salmonella enterica av slektslinje I zoonotic serovar S. Newport som eksempel og var spesielt rettet mot å gi praktiske retningslinjer for mikrobiologer, økologer og epidemiologer om hvordan man: i) bruker en automatisert fylogeniavhengig tilnærming for å kartlegge hierarkiske genotyper; ii) vurdere frekvensfordelingen av genotyper som proxy for evaluering av økologisk kondisjon; iii) bestemme avgrensningsspesifikke klonitetsgrader ved hjelp av uavhengige statistiske tilnærminger; og iv) kartlegge avgrensningsdifferensierer AMR loci som et eksempel på hvordan man utvinner genomisk innhold i sammenheng med befolkningsstrukturen. Mer generelt gir denne analytiske tilnærmingen et generaliserbart rammeverk for å utføre en befolkningsbasert genomisk analyse i en skala som kan brukes til å utlede evolusjonære og økologiske mønstre uavhengig av de målrettede artene.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Forbered inndatafiler

MERK: Protokollen er tilgjengelig her - https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. Protokollen forutsetter at forskeren spesifikt har brukt ProkEvo (eller en sammenlignbar rørledning) for å få de nødvendige utgangene som er tilgjengelige i dette Figshare-repositoriet (https://figshare.com/account/projects/116625/articles/15097503 - påloggingsinformasjon kreves - Brukeren må opprette en gratis konto for å ha filtilgang!). Vær oppmerksom på at ProkEvo automatisk laster ned genomsekvenser fra NCBI-SRA-repositoriet og krever bare en .txt fil som inneholder en liste over genomidentifikasjoner som en inngang20, og den som brukes til dette arbeidet på S. Newport USA isolerer er gitt her (https://figshare.com/account/projects/116625/articles/15097503?file=29025729).  Detaljert informasjon om hvordan du installerer og bruker denne bakterielle genomiske plattformen er tilgjengelig her (https://github.com/npavlovikj/ProkEvo/wiki/2.-Quick-start)20

  1. Generer kjernegenom fylogeni ved hjelp av FastTree23 som tidligere beskrevet20, som ikke er en del av bioinformatikkplattformen20. FastTree krever Roary24 core-genome justering som en inndatafil. Fylogenifilen heter newport_phylogeny.tree (https://figshare.com/account/projects/116625/articles/15097503?file=29025690).
  2. Generer SISTR25-utgang som inneholder informasjon om serovarsklassifiseringer for Salmonella - og cgMLST-variantkalldata (sistr_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025699).
  3. Generer BAPS fil av fastbaps26,27 som inneholder BAPS nivåer 1-6 klassifisering av genomer i undergrupper eller haplotyper (fastbaps_partition_baps_prior_l6.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025684).
  4. Generer MLST-basert klassifisering av genomer til STs ved hjelp av MLST-programmet (https://github.com/tseemann/mlst)28 (salmonellast_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025696).
  5. Generer ABRicate (https://github.com/tseemann/abricate)29 utdata som en .csv fil som inneholder AMR loci kartlagt per genom (sabricate_resfinder_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025693).
    MERK: Brukeren kan slå av bestemte deler av ProkEvo bioinformatikkrørledning (se her for mer informasjon - https://github.com/npavlovikj/ProkEvo/wiki/4.2.-Remove-existing-bioinformatics-tool-from-ProkEvo). Den analytiske tilnærmingen som presenteres her gir retningslinjer for hvordan man gjennomfører en befolkningsbasert analyse etter at bioinformatikkrørledningen er kjørt.

2. Last ned og installer IDE-applikasjonen (Statistisk programvare og integrert utviklingsmiljø)

  1. Last ned den mest oppdaterte fritt tilgjengelige versjonen av R-programvaren for Linux, Mac eller PC30. Følg standard installasjonstrinn.
  2. Last ned den mest oppdaterte fritt tilgjengelige versjonen av RStudio desktop IDE her31. Følg standardtrinnene for installasjon.
    MERK: De neste trinnene er inkludert i det tilgjengelige skriptet, inkludert detaljert informasjon om kodeutnyttelse, og bør kjøres sekvensielt for å generere utgangene og tallene som presenteres i dette arbeidet (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). Brukeren kan bestemme seg for å bruke et annet programmeringsspråk for å utføre denne analytiske / statistiske analysen som Python. I så fall bruker du trinnene i skriptene som et rammeverk for å utføre analysen.

3. Installere og aktivere datavitenskapsbiblioteker

  1. Installer alle datavitenskapsbiblioteker samtidig som et første trinn i analysen. Unngå å installere bibliotekene hver gang skriptet må kjøres på nytt. Bruk funksjonen install.packages() for bibliotekinstallasjon. Alternativt kan brukeren klikke kategorien Pakker i IDE og automatisk installere pakkene. Koden som brukes til å installere alle nødvendige biblioteker, presenteres her:
    # Installere Ryddig
    install.packages("ryddig")
    # Installere skimr

    install.packages("skimr")
    # Installere vegansk
    install.packages("vegansk")
    # Installere forcats
    install.packages("forcats")
    # Installere naniar
    install.packages("naniar")
    # Installere ggpubr
    install.packages("ggpubr")
    # Installere ggrepel
    install.packages("ggrepel")
    # Installer omform2
    install.packages("endre form2")
    # Installere RColorBrewer
    install.packages("RColorBrewer")
    # Installere ggtree
    if (!requireNamespace("BiocManager", stille = SANN))
    install.packages("BiocManager")
    BiocManager::installere("ggtree")
    # Installasjon av ggtree vil stille et spørsmål om installasjon - svaret er "a" for å installere / oppdatere alle avhengigheter
  2. Aktiver alle bibliotekene eller pakkene ved hjelp av bibliotek()-funksjonen i begynnelsen av skriptet, rett etter installasjonen. Her er en demonstrasjon om hvordan du aktiverer alle nødvendige pakker:
    # Aktiver bibliotekene og pakkene
    bibliotek(ryddig)
    bibliotek(skimr)
    bibliotek(vegansk)
    bibliotek(forcats)
    bibliotek(naniar)
    bibliotek(ggtree)
    bibliotek(ggpubr)
    bibliotek(ggrepel)
    bibliotek(endre form2)
    bibliotek(RColorBrewer)
  3. Undertrykk utdata fra koden som brukes til installasjon og aktivering av bibliotek og pakker ved hjelp av {r, inkluder = FALSE} i kodechucken på følgende måte:
    ''' {r, inkluder = USANN}
    # Installere Ryddig

    install.packages("ryddig")
    ```

    MERK: Dette trinnet er valgfritt, men unngår å vise biter av unødvendig kode i den endelige html-, dokument- eller pdf-rapporten.
  4. Hvis du vil ha en kort beskrivelse av de spesifikke funksjonene til alle bibliotekene sammen med noen nyttige koblinger for å samle inn mer informasjon, kan du se trinn 3.4.1-3.4.11.
    1. Ryddig - bruk denne samlingen av pakker som brukes til datavitenskap, inkludert dataregistrering, visualisering, analyse og aggregering og statistisk modellering. Vanligvis er ggplot2 (datavisualisering) og dplyr (data krangling og modellering) praktiske pakker til stede i dette biblioteket32.
    2. skimr - bruk denne pakken til å generere sammendragsstatistikk over datarammer, inkludert identifikasjon av manglende verdier33.
    3. vegansk - bruk denne pakken til statistiske analyser av samfunnsøkologi, for eksempel beregning av mangfoldsbasert statistikk (f.eks. alfa- og betamangfold)34.
    4. forcats - bruk denne pakken til å arbeide med kategoriske variabler som ombestillingsklassifiseringer. Denne pakken er en del av Tidyverse-biblioteket32.
    5. naniar - bruk denne pakken til å visualisere fordelingen av manglende verdier på tvers av variabler i en dataramme, ved hjelp av funksjonen viss_miss()35.
    6. ggtree - bruk denne pakken for visualisering av fylogenetiske trær36.
    7. ggpubr - bruk denne pakken til å forbedre kvaliteten på ggplot2-baserte visualiseringer37.
    8. ggrepel - bruk denne pakken til tekstmerking inne i grafene38.
    9. reshape2 - bruk melt()-funksjonen fra denne pakken for transformasjon av datarammer fra bredt til langt format39.
    10. RColorBrewer - bruk denne pakken til å administrere farger i ggplot2-baserte visualiseringer40.
    11. Bruk følgende grunnleggende funksjoner for utforskende dataanalyse: head() for å sjekke de første observasjonene i en dataramme, tail() for å sjekke de siste observasjonene av en dataramme, is.na() for å telle antall rader med manglende verdier på tvers av en dataramme, dim() for å sjekke antall rader og kolonner i et datasett, tabell() for å telle observasjoner på tvers av en variabel, og sum() for å telle totalt antall observasjoner eller forekomster.

4. Dataregistrering og analyse

MERK: En detaljert informasjon om hvert trinn i denne analysen finner du i det tilgjengelige skriptet (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). Her er imidlertid noen viktige punkter som må vurderes:

  1. Gjør alle genomiske dataregistreringer, inkludert alle genotypiske klassifiseringer (serovar, BAPS, ST og cgMLST) ved hjelp av read_csv()-funksjonen.
  2. Gi nytt navn til, opprett nye variabler, og velg kolonner av interesse fra hvert datasett før aggregering av flerdatasett.
  3. Ikke fjern manglende verdier fra et uavhengig datasett. Vent til alle datasett er aggregert for å endre eller utelate manglende verdier. Hvis det opprettes nye variabler for hvert datasett, blir manglende verdier som standard kategorisert i en av de nylig genererte klassifiseringene.
  4. Se etter feilaktige tegn, for eksempel bindestreker eller forhørsmerker, og erstatt dem med IT (gjelder ikke). Gjør det samme for manglende verdier.
  5. Aggregerte data basert på den hierarkiske rekkefølgen av genotyper (serovar -> BAPS1 -> ST -> cgMLST), og ved gruppering basert på de enkelte genomidentifikasjonene.
  6. Se etter manglende verdier ved hjelp av flere strategier, og håndter slike inkonsekvenser eksplisitt. Fjern bare et genom eller isoler fra dataene hvis klassifiseringen er upålitelig. Ellers bør du vurdere analysen som gjøres og fjerne NSA-er fra sak til sak.
    MERK: Det anbefales på det sterkeste å etablere en strategi for å håndtere slike verdier a priori. Unngå å fjerne alle genomer eller isolasjoner med manglende verdier på tvers av variabler. For eksempel kan et genom ha ST-klassifisering uten å ha cgMLST variantnummer. I så fall kan genomet fortsatt brukes til DEN ST-baserte analysen.
  7. Når alle datasettene er aggregert, tilordner du dem til et datarammenavn eller objekt som kan brukes flere steder i oppfølgingsanalysen, for å unngå å måtte generere den samme metadatafilen for hver figur i papiret.

5. Gjennomføre analyser og generere visualiseringer

MERK: En detaljert beskrivelse av hvert trinn som trengs for å produsere alle analysene og visualiseringene, finnes i markdown-filen for dette dokumentet (https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code). Kode for hvert tall er atskilt i biter, og hele skriptet bør kjøres sekvensielt. I tillegg er koden for hver hoved- og tilleggsfigur oppgitt som en egen fil (se Tilleggsfil 1 og Tilleggsfil 2). Her er noen viktige punkter (med kodebiter) som skal vurderes mens du genererer hver hoved- og tilleggstall.

  1. Bruk ggtree til å tegne inn et fylogenetisk tre sammen med genotypisk informasjon (figur 1).
    1. Optimaliser ggtree figurstørrelsen, inkludert diameter og bredde på ringer, ved å endre de numeriske verdiene inne i henholdsvis xlim() og gheatmap(width = ) (se eksempelkode nedenfor).
      tree_plot <- ggtree(tre, layout = "sirkulær") + xlim(-250, NA)
      figure_1 <- gheatmap(tree_plot, d4, offset=.0, width=20, colnames = FALSE)
      MERK: For en mer detaljert sammenligning av programmer som kan brukes til fylogenetisk plotting, sjekk dette arbeidet20. Arbeidet fremhevet et forsøk på å identifisere strategier for å forbedre ggtree-baserte visualiseringer som å redusere datasettstørrelsen, men grenlengder og tretopologi var ikke så tydelig diskriminerende sammenlignet med phandango41.
    2. Samle alle metadata i så få kategorier som mulig for å lette valg av fargepanel når du tegner flere lag med data med det fylogenetiske treet (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_1.Rmd). Utfør dataaggregeringen basert på spørsmålet om interesse og domenekunnskap.
  2. Bruk et stolpeplott til å vurdere relative frekvenser (figur 2).
    1. Samle data for både ST-avstamninger og cgMLST-varianter for å lette visualiseringer. Velg en empirisk eller statistisk terskel som brukes til dataaggregering, mens du vurderer spørsmålet som blir stilt.
    2. For eksempel kode som kan brukes til å inspisere frekvensfordelingen av ST-avgrensninger for å bestemme cut-off se nedenfor:
      st_dist <- d2 %>% group_by(ST) %>% # gruppe etter ST-kolonnen
      count() %>% # telle antall observasjoner
      arrange(desc(n)) # ordne tellingene i synkende rekkefølge
    3. Hvis du vil se en eksempelkode som viser hvordan mindre (lavfrekvente) STer kan aggregeres, kan du se nedenfor. Som vist nedenfor er ST-er som ikke er nummerert som 5, 31, 45, 46, 118, 132 eller 350, gruppert sammen som "Andre STer". Bruk en lignende kode for cgMLST-varianter (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_2.Rmd).
      d2$m <- ifelse(d2$ST == 5, "ST5", # opprett en ny ST-kolonne der mindre S T-er aggregeres som andre
      ifelse(d2$ST == 31, "ST31",
      ifelse(d2$ST == 45, "ST45",
      ifelse(d2$ST == 46, "ST46",
      ifelse(d2$ST == 118, "ST118",
      ifelse(d2$ST == 132, "ST132", ifelse(d2$ST == 350, "ST350", "Andre STer"))))))))
  3. Bruk en nestet fremgangsmåte til å beregne andelen av hver ST-avstamning i hver BAPS1-undergruppe for å identifisere STer som er forfedres relaterte (tilhører samme BAPS1-undergruppe) (figur 3). Koden nedenfor eksemplifiserer hvordan den ST-baserte andelen kan beregnes på tvers av BAPS1-undergrupper (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_3.Rmd):
    baps <- d2b %>% filter (serovar == "Newport") %>% # filter Newport serovars
    select(baps_1, ST) %>% # velg baps_1- og ST-kolonner
    mutate(ST = as.numeric(ST)) %>% # endre ST-kolonne til numerisk
    drop_na(baps_1, ST) %>% # slipp NAer
    group_by(baps_1, ST) %>% # gruppert etter baps_1 og ST
    summarise(n = n()) %>% # antall observasjoner
    mutate(prop = n/sum(n)*100) # beregne proporsjoner
  4. Plott fordelingen av AMR loci på tvers av ST-avgrensninger ved hjelp av resfinder-baserte genmerknadsresultater (figur 4).
    MERK: Resfinder har vært mye brukt i økologiske og epidemiologiske studier42. Merknaden av proteinkodingsgener kan variere avhengig av hvor ofte databaser er kuratert og oppdatert. Ved bruk av den foreslåtte bioinformatikkrørledningen kan forskeren sammenligne AMR-baserte loci-klassifikasjoner på tvers av ulike databaser20. Kontroller hvilke databaser som oppdateres kontinuerlig. Ikke bruk utdaterte eller dårlig kuraterte databaser for å unngå feilkall.
    1. Bruk en empirisk eller statistisk terskel for å filtrere ut den viktigste AMR loci for å lette visualiseringer. Gi en rå .csv fil som inneholder de beregnede proporsjonene av alle AMR loci på tvers av alle ST-avgrensninger, for eksempel vist her (https://figshare.com/account/projects/116625/articles/15097503?file=29025687).
    2. Beregn AMR-proporsjonen for hver ST ved hjelp av følgende kode (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_4.Rmd):
      # Beregninger for ST45
      d2c <- data6 %>% filter(st == "ST45") # filtrer ST45-data først
      # for ST45, beregne andelen AMR loci og bare holde proporsjon større enn 10%

      d3c <- d2c %>% select(id, gene) %>% # velg kolonner
      group_by(id, gen) %>% # gruppe etter ID og gen
      summarize(antall = n()) %>% # antall observasjoner
      mutate(count = replace(count, count == 2, 1)) %>% # replace counts equal to 2 with 1 to only consider one copy of each gene (dupliseringer er kanskje ikke pålitelige), men forskeren kan bestemme seg for å ekskludere eller beholde dem. Hvis forskeren ønsker å ekskludere dem, bruker du filter(antall != 2)-funksjonen eller forlater som den er
      filter(antall <= 1) # filterantall under eller lik 1
      d4c <- d3c %>% group_by(gen) %>% # gruppe etter gen
      summarize(verdi = n()) %>% # antall observasjoner
      mutate(total = tabell(data1$st)[6]) %>% # få totalt antall st mutate(prop = (verdi/total)*100) # beregne proporsjoner
      d5c <- d4c %>% mutate(st = "ST45") # opprette en st kolonne og legge til ST-informasjon
    3. Når beregningene er utført for alle STer, kombinerer du datasett som én dataramme ved hjelp av følgende kode:
      # Kombiner datasett
      d6 <- rbind(d5a, d5b, d5c, d5d, d5e, d5f, d5g, d5h) # radbindingsdatasett
    4. Hvis du vil eksportere den .csv filen som inneholder de beregnede proporsjonene, bruker du koden:
      # Eksporter datatabell som inneholder ST- og AMR loci-informasjon
      abx_newport_st <- d6 write.csv(abx_newport_st,"abx_newport_st.csv", row.names = FALSE)
    5. Før du tegner inn den AMR-baserte distribusjonen på tvers av ST-avstamninger, må du filtrere dataene basert på en terskel for å lette visualiseringer, som vist nedenfor:
      # Filtrer AMR loci med proporsjoner høyere enn eller lik 10%
      d7 <- d6 %>% filter (prop >= 10) # bestem terskelen empirisk eller statistisk
  5. Plott kjernegenomfylogenien sammen med de hierarkiske genotypiske klassifikasjonene og AMR-dataene i en enkelt tomt ved hjelp av ggtree (figur 5).
    1. Optimaliser figurstørrelsen inne i ggtree ved hjelp av de ovennevnte parametrene (se trinn 5.1.1.).
    2. Optimaliser visualiseringer ved å aggregere variabler, eller bruke binær klassifisering, for eksempel gentilstedeværelse eller fravær. Jo flere funksjoner som legges til plottet, jo vanskeligere blir fargevalgprosessen (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_5.Rmd).
      MERK: Supplerende tall - detaljert beskrivelse av hele koden finner du her (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd).
  6. Bruk et punkttegn i ggplot2, uten dataaggregering, til å vise fordelingen av ST-avstamninger eller cgMLST-varianter mens du uthever de hyppigste genotypene (tilleggsfigur 1) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s1.Rmd).
  7. Gjør en nestet analyse for å vurdere sammensetningen av ST-avstamninger gjennom andelen cgMLST-varianter for å få et glimt av det ST-baserte genetiske mangfoldet, samtidig som du identifiserer de hyppigste variantene og deres genetiske forhold (dvs. cgMLST-varianter som tilhører samme ST delte en forfedre nylig enn de som tilhører distinkte STs) (Tilleggsfigur 2 ) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s2.Rmd).
  8. Bruk samfunnet økologi metrisk, nemlig Simpsons D-indeks av mangfold, for å måle graden av klonalitet eller genotypisk mangfold av hver av de store ST-slektene43 (Supplerende figur 3).
    1. Beregn indeksen for mangfold på tvers av ST-avstamninger på ulike nivåer av genotypisk oppløsning, inkludert BAPS nivå 1 til 6 og cgMLST. Nedenfor er kodeeksemplet om hvordan du gjør denne beregningen på BAPS nivå 1 (BAPS1) med genotypisk oppløsning:
      # BAPS nivå 1 (BAPS1)
      # slipp STs og BAPS1 med NAer, grupper etter ST og BAPS1 og beregn deretter Simpsons indeks
      baps1 <- data6 %> %
      select(st, BAPS1) %>% # velg kolonner
      drop_na(st; BAPS1) %>% # slipp NAer
      group_by(st, BAPS1) %>% # gruppert etter kolonner
      summarise(n = n()) %>% # antall observasjoner
      mutate(simpson = diversity(n, "simpson")) %>% # beregne mangfold
      group_by(st) %>% # gruppert etter kolonne
      summarise(simpson = mean(simpson)) %>% # beregne gjennomsnittet av indeksen
      smelte(id.vars=c("st"), measure.vars="simpson",
      variable.name="index", value.name="verdi") %>% # skjult i langt format
      mutate(strat = "BAPS1") # opprette en stratkolonne
      MERK: En mer genetisk mangfoldig populasjon (dvs. flere varianter på forskjellige lag av genotypisk oppløsning) har en høyere indeks på cgMLST-nivå og produserer en økende indeksbaserte verdier som går fra BAPS nivå 2 til 6 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s3.Rmd).
  9. Undersøk graden av genotypisk mangfold av ST-avgrensninger ved å plotte den relative frekvensen av BAPS-undergrupper på alle oppløsningsnivåer (BAPS1-6) (Tilleggs figur 4). Jo mer mangfoldig befolkningen er, jo sparsommere blir fordelingen av BAPS-undergrupper (haplotyper) fra BAPS1 (lavere oppløsningsnivå) til BAPS6 (høyere oppløsningsnivå) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s4.Rmd).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Ved å benytte beregningsplattformen ProkEvo for populasjonsgenomikkanalyser består det første trinnet i bakteriell WGS-datautvinning av å undersøke den hierarkiske befolkningsstrukturen i sammenheng med et kjernegenom fylogeni (figur 1). Når det gjelder S. enterica-slekten I, som eksemplifisert av S. Newport-datasett, er populasjonen hierarkisk strukturert som følger: serovar (laveste oppløsningsnivå), BAPS1-undergrupper eller haplotyper, ST-avstamninger og cgMLST-varianter (høyeste oppløsningsnivå)20. Denne fylogenistyrte analysen av den hierarkiske befolkningsstrukturen gjør det spesielt mulig å undersøke følgende punkter: i) fylogenetisk fordeling av SISTR-baserte feilklassifiserte genomer til andre serovars når det gjelder Salmonella; ii) befolkningens genetiske eller slektskapsstruktur; iii) mønster av diversifisering på ulike nivåer av genotypisk oppløsning; iv) identifisering av store genotypiske enheter som ligger til grunn for et evolusjonært, økologisk eller epidemiologisk mønster; v) forfedres forhold mellom ST-avstamninger gjennom BAPS1-undergrupper eller haplotypesammensetning, og på tvers av cgMLST-varianter innen ST-avstamninger; og vi) delvis visning av graden av genotypisk homogenitet av en ST-avstamning av cgMLST variantsammensetningen.

Figure 1
Figur 1: Fylogenistyrt kartlegging av hierarkiske genotyper for S. Newport befolkning. En kjernegenom fylogeni (svart sentrert sirkel) ble brukt til å kartlegge hierarkiske genotyper, inkludert serovar (laveste oppløsningsnivå - innerste fargede sirkel), BAPS nivå 1 (BAPS1) undergrupper eller haplotyper, ST-avstamninger og cgMLST-varianter (høyeste oppløsningsnivå - ytterst farget sirkel). Serovars ble gruppert i Newport (S. Newport) eller "Andre serovars" basert på SISTR algoritmisk klassifisering av genomer, som benyttet kjernegenom MLST-informasjon, og kjørte som en del av beregningsplattformen ProkEvo. BAPS1 stratifiserer agnostisk populasjonen i undergrupper eller klynger av relaterte haplotyper ved hjelp av kjernegenomiske data i ProkEvo. BAPS1 er hierarkisk plassert mellom serovar og ST-avstamninger fordi det nøyaktig fanget forfedrenes forhold mellom STs. ST-avstamninger dannes basert på kanonisk MLST-analyse ved hjelp av syv genom-spredte loci. Bare hoved- eller hyppigste ST-er (andel >1 %) ble avbildet i grafen. Til slutt ble bare de hyppigste cgMLST-variantene (andel >3,5%) brukt til å vise hele den hierarkiske strukturen for S. Newport befolkning (n = 2,365 USA isolerer bare). Kategorien "Andre STs" eller "Andre cgMLSTs" består av henholdsvis mindre eller lavfrekvente avstamninger eller varianter, med terskel utført vilkårlig som bør settes empirisk eller statistisk basert på datasettet. Klikk her for å se en større versjon av denne figuren.

Relative frekvenser av alle hierarkiske genotyper ble deretter brukt til å evaluere den totale fordelingen og hyppigst observerte klassifiseringer (dvs. genotyper) (figur 2). I figur 2C-D ble mindre hyppige (mindre) ST-avstamninger eller cgMLST-varianter aggregert som "Andre STs" eller "Andre cgMLSTs", for å lette datavisualisering (dimensjonalitetsreduksjon). Hvis prøvetaking gjøres systematisk på tvers av miljøer og/eller verter og er riktig statistisk drevet, kan frekvensfordeling bli en proxy for økologisk kondisjon. Det vil si at de hyppigste avstamninger eller varianter da kan forutsies å ha høyere kondisjon, og påfølgende videre undersøkelse for å bestemme de forårsakende genetiske determinantene som ligger til grunn for et slikt kvantitativt trekk 6,30.

Figure 2
Figur 2: Andel S. Newport hierarkiske genotyper på forskjellige oppløsningsnivåer. (A) Serovars er fenotyper av S. enterica-avstamning I populasjonen som utelukkende kan forutsies fra kjernegenomiske data på grunn av den arvbare høye koblingsgraden mellom kjerne-loci og O og H antigen-koding loci (overflateproteiner). Ved bruk av ProkEvo klassifiseres Salmonella genomer automatisk til serovars ved hjelp av SISTR-programmet. Selv om bare S. Newport (Newport) genomer fra NCBI ble putativt lastet ned, noen har blitt klassifisert som "Andre serovars" i ProkEvo. Omtrent 2% (48 av 2365) av alle genomer ble klassifisert som andre enn S. Newport serovar. (B) Andelen baps nivå 1 (BAPS1) undergrupper eller haplotyper. BAPS1 settes inn mellom serovar og ST-avstamninger i den hierarkiske ordningen fordi den nøyaktig og agnostisk fanget forfedrenes forhold mellom STs. (C) Andelen store ST-avstamninger avbildet bare STs som var > 1% i relativ frekvens. Mindre ST-er ble gruppert som "Andre STer". (D) Andelen av store cgMLST-varianter viste bare fire dominerende cgMLSTer som var >3% i relativ frekvens. De resterende cgMLSTene ble gruppert som "Andre cgMLSTer". (BD) Genomer klassifisert av SISTR som "Andre serovars" (2,03%) ble filtrert ut av dataene før de plottet BAPS1, ST og cgMLST relative frekvenser. (CD) Terskler som brukes til å plotte både ST- og cgMLST-data ble vilkårlig definert og bør etableres empirisk fra sak til sak. Klikk her for å se en større versjon av denne figuren.

Alternativt kan en scatter-plott brukes til å vurdere fordelingen og andelen av både ST-avstamninger eller cgMLST-varianter, uten dataaggregering (tilleggsfigur 1). Denne bruken av en scatter-plot er spesielt nyttig for ST-avstamninger og cgMLST-varianter på grunn av den typiske forekomsten av hundredeler, om ikke tusenvis, klassifikasjoner for begge genotyper. Denne sparsomme fordelingen forekommer vanligvis ikke for serovar- og BAPS1-oppløsningsnivåene, fordi de har et lavere oppløsningsnivå med sekvenser som arvelig kollapser i noen få undergrupper eller kategorier.

Deretter ble forfedrenes forhold mellom STs undersøkt ved hjelp av en nestet tilnærming som omfatter vurdering av den relative frekvensen av ST-avstamninger av BAPS1-undergrupper eller haplotyper (figur 3). ST-avstamninger som tilhørte samme BAPS1-undergruppe, hadde større sannsynlighet for å ha delt en felles forfedre i det siste enn med andre ST-er (dvs. ST5 og ST118 vs. ST45). På samme måte, ved å undersøke fordelingen av cgMLST-varianter innen ST-avstamninger, kan graden av genotypisk heterogenitet på tvers av STs fanges, mens de vurderer deres genetiske sammensetning og avslører forfedrenes forhold mellom cgMLSTs (dvs. nært beslektede cgMLST-varianter tilhører samme ST-avstamning eller klonisk kompleks) (Supplerende figur 2).

Figure 3
Figur 3: Fordeling av ST-avgrensninger nestet i BAPS1-undergrupper for S. Newport befolkning. Denne tomten skildrer ST-avstamningsfordelingen innenfor hver BAPS nivå 1-undergruppe eller haplotype, unntatt genomer klassifisert som "Andre serovars" (2,03% av hele dataene). Store STer (andel >1%) for hver BAPS1-undergruppe er uthevet i hver graf. Jo større sirkeldiameteren er, jo høyere andel for den aktuelle ST-avingen. Klikk her for å se en større versjon av denne figuren.

Gitt at mønsteret av S. Newports befolkningsdiversifisering syntes for det meste å være drevet av ST-sammensetning (figur 1), to statistiske tilnærminger ble brukt til å vurdere den ST-baserte graden av klonalitet (dvs. genetisk homogenitet), inkludert Simpsons D-indeks for mangfold (tilleggs figur 3), og fordelingen av BAPS-undergrupper eller haplotyper ved hjelp av BAPS-nivå 1-6 (Tilleggs figur 4). ). Vurdering av graden av klonalitet i en befolkning kan belyse følgende aspekter: i) en bedre forståelse av genetisk mangfold og befolkningsstruktur; ii) finjusteringsanalyse av diversifiseringsmønstre på tvers av store genotypiske enheter som ST-avgrensninger; og iii) være en indikator på nødvendigheten av å bruke tilbehørsgenomutvinning for å finne kryptiske genotypiske enheter som kan avsløre nye underklynger tilstede i befolkningen. Jo mer klonisk en befolkning er på kjernegenomnivå, jo vanskeligere blir det å skille mellom varianter, og jo mer sannsynlig er det at tilbehørsgenominnholdet vil være informativt for å stratifisere befolkningen til meningsfulle genotypiske enheter forbundet med unike økologiske distribusjoner 18,19,21.

Den relative frekvensen av ST-avledningsdifferensiering av AMR loci ble vurdert for å identifisere unike genomiske signaturer knyttet til S. Befolkningsstruktur i Newport (figur 4). Dette trinnet i analysen var fokusert på AMR-distribusjon fordi det er et folkehelserelatert trekk, men den samme tilnærmingen kan brukes på en overvåket (målrettet) eller agnostisk måte for å undersøke andre komponenter i tilbehørsgenomet, inkludert metabolske veier, virulensfaktorer, etc. Merkbart ser mdf(A)_1 og aac(6')-Iaa_1 loci ut til å være forfedres ervervet av S. Newport befolkning; mens ST45 er spådd å være multi-drug resistent. Påfallende, disse dataene også tyder på at de andre store ST avstamninger, ST5 og ST118, er mer sannsynlig å være multi-drug utsatt sammenlignet med ST45. Disse punktene må vurderes nøye på grunn av fordommene som finnes i datasettet; Dette representerer imidlertid en potensiell epidemiologisk slutning som kan være laget av mer robuste WGS-datainnsamlinger.

Generelt er det noen punkter som må vurderes når du utfører et tilbehørsgenomkartlegging på hierarkiske genotyper: i) anser frekvensfordelingen som et kvantitativt trekk, men vær oppmerksom på at den alleliske sammensetningen av et locus kan endre trekkvariasjon. Videre bør tilstedeværelsen av et locus eller loci være indikativ for funksjon, men ikke årsakssammenheng, fordi fenotypen kan være polygen, eller variere i henhold til den alleliske sammensetningen for det forårsakende locus (f.eks. en ikke-synonym mutasjon på det aktive stedet for et protein er mer sannsynlig å påvirke funksjonen); ii) loci distribusjon kan demonstrere gener som er løst i befolkningen (f.eks, funnet i høy frekvens på tvers av alle ST-avstamninger) eller nylig ervervet av spesifikke ST-avstamninger og cgMLST varianter, og kan gjenspeile økologisk eller epidemiologisk mønster; iii) multi-drug resistens kan forutsies fra genomiske data. Og hvis fordelingen av AMR loci, eller andre veier, er sterkt forbundet eller ofte arvet av bestemte avstamninger, kan fenotyper forutsies ved inferens fra hierarkiske genotyper, for eksempel når det gjelder ST-avstamninger45,46; og iv) måling av fenotyper i laboratoriet er fortsatt deterministisk for å validere beregningsforutsigelser.

Figure 4
Figur 4: Distribusjon av AMR loci over store ST-avgrensninger av S. Newport befolkning. Relativ frekvensbasert fordeling av et utvalgt antall AMR loci på tvers av store ST-avgrensninger (>1% av befolkningen). Mindre ST-er ble gruppert som "Andre STer". Bare genomer klassifisert som S. Newport av SISTR-algoritmen ble holdt i analysen. AMR loci med en relativ frekvens større enn eller lik 10% ble valgt for datavisualisering. Dette er en vilkårlig terskel som bør bestemmes for hvert datasett. Proporsjonene ble beregnet ved hjelp av en binær matrise sammensatt av gentilstedeværelse eller fravær. Klikk her for å se en større versjon av denne figuren.

Til slutt ble en fylogeni-forankret visualisering brukt til systematisk å integrere de hierarkiske befolkningsstrukturdataene sammen med ST-avledningsdifferensierer AMR loci-distribusjon basert på genforekomst (figur 5). Ved å kombinere populasjonsstrukturen sammen med genomisk sammensetning av tilbehør, kan følgende spørsmål tas opp i et gitt datasett: 1) Hvordan er populasjonen strukturert? Hvordan forholder STs seg til hverandre og forfedres gjennom BAPS1-undergrupper? Hvor variabel er cgMLST-sammensetningen på tvers av STs? 2) Hva er det fylogenetiske forgreningsmønsteret og den generelle tretopologien? og 3) Hvordan distribueres tilbehørsgenomet? Er tilbehøret genomisk sammensetning mest sannsynlig forfedres ervervet eller nylig avledet? Hva er avgrensning eller variantspesifikk mønster? Hva er fenotypisk prediksjon og økologisk inferens? Er det nisje-transcenderende vs. nisje-spesifiserende gener? Hvordan forholder det observerte mønsteret seg eller informerer epidemiologien i tilfelle av patogener? Kan avgrensninger eller varianter være informativt sub-gruppert basert på tilbehør genomisk innhold?

Figure 5
Figur 5: Fylogenistyrt kartlegging av hierarkiske genotyper og tilbehør AMR loci differensierer mellom store ST-slekter i S. Newport befolkning. En kjernegenom fylogeni (svart sentrert sirkel) ble brukt til å kartlegge hierarkiske genotyper, inkludert serovar (laveste oppløsningsnivå - innerste fargede sirkel), BAPS nivå 1 (BAPS1) undergrupper eller haplotyper, ST-avstamninger og cgMLST-varianter (høyeste oppløsningsnivå - ytterste fargesirkel), sammen med AMR loci farget som mørkeblå hvis de er til stede eller grå hvis de er fraværende. Serovars ble gruppert i Newport (S. Newport) eller "Andre serovars" basert på SISTR algoritmisk klassifisering. BAPS1 er hierarkisk plassert mellom serovar og ST avstamninger fordi det nøyaktig og agnostisk fanget forfedrenes relasjoner mellom STs. ST-avstamninger dannes basert på kanonisk MLST-analyse ved hjelp av syv genom-spredte loci. Bare hoved- eller hyppigste ST-er (andel >1 %) ble avbildet i grafen. Også bare de mest dominerende cgMLST-variantene (andel >3,5%) ble brukt til å vise hele den hierarkiske strukturen for S. Newport befolkning (n = 2,365 USA isolerer bare). Kategorien "Andre STs" eller "Andre cgMLSTs" bestående av henholdsvis mindre eller lavfrekvente avstamninger eller varianter, og terring ble gjort vilkårlig og bør settes basert på datasettet. AMR loci med en relativ frekvens større enn eller lik 10% ble valgt for datavisualisering. Denne spesifikke grafen viser en unik fordeling av AMR loci hovedsakelig forekommer i ST31, ST45, og ST132 avstamninger. Klikk her for å se en større versjon av denne figuren.

Supplerende figur 1: Sparsom fordeling av ST-avstamninger og cgMLST-varianter for S. Newport befolkning. (A) Andelen AV ST-avanser uten å aggregere lavfrekvente STs. STs med andel >1% er uthevet i plottet. (B) Andelen cgMLST-varianter uten å samle lavfrekvente cgMLSTer. cgMLSTs med andel > 3% er uthevet i plottet. (A-B) Terskler som brukes til å plotte både ST- og cgMLST-data ble vilkårlig definert og bør etableres basert på datasettet. Genomer klassifisert av SISTR som "Andre serovars" (2,03%) ble filtrert ut av dataene før plotting både ST og cgMLST relative frekvenser. Jo større sirkeldiameteren er, jo høyere andel for enten ST-avstamning eller cgMLST-variant. Klikk her for å laste ned denne filen.

Tilleggs figur 2: Fordeling av cgMLST-varianter nestet innenfor ST-avstamninger for S. Newport befolkning. Denne tomten skildrer cgMLST-variantfordelingen på tvers av ST-avstamninger, unntatt genomer klassifisert som "Andre serovars" (2,03% av hele dataene). Store cgMLSTs (andel >15%) for hver ST-avledning er uthevet i hver graf. Jo større sirkeldiameteren er, jo høyere andel for den spesifikke cgMSLT-varianten. Lavfrekvente STer ble gruppert som "Andre STer". Klikk her for å laste ned denne filen.

Supplerende figur 3: Simpsons D-baserte grad av genetisk mangfold på tvers av ST-avstamninger ved hjelp av BAPS-nivå 1-6 haplotyper eller cgMLST-genotyper som inngangsdata for S. Newport befolkning. Graden av klonalitet eller genetisk mangfold av hver ST-avstamning ble beregnet på tvers av forskjellige genotypiske lag av oppløsning, inkludert BAPS nivåer 1 (laveste nivå av oppløsning) til 6 (høyeste nivå av oppløsning) undergrupper eller haplotyper, og ved i tillegg å bruke cgMLST-basert distribusjon av varianter. Jo høyere indeksverdi, jo høyere grad av genetisk mangfold. Svært varierte ST-avstamninger har høyere indeksverdier som går fra BAPS1 til BAPS6 (dvs. vanligvis øker indeksen og til slutt platåer når du går fra BAPS1 til BAPS6). Bare genomer klassifisert som S. Newport av SISTR-programmet ble holdt i analysen. Lavfrekvente STer ble gruppert som "Andre STer". Klikk her for å laste ned denne filen.

Supplerende figur 4: Fordeling av BAPS-nivå 1-6 undergrupper eller haplotyper på tvers av store ST-avgrensninger av S. Newport-befolkningen. Relativ frekvensbasert distribusjon av BAPS-undergrupper eller haplotyper, på tvers av store ST-avstamninger, fra det laveste (BAPS1) til det høyeste oppløsningsnivået (BAPS6). Store ST-er ble valgt basert på å ha en andel >1%. Bare genomer klassifisert som S. Newport av SISTR-programmet ble holdt i analysen. Jo høyere grad av klonalitet, jo mindre sparsom eller spre fordelingen av BAPS-undergrupper eller haplotyper blir når du går fra BAPS1 til BAPS6. Med andre ord, en mer genetisk mangfoldig ST-avstamning har et bredere spekter av BAPS-undergrupper på BAPS nivå 6 (høyeste grad av oppløsning). Lavfrekvente STer ble gruppert som "Andre STer". Klikk her for å laste ned denne filen.

Tilleggsfil 1: Lenker til materialliste og genomliste Klikk her for å laste ned denne filen.

Tilleggsfil 2: Hierarkisk-basert bakteriell populasjon genomikk analyse ved hjelp av R Klikk her for å laste ned denne filen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Utnyttelsen av en systembasert heuristisk og hierarkisk populasjonsstrukturanalyse gir et rammeverk for å identifisere nye genomiske signaturer i bakteriedatasett som har potensial til å forklare unike økologiske og epidemiologiske mønstre20. I tillegg kan kartleggingen av tilbehørsgenomdata på populasjonsstrukturen brukes til å utlede forfedre og/eller nylig avledede egenskaper som letter spredningen av ST-avstamninger eller cgMLST-varianter på tvers av reservoarer 6,20,21,45,46. Mer generelt kan en global vurdering av pan-genomisk innholdsfordeling i bakteriepopulasjoner avsløre diversifiseringsmønstre som under den økologiske tropismer eller geospatiale / temporale flaskehalser som en befolkning nylig kunne ha motstått18,21. Når det gjelder patogene arter, ved å utvinne befolkningsstrukturen til kliniske vs. miljøisolasjoner, kan genetiske determinanter forbundet med zoonotiske hendelser identifiseres og brukes til å forbedre diagnostikk og overvåking33,34. Den samme tilnærmingen kan brukes på ikke-patogene arter for å identifisere genotyper med ønskelige nisjespesifikke engraferende egenskaper, som i tilfelle av gastrointestinale probiotiske stammer som brukes til å forbedre menneskers helse 49,50,51. Likevel krever bruken av bakterielle WGS-data for befolkningsbaserte henvendelser bruk av reproduserbare, automatiserte og skalerbare beregningsplattformer som ProkEvo20. Enhver beregningsorientert tilnærming kommer med sine advarsler og nyanser, men generelt kan fritt tilgjengelige, veldokumenterte, bærbare og brukervennlige plattformer som ProkEvo lette arbeidet til mikrobiologer, økologer og epidemiologer som gjør heuristisk bakteriell befolkningsbasert genomikk.

I det nåværende arbeidet ble det demonstrert hvordan man bruker ProkEvo-avledede utganger til å gjennomføre en hierarkisk befolkningsstrukturanalyse som kan brukes til å kartlegge og spore genotyper av interesse på forskjellige oppløsningsnivåer, sammen med å forutsi nyttige egenskaper fra WGS-data. Denne beregningsprotokollen ble skrevet ved hjelp av programmeringsspråket R, men rammeverket eller den konseptuelle tilnærmingen er generaliserbar for andre språk som Python gjennom for eksempel bruken av Pandas-biblioteket. Inndatadataene genereres av ProkEvo20, noe som forhindrer at noen hindringer blir møtt når det gjelder standardisering av utganger og dataformater for etterfølgende analyse. Med unntak av fylogenier kommer alle andre inndatasett i tabellformat som enkelt kan kvalitetskontrolleres, aggregeres, analyseres og integreres for å generere nyttige rapporter for datatolkning. Det er imidlertid viktig å markere noen få kritiske trinn for å forbedre reproduserbarheten mens du bruker denne protokollen: i) sørg for at programvareversjonene alltid oppdateres og spores; ii) spore versjonene av datavitenskapsbibliotekene som brukes, og helst oppdatere dem over tid; iii) kvalitetskontroll av dataene ved hjelp av domenekunnskapsekspertise for å gi mening til utgangene generert av ProkEvo, eller en lignende rørledning, i lys av hva som forstås for den målrettede bakteriepopulasjonen; iv) gjennomføre en utforskende dataanalyse før du bruker en modelleringstilnærming; v) aggregere dataene basert på empirisk kunnskap og/eller statistiske vurderinger; vi) definere en strategi for å håndtere manglende verdier a priori og være konsekvent og helt gjennomsiktig om det; vii) hvis du bruker R, prøv å bruke alle pakkene levert av Tidyverse, fordi denne samlingen letter funksjonell programmering, bærbarhet, optimalisering og er fritt tilgjengelig; og viii) vær oppmerksom på at visualiseringsmetoder kan være vanskelige fordi det tar litt prøving og feiling å få riktig type plott og fargeskjema som er mest hensiktsmessig anvendelig for spørsmålet som blir stilt og dataene som blir portrettert.

Vær oppmerksom på at denne protokollen har noen begrensninger som kan forbedres ytterligere. For eksempel har ProkEvo en egengrense for hvor mange genomer som kan brukes til pangenomisk analyse, hvis kjernegenomjusteringstrinnet genereres samtidig, mens du bruker Roary-programmet (~ 2000-3000 genomer)24. Det er en veldig spesifikk flaskehals i rørledningen som vil påvirke antall genomer som kan klassifiseres i BAPS haplotyper siden det avhenger av kjernegenomjustering (dvs. svært beregningsmessig krevende trinn). Kjernegenomjustering kan imidlertid gjøres med andre programmer52, og slike algoritmer kan i teorien lett innlemmes i ProkEvo. Ellers kan datasett strategisk deles inn i tilfeldige delsett, eller på et annet grunnlag, for eksempel ved å vurdere populasjonsstrukturen til den aktuelle organismen. Alternativt kan ProkEvo kjøres med et enkelt genom for å få ST-basert merknad, antibiotikaresistens og virulensgensammensetning, og kartlegging av plasmider, men rørledningen ble designet for befolkningsbasert genomikk. Bemerkelsesverdig, hvis BAPS1-6-klassifiseringene ikke er nødvendige, kan kjernegenomjusteringsalternativet til Roary slås av, og i så fall kan ProkEvo brukes med mange hundredeler av tusenvis av genomer - det er bare begrenset basert på antall datakjerner som er tilgjengelige. Et eksempel på hvordan du implementerer et nytt program eller hvordan du slår av kjernegenomjusteringsalternativet i Roary i ProkEvo, finnes i følgende GitHub-lenker (https://github.com/npavlovikj/ProkEvo/wiki/4.1.-Add-new-bioinformatics-tool-to-ProkEvo) og (https://github.com/npavlovikj/ProkEvo/wiki/4.3.-Change-running-options-for-existing-tool-in-ProkEvo). Når det gjelder genomisk gruvedrift, avhenger en agnostisk analyse av bruken av pangenomisk . Rtab fil generert av Roary24, som ikke ble spesielt brukt her, men i stedet ble det strategisk demonstrert hvordan å kartlegge AMR loci med ABRicate ved hjelp av Resfinder database (https://github.com/tseemann/abricate). Likevel er det et alternativ å utvide omfanget av tilbehørets genomiske kartlegging ved å bruke en pan-genomisk fil i stedet, som praktisk talt kan betraktes som en utvidelse av den nåværende tilnærmingen (f.eks. mer loci inkludert i tabelldatasettet som nye kolonner). Det er viktig å nevne at den pangenomiske kartleggingen utført av ProkEvo bare ga binær informasjon når det gjelder loci-sammensetning, og for tiden ikke kan brukes til identifisering av enkelt nukleotidpolymorfier på tvers av gener.

En annen begrensning i denne protokollen er visualiseringen av det fylogenetiske treet. For tiden er ggtree det valgte programmet, men det kommer på bekostning av å ikke kunne inspisere grenlengder nøyaktig og blir tungvint når mange lag med data må legges til fylogenien. Alternativt er phandango41 en brukervennlig, skalerbar webside formatert GUI (https://jameshadfield.github.io/phandango/#/)41 som lett kan brukes til å oppnå samme mål, og ytterligere detaljert informasjon om hvordan du bruker den med ProkEvo-utganger, er nylig publisert20. Andre verktøy som iTOL kan også brukes til fylogeniavhengig visualisering av data53, men de krever bruk av gui og kan ikke innlemmes i automatiserte skript. Også nøyaktige kjernegenom fylogenier kan være vanskelig å estimere på grunn av den kryptiske datasettavhengige effekten av horisontal genoverføring. Programmer som Gubbins54 kan brukes til det formålet, men de har også visse begrensninger som behovet for å bruke fullgenomjustering og ST-avstamningsspesifikke datasett for riktig estimering av fylogenier. I stedet kan andre fylogeniuavhengige tilnærminger distribueres, som deretter ender opp med å kreve andre typer visualiseringer for å integrere metadata eller tilbehør genomisk informasjon, som i tilfelle av flerdimensjonal analyse55,56. Til slutt ble en empirisk og vilkårlig tilnærming brukt til å aggregere mindre ST-avstamninger og cgMLST-varianter, i tillegg til å filtrere den viktigste AMR loci som skal kvantifiseres. Denne typen dataaggregering kan gjøres empirisk ved hjelp av domenekunnskapsekspertise, men kan også oppnås statistisk ved å definere et priori-kriterium for andelen av fordelingen som skal vises, eller ved å bruke distribusjonsrelaterte beregninger som interkvartilt område, standardavvik eller skjevhet, for til slutt å definere en terskel. Det er viktig at definisjonen for mindre genotyper påvirkes direkte av arten av dataene siden utvalgsstørrelsen, og skjevheter i typer miljøprøver kan direkte påvirke den genotypiske sammensetningen. Uansett er hovedhensynet at kartlegging av tilbehørsgenominnhold på befolkningsstrukturen gjør det mulig å identifisere potensielle genetiske determinanter for økologisk diversifisering, for eksempel nisje-transcenderende eller nisjespesifiserende gener 57,58,59.

Selv om de tilgjengelige R-skriptene ble designet for automatisering av det nåværende arbeidet, måtte alle leverte skript videreutvikles for å bli et abstrakt og distribuerbart datavitenskapsbibliotek, som for eksempel kan være en integrert del av ProkEvo-rørledningen. Likevel er det noen spesifikke fordeler ved å bruke denne tilnærmingen, for eksempel bruk av BAPS nivå 1 genotyping eller klyngeordning. Plasseringen av BAPS nivå 1 undergrupper eller haplotyper mellom serovar og ST-avstam ble definert empirisk basert på den genetiske strukturen til Salmonella-befolkningen, men det ser ut til å gjelde for andre arter som Campylobacter jejuni og Staphylococcus aureus20. Videre, BAPS1 nøyaktig fanger forfedre forholdet mellom ST avstamninger og gir en skalerbar tilnærming for evolusjonær analyse, spesielt når fylogenetiske applikasjoner er begrenset20. Videre letter bruken av en nestet tilnærming for å undersøke hierarkiske relasjoner og diversifiseringsmønstre identifisering av opphav mellom ST-avstamninger ved hjelp av BAPS1-undergrupper, og på tvers av cgMLST-varianter ved hjelp av ST-avstamninger, og går suksessivt fra lavere til høyere genotypisk oppløsning i vurderingen av befolkningsstrukturen. Det er viktig å gjenta at frekvensfordelingen av ST-avstamninger og cgMLST-varianter, hvis de trekkes fra en systematisk samlet og statistisk drevet prøve, kan bli en proxy for økologisk kondisjon 1,6,43. Følgelig vil dominerende ST-avstamninger og cgMLST-varianter sannsynligvis inneholde unike genomiske egenskaper som kan være grunnlaget for den biologiske mekanismen for deres dominans i befolkningen i det aktuelle miljøet eller verten.

Heri ble to uavhengige statistiske beregninger brukt til å vurdere graden av klonalitet i befolkningen, noe som muliggjør en hjelpeforståelse av befolkningens genetiske mangfold, noe som kan indikere den tidligere forekomsten av utvalgsbias, befolkningsflaskehalser eller grunnleggereffekt. Spesielt kan den agnostiske vurderingen av BAPS nivåer 1-6 undergrupper på tvers av ST-avstamninger foredle forståelsen av genetisk mangfold som vanligvis ikke kan løses ved å bare se på Salmonella cgMLST variantnivå generert av SISTR. Som nevnt på forhånd kan andre trekk ved pangenomet kartlegges på populasjonsstrukturen og filer som inneholder plasmid- og virulensgensammensetning, i tillegg til bruken av andre AMR-databaser sammen med agnostisk pangenomdatasett, genereres automatisk av ProkEvo20. Vær oppmerksom på at ProkEvo for øyeblikket ikke tillater differensiering mellom AMR loci tilstede i bakteriekromosomet vs. plasmider. Økologiske og epidemiologiske metadata kan også enkelt integreres i denne analytiske tilnærmingen ved inkorporering av andre variabler i en .csv fil som inneholder all genomisk informasjon. Spesielt kompletterer arbeidet som presenteres her spesifikt bruken av den skalerbare og bærbare beregningsplattformen ProkEvo, som ble designet for å brukes av forskere fokusert på heuristiske populasjonsgenomikkanalyser som letter datautvinning og tilpasning av brukeren. Andre plattformer kan brukes til genotyping, populasjonsstrukturanalyse og/eller kartlegging av tilbehørsgenomer som Enterobase5, PATRIC60 ogBacWGSTdb61. Sistnevnte er gode ressurser som letter genomisk datautvinning for forskere som ikke søker å tilpasse og bruke klyngedatabehandling for skalerbar og kompleks analyse. Den analytiske tilnærmingen som presenteres her er spesielt skreddersydd for forskere som ønsker å ha fleksibilitet til å utføre en populasjonsgenomisk analyse ved hjelp av reproduserbare skript på sin lokale maskin eller ved å bruke en sky- eller høyytelses beregningsplattform.

Til slutt var den analytiske R-baserte plattformen som presenteres i dette arbeidet rettet mot å gi en praktisk veiledning for mikrobiologer, økologer og epidemiologer om hvordan man: i) bruker fylogeniavhengige tilnærminger for å kartlegge hierarkiske genotyper; ii) vurdere frekvensfordelingen av genotyper som proxy for evaluering av økologisk kondisjon; iii) bestemme avgrensningsspesifikke klonitetsgrader ved hjelp av uavhengige statistiske tilnærminger; og iv) kartlegge avgrensningsdifferensierer AMR loci som et eksempel på hvordan man utvinner genomisk innhold i sammenheng med befolkningsstrukturen. Skriptene som tilbys her, kan brukes på enten en lokal maskin eller på en beregningsplattform med høy ytelse. For eksperimentelle og miljømessige mikrobiologer legger denne tilnærmingen til rette for studier av datasett med sikte på å identifisere unike egenskaper og kandidatveier for videre mekanistiske studier som til slutt kan kontekstualiseres på befolkningsnivå. Økologer kan dra nytte av denne tilnærmingen ved å kunne analysere moderate til store datasett, som i teorien øker den statistiske kraften som trengs for å finne signaturer av seleksjon i en befolkning mens man vurderer slektskapsrelasjoner og diversifiseringsmønstre. Til slutt kan epidemiologer utnytte unik praktisk informasjon for diagnostikk og overvåking ved å definere genotypiske interesseenheter og forutsi folkehelserelaterte egenskaper som AMR. Mer generelt gir denne analytiske veiledningen et generaliserbart rammeverk for å utnytte ProkEvo til å utføre en befolkningsbasert genomisk analyse som kan brukes til å utlede evolusjonære og økologiske mønstre for patogene og ikke-patogene arter siden tilnærmingen er generaliserbar for andre bakteriearter.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har erklært at det ikke finnes konkurrerende interesser.

Acknowledgments

Dette arbeidet ble støttet av midler fra UNL-IANR Agricultural Research Division og National Institute for Antimicrobial Resistance Research and Education og av Nebraska Food for Health Center ved Food Science and Technology Department (UNL). Denne forskningen kunne bare fullføres ved å bruke Holland Computing Center (HCC) ved UNL, som mottar støtte fra Nebraska Research Initiative. Vi er også takknemlige for å ha tilgang, gjennom HCC, til ressurser levert av Open Science Grid (OSG), som støttes av National Science Foundation og U.S. Department of Energy's Office of Science. Dette arbeidet brukte Pegasus Workflow Management Software som er finansiert av National Science Foundation (grant #1664162).

Materials

Name Company Catalog Number Comments
amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

DOWNLOAD MATERIALS LIST

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user's guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 - Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. Seemann, T. MLST. GitHub. , Available from: https://github.com/tseemann/mist (2020).
  29. Seemann, T. ABRicate. GitHub. , Available from: https://github.com/tseemann/abricate (2020).
  30. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. at. Available from: https://cran.r-project.org (2021).
  31. Studio Team. RStudio: Integrated Development for R. Studio, PBC. , Boston, MA. Available from: http://www.rstudio.com (2020).
  32. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  33. rOpenSci: The skimr package. GitHub. , Berkeley, CA. Available from: https://github.com/ropensci/skimr/ (2021).
  34. Oksanen, J., et al. vegan: Community ecology package. R package version 2.5-5. , Available from: https://CRAN.R-project.org/package=vegan (2019).
  35. Tierney, N. J., Cook, D. H. Expanding tidy data principles to facilitate missing data exploration, visualization and assessment of imputations. arXiv. , Available from: http://arxiv.org/abs/1809.02264 (2020).
  36. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  37. Kassambara, A. ggpubr: "ggplot2" Based Publication Ready Plots. R package version 0.4.0. , Available from: https://CRAN.R-project.org/package=ggpubr (2020).
  38. Slowikowski, K. ggrepel: Automatically Position Non-Overlapping Text Labels with "ggplot2”. R package version 0.9.1. , Available from: https://CRAN.R-project.org/package=ggrepel (2021).
  39. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  40. Neuwirth, E. RColorBrewer: ColorBrewer Palettes. R package version 1.1-2. , Available from: https://CRAN.R-project.org/package=RColorBrewer (2014).
  41. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  42. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  43. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  44. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  45. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  46. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  47. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  48. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  49. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  50. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  51. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  52. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  53. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  54. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  55. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  56. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  57. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  58. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  59. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  60. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  61. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Tags

Genetikk utgave 178
Heuristisk gruvedrift av hierarkiske genotyper og tilbehørsgenom loci i bakteriepopulasjoner
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Pavlovikj, N., Gomes-Neto, J. C.,More

Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter