Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Estrazione euristica di genotipi gerarchici e loci genomici accessori in popolazioni batteriche

Published: December 7, 2021 doi: 10.3791/63115
* These authors contributed equally

Summary

Questa piattaforma computazionale analitica fornisce una guida pratica per microbiologi, ecologi ed epidemiologi interessati alla genomica delle popolazioni batteriche. Nello specifico, il lavoro qui presentato ha dimostrato come eseguire: i) mappatura filogenetica di genotipi gerarchici; ii) analisi dei genotipi basata sulla frequenza; iii) analisi di parentela e clonalità; iv) identificazione del lignaggio differenziando i loci accessori.

Abstract

L'uso sistematico e sistematico del sequenziamento dell'intero genoma batterico (WGS) sta migliorando l'accuratezza e la risoluzione delle indagini epidemiologiche condotte dai laboratori di sanità pubblica e dalle agenzie di regolamentazione. Grandi volumi di dati WGS disponibili pubblicamente possono essere utilizzati per studiare le popolazioni patogene su larga scala. Recentemente, è stata pubblicata una piattaforma computazionale liberamente disponibile chiamata ProkEvo per consentire analisi genomiche di popolazione riproducibili, automatizzate e scalabili basate su gerarchia utilizzando dati WGS batterici. Questa implementazione di ProkEvo ha dimostrato l'importanza di combinare la mappatura genotipica standard delle popolazioni con l'estrazione di contenuti genomici accessori per l'inferenza ecologica. In particolare, il lavoro qui evidenziato ha utilizzato output derivati da ProkEvo per analisi gerarchiche su scala di popolazione utilizzando il linguaggio di programmazione R. L'obiettivo principale era quello di fornire una guida pratica per microbiologi, ecologi ed epidemiologi mostrando come: i) utilizzare una mappatura filogenica dei genotipi gerarchici; ii) valutare le distribuzioni di frequenza dei genotipi come proxy per l'idoneità ecologica; iii) determinare le relazioni di parentela e la diversità genetica utilizzando specifiche classificazioni genotipiche; e iv) mappare il lignaggio differenziando i loci accessori. Per migliorare la riproducibilità e la portabilità, sono stati utilizzati file di markdown R per dimostrare l'intero approccio analitico. Il set di dati di esempio conteneva dati genomici da 2.365 isolati del patogeno zoonotico di origine alimentare Salmonella Newport. La mappatura ancorata alla filogenesi dei genotipi gerarchici (Serovar -> BAPS1 -> ST -> cgMLST) ha rivelato la struttura genetica della popolazione, evidenziando i tipi di sequenza (ST) come genotipo differenziante chiave di volta. Attraverso i tre lignaggi più dominanti, ST5 e ST118 hanno condiviso un antenato comune più recentemente che con il filotipo ST45 altamente clonale. Le differenze basate sulla ST sono state ulteriormente evidenziate dalla distribuzione dei loci di resistenza antimicrobica accessoria (AMR). Infine, è stata utilizzata una visualizzazione ancorata alla filogenesi per combinare genotipi gerarchici e contenuto AMR per rivelare la struttura della parentela e le firme genomiche specifiche del lignaggio. Combinato, questo approccio analitico fornisce alcune linee guida per condurre analisi genomiche euristiche della popolazione batterica utilizzando informazioni pan-genomiche.

Introduction

Il crescente uso del sequenziamento dell'intero genoma batterico (WGS) come base per la sorveglianza di routine e l'indagine epidemiologica da parte dei laboratori di sanità pubblica e delle agenzie di regolamentazione ha sostanzialmente migliorato le indagini sui focolai di patogeni 1,2,3,4. Di conseguenza, grandi volumi di dati WGS de-identificati sono ora disponibili al pubblico e possono essere utilizzati per studiare aspetti della biologia della popolazione di specie patogene su una scala senza precedenti, compresi studi basati su: strutture di popolazione, frequenze di genotipo e frequenze geniche / alleliche in più serbatoi, regioni geografiche e tipi di ambienti5 . Le indagini epidemiologiche guidate dal WGS più comunemente utilizzate si basano su analisi che utilizzano solo il contenuto genomico di base condiviso, in cui il contenuto condiviso (conservato) da solo viene utilizzato per la classificazione genotipica (ad esempio, la chiamata delle varianti) e queste varianti diventano la base per l'analisi epidemiologica e il tracciamento 1,2,6,7 . Tipicamente, la genotipizzazione basata sul genoma del nucleo batterico viene effettuata con approcci MLST (Multi-locus sequence typing) utilizzando da sette a poche migliaia di loci 8,9,10. Queste strategie basate su MLST comprendono la mappatura di sequenze genomiche preassemblate o assemblate su database altamente curati, combinando così le informazioni alleliche in unità genotipiche riproducibili per l'analisi epidemiologica ed ecologica11,12. Ad esempio, questa classificazione basata su MLST può generare informazioni genotipiche a due livelli di risoluzione: tipi di sequenza di livello inferiore (ST) o lignaggi ST (7 loci) e varianti MLST (cgMLST) del genoma centrale di livello superiore (~ 300-3.000 loci)10.

La classificazione genotipica basata su MLST è computazionalmente portatile e altamente riproducibile tra i laboratori, rendendola ampiamente accettata come un approccio accurato di sottostimolazione al di sotto del livello13,14 delle specie batteriche. Tuttavia, le popolazioni batteriche sono strutturate con vari gradi di clonalità specie-specifici (cioè omogeneità genotipica), modelli complessi di parentela gerarchica tra genotipi 15,16,17 e un'ampia gamma di variazioni nella distribuzione del contenuto genomico accessorio18,19 . Pertanto, un approccio più olistico va oltre le classificazioni discrete nei genotipi MLST e incorpora le relazioni gerarchiche dei genotipi a diverse scale di risoluzione, insieme alla mappatura del contenuto genomico accessorio su classificazioni genotipiche, che facilita l'inferenza basata sulla popolazione 18,20,21 . Inoltre, le analisi possono anche concentrarsi su modelli condivisi di ereditarietà di loci genomici accessori tra genotipi anche lontanamente correlati21,22. Nel complesso, l'approccio combinato consente un'interrogazione agnostica delle relazioni tra la struttura della popolazione e la distribuzione di specifiche composizioni genomiche (ad esempio, loci) tra gradienti geospaziali o ambientali. Un tale approccio può fornire informazioni sia fondamentali che pratiche sulle caratteristiche ecologiche di popolazioni specifiche che possono, a loro volta, spiegare il loro tropismo e i modelli di dispersione tra i bacini idrici, come gli animali alimentari o gli esseri umani.

Questo approccio gerarchico orientato alla popolazione basato su sistemi richiede grandi volumi di dati WGS per una potenza statistica sufficiente a prevedere firme genomiche distinguibili. Di conseguenza, l'approccio richiede una piattaforma computazionale in grado di elaborare molte migliaia di genomi batterici contemporaneamente. Recentemente, ProkEvo è stato sviluppato ed è una piattaforma bioinformatica liberamente disponibile, automatizzata, portatile e scalabile che consente analisi integrative della popolazione batterica basate su gerarchia, inclusa la mappatura pan-genomica20. ProkEvo consente lo studio di set di dati batterici su scala da moderata a grande, fornendo al contempo un quadro per generare ipotesi epidemiologiche ed ecologiche verificabili e deducibili e previsioni fenotipiche che possono essere personalizzate dall'utente. Questo lavoro integra questa pipeline nel fornire una guida su come utilizzare i file di output derivati da ProkEvo come input per l'analisi e l'interpretazione delle classificazioni gerarchiche della popolazione e dell'estrazione genomica accessoria. Il caso di studio qui presentato ha utilizzato la popolazione di Salmonella enterica lignaggio I sierotipo zoonotico S. Newport come esempio ed era specificamente finalizzato a fornire linee guida pratiche per microbiologi, ecologi ed epidemiologi su come: i) utilizzare un approccio automatizzato filogenesi-dipendente per mappare genotipi gerarchici; ii) valutare la distribuzione in frequenza dei genotipi come proxy per valutare l'idoneità ecologica; iii) determinare i gradi di clonalità specifici del lignaggio utilizzando approcci statistici indipendenti; e iv) mappare i loci AMR differenzianti il lignaggio come esempio di come estrarre il contenuto genomico accessorio nel contesto della struttura della popolazione. Più in generale, questo approccio analitico fornisce un quadro generalizzabile per eseguire un'analisi genomica basata sulla popolazione su una scala che può essere utilizzata per dedurre modelli evolutivi ed ecologici indipendentemente dalla specie bersaglio.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Preparare i file di input

NOTA: Il protocollo è disponibile qui - https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. Il protocollo presuppone che il ricercatore abbia specificamente utilizzato ProkEvo (o una pipeline comparabile) per ottenere gli output necessari disponibili in questo repository Figshare (https://figshare.com/account/projects/116625/articles/15097503 - sono richieste le credenziali di accesso - L'utente deve creare un account gratuito per avere accesso ai file!). Da notare, ProkEvo scarica automaticamente le sequenze genomiche dal repository NCBI-SRA e richiede solo un file .txt contenente un elenco di identificazioni del genoma come input20 e quello utilizzato per questo lavoro su S. Gli isolati di Newport USA sono forniti qui (https://figshare.com/account/projects/116625/articles/15097503?file=29025729).  Informazioni dettagliate su come installare e utilizzare questa piattaforma di genomica batterica sono disponibili qui (https://github.com/npavlovikj/ProkEvo/wiki/2.-Quick-start)20

  1. Generare filogenesi nucleo-genoma utilizzando FastTree23 come descritto in precedenza20, che non fa parte della piattaforma di bioinformatica20. FastTree richiede l'allineamento nucleo-genoma roary24 come file di input. Il file phylogeny è denominato newport_phylogeny.tree (https://figshare.com/account/projects/116625/articles/15097503?file=29025690).
  2. Generare l'output SISTR25 contenente le informazioni relative alle classificazioni dei sierotipi per i dati di chiamata della variante Salmonella e cgMLST (sistr_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025699).
  3. Generare il file BAPS di fastbaps26,27 contenente la classificazione BAPS dei livelli 1-6 dei genomi in sottogruppi o aplotipi (fastbaps_partition_baps_prior_l6.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025684).
  4. Generare una classificazione basata su MLST dei genomi in ST utilizzando il programma MLST (https://github.com/tseemann/mlst)28 (salmonellast_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025696).
  5. Genera l'output ABRicate (https://github.com/tseemann/abricate)29 come file .csv contenente loci AMR mappati per genoma (sabricate_resfinder_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025693).
    NOTA: l'utente può disattivare parti specifiche della pipeline bioinformatica di ProkEvo (controlla qui per ulteriori informazioni - https://github.com/npavlovikj/ProkEvo/wiki/4.2.-Remove-existing-bioinformatics-tool-from-ProkEvo). L'approccio analitico qui presentato fornisce linee guida su come condurre un'analisi basata sulla popolazione dopo che la pipeline bioinformatica è stata eseguita.

2. Scaricare e installare il software statistico e l'applicazione IDE (Integrated Development Environment)

  1. Scarica la versione più aggiornata disponibile gratuitamente del software R per Linux, Mac o PC30. Seguire i passaggi di installazione predefiniti.
  2. Scarica la versione più aggiornata disponibile gratuitamente dell'IDE desktop RStudio qui31. Seguire i passaggi predefiniti per l'installazione.
    NOTA: i passaggi successivi sono inclusi nello script disponibile, incluse informazioni dettagliate sull'utilizzo del codice, e devono essere eseguiti in sequenza per generare gli output e le figure presentate in questo lavoro (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). L'utente può decidere di utilizzare un altro linguaggio di programmazione per condurre questa analisi analitica/ statistica come Python. In tal caso, utilizzare i passaggi negli script come framework per eseguire l'analisi.

3. Installare e attivare le librerie di data science

  1. Installare tutte le librerie di data science contemporaneamente come primo passo nell'analisi. Evitare di installare le librerie ogni volta che è necessario eseguire nuovamente lo script. Utilizzare la funzione install.packages() per l'installazione della libreria. In alternativa, l'utente può fare clic sulla scheda Pacchetti all'interno dell'IDE e installare automaticamente i pacchetti. Il codice utilizzato per installare tutte le librerie necessarie è presentato qui:
    # Installa Tidyverse
    install.packages("tidyverse")
    # Installare skimr

    install.packages("skimr")
    # Installa vegan
    install.packages("vegano")
    # Installa forcats
    install.packages("forcats")
    # Installare naniar
    install.packages("naniar")
    # Installare ggpubr
    install.packages("ggpubr")
    # Installa ggrepel
    install.packages("ggrepel")
    # Installa reshape2
    install.packages("reshape2")
    # Installa RColorBrewer
    install.packages("RColorBrewer")
    # Installa ggtree
    if (!requireNamespace("BiocManager", tranquillamente = TRUE))
    install.packages("BiocManager")
    BiocManager::install("ggtree")
    # L'installazione di ggtree richiederà una domanda sull'installazione - la risposta è "a" per installare / aggiornare tutte le dipendenze
  2. Attivare tutte le librerie o i pacchetti utilizzando la funzione library() all'inizio dello script, subito dopo l'installazione. Ecco una dimostrazione su come attivare tutti i pacchetti necessari:
    # Attiva le librerie e i pacchetti
    libreria(tidyverse)
    biblioteca(skimr)
    biblioteca(vegano)
    biblioteca(forcats)
    biblioteca(naniar)
    biblioteca(ggtree)
    biblioteca(ggpubr)
    biblioteca(ggrepel)
    libreria(reshape2)
    libreria(RColorBrewer)
  3. Sopprimere l'output del codice utilizzato per l'installazione e l'attivazione della libreria e del pacchetto utilizzando {r, include = FALSE} nel mandrino del codice, come indicato di seguito:
    ''' {r, include = FALSE}
    # Installa Tidyverse

    install.packages("tidyverse")
    ```

    NOTA: questo passaggio è facoltativo ma evita di visualizzare blocchi di codice non necessari nel report html, doc o pdf finale.
  4. Per una breve descrizione delle funzioni specifiche di tutte le librerie insieme ad alcuni link utili per raccogliere ulteriori informazioni, fare riferimento ai passaggi 3.4.1-3.4.11.
    1. Tidyverse - utilizza questa raccolta di pacchetti utilizzati per la scienza dei dati, tra cui l'immissione dei dati, la visualizzazione, l'analisi e l'aggregazione e la modellazione statistica. Tipicamente, ggplot2 (data visualization) e dplyr (data wrangling and modeling) sono pacchetti pratici presenti in questa libreria32.
    2. skimr - utilizzare questo pacchetto per generare statistiche di riepilogo dei frame di dati, inclusa l'identificazione dei valori mancanti33.
    3. vegano - utilizzare questo pacchetto per analisi statistiche sull'ecologia della comunità, come il calcolo di statistiche basate sulla diversità (ad esempio, alfa e beta-diversità)34.
    4. forcats - utilizzare questo pacchetto per lavorare con variabili categoriche come il riordino delle classificazioni. Questo pacchetto fa parte della libreria Tidyverse32.
    5. naniar - utilizzare questo pacchetto per visualizzare la distribuzione dei valori mancanti tra le variabili in un frame di dati, utilizzando la funzione viss_miss()35.
    6. ggtree - utilizzare questo pacchetto per la visualizzazione di alberi filogenetici36.
    7. ggpubr - utilizzare questo pacchetto per migliorare la qualità delle visualizzazioni basate su ggplot237.
    8. ggrepel - utilizzare questo pacchetto per l'etichettatura del testo all'interno dei grafici38.
    9. reshape2 - utilizzare la funzione melt() di questo pacchetto per la trasformazione di frame di dati da wide a long format39.
    10. RColorBrewer - utilizzare questo pacchetto per gestire i colori nelle visualizzazioni basate su ggplot240.
    11. Utilizzare le seguenti funzioni di base per l'analisi esplorativa dei dati: head() per controllare le prime osservazioni in un frame di dati, tail() per controllare le ultime osservazioni di un frame di dati, is.na() per contare il numero di righe con valori mancanti in un frame di dati, dim() per controllare il numero di righe e colonne in un set di dati, table() per contare le osservazioni su una variabile, e sum() per contare il numero totale di osservazioni o istanze.

4. Inserimento e analisi dei dati

NOTA: informazioni dettagliate su ogni fase di questa analisi sono disponibili nello script disponibile (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). Tuttavia, ecco alcuni punti importanti da considerare:

  1. Eseguire l'immissione di tutti i dati genomici, comprese tutte le classificazioni genotipiche (sierotipo, BAPS, ST e cgMLST) utilizzando la funzione read_csv().
  2. Rinominare, creare nuove variabili e selezionare le colonne di interesse da ogni set di dati prima dell'aggregazione multiset.
  3. Non rimuovere i valori mancanti da alcun set di dati indipendente. Attendere che tutti i set di dati vengano aggregati per modificare o escludere i valori mancanti. Se vengono create nuove variabili per ogni set di dati, i valori mancanti vengono classificati per impostazione predefinita in una delle classificazioni appena generate.
  4. Verificare la presenza di caratteri errati come trattini o segni di interrogazione e sostituirli con NA (non applicabile). Fai lo stesso per i valori mancanti.
  5. Dati aggregati basati sull'ordine gerarchico dei genotipi (sierotipo -> BAPS1 -> ST -> cgMLST) e per raggruppamento in base alle identificazioni del genoma individuale.
  6. Verificare la presenza di valori mancanti utilizzando più strategie e gestire tali incongruenze in modo esplicito. Rimuovere un genoma o isolare dai dati solo se la classificazione è inaffidabile. In caso contrario, considerare l'analisi in corso e rimuovere le NA caso per caso.
    NOTA: Si consiglia vivamente di stabilire una strategia per affrontare tali valori a priori. Evitare di rimuovere tutti i genomi o gli isolati con valori mancanti in qualsiasi variabile. Ad esempio, un genoma può avere una classificazione ST senza avere il numero di variante cgMLST. In tal caso, il genoma può ancora essere utilizzato per l'analisi basata su ST.
  7. Una volta aggregati tutti i set di dati, assegnarli a un nome di frame di dati o a un oggetto che può essere utilizzato in più posizioni nell'analisi di follow-up, per evitare di dover generare lo stesso file di metadati per ogni figura nel documento.

5. Condurre analisi e generare visualizzazioni

NOTA: una descrizione dettagliata di ogni passaggio necessario per produrre tutte le analisi e le visualizzazioni è disponibile nel file di markdown per questo documento (https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code). Il codice per ogni figura è separato in blocchi e l'intero script deve essere eseguito in sequenza. Inoltre, il codice per ogni figura principale e supplementare viene fornito come file separato (vedere il file supplementare 1 e il file supplementare 2). Ecco alcuni punti essenziali (con frammenti di codice) da considerare durante la generazione di ogni figura principale e supplementare.

  1. Usa ggtree per tracciare un albero filogenetico insieme a informazioni genotipiche (Figura 1).
    1. Ottimizza le dimensioni della figura ggtree, inclusi il diametro e la larghezza degli anelli, modificando i valori numerici all'interno delle funzioni xlim() e gheatmap(width = ) rispettivamente (vedi codice di esempio sotto).
      tree_plot <- ggtree(albero, layout = "circolare") + xlim(-250, NA)
      figure_1 <- gheatmap(tree_plot, d4, offset=.0, width=20, colnames = FALSE)
      NOTA: Per un confronto più dettagliato dei programmi che possono essere utilizzati per il plottaggio filogenetico, controllare questo lavoro20. Il lavoro ha evidenziato un tentativo di identificare strategie per migliorare le visualizzazioni basate su ggtree, come la diminuzione delle dimensioni del set di dati, ma le lunghezze dei rami e la topologia dell'albero non erano così chiaramente discriminanti rispetto a phandango41.
    2. Aggrega tutti i metadati nel minor numero possibile di categorie per facilitare la scelta del pannello da colorare quando si tracciano più livelli di dati con l'albero filogenetico (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_1.Rmd). Condurre l'aggregazione dei dati in base alla questione dell'interesse e della conoscenza del dominio.
  2. Utilizzare un grafico a barre per valutare le frequenze relative (Figura 2).
    1. Aggrega i dati sia per i lignaggi ST che per le varianti cgMLST per facilitare le visualizzazioni. Scegli una soglia empirica o statistica utilizzata per l'aggregazione dei dati, considerando la domanda che viene posta.
    2. Per un codice di esempio che può essere utilizzato per ispezionare la distribuzione di frequenza dei lignaggi ST per determinare il cut-off, vedere di seguito:
      st_dist <- d2 %>% group_by(ST) %>% # gruppo dalla colonna ST
      count() %>% # contare il numero di osservazioni
      arrange(desc(n)) # disporre i conteggi in ordine decrescente
    3. Per un codice di esempio che mostra come possono essere aggregati ST minori (a bassa frequenza), fare riferimento di seguito. Come dimostrato di seguito, gli ST che non sono numerati come 5, 31, 45, 46, 118, 132 o 350, sono raggruppati come "Altri ST". Utilizzare un codice simile per le varianti cgMLST (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_2.Rmd).
      d2$st <- ifelse(d2$ST == 5, "ST5", # creare una nuova colonna ST per la quale le S T minori sono aggregate come Altre
      ifelse(d2$ST == 31, "ST31",
      ifelse(d2$ST == 45, "ST45",
      ifelse(d2$ST == 46, "ST46",
      ifelse(d2$ST == 118, "ST118",
      ifelse(d2$ST == 132, "ST132", ifelse(d2$ST == 350, "ST350", "Other STs"))))))))
  3. Utilizzare un approccio nidificato per calcolare la proporzione di ciascun lignaggio ST all'interno di ciascun sottogruppo BAPS1 per identificare gli ST ancestralmente correlati (appartengono allo stesso sottogruppo BAPS1) (Figura 3). Il codice seguente esemplifica come la proporzione basata su ST può essere calcolata tra i sottogruppi BAPS1 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_3.Rmd):
    baps <- d2b %>% filter(serovar == "Newport") %>% # filter Newport serovars
    select(baps_1, ST) %>% # seleziona colonne baps_1 e ST
    mutate(ST = as.numeric(ST)) %>% # cambia la colonna ST in numerico
    drop_na(baps_1, ST) %>% # drop NO
    group_by(baps_1, ST) %>% # gruppo per baps_1 e ST
    summarise(n = n()) %>% # count osservazioni
    mutate(prop = n/sum(n)*100) # calcola le proporzioni
  4. Tracciare la distribuzione dei loci AMR tra i lignaggi ST utilizzando i risultati dell'annotazione genica basata su Resfinder (Figura 4).
    NOTA: Resfinder è stato ampiamente utilizzato negli studi ecologici ed epidemiologici42. L'annotazione dei geni che codificano le proteine può variare a seconda della frequenza con cui i database vengono curati e aggiornati. Se si utilizza la pipeline bioinformatica suggerita, il ricercatore può confrontare le classificazioni dei loci basate sulla resistenza antimicrobica in diversi database20. Assicurati di controllare quali database vengono continuamente aggiornati. Non utilizzare database obsoleti o mal curati, al fine di evitare chiamate errate.
    1. Utilizzare una soglia empirica o statistica per filtrare i loci AMR più importanti per facilitare le visualizzazioni. Fornire un file di .csv non elaborato contenente le proporzioni calcolate di tutti i loci AMR in tutti i lignaggi ST, come mostrato qui (https://figshare.com/account/projects/116625/articles/15097503?file=29025687).
    2. Calcolare la proporzione AMR per ogni ST utilizzando il seguente codice (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_4.Rmd):
      # Calcoli per ST45
      d2c <- data6 %>% filter(st == "ST45") # filtra prima i dati ST45
      # per ST45, calcolare la proporzione di loci AMR e mantenere solo la proporzione superiore al 10%

      d3c <- d2c %>% select(id, gene) %>% # select columns
      group_by(id, gene) %>% # gruppo per id e gene
      summarize(count = n()) %>% # count osservazioni
      mutate(count = replace(count, count == 2, 1)) %>% # replace counts pari a 2 con 1 per considerare solo una copia di ciascun gene (le duplicazioni potrebbero non essere affidabili), ma il ricercatore può decidere di escluderle o mantenerle. Se il ricercatore vuole escluderli, utilizzare la funzione filter(count != 2) oppure lasciare così com'è
      filter(count <= 1) # filter counts below or equal to 1
      d4c <- d3c %>% group_by(gene) %>% # gruppo per gene
      summarize(value = n()) %>% # count osservazioni
      mutate(total = table(data1$st)[6]) %>% # get the total counts of st mutate(prop = (value/total)*100) # calculate proportions
      d5c <- d4c %>% mutate(st = "ST45") # creare una colonna st e aggiungere informazioni ST
    3. Dopo aver eseguito i calcoli per tutti gli ST, combinare i set di dati in un unico frame di dati, utilizzando il codice seguente:
      # Combinare set di dati
      d6 <- rbind(d5a, d5b, d5c, d5d, d5e, d5f, d5g, d5h) # set di dati di binding di riga
    4. Per esportare il file .csv contenente le proporzioni calcolate, utilizzare il codice:
      # Esporta la tabella dati contenente le informazioni sui loci ST e AMR
      abx_newport_st <- d6 write.csv(abx_newport_st,"abx_newport_st.csv", row.names = FALSE)
    5. Prima di tracciare la distribuzione basata su AMR tra i lignaggi ST, filtrare i dati in base a una soglia per facilitare le visualizzazioni, come illustrato di seguito:
      # Filtro AMR loci con proporzione superiore o uguale al 10%
      d7 <- d6 %>% filter(prop >= 10) # determinare la soglia empiricamente o statisticamente
  5. Traccia la filogenesi nucleo-genoma insieme alle classificazioni genotipiche gerarchiche e ai dati AMR in un singolo grafico usando ggtree (Figura 5).
    1. Ottimizzare le dimensioni della figura all'interno di ggtree utilizzando i parametri sopra menzionati (vedere il passaggio 5.1.1.).
    2. Ottimizza le visualizzazioni aggregando variabili o utilizzando classificazioni binarie come la presenza o l'assenza di geni. Più feature vengono aggiunte alla trama, più difficile diventa il processo di selezione della colorazione (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_5.Rmd).
      NOTA: cifre supplementari - la descrizione dettagliata dell'intero codice è disponibile qui (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd).
  6. Utilizzare un grafico a dispersione in ggplot2, senza aggregazione di dati, per visualizzare la distribuzione dei lignaggi ST o delle varianti cgMLST evidenziando i genotipi più frequenti (Figura supplementare 1) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s1.Rmd).
  7. Fare un'analisi nidificata per valutare la composizione dei lignaggi ST attraverso la proporzione di varianti cgMLST al fine di dare un'occhiata alla diversità genetica basata su ST, identificando le varianti più frequenti e le loro relazioni genetiche (cioè, le varianti cgMLST che appartengono allo stesso ST hanno condiviso un antenato più recentemente di quelle appartenenti a ST distinti) (Figura supplementare 2 ) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s2.Rmd).
  8. Utilizzare la metrica dell'ecologia della comunità, vale a dire l'indice D di diversità di Simpson, per misurare il grado di clonalità o diversità genotipica di ciascuno dei principali lignaggi ST43 (Figura supplementare 3).
    1. Calcola l'indice di diversità tra i lignaggi ST a diversi livelli di risoluzione genotipica, tra cui BAPS livello da 1 a 6 e cgMLST. Di seguito è riportato l'esempio di codice su come eseguire questo calcolo al livello BAPS 1 (BAPS1) di risoluzione genotipica:
      # BAPS livello 1 (BAPS1)
      # rilascia gli ST e BAPS1 con GLI AN, raggruppa per ST e BAPS1 e quindi calcola l'indice di Simpson
      baps1 <- dati6 %>%
      select(st, BAPS1) %>% # seleziona colonne
      drop_na(st, BAPS1) %>% # drop NO
      group_by(st, BAPS1) %>% # gruppo per colonne
      summarise(n = n()) %>% # conteggio osservazioni
      mutate(simpson = diversity(n, "simpson")) %>% # calculate diversity
      group_by(st) %>% # gruppo per colonna
      summarise(simpson = mean(simpson)) %>% # calcola la media dell'indice
      melt(id.vars=c("st"), measure.vars="simpson",
      variable.name="index", value.name="value") %>% # nascosto in formato lungo
      mutate(strat = "BAPS1") # creare una colonna strat
      NOTA: Una popolazione geneticamente più diversificata (cioè più varianti a diversi livelli di risoluzione genotipica) ha un indice più alto a livello cgMLST e produce valori crescenti basati sull'indice che vanno dal livello BAPS 2 al livello 6 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s3.Rmd).
  9. Esaminare il grado di diversità genotipica dei lignaggi ST tracciando la frequenza relativa dei sottogruppi BAPS a tutti i livelli di risoluzione (BAPS1-6) (Figura supplementare 4). Più diversificata è la popolazione, più scarsa è la distribuzione dei sottogruppi BAPS (aplotipi) passando da BAPS1 (livello inferiore di risoluzione) a BAPS6 (livello superiore di risoluzione) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s4.Rmd).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Utilizzando la piattaforma computazionale ProkEvo per le analisi genomiche di popolazione, il primo passo nel data mining WGS batterico consiste nell'esaminare la struttura gerarchica della popolazione nel contesto di una filogenesi nucleo-genoma (Figura 1). Nel caso di S. enterica lignaggio I, come esemplificato dalla S. Set di dati newport, la popolazione è strutturata gerarchicamente come segue: sierotipo (livello più basso di risoluzione), sottogruppi o aplotipi BAPS1, lignaggi ST e varianti cgMLST (più alto livello di risoluzione)20. Questa analisi filogenica della struttura gerarchica della popolazione consente specificamente di esaminare i seguenti punti: i) distribuzione filogenetica di genomi mal classificati basati su SISTR in altri sierotipi nel caso della Salmonella; ii) struttura genetica o di parentela della popolazione; iii) modello di diversificazione a diversi livelli di risoluzione genotipica; iv) identificazione delle principali unità genotipiche alla base di un modello evolutivo, ecologico o epidemiologico; v) relazioni ancestrali tra lignaggi ST attraverso sottogruppi BAPS1 o composizione aplotipica, e attraverso varianti cgMLST all'interno di lignaggi ST; e vi) visione parziale del grado di omogeneità genotipica di un lignaggio ST dalla composizione della variante cgMLST.

Figure 1
Figura 1: Mappatura filogenica dei genotipi gerarchici per la S. Popolazione di Newport. Una filogenesi nucleo-genoma (cerchio centrato nero) è stata utilizzata per mappare genotipi gerarchici, tra cui sierotipo (livello più basso di risoluzione - cerchio colorato più interno), sottogruppi o aplotipi BAPS livello 1 (BAPS1), lignaggi ST e varianti cgMLST (più alto livello di risoluzione - cerchio colorato più esterno). I sierotipi sono stati raggruppati in Newport (S. Newport) o "Altri sierotipi" basati sulla classificazione algoritmica SISTR dei genomi, che utilizzava le informazioni MLST del genoma del nucleo e funzionava come parte della piattaforma computazionale ProkEvo. BAPS1 stratifica agnosticamente la popolazione in sottogruppi o cluster di aplotipi correlati utilizzando dati genomici di base all'interno di ProkEvo. BAPS1 è gerarchicamente collocato tra i lignaggi sierotipi e ST perché ha catturato accuratamente le relazioni ancestrali tra ST. I lignaggi ST sono formati sulla base dell'analisi MLST canonica utilizzando sette loci sparsi sul genoma. Solo le ST maggiori o più frequenti (proporzione >1%) sono state rappresentate nel grafico. Infine, solo le varianti cgMLST più frequenti (proporzione >3,5%) sono state utilizzate per mostrare l'intera struttura gerarchica per la S. Popolazione di Newport (n = solo 2.365 isolati USA). La categoria "Altri ST" o "Altri cgMLST" comprendeva rispettivamente lignaggi o varianti minori o a bassa frequenza, con soglie fatte arbitrariamente che dovrebbero essere impostate empiricamente o statisticamente in base al set di dati. Fare clic qui per visualizzare una versione più grande di questa figura.

Le frequenze relative di tutti i genotipi gerarchici sono state quindi utilizzate per valutare la distribuzione complessiva e le classificazioni più frequentemente osservate (cioè i genotipi) (Figura 2). Nella Figura 2C-D, i lignaggi ST meno frequenti (minori) o le varianti cgMLST sono stati aggregati rispettivamente come "Altri ST" o "Altri CGMLST", al fine di facilitare la visualizzazione dei dati (riduzione della dimensionalità). Se il campionamento viene eseguito sistematicamente in ambienti e / o ospiti ed è adeguatamente alimentato statisticamente, la distribuzione della frequenza può diventare un proxy per l'idoneità ecologica. Cioè, i lignaggi o le varianti più frequenti potrebbero quindi essere previsti per avere una maggiore idoneità, con conseguenti ulteriori indagini per determinare i determinanti genetici causali alla base di tale tratto quantitativo 6,30.

Figure 2
Figura 2: Proporzione di S. Genotipi gerarchici di Newport a diversi livelli di risoluzione. (A) I sierotipi sono fenotipi della S. enterica linea I popolazione che può essere prevista esclusivamente dai dati core-genomici a causa dello squilibrio ereditario ad alto linkage tra core-loci e loci codificanti antigeni O e H (proteine di superficie). Quando si utilizza ProkEvo, i genomi di Salmonella vengono automaticamente classificati in sierotipi utilizzando il programma SISTR. Anche se solo S. I genomi di Newport (Newport) da NCBI sono stati presumibilmente scaricati, alcuni sono stati classificati come "Altri sierotipi" all'interno di ProkEvo. Circa il 2% (48 su 2.365) di tutti i genomi sono stati classificati come diversi da S. Sierovar di Newport. (B) La proporzione di sottogruppi o aplotipi di livello BAPS 1 (BAPS1). BAPS1 è inserito tra i lignaggi sierotipi e ST nello schema gerarchico perché ha catturato in modo accurato e agnostico le relazioni ancestrali tra ST. (C) La proporzione dei principali lignaggi ST raffigurava solo ST che erano >'1% in frequenza relativa. Le ST minori sono state raggruppate come "Altre ST". (D) La percentuale delle principali varianti di cgMLST ha mostrato solo quattro cgMLST predominanti che erano >3% in frequenza relativa. I restanti cgMLST sono stati raggruppati come "Altri cgMLST". (B-D) I genomi classificati da SISTR come "Altri sierotipi" (2,03%) sono stati filtrati dai dati prima di tracciare le frequenze relative di BAPS1, ST e cgMLST. (C-D) Le soglie utilizzate per tracciare sia i dati ST che cgMLST sono state definite arbitrariamente e dovrebbero essere stabilite empiricamente caso per caso. Fare clic qui per visualizzare una versione più grande di questa figura.

In alternativa, un grafico a dispersione può essere utilizzato per valutare la distribuzione e la proporzione di entrambi i lignaggi ST o varianti cgMLST, senza alcuna aggregazione di dati (Figura supplementare 1). Questo uso di un grafico a dispersione è particolarmente utile per i lignaggi ST e le varianti cgMLST a causa della tipica presenza di classificazioni centesimi, se non migliaia, per entrambi i genotipi. Questa distribuzione sparsa comunemente non si verifica per i livelli di risoluzione sierotipo e BAPS1, perché sono a un livello inferiore di risoluzione con sequenze che collassano ereditariamente in alcuni sottogruppi o categorie.

Successivamente, le relazioni ancestrali tra ST sono state esaminate utilizzando un approccio nidificato che comprende la valutazione della frequenza relativa dei lignaggi ST da parte di sottogruppi BAPS1 o aplotipi (Figura 3). I lignaggi ST che appartenevano allo stesso sottogruppo BAPS1 avevano maggiori probabilità di aver condiviso un antenato comune più recentemente rispetto ad altri ST (ad esempio, ST5 e ST118 vs ST45). Allo stesso modo, esaminando la distribuzione delle varianti cgMLST all'interno dei lignaggi ST, è possibile catturare il grado di eterogeneità genotipica tra st, valutando la loro composizione genetica e rivelando la relazione ancestrale tra cgMLST (cioè varianti cgMLST strettamente correlate appartengono allo stesso lignaggio ST o complesso clonale) (Figura supplementare 2).

Figure 3
Figura 3: Distribuzione dei lignaggi ST nidificati all'interno dei sottogruppi BAPS1 per la S. Popolazione di Newport. Questo grafico descrive la distribuzione del lignaggio ST all'interno di ciascun sottogruppo o aplotipo BAPS di livello 1, esclusi i genomi classificati come "Altri sierotipi" (2,03% dell'intero dato). I principali ST (proporzione >1%) per ciascun sottogruppo BAPS1 sono evidenziati in ciascun grafico. Maggiore è il diametro del cerchio, maggiore è la proporzione per il particolare lignaggio ST. Fare clic qui per visualizzare una versione più grande di questa figura.

Dato che il modello di S. La diversificazione della popolazione di Newport sembrava essere principalmente guidata dalla composizione ST (Figura 1), sono stati utilizzati due approcci statistici per valutare il grado di clonalità basato su ST (cioè l'omogeneità genetica), incluso l'indice D di diversità di Simpson (Figura supplementare 3) e la distribuzione di sottogruppi o aplotipi BAPS utilizzando i livelli BAPS 1-6 (Figura supplementare 4). ). Valutare il grado di clonalità di una popolazione può chiarire i seguenti aspetti: i) una migliore comprensione della diversità genetica e della struttura della popolazione; ii) analisi di messa a punto dei modelli di diversificazione tra le principali unità genotipiche come i lignaggi ST; e iii) essere un indicatore della necessità di utilizzare l'estrazione di genoma accessorio per trovare unità genotipiche criptiche che possano rivelare nuovi sottogruppi presenti nella popolazione. Più una popolazione clonale è a livello di genoma centrale, più difficile diventa distinguere tra varianti e più è probabile che il contenuto accessorio del genoma sia informativo per stratificare la popolazione in unità genotipiche significative associate a distribuzioni ecologiche uniche 18,19,21.

La frequenza relativa dei loci AMR differenzianti del lignaggio ST è stata valutata per identificare firme genomiche accessorie uniche legate alla S. Struttura della popolazione di Newport (Figura 4). Questa fase dell'analisi si è concentrata sulla distribuzione della resistenza antimicrobica perché è un tratto associato alla salute pubblica, ma lo stesso approccio può essere applicato in modo supervisionato (mirato) o agnostico per esaminare altri componenti del genoma accessorio, comprese le vie metaboliche, i fattori di virulenza, ecc. Evidentemente, mdf(A)_1 e aac(6')-Iaa_1 loci sembrano essere ancestralmente acquisiti dalla S. Popolazione di Newport; mentre si prevede che ST45 sia multi-farmaco resistente. Sorprendentemente, questi dati suggeriscono anche che gli altri principali lignaggi ST, ST5 e ST118, hanno maggiori probabilità di essere suscettibili a più farmaci rispetto a ST45. Questi punti devono essere attentamente considerati a causa dei pregiudizi presenti nel set di dati; tuttavia, ciò rappresenta una potenziale inferenza epidemiologica che potrebbe essere ricavata da raccolte di dati WGS più robuste.

In generale, ecco alcuni punti da considerare quando si esegue una mappatura del genoma accessorio su genotipi gerarchici: i) considerare la distribuzione della frequenza come un tratto quantitativo, ma essere consapevoli del fatto che la composizione allelica di un locus può alterare la varianza dei tratti. Inoltre, la presenza di un locus o di un loci dovrebbe essere indicativa della funzione ma non causale, perché il fenotipo può essere poligenico, o variare in base alla composizione allelica per il locus causativo (ad esempio, una mutazione non sinonimo sul sito attivo di una proteina ha maggiori probabilità di influenzare la funzione); ii) la distribuzione dei loci può dimostrare geni che sono fissi nella popolazione (ad esempio, trovati ad alta frequenza in tutti i lignaggi ST) o recentemente acquisiti da specifici lignaggi ST e varianti cgMLST, e può riflettere il modello ecologico o epidemiologico; iii) la resistenza multi-farmaco può essere prevista dai dati genomici. E se la distribuzione dei loci AMR, o di altre vie, è fortemente legata o comunemente ereditata da lignaggi specifici, allora i fenotipi possono essere previsti per deduzione da genotipi gerarchici, come nel caso dei lignaggi ST45,46; e iv) la misurazione dei fenotipi in laboratorio è ancora deterministica per convalidare le previsioni computazionali.

Figure 4
Figura 4: Distribuzione dei loci AMR tra i principali lignaggi ST della S. Popolazione di Newport. Distribuzione basata sulla frequenza relativa di un numero selezionato di loci AMR tra i principali lignaggi ST (>1% della popolazione). Le ST minori sono state raggruppate come "Altre ST". Solo genomi classificati come S. Newport dall'algoritmo SISTR sono stati mantenuti nell'analisi. Per la visualizzazione dei dati sono stati selezionati loci AMR con una frequenza relativa maggiore o uguale al 10%. Si tratta di una soglia arbitraria che deve essere determinata per ogni set di dati. Le proporzioni sono state calcolate utilizzando una matrice binaria composta da presenza o assenza genica. Fare clic qui per visualizzare una versione più grande di questa figura.

Infine, è stata utilizzata una visualizzazione ancorata alla filogenesi per integrare sistematicamente i dati della struttura gerarchica della popolazione insieme al lignaggio ST che differenzia la distribuzione dei loci AMR in base all'occorrenza genica (Figura 5). Combinando la struttura della popolazione con la composizione genomica accessoria, è possibile affrontare la seguente serie di domande in un dato set di dati: 1) Come è strutturata la popolazione? In che modo gli ST si relazionano tra loro e ancestralmente attraverso i sottogruppi BAPS1? Quanto è variabile la composizione cgMLST tra gli ST? 2) Qual è il modello di ramificazione filogenetica e la topologia generale dell'albero? e 3) Come viene distribuito il genoma accessorio? La composizione genomica accessoria è per lo più probabilmente acquisita ancestralmente o di recente derivazione? Qual è il lignaggio o il modello specifico della variante? Qual è la previsione fenotipica e l'inferenza ecologica? Ci sono geni che trascendono la nicchia rispetto a quelli che specificano la nicchia? In che modo il modello osservato mette in relazione o informa l'epidemiologia nel caso di agenti patogeni? I lignaggi o le varianti possono essere raggruppati in modo informativo in base al contenuto genomico accessorio?

Figure 5
Figura 5: Mappatura filogenica dei genotipi gerarchici e dei loci AMR accessori che differenziano tra i principali lignaggi ST all'interno della S. Popolazione di Newport. Una filogenesi nucleo-genoma (cerchio centrato nero) è stata utilizzata per mappare genotipi gerarchici, tra cui sierotipo (livello più basso di risoluzione - cerchio colorato più interno), sottogruppi o aplotipi BAPS livello 1 (BAPS1), lignaggi ST e varianti cgMLST (più alto livello di risoluzione - cerchio colorato più esterno), insieme a loci AMR colorati come blu scuro se presenti o grigi se assenti. I sierotipi sono stati raggruppati in Newport (S. Newport) o "Altri sierotipi" basati sulla classificazione algoritmica SISTR. BAPS1 è gerarchicamente collocato tra i lignaggi sierotipi e ST perché ha catturato in modo accurato e agnostico le relazioni ancestrali tra ST. I lignaggi ST sono formati sulla base dell'analisi MLST canonica utilizzando sette loci sparsi sul genoma. Solo le ST maggiori o più frequenti (proporzione >1%) sono state rappresentate nel grafico. Inoltre, solo le varianti cgMLST più dominanti (proporzione >3,5%) sono state utilizzate per mostrare l'intera struttura gerarchica per la S. Popolazione di Newport (n = solo 2.365 isolati USA). La categoria "Altri ST" o "Altri cgMLST" comprendeva rispettivamente lignaggi o varianti minori o a bassa frequenza e la soglia è stata effettuata arbitrariamente e dovrebbe essere impostata in base al set di dati. Per la visualizzazione dei dati sono stati selezionati loci AMR con una frequenza relativa maggiore o uguale al 10%. Questo grafico specifico mostra una distribuzione unica dei loci AMR che si verificano prevalentemente nei lignaggi ST31, ST45 e ST132. Fare clic qui per visualizzare una versione più grande di questa figura.

Figura supplementare 1: Distribuzione sparsa dei lignaggi ST e delle varianti cgMLST per la S. Popolazione di Newport. (A) La proporzione di lignaggi ST senza aggregare ST a bassa frequenza. ST con proporzione >1% sono evidenziati nel grafico. (B) La proporzione di varianti cgMLST senza aggregare cgMLST a bassa frequenza. cgMLST con proporzione > 3% sono evidenziati nella trama. (A-B) Le soglie utilizzate per tracciare sia i dati ST che cgMLST sono state definite arbitrariamente e dovrebbero essere stabilite in base al set di dati. I genomi classificati dal SISTR come "Altri sierotipi" (2,03%) sono stati filtrati dai dati prima di tracciare sia le frequenze relative ST che cgMLST. Maggiore è il diametro del cerchio, maggiore è la proporzione per la linea ST o la variante cgMLST. Fare clic qui per scaricare questo file.

Figura supplementare 2: Distribuzione delle varianti cgMLST nidificate all'interno dei lignaggi ST per la S. Popolazione di Newport. Questo grafico illustra la distribuzione della variante cgMLST tra i lignaggi ST, esclusi i genomi classificati come "Altri sierotipi" (2,03% dell'intero dato). I principali cgMLST (proporzione >15%) per ogni lignaggio ST sono evidenziati in ogni grafico. Maggiore è il diametro del cerchio, maggiore è la proporzione per la variante cgMSLT specifica. Gli ST a bassa frequenza sono stati raggruppati come "Altri ST". Fare clic qui per scaricare questo file.

Figura 3 supplementare: Il grado di diversità genetica basato sul D di Simpson tra i lignaggi ST utilizzando aplotipi BAPS 1-6 o genotipi cgMLST come dati di input per la S. Popolazione di Newport. Il grado di clonalità o diversità genetica di ciascun lignaggio ST è stato calcolato su diversi strati genotipici di risoluzione, compresi i livelli BAPS 1 (livello più basso di risoluzione) a 6 (livello più alto di risoluzione) sottogruppi o aplotipi, e utilizzando inoltre la distribuzione delle varianti basata su cgMLST. Più alto è il valore dell'indice, maggiore è il grado di diversità genetica. I lignaggi ST altamente diversificati hanno valori di indice più elevati che vanno da BAPS1 a BAPS6 (cioè, in genere l'indice aumenta e alla fine si stabilizza quando si passa da BAPS1 a BAPS6). Solo genomi classificati come S. Newport dal programma SISTR sono stati mantenuti nell'analisi. Gli ST a bassa frequenza sono stati raggruppati come "Altri ST". Fare clic qui per scaricare questo file.

Figura supplementare 4: Distribuzione dei livelli baPS 1-6 sottogruppi o aplotipi tra i principali lignaggi ST della popolazione di S. Newport. Distribuzione basata sulla frequenza relativa di sottogruppi o aplotipi BAPS, tra i principali lignaggi ST, dal più basso (BAPS1) al più alto livello di risoluzione (BAPS6). I principali ST sono stati selezionati in base all'avere una percentuale >1%. Solo genomi classificati come S. Newport dal programma SISTR sono stati mantenuti nell'analisi. Maggiore è il grado di clonalità, minore è la diffusione o la distribuzione dei sottogruppi o degli aplotipi BAPS quando si passa da BAPS1 a BAPS6. In altre parole, un lignaggio ST geneticamente più diversificato ha una gamma più ampia di sottogruppi BAPS al livello BAPS 6 (più alto grado di risoluzione). Gli ST a bassa frequenza sono stati raggruppati come "Altri ST". Fare clic qui per scaricare questo file.

File supplementare 1: Link all'elenco dei materiali e all'elenco dei genomi Fare clic qui per scaricare questo file.

File supplementare 2: Analisi genomica della popolazione batterica su base gerarchica utilizzando R Fare clic qui per scaricare questo file.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

L'utilizzo di un'analisi euristica e gerarchica della struttura della popolazione basata su sistemi fornisce un quadro per identificare nuove firme genomiche in set di dati batterici che hanno il potenziale per spiegare modelli ecologici ed epidemiologici unici20. Inoltre, la mappatura dei dati del genoma accessorio sulla struttura della popolazione può essere utilizzata per dedurre tratti ancestrali acquisiti e / o di derivazione recente che facilitano la diffusione di lignaggi ST o varianti cgMLST attraverso i serbatoi 6,20,21,45,46. Più in generale, una valutazione globale della distribuzione del contenuto pan-genomico nelle popolazioni batteriche può rivelare modelli di diversificazione che sono alla base dei tromi ecologici o dei colli di bottiglia geospaziali / temporali che una popolazione potrebbe aver recentemente resistito18,21. Nel caso di specie patogene, estraendo la struttura della popolazione di isolati clinici e ambientali, i determinanti genetici associati agli eventi zoonotici possono essere identificati e utilizzati per migliorare la diagnostica e la sorveglianza33,34. Lo stesso approccio può essere applicato a specie non patogene per identificare genotipi con desiderabili proprietà di innesto specifiche di nicchia, come nel caso di ceppi probiotici gastrointestinali utilizzati per migliorare la salute umana 49,50,51. Tuttavia, l'utilizzo dei dati WGS batterici per le indagini basate sulla popolazione richiede l'uso di piattaforme computazionali riproducibili, automatizzate e scalabili come ProkEvo20. Qualsiasi approccio computazionale ha i suoi avvertimenti e sfumature, ma in generale, piattaforme liberamente disponibili, ben documentate, portatili e user-friendly come ProkEvo possono facilitare il lavoro di microbiologi, ecologi ed epidemiologi che fanno genomica euristica basata sulla popolazione batterica.

Nel presente lavoro, è stato dimostrato come utilizzare gli output derivati da ProkEvo per condurre un'analisi gerarchica della struttura della popolazione che può essere utilizzata per mappare e tracciare i genotipi di interesse a diversi livelli di risoluzione, oltre a prevedere tratti utili dai dati WGS. Questo protocollo computazionale è stato scritto utilizzando il linguaggio di programmazione R, ma il framework o l'approccio concettuale è generalizzabile ad altri linguaggi come Python attraverso l'utilizzo della libreria Pandas, per esempio. I dati di input sono generati da ProkEvo20, che impedisce di affrontare alcuni ostacoli in termini di standardizzazione degli output e dei formati di dati per l'analisi successiva. Ad eccezione delle filogenesi, tutti gli altri set di dati di input sono disponibili in un formato tabulare che può essere facilmente controllato in base alla qualità, aggregato, analizzato e integrato per generare report utili per l'interpretazione dei dati. Tuttavia, è importante evidenziare alcuni passaggi critici per migliorare la riproducibilità durante l'utilizzo di questo protocollo: i) assicurarsi che le versioni del software siano sempre aggiornate e tracciate; ii) tenere traccia delle versioni delle librerie di data science utilizzate e preferibilmente aggiornarle nel tempo; iii) controllare la qualità dei dati utilizzando le competenze di conoscenza del dominio per dare un senso agli output generati da ProkEvo, o da una pipeline simile, alla luce di ciò che è inteso per la popolazione batterica mirata; iv) condurre un'analisi esplorativa dei dati prima di utilizzare qualsiasi approccio di modellazione; v) aggregare i dati sulla base di conoscenze empiriche e/o valutazioni statistiche; vi) definire una strategia per affrontare a priori i valori mancanti ed essere coerenti e completamente trasparenti al riguardo; vii) se si utilizza R, provare a utilizzare tutti i pacchetti forniti da Tidyverse, perché questa raccolta facilita la programmazione funzionale, la portabilità, l'ottimizzazione ed è liberamente disponibile; e viii) essere consapevoli del fatto che gli approcci di visualizzazione possono essere difficili perché ci vogliono alcuni tentativi ed errori per ottenere il giusto tipo di trama e schema di colorazione che è più appropriato applicabile per la domanda posta e i dati ritratti.

Da notare, questo protocollo viene fornito con alcune limitazioni che possono essere ulteriormente migliorate. Ad esempio, ProkEvo ha un limite intrinseco al numero di genomi che possono essere utilizzati per l'analisi pan-genomica, se la fase di allineamento nucleo-genoma viene generata contemporaneamente, mentre utilizza il programma Roary (~ 2.000-3.000 genomi)24. Questo è un collo di bottiglia molto specifico nella pipeline che influenzerà il numero di genomi che possono essere classificati in aplotipi BAPS poiché dipende dall'allineamento nucleo-genoma (cioè, passo altamente impegnativo dal punto di vista computazionale). Tuttavia, l'allineamento nucleo-genoma può essere fatto con altri programmi52, e tali algoritmi, in teoria, potrebbero essere facilmente incorporati in ProkEvo. Altrimenti, i set di dati possono essere strategicamente suddivisi in sottoinsiemi casuali o in un'altra base, ad esempio considerando la struttura della popolazione dell'organismo in questione. In alternativa, ProkEvo può essere eseguito con un singolo genoma per ottenere annotazioni basate su ST, resistenza agli antibiotici e composizione genica della virulenza e mappatura dei plasmidi, ma la pipeline è stata progettata per la genomica basata sulla popolazione. Degno di nota, se le classificazioni BAPS1-6 non sono necessarie, l'opzione di allineamento nucleo-genoma di Roary può essere disattivata e, in tal caso, ProkEvo può essere utilizzato con molti centesimi di migliaia di genomi - è limitato solo in base al numero di core del computer disponibili. Un esempio di come implementare un nuovo programma o come disattivare l'opzione di allineamento core-genoma in Roary all'interno di ProkEvo può essere trovato nei seguenti collegamenti GitHub (https://github.com/npavlovikj/ProkEvo/wiki/4.1.-Add-new-bioinformatics-tool-to-ProkEvo) e (https://github.com/npavlovikj/ProkEvo/wiki/4.3.-Change-running-options-for-existing-tool-in-ProkEvo), rispettivamente. Nel caso del mining genomico accessorio, un'analisi agnostica dipende dall'utilizzo del pan-genomico . Rtab generato da Roary24, che non è stato specificamente utilizzato qui, ma invece, è stato strategicamente dimostrato come mappare i loci AMR con ABRicate utilizzando il database Resfinder (https://github.com/tseemann/abricate). Tuttavia, esiste un'opzione per espandere l'ambito della mappatura genomica accessoria utilizzando invece un file pan-genomico, che può essere praticamente visto come un'espansione dell'approccio attuale (ad esempio, più loci inclusi nel set di dati tabulare come nuove colonne). È importante ricordare che la mappatura pan-genomica effettuata da ProkEvo ha fornito solo informazioni binarie in termini di composizione dei loci e, attualmente, non può essere utilizzata per l'identificazione di polimorfismi a singolo nucleotide attraverso i geni.

Un'altra limitazione di questo protocollo è la visualizzazione dell'albero filogenetico. Attualmente, ggtree è il programma preferito, ma ciò comporta il costo di non essere in grado di ispezionare con precisione le lunghezze dei rami e diventa ingombrante quando molti livelli di dati devono essere aggiunti alla filogenesi. In alternativa, phandango41 è una GUI (https://jameshadfield.github.io/phandango/#/)41 formattata per pagine Web user-friendly e scalabile che potrebbe essere facilmente utilizzata per raggiungere lo stesso obiettivo e ulteriori informazioni dettagliate su come utilizzarla con gli output ProkEvo sono state recentemente pubblicate20. Altri strumenti come iTOL potrebbero anche essere utilizzati per la visualizzazionefilogenica dei dati 53, ma richiedono l'utilizzo di una GUI e non possono essere incorporati in script automatizzati. Inoltre, l'accurata filogenesi del genoma centrale può essere difficile da stimare a causa dell'impatto criptico dipendente dal set di dati del trasferimento genico orizzontale. Programmi come Gubbins54 possono essere utilizzati a tale scopo, ma hanno anche alcune limitazioni come la necessità di utilizzare l'allineamento dell'intero genoma e set di dati specifici del lignaggio ST per la corretta stima delle filogenesi. Invece, possono essere implementati altri approcci indipendenti dalla filogenesi, che finiscono per richiedere altri tipi di visualizzazioni per integrare metadati o informazioni genomiche accessorie, come nel caso dell'analisi multidimensionale 55,56. Infine, è stato utilizzato un approccio empirico e arbitrario per aggregare lignaggi ST minori e varianti cgMLST, oltre a filtrare i loci AMR più importanti da quantificare. Questo tipo di aggregazione dei dati può essere effettuata empiricamente utilizzando l'esperienza della conoscenza del dominio, ma potrebbe anche essere raggiunta statisticamente definendo un criterio a priori della proporzione della distribuzione che dovrebbe essere visualizzata, o utilizzando metriche relative alla distribuzione come intervallo interquartile, deviazione standard o asimmetria, per definire infine una soglia. È importante sottolineare che la definizione di genotipi minori è direttamente influenzata dalla natura dei dati poiché la dimensione del campione e la distorsione nei tipi di campioni ambientali può influenzare direttamente la composizione genotipica. Indipendentemente da ciò, la considerazione principale è che la mappatura del contenuto del genoma accessorio sulla struttura della popolazione consente di identificare potenziali determinanti genetici di diversificazione ecologica, come i geni che trascendono la nicchia o specificano la nicchia 57,58,59.

Sebbene gli script R disponibili siano stati progettati per l'automazione del presente lavoro, tutti gli script forniti dovrebbero essere ulteriormente sviluppati per diventare una libreria di data science astratta e distribuibile, che potrebbe ad esempio essere parte integrante della pipeline ProkEvo. Tuttavia, ci sono alcuni vantaggi specifici nell'utilizzo di questo approccio come l'uso dello schema di genotipizzazione o clustering BAPS di livello 1. Il posizionamento di sottogruppi o aplotipi baPS di livello 1 tra i lignaggi sierotipi e ST è stato definito empiricamente sulla base della struttura genetica della popolazione di Salmonella, ma sembra essere applicabile ad altre specie come Campylobacter jejuni e Staphylococcus aureus20. Inoltre, BAPS1 cattura accuratamente la relazione ancestrale tra i lignaggi ST e fornisce un approccio scalabile per l'analisi evolutiva, specialmente quando le applicazioni filogenetiche sono limitate20. Inoltre, l'uso di un approccio nidificato per esaminare le relazioni gerarchiche e i modelli di diversificazione facilita l'identificazione degli antenati tra i lignaggi ST utilizzando i sottogruppi BAPS1 e tra le varianti cgMLST utilizzando i lignaggi ST, passando successivamente da una risoluzione genotipica inferiore a una più alta nella valutazione della struttura della popolazione. È importante ribadire che la distribuzione in frequenza dei lignaggi ST e delle varianti cgMLST, se tratta da un campione raccolto sistematicamente e alimentato statisticamente, può diventare un proxy per l'idoneità ecologica 1,6,43. Di conseguenza, è probabile che i lignaggi ST dominanti e le varianti cgMLST contengano caratteristiche genomiche uniche che possono essere alla base del meccanismo biologico per la loro dominanza nella popolazione in quel particolare ambiente o ospite.

Qui, sono state utilizzate due metriche statistiche indipendenti per valutare il grado di clonalità della popolazione, che consente una comprensione ausiliaria della diversità genetica della popolazione, che può indicare il verificarsi passato di bias del campione, colli di bottiglia della popolazione o effetto fondatore. In particolare, la valutazione agnostica dei sottogruppi BAPS di livello 1-6 tra i lignaggi ST può affinare la comprensione della diversità genetica che in genere non può essere risolta semplicemente osservando il livello di variante Salmonella cgMLST generato da SISTR. Come accennato in precedenza, altre caratteristiche del pan-genoma possono essere mappate sulla struttura della popolazione e i file contenenti la composizione plasmidica e virulenza genica, oltre all'utilizzo di altri database AMR insieme a set di dati pan-genoma agnostici, sono generati automaticamente da ProkEvo20. Da notare, ProkEvo attualmente non consente la differenziazione tra i loci AMR presenti nel cromosoma batterico rispetto ai plasmidi. I metadati ecologici ed epidemiologici possono anche essere facilmente integrati in questo approccio analitico incorporando altre variabili in un file .csv contenente tutte le informazioni genomiche. In particolare, il lavoro qui presentato integra specificamente l'utilizzo della piattaforma computazionale scalabile e portatile ProkEvo, progettata per essere utilizzata da ricercatori focalizzati su analisi euristiche di genomica di popolazione che facilitano il data mining e la personalizzazione da parte dell'utente. Altre piattaforme possono essere utilizzate per la genotipizzazione, l'analisi della struttura della popolazione e/o la mappatura di genomi accessori come Enterobase5, PATRIC60 eBacWGSTdb61. Queste ultime sono risorse eccellenti che facilitano il data mining genomico per i ricercatori che non stanno cercando di personalizzare e utilizzare il cluster computing per analisi scalabili e complesse. L'approccio analitico qui presentato è specificamente adattato per i ricercatori che vogliono avere la flessibilità di effettuare un'analisi genomica di popolazione utilizzando script riproducibili sulla loro macchina locale o utilizzando una piattaforma computazionale cloud o ad alte prestazioni.

In conclusione, la piattaforma analitica basata su R presentata in questo lavoro era mirata a fornire una guida pratica per microbiologi, ecologi ed epidemiologi su come: i) utilizzare approcci filogenesi-dipendenti per mappare genotipi gerarchici; ii) valutare la distribuzione in frequenza dei genotipi come proxy per valutare l'idoneità ecologica; iii) determinare i gradi di clonalità specifici del lignaggio utilizzando approcci statistici indipendenti; e iv) mappare i loci AMR differenzianti il lignaggio come esempio di come estrarre il contenuto genomico accessorio nel contesto della struttura della popolazione. Gli script forniti qui possono essere utilizzati su una macchina locale o su una piattaforma computazionale ad alte prestazioni. Per i microbiologi sperimentali e ambientali, questo approccio facilita gli studi di set di dati volti a identificare tratti unici e percorsi candidati per ulteriori studi meccanicistici che alla fine possono essere contestualizzati a livello di popolazione. Gli ecologisti possono trarre beneficio da questo approccio essendo in grado di analizzare set di dati da moderati a grandi, che in teoria aumentano il potere statistico necessario per trovare le firme di selezione in una popolazione, considerando le relazioni di parentela e i modelli di diversificazione. Infine, gli epidemiologi possono sfruttare informazioni pratiche uniche per la diagnostica e la sorveglianza definendo unità genotipiche di interesse e prevedendo tratti associati alla salute pubblica come la resistenza antimicrobica. Più in generale, questa guida analitica fornisce un quadro generalizzabile per utilizzare ProkEvo per eseguire un'analisi genomica basata sulla popolazione che può essere utilizzata per dedurre modelli evolutivi ed ecologici per specie patogene e non patogene poiché l'approccio è generalizzabile ad altre specie batteriche.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori hanno dichiarato che non esistono interessi concorrenti.

Acknowledgments

Questo lavoro è stato sostenuto da finanziamenti forniti dalla Divisione di ricerca agricola UNL-IANR e dall'Istituto nazionale per la ricerca e l'istruzione sulla resistenza antimicrobica e dal Nebraska Food for Health Center presso il Dipartimento di scienza e tecnologia alimentare (UNL). Questa ricerca potrebbe essere completata solo utilizzando l'Holland Computing Center (HCC) dell'UNL, che riceve il sostegno della Nebraska Research Initiative. Siamo anche grati di avere accesso, attraverso l'HCC, alle risorse fornite dall'Open Science Grid (OSG), che è supportato dalla National Science Foundation e dall'Office of Science del Dipartimento dell'Energia degli Stati Uniti. Questo lavoro ha utilizzato il software di gestione del flusso di lavoro Pegasus che è finanziato dalla National Science Foundation (sovvenzione n. 1664162).

Materials

Name Company Catalog Number Comments
amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

DOWNLOAD MATERIALS LIST

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user's guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 - Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. Seemann, T. MLST. GitHub. , Available from: https://github.com/tseemann/mist (2020).
  29. Seemann, T. ABRicate. GitHub. , Available from: https://github.com/tseemann/abricate (2020).
  30. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. at. Available from: https://cran.r-project.org (2021).
  31. Studio Team. RStudio: Integrated Development for R. Studio, PBC. , Boston, MA. Available from: http://www.rstudio.com (2020).
  32. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  33. rOpenSci: The skimr package. GitHub. , Berkeley, CA. Available from: https://github.com/ropensci/skimr/ (2021).
  34. Oksanen, J., et al. vegan: Community ecology package. R package version 2.5-5. , Available from: https://CRAN.R-project.org/package=vegan (2019).
  35. Tierney, N. J., Cook, D. H. Expanding tidy data principles to facilitate missing data exploration, visualization and assessment of imputations. arXiv. , Available from: http://arxiv.org/abs/1809.02264 (2020).
  36. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  37. Kassambara, A. ggpubr: "ggplot2" Based Publication Ready Plots. R package version 0.4.0. , Available from: https://CRAN.R-project.org/package=ggpubr (2020).
  38. Slowikowski, K. ggrepel: Automatically Position Non-Overlapping Text Labels with "ggplot2”. R package version 0.9.1. , Available from: https://CRAN.R-project.org/package=ggrepel (2021).
  39. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  40. Neuwirth, E. RColorBrewer: ColorBrewer Palettes. R package version 1.1-2. , Available from: https://CRAN.R-project.org/package=RColorBrewer (2014).
  41. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  42. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  43. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  44. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  45. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  46. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  47. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  48. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  49. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  50. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  51. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  52. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  53. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  54. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  55. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  56. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  57. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  58. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  59. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  60. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  61. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Tags

Genetica Numero 178
Estrazione euristica di genotipi gerarchici e loci genomici accessori in popolazioni batteriche
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Pavlovikj, N., Gomes-Neto, J. C.,More

Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter