Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Heuristisches Mining von hierarchischen Genotypen und akzessorischen Genomloci in Bakterienpopulationen

Published: December 7, 2021 doi: 10.3791/63115
* These authors contributed equally

Summary

Diese analytische Berechnungsplattform bietet praktische Anleitungen für Mikrobiologen, Ökologen und Epidemiologen, die sich für die Genomik der Bakterienpopulation interessieren. Insbesondere zeigte die hier vorgestellte Arbeit, wie man Folgendes durchführt: i) phylogenie-geführte Kartierung hierarchischer Genotypen; ii) frequenzbasierte Analyse von Genotypen; iii) Verwandtschafts- und Klonalitätsanalysen; iv) Identifizierung der Abstammungsdifferenzierung der akzessorischen Loci.

Abstract

Der routinemäßige und systematische Einsatz der bakteriellen Ganzgenomsequenzierung (WGS) verbessert die Genauigkeit und Auflösung epidemiologischer Untersuchungen, die von Laboratorien und Aufsichtsbehörden des öffentlichen Gesundheitswesens durchgeführt werden. Große Mengen öffentlich verfügbarer WGS-Daten können verwendet werden, um pathogene Populationen in großem Maßstab zu untersuchen. Vor kurzem wurde eine frei verfügbare Rechenplattform namens ProkEvo veröffentlicht, um reproduzierbare, automatisierte und skalierbare hierarchisch basierte populationsgenomische Analysen unter Verwendung von bakteriellen WGS-Daten zu ermöglichen. Diese Implementierung von ProkEvo zeigte, wie wichtig es ist, die standardmäßige genotypische Kartierung von Populationen mit dem Abbau des akzessorischen genomischen Inhalts für die ökologische Inferenz zu kombinieren. Insbesondere verwendete die hier hervorgehobene Arbeit ProkEvo-abgeleitete Ausgaben für populationsskalierte hierarchische Analysen unter Verwendung der Programmiersprache R. Das Hauptziel war es, Mikrobiologen, Ökologen und Epidemiologen einen praktischen Leitfaden zur Verfügung zu stellen, indem gezeigt wurde, wie: i) eine phylogeniegesteuerte Kartierung hierarchischer Genotypen zu verwenden; ii) Bewertung der Häufigkeitsverteilungen von Genotypen als Proxy für die ökologische Fitness; iii) Bestimmung der Verwandtschaftsbeziehungen und der genetischen Vielfalt unter Verwendung spezifischer genotypischer Klassifikationen; und iv) Kartenlinie, die die Zubehörloki unterscheidet. Um die Reproduzierbarkeit und Portabilität zu verbessern, wurden R-Markdown-Dateien verwendet, um den gesamten analytischen Ansatz zu demonstrieren. Der Beispieldatensatz enthielt genomische Daten von 2.365 Isolaten des zoonotischen lebensmittelbedingten Erregers Salmonella Newport. Die phylogenieverankerte Kartierung hierarchischer Genotypen (Serovar -> BAPS1 -> ST -> cgMLST) zeigte die genetische Struktur der Population und hob Sequenztypen (STs) als Schlüsselelement zur Unterscheidung des Genotyps hervor. Über die drei dominantesten Linien hinweg teilten ST5 und ST118 in jüngerer Zeit einen gemeinsamen Vorfahren als mit dem hochklonalen ST45-Phylotyp. Die ST-basierten Unterschiede wurden durch die Verteilung der Loci für akzessorische antimikrobielle Resistenzen (AMR) weiter hervorgehoben. Schließlich wurde eine phylogenieverankerte Visualisierung verwendet, um hierarchische Genotypen und AMR-Inhalte zu kombinieren, um die Verwandtschaftsstruktur und die linienspezifischen genomischen Signaturen aufzudecken. In Kombination bietet dieser analytische Ansatz einige Richtlinien für die Durchführung heuristischer genomischer Analysen der Bakterienpopulation unter Verwendung pangenomischer Informationen.

Introduction

Die zunehmende Verwendung der bakteriellen Sequenzierung des gesamten Genoms (WGS) als Grundlage für die routinemäßige Überwachung und epidemiologische Untersuchung durch Laboratorien und Regulierungsbehörden des öffentlichen Gesundheitswesens hat die Untersuchungen von Krankheitserregern erheblich verbessert 1,2,3,4. Infolgedessen sind große Mengen anonymisierter WGS-Daten nun öffentlich verfügbar und können verwendet werden, um Aspekte der Populationsbiologie pathogener Arten in einem beispiellosen Umfang zu untersuchen, einschließlich Studien auf der Grundlage von: Populationsstrukturen, Genotyphäufigkeiten und Gen- / Allelhäufigkeiten über mehrere Reservoirs, geografische Regionen und Umgebungstypenhinweg 5 . Die am häufigsten verwendeten WGS-geführten epidemiologischen Untersuchungen basieren auf Analysen, die nur den gemeinsamen Kerngenomgehalt verwenden, wobei der gemeinsame (konservierte) Inhalt allein für die genotypische Klassifikation (z. B. Variantenaufruf) verwendet wird, und diese Varianten werden zur Grundlage für die epidemiologische Analyse und Rückverfolgung 1,2,6,7 . Typischerweise wird die bakterielle Kerngenom-basierte Genotypisierung mit Multi-Locus-Sequenztypisierung (MLST) unter Verwendung von sieben bis einigen tausend Loci 8,9,10 durchgeführt. Diese MLST-basierten Strategien umfassen die Kartierung vormontierter oder assemblierter genomischer Sequenzen auf hochkuratierte Datenbanken, wodurch allelische Informationen zu reproduzierbaren genotypischen Einheiten für die epidemiologische und ökologische Analyse kombiniertwerden 11,12. Zum Beispiel kann diese MLST-basierte Klassifikation genotypische Informationen auf zwei Auflösungsebenen generieren: Sequenztypen auf niedrigerer Ebene (STs) oder ST-Linien (7 Loci) und MLST-Varianten (cgMLST) auf höherer Ebene (~ 300-3.000 Loci)10.

Die MLST-basierte genotypische Klassifikation ist rechnerisch tragbar und zwischen Labors hochgradig reproduzierbar, was sie weithin als genauen Subtypisierungsansatz unterhalb der Bakterienartenebene13,14 akzeptiert. Bakterienpopulationen sind jedoch mit artspezifischen unterschiedlichen Klonalitätsgraden (d. h. genotypischer Homogenität), komplexen Mustern hierarchischer Verwandtschaft zwischen den Genotypen 15,16,17 und einer breiten Palette von Variationen in der Verteilung des akzessorischen genomischen Inhalts strukturiert 18,19 . Daher geht ein ganzheitlicherer Ansatz über diskrete Klassifikationen in MLST-Genotypen hinaus und umfasst die hierarchischen Beziehungen von Genotypen auf verschiedenen Auflösungsskalen sowie die Abbildung des akzessorischen genomischen Inhalts auf genotypische Klassifikationen, was eine populationsbasierte Inferenz erleichtert 18,20,21 . Darüber hinaus können sich die Analysen auch auf gemeinsame Vererbungsmuster akzessorischer genomischer Loci bei selbst entfernt verwandten Genotypenkonzentrieren 21,22. Insgesamt ermöglicht der kombinierte Ansatz eine agnostische Abfrage von Beziehungen zwischen der Populationsstruktur und der Verteilung spezifischer genomischer Zusammensetzungen (z. B. Loci) zwischen Geo- oder Umweltgradienten. Ein solcher Ansatz kann sowohl grundlegende als auch praktische Informationen über die ökologischen Eigenschaften bestimmter Populationen liefern, die wiederum ihren Tropismus und ihre Ausbreitungsmuster über Stauseen wie Futtertiere oder Menschen erklären können.

Dieser systembasierte hierarchische populationsorientierte Ansatz erfordert große Mengen an WGS-Daten für eine ausreichende statistische Aussagekraft, um unterscheidbare genomische Signaturen vorherzusagen. Folglich erfordert der Ansatz eine Rechenplattform, die in der Lage ist, viele Tausende von bakteriellen Genomen gleichzeitig zu verarbeiten. Vor kurzem wurde ProkEvo entwickelt und ist eine frei verfügbare, automatisierte, tragbare und skalierbare Bioinformatik-Plattform, die integrative hierarchisch basierte Bakterienpopulationsanalysen, einschließlich pangenomischer Kartierung20, ermöglicht. ProkEvo ermöglicht die Untersuchung von mittelgroßen bis großen bakteriellen Datensätzen und bietet gleichzeitig einen Rahmen für die Erstellung überprüfbarer und inferiierbarer epidemiologischer und ökologischer Hypothesen und phänotypischer Vorhersagen, die vom Benutzer angepasst werden können. Diese Arbeit ergänzt diese Pipeline durch die Bereitstellung eines Leitfadens zur Verwendung von ProkEvo-abgeleiteten Ausgabedateien als Input für Analysen und Interpretationen hierarchischer Populationsklassifikationen und des akzessorischen genomischen Minings. Die hier vorgestellte Fallstudie verwendete die Population der Salmonella enterica-Linie I zoonotischer Serovar S. Newport als Beispiel und zielte speziell darauf ab, praktische Richtlinien für Mikrobiologen, Ökologen und Epidemiologen bereitzustellen, wie: i) einen automatisierten phylogenieabhängigen Ansatz zur Abbildung hierarchischer Genotypen zu verwenden; ii) die Häufigkeitsverteilung von Genotypen als Proxy für die Bewertung der ökologischen Eignung zu bewerten; iii) Bestimmung der linienspezifischen Klonalitätsgrade unter Verwendung unabhängiger statistischer Ansätze; und iv) abbilden liniendifferenzierende AMR-Loci als Beispiel dafür, wie akzessorische genomische Inhalte im Kontext der Populationsstruktur abgebaut werden können. Im weiteren Sinne bietet dieser analytische Ansatz einen verallgemeinerbaren Rahmen für die Durchführung einer populationsbasierten genomischen Analyse in einem Maßstab, der verwendet werden kann, um evolutionäre und ökologische Muster unabhängig von der Zielart abzuleiten.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Eingabedateien vorbereiten

HINWEIS: Das Protokoll ist hier verfügbar - https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. Das Protokoll geht davon aus, dass der Forscher speziell ProkEvo (oder eine vergleichbare Pipeline) verwendet hat, um die notwendigen Ausgaben in diesem Figshare-Repository verfügbar zu machen (https://figshare.com/account/projects/116625/articles/15097503 - Anmeldedaten sind erforderlich - Der Benutzer muss ein kostenloses Konto erstellen, um Dateizugriff zu haben!). Bemerkenswert ist, dass ProkEvo automatisch genomische Sequenzen aus dem NCBI-SRA-Repository herunterlädt und nur eine .txt Datei benötigt, die eine Liste von Genomidentifikationen als Eingabe20 enthält, und diejenige, die für diese Arbeit auf S verwendet wird. Newport USA Isolate werden hier (https://figshare.com/account/projects/116625/articles/15097503?file=29025729) zur Verfügung gestellt.  Detaillierte Informationen zur Installation und Verwendung dieser bakteriellen Genomik-Plattform finden Sie hier (https://github.com/npavlovikj/ProkEvo/wiki/2.-Quick-start)20

  1. Generieren Sie Kern-Genom-Phylogenie mit FastTree 23 wie zuvor beschrieben 20, das nicht Teil derBioinformatik-Plattform 20 ist. FastTree benötigt die Roary24 Core-Genome Alignment als Eingabedatei. Die Phylogeniedatei heißt newport_phylogeny.tree (https://figshare.com/account/projects/116625/articles/15097503?file=29025690).
  2. Generieren Sie eine SISTR25-Ausgabe mit Informationen zu Serovarenklassifikationen für Salmonellen - und cgMLST-Variantenaufrufdaten (sistr_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025699).
  3. Generieren Sie eine BAPS-Datei von fastbaps26,27, die die BAPS-Level-1-6-Klassifizierung von Genomen in Untergruppen oder Haplotypen (fastbaps_partition_baps_prior_l6.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025684) enthält.
  4. Generieren Sie eine MLST-basierte Klassifizierung von Genomen in STs mit dem MLST-Programm (https://github.com/tseemann/mlst)28 (salmonellast_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025696).
  5. Generieren Sie die ABRicate (https://github.com/tseemann/abricate)29-Ausgabe als .csv Datei mit AMR-Loci, die pro Genom (sabricate_resfinder_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025693) kartiert werden.
    HINWEIS: Der Benutzer kann bestimmte Teile der ProkEvo-Bioinformatik-Pipeline deaktivieren (weitere Informationen finden Sie hier - https://github.com/npavlovikj/ProkEvo/wiki/4.2.-Remove-existing-bioinformatics-tool-from-ProkEvo). Der hier vorgestellte analytische Ansatz bietet Richtlinien für die Durchführung einer populationsbasierten Analyse nach dem Betrieb der Bioinformatik-Pipeline.

2. Laden Sie die Statistiksoftware und die IDE-Anwendung (Integrated Development Environment) herunter und installieren Sie sie.

  1. Laden Sie die aktuellste frei verfügbare Version der R-Software für Linux, Mac oder PC30 herunter. Befolgen Sie die Standardinstallationsschritte.
  2. Laden Sie die aktuellste frei verfügbare Version der RStudio Desktop IDE hierherunter 31. Befolgen Sie die Standardschritte für die Installation.
    HINWEIS: Die nächsten Schritte sind im verfügbaren Skript enthalten, einschließlich detaillierter Informationen zur Codenutzung, und sollten sequenziell ausgeführt werden, um die in dieser Arbeit (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd) dargestellten Ausgaben und Zahlen zu generieren. Der Benutzer kann sich entscheiden, eine andere Programmiersprache zu verwenden, um diese analytische / statistische Analyse wie Python durchzuführen. Verwenden Sie in diesem Fall die Schritte in den Skripts als Framework, um die Analyse durchzuführen.

3. Installieren und Aktivieren von Data Science-Bibliotheken

  1. Installieren Sie als ersten Schritt in der Analyse alle Data Science-Bibliotheken auf einmal. Vermeiden Sie es, die Bibliotheken jedes Mal zu installieren, wenn das Skript erneut ausgeführt werden muss. Verwenden Sie die Funktion install.packages() für die Bibliotheksinstallation. Alternativ kann der Benutzer auf die Registerkarte Pakete in der IDE klicken und die Pakete automatisch installieren. Der Code, der zur Installation aller benötigten Bibliotheken verwendet wird, wird hier vorgestellt:
    # Installieren Sie Tidyverse
    install.packages("tidyverse")
    # Installieren Sie skimr

    install.packages("skimr")
    # Installieren Sie vegan
    install.packages("vegan")
    # Forcats installieren
    install.packages("forcats")
    # Installieren Sie naniar
    install.packages("naniar")
    # Installieren Sie ggpubr
    install.packages("ggpubr")
    # Installieren Sie ggrepel
    install.packages("ggrepel")
    # Installieren Sie reshape2
    install.packages("reshape2")
    # Installieren Sie RColorBrewer
    install.packages("RColorBrewer")
    # Installieren Sie ggtree
    if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
    BiocManager::install("ggtree")
    # Die Installation von ggtree führt zu einer Frage zur Installation - die Antwort ist "a", um alle Abhängigkeiten zu installieren / zu aktualisieren
  2. Aktivieren Sie alle Bibliotheken oder Pakete mit der Funktion library() am Anfang des Skripts, direkt nach der Installation. Hier ist eine Demonstration, wie Sie alle notwendigen Pakete aktivieren können:
    # Aktivieren Sie die Bibliotheken und Pakete
    Bibliothek (tidyverse)
    Bibliothek(SkiMR)
    Bibliothek (vegan)
    Bibliothek(forcats)
    Bibliothek (naniar)
    Bibliothek (ggtree)
    Bibliothek (ggpubr)
    Bibliothek (ggrepel)
    Bibliothek(Reshape2)
    Bibliothek(RColorBrewer)
  3. Unterdrücken Sie die Ausgabe des Codes, der für die Installation und Aktivierung von Bibliotheken und Paketen verwendet wird, mithilfe von {r, include = FALSE} im Code-Chuck, wie folgt:
    ''' {r, include = FALSE}
    # Installieren Sie Tidyverse

    install.packages("tidyverse")
    ```

    HINWEIS: Dieser Schritt ist optional, vermeidet jedoch das Anzeigen unnötiger Codeabschnitte im endgültigen HTML-, Dokument- oder PDF-Bericht.
  4. Eine kurze Beschreibung der spezifischen Funktionen aller Bibliotheken sowie einige nützliche Links zum Sammeln weiterer Informationen finden Sie in den Schritten 3.4.1-3.4.11.
    1. Tidyverse - Verwenden Sie diese Sammlung von Paketen, die für Data Science verwendet werden, einschließlich Dateneingabe, Visualisierung, Analyse und Aggregation sowie statistische Modellierung. Typischerweise sind ggplot2 (Datenvisualisierung) und dplyr (Data Wrangling und Modellierung) praktische Pakete, die in dieser Bibliothek32 vorhanden sind.
    2. SkiMR - Verwenden Sie dieses Paket zur Erstellung zusammenfassender Statistiken von Datenrahmen, einschließlich der Identifizierung fehlender Werte33.
    3. vegan - Verwenden Sie dieses Paket für statistische Analysen der Gemeinschaftsökologie, z. B. die Berechnung diversitätsbasierter Statistiken (z. B. Alpha- und Beta-Diversität)34.
    4. forcats - Verwenden Sie dieses Paket, um mit kategorialen Variablen zu arbeiten, z. B. Neuanordnen von Klassifizierungen. Dieses Paket ist Teil der Tidyverse-Bibliothek32.
    5. naniar - Verwenden Sie dieses Paket, um die Verteilung fehlender Werte auf Variablen in einem Datenrahmen mithilfe der viss_miss()-Funktion35 zu visualisieren.
    6. ggtree - Verwenden Sie dieses Paket für die Visualisierung von phylogenetischen Bäumen36.
    7. ggpubr - Verwenden Sie dieses Paket, um die Qualität von GGPLOT2-basierten Visualisierungenzu verbessern 37.
    8. GGREPEL - Verwenden Sie dieses Paket für die Textbeschriftung in Diagrammen38.
    9. reshape2 - Verwenden Sie die Funktion melt() aus diesem Paket für die Transformation von Datenrahmen von Weit- in Langformat39.
    10. RColorBrewer - verwenden Sie dieses Paket, um Farben in ggplot2-basierten Visualisierungen40 zu verwalten.
    11. Verwenden Sie die folgenden Grundfunktionen für die explorative Datenanalyse: head() um die ersten Beobachtungen in einem Datenrahmen zu überprüfen, tail() um die letzten Beobachtungen eines Datenrahmens zu überprüfen, is.na() um die Anzahl der Zeilen mit fehlenden Werten in einem Datenrahmen zu zählen, dim() um die Anzahl der Zeilen und Spalten in einem Dataset zu überprüfen, table() um Beobachtungen über eine Variable zu zählen, und sum(), um die Gesamtzahl der Beobachtungen oder Instanzen zu zählen.

4. Dateneingabe und -analyse

HINWEIS: Detaillierte Informationen zu jedem Schritt dieser Analyse finden Sie im verfügbaren Skript (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). Hier sind jedoch einige wichtige Punkte, die zu beachten sind:

  1. Führen Sie alle genomischen Dateneingaben, einschließlich aller genotypischen Klassifikationen (Serovar, BAPS, ST und cgMLST), mit der Funktion read_csv() durch.
  2. Benennen Sie es um, erstellen Sie neue Variablen, und wählen Sie vor der Aggregation mehrerer Datasets interessante Spalten aus jedem Dataset aus.
  3. Entfernen Sie fehlende Werte nicht aus unabhängigen Datensätzen. Warten Sie, bis alle Datasets aggregiert sind, um fehlende Werte zu ändern oder auszuschließen. Wenn für jedes Dataset neue Variablen erstellt werden, werden fehlende Werte standardmäßig in eine der neu generierten Klassifikationen kategorisiert.
  4. Überprüfen Sie auf fehlerhafte Zeichen wie Bindestriche oder Abfragezeichen und ersetzen Sie sie durch NA (Nicht zutreffend). Machen Sie dasselbe für fehlende Werte.
  5. Aggregieren Sie Daten basierend auf der hierarchischen Reihenfolge der Genotypen (Serovar -> BAPS1 -> ST -> cgMLST) und durch Gruppierung basierend auf den einzelnen Genomidentifikationen.
  6. Überprüfen Sie mit mehreren Strategien auf fehlende Werte und gehen Sie explizit mit solchen Inkonsistenzen um. Entfernen Sie ein Genom oder isolieren Sie nur dann aus den Daten, wenn die Klassifizierung unzuverlässig ist. Andernfalls sollten Sie die durchgeführte Analyse in Betracht ziehen und die NAs von Fall zu Fall entfernen.
    HINWEIS: Es wird dringend empfohlen, eine Strategie zu entwickeln, um mit solchen Werten a priori umzugehen. Vermeiden Sie es, alle Genome oder Isolate mit fehlenden Werten für alle Variablen zu entfernen. Zum Beispiel kann ein Genom eine ST-Klassifizierung haben, ohne die cgMLST-Variantennummer zu haben. In diesem Fall kann das Genom weiterhin für die ST-basierte Analyse verwendet werden.
  7. Sobald alle Datensätze aggregiert sind, weisen Sie sie einem Datenrahmennamen oder Objekt zu, das in der Folgeanalyse an mehreren Stellen verwendet werden kann, um zu vermeiden, dass für jede Abbildung im Papier dieselbe Metadatendatei generiert werden muss.

5. Analysen durchführen und Visualisierungen generieren

HINWEIS: Eine detaillierte Beschreibung jedes Schrittes, der erforderlich ist, um alle Analysen und Visualisierungen zu erstellen, finden Sie in der Markdown-Datei für dieses Dokument (https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code). Der Code für jede Abbildung ist in Abschnitte unterteilt, und das gesamte Skript sollte nacheinander ausgeführt werden. Zusätzlich wird der Code für jede Haupt- und Zusatzfigur als separate Datei bereitgestellt (siehe Zusatzakte 1 und Zusatzakte 2). Hier sind einige wesentliche Punkte (mit Code-Schnipseln), die bei der Generierung jeder Haupt- und Zusatzfigur zu berücksichtigen sind.

  1. Verwenden Sie ggtree, um einen phylogenetischen Baum zusammen mit genotypischen Informationen darzustellen (Abbildung 1).
    1. Optimieren Sie die ggtree-Figurgröße, einschließlich Durchmesser und Breite der Ringe, indem Sie die numerischen Werte innerhalb der Funktionen xlim() bzw. gheatmap(width = ) ändern (siehe Beispielcode unten).
      tree_plot <- ggtree(Baum, layout = "kreisförmig") + xlim(-250, NA)
      figure_1 <- gheatmap(tree_plot, d4, offset=.0, width=20, colnames = FALSE)
      HINWEIS: Für einen detaillierteren Vergleich von Programmen, die für die phylogenetische Darstellung verwendet werden können, lesen Sie diese Arbeit20. Die Arbeit hob einen Versuch hervor, Strategien zur Verbesserung von ggtree-basierten Visualisierungen zu identifizieren, wie z.B. die Verringerung der Datensatzgröße, aber Verzweigungslängen und Baumtopologie waren im Vergleich zu phandango41 nicht so eindeutig diskriminierend.
    2. Aggregieren Sie alle Metadaten in so wenige Kategorien wie möglich, um die Auswahl des Farbfelds beim Plotten mehrerer Datenebenen mit dem phylogenetischen Baum (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_1.Rmd) zu erleichtern. Führen Sie die Datenaggregation basierend auf der Frage des Interesses und des Domänenwissens durch.
  2. Verwenden Sie ein Balkendiagramm, um die relativen Häufigkeiten zu bewerten (Abbildung 2).
    1. Aggregieren Sie Daten für ST-Linien und cgMLST-Varianten, um Visualisierungen zu erleichtern. Wählen Sie einen empirischen oder statistischen Schwellenwert, der für die Datenaggregation verwendet wird, und berücksichtigen Sie dabei die gestellte Frage.
    2. Einen Beispielcode, der verwendet werden kann, um die Häufigkeitsverteilung von ST-Linien zu überprüfen, um den Grenzwert zu bestimmen, finden Sie unten:
      st_dist <- d2 %>% group_by(ST) %>% # Gruppe nach der Spalte "ST"
      count() %>% # Anzahl der Beobachtungen
      arrange(desc(n)) # Ordnen Sie die Zählungen in absteigender Reihenfolge an
    3. Einen Beispielcode, der zeigt, wie kleine (niederfrequente) STs aggregiert werden können, finden Sie weiter unten. Wie unten gezeigt, werden STs, die nicht als 5, 31, 45, 46, 118, 132 oder 350 nummeriert sind, als "Andere STs" zusammengefasst. Verwenden Sie einen ähnlichen Code für cgMLST-Varianten (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_2.Rmd).
      d2$st <- ifelse(d2$ST == 5, "ST5", # Erstellen Sie eine neue ST-Spalte, für die kleine S Ts als Andere aggregiert werden
      ifelse(d2$ST == 31, "ST31",
      ifelse(d2$ST == 45, "ST45",
      ifelse(d2$ST == 46, "ST46",
      ifelse(d2$ST == 118, "ST118",
      ifelse(d2$ST == 132, "ST132", ifelse(d2$ST == 350, "ST350", "Other STs")))))))
  3. Verwenden Sie einen verschachtelten Ansatz, um den Anteil jeder ST-Linie innerhalb jeder BAPS1-Untergruppe zu berechnen, um STs zu identifizieren, die mit der Abstammung verwandt sind (zur selben BAPS1-Untergruppe gehören) (Abbildung 3). Der folgende Code veranschaulicht, wie der ST-basierte Anteil über BAPS1-Untergruppen (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_3.Rmd) hinweg berechnet werden kann:
    baps <- d2b %>% filter(serovar == "Newport") %>% # filter Newport serovars
    select(baps_1, ST) %>% # baps_1 und ST-Spalten auswählen
    mutate(ST = as.numeric(ST)) %>% # Ändern Sie die ST-Spalte in numerisch
    drop_na(baps_1, ST) %>% # Drop NAs
    group_by(baps_1, ST) %>% # Gruppe nach baps_1 und ST
    summarise(n = n()) %>% # Beobachtungen zählen
    mutate(prop = n/sum(n)*100 ) # Proportionen berechnen
  4. Zeichnen Sie die Verteilung der AMR-Loci über ST-Linien mithilfe der Resfinder-basierten Genannotationsergebnisse auf (Abbildung 4).
    HINWEIS: Resfinder wurde in ökologischen und epidemiologischen Studienhäufig verwendet 42. Die Annotation von proteinkodierenden Genen kann variieren, je nachdem, wie oft Datenbanken kuratiert und aktualisiert werden. Bei Verwendung der vorgeschlagenen Bioinformatik-Pipeline kann der Forscher AMR-basierte Loci-Klassifikationen in verschiedenen Datenbankenvergleichen 20. Überprüfen Sie unbedingt, welche Datenbanken ständig aktualisiert werden. Verwenden Sie keine veralteten oder schlecht kuratierten Datenbanken, um Fehlanrufe zu vermeiden.
    1. Verwenden Sie einen empirischen oder statistischen Schwellenwert, um die wichtigsten AMR-Loci herauszufiltern und Visualisierungen zu erleichtern. Stellen Sie eine unformatierte .csv Datei bereit, die die berechneten Proportionen aller AMR-Loci über alle ST-Linien hinweg enthält, wie hier (https://figshare.com/account/projects/116625/articles/15097503?file=29025687) gezeigt.
    2. Berechnen Sie den AMR-Anteil für jeden ST mit dem folgenden Code (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_4.Rmd):
      # Berechnungen für ST45
      d2c <- data6 %>% filter(st == "ST45") # ST45-Daten zuerst filtern
      # berechnen Sie für ST45 den Anteil der AMR-Loci und behalten Sie nur den Anteil größer als 10% bei

      d3c <- d2c %>% select(id, gene) %>% # Spalten auswählen
      group_by(id, Gen) %>% # Gruppe nach ID und Gen
      summarize(count = n()) %>% # Zählbeobachtungen
      mutate(count = replace(count, count == 2, 1)) %>% # Ersetzen Sie Zählungen gleich 2 durch 1, um nur eine Kopie jedes Gens zu berücksichtigen (Duplikationen sind möglicherweise nicht zuverlässig), aber der Forscher kann entscheiden, sie auszuschließen oder zu behalten. Wenn der Forscher sie ausschließen möchte, dann verwenden Sie die Funktion filter(count != 2) oder lassen Sie sie so belassen, wie sie ist
      filter(Anzahl <= 1) # Filteranzahl unter oder gleich 1
      d4c <- d3c %>% group_by(Gen) %>% # Gruppe nach Gen
      summarize(value = n()) %>% # Beobachtungen zählen
      mutate(total = table(data1$st)[6]) %>% # Erhalten Sie die Gesamtzahl von st mutate(prop = (value/total)*100 ) # Proportionen berechnen
      d5c <- d4c %>% mutieren(st = "ST45") # Erstellen Sie eine ST-Spalte und fügen Sie ST-Informationen hinzu
    3. Nachdem die Berechnungen für alle STs durchgeführt wurden, kombinieren Sie Datasets mithilfe des folgenden Codes zu einem Datenrahmen:
      # Kombinieren von Datensätzen
      d6 <- rbind(d5a, d5b, d5c, d5d, d5e, d5f, d5g, d5h) # Zeilenbindungs-Datasets
    4. Um die .csv Datei mit den berechneten Proportionen zu exportieren, verwenden Sie den folgenden Code:
      # Datentabelle mit ST- und AMR-Loci-Informationen exportieren
      abx_newport_st <- d6 write.csv(abx_newport_st,"abx_newport_st.csv", row.names = FALSE)
    5. Bevor Sie die AMR-basierte Verteilung über ST-Linien aufzeichnen, filtern Sie die Daten basierend auf einem Schwellenwert, um Visualisierungen zu erleichtern, wie unten gezeigt:
      # Filtern Sie AMR-Loci mit einem Anteil von mehr als oder gleich 10%
      d7 <- d6 %>% filter(prop >= 10) # den Schwellenwert empirisch oder statistisch bestimmen
  5. Zeichnen Sie die Kerngenom-Phylogenie zusammen mit den hierarchischen genotypischen Klassifikationen und AMR-Daten in einem einzigen Diagramm mit ggtree auf (Abbildung 5).
    1. Optimieren Sie die Figurengröße innerhalb von ggtree mit den oben genannten Parametern (siehe Schritt 5.1.1.).
    2. Optimieren Sie Visualisierungen, indem Sie Variablen aggregieren oder binäre Klassifizierungen wie Genpräsenz oder -abwesenheit verwenden. Je mehr Features dem Plot hinzugefügt werden, desto schwieriger wird der Farbauswahlprozess (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_5.Rmd).
      HINWEIS: Ergänzende Zahlen - eine detaillierte Beschreibung des gesamten Codes finden Sie hier (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd).
  6. Verwenden Sie ein Streudiagramm in ggplot2 ohne Datenaggregation, um die Verteilung von ST-Linien oder cgMLST-Varianten anzuzeigen und gleichzeitig die häufigsten Genotypen hervorzuheben (Ergänzende Abbildung 1) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s1.Rmd).
  7. Führen Sie eine verschachtelte Analyse durch, um die Zusammensetzung der ST-Linien anhand des Anteils der cgMLST-Varianten zu bewerten, um einen Einblick in die ST-basierte genetische Vielfalt zu erhalten und gleichzeitig die häufigsten Varianten und ihre genetischen Beziehungen zu identifizieren (d. h. cgMLST-Varianten, die zu demselben ST gehören, hatten in jüngerer Zeit einen Vorfahren als diejenigen, die zu verschiedenen STs gehörten) (Ergänzende Abbildung 2 ) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s2.Rmd).
  8. Verwenden Sie die Ökologiemetrik der Gemeinschaft, nämlich Simpsons D-Index der Vielfalt, um den Grad der Klonalität oder der genotypischen Vielfalt jeder der wichtigsten ST-Linien43 zu messen (ergänzende Abbildung 3).
    1. Berechnen Sie den Diversitätsindex über ST-Linien hinweg auf verschiedenen Ebenen der genotypischen Auflösung, einschließlich BAPS-Level 1 bis 6 und cgMLST. Im Folgenden finden Sie ein Codebeispiel für diese Berechnung auf der BAPS-Ebene 1 (BAPS1) der genotypischen Auflösung:
      # BAPS Ebene 1 (BAPS1)
      # Lassen Sie die STs und BAPS1 mit NAs fallen, gruppieren Sie sie nach ST und BAPS1 und berechnen Sie dann den Simpson-Index
      BAPs1 <- Daten6 %>%
      select(st, BAPS1) %>% # Spalten auswählen
      drop_na(st, BAPS1) %>% # Drop NAs
      group_by(st, BAPS1) %>% # Nach Spalten gruppieren
      summarise(n = n()) %>% # Beobachtungen zählen
      mutate(simpson = diversity(n, "simpson")) %>% # Vielfalt berechnen
      group_by(st) %>% # Gruppe nach Spalte
      summarise(simpson = Mittelwert(Simpson)) %>% # Berechnen Sie den Mittelwert des Index
      melt(id.vars=c("st"), measure.vars="simpson",
      variable.name="Index", value.name="Wert") %>% # Verdeckt in Langformat
      mutate(strat = "BAPS1") # Erstellen einer Stratspalte
      HINWEIS: Eine genetisch vielfältigere Population (d. h. mehr Varianten bei verschiedenen Schichten genotypischer Auflösung) hat einen höheren Index auf cgMLST-Ebene und erzeugt steigende indexbasierte Werte, die von BAPS-Ebene 2 bis 6 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s3.Rmd) reichen.
  9. Untersuchen Sie den Grad der genotypischen Diversität von ST-Linien, indem Sie die relative Häufigkeit von BAPS-Untergruppen auf allen Auflösungsebenen (BAPS1-6) aufzeichnen (Ergänzende Abbildung 4). Je vielfältiger die Population ist, desto spärlicher wird die Verteilung der BAPS-Untergruppen (Haplotypen) von BAPS1 (niedrigere Auflösungsebene) auf BAPS6 (höhere Auflösungsebene) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s4.Rmd).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Durch die Nutzung der Computerplattform ProkEvo für populationsgenomische Analysen besteht der erste Schritt im bakteriellen WGS-Data-Mining darin, die hierarchische Populationsstruktur im Kontext einer Core-Genom-Phylogenie zu untersuchen (Abbildung 1). Im Fall von S. enterica Linie I, am Beispiel der S. Newport-Datensatz ist die Grundgesamtheit hierarchisch wie folgt strukturiert: Serovar (niedrigste Auflösungsstufe), BAPS1-Untergruppen oder Haplotypen, ST-Linien und cgMLST-Varianten (höchste Auflösungsstufe)20. Diese phylogeniegeleitete Analyse der hierarchischen Populationsstruktur erlaubt es konkret, folgende Punkte zu untersuchen: i) phylogenetische Verteilung von SISTR-basierten falsch klassifizierten Genomen in andere Serovare im Fall von Salmonellen; ii) genetische oder verwandtschaftliche Struktur der Population; iii) Muster der Diversifizierung auf verschiedenen Ebenen der genotypischen Auflösung; iv) Identifizierung der wichtigsten genotypischen Einheiten, die einem evolutionären, ökologischen oder epidemiologischen Muster zugrunde liegen; v) Ahnenbeziehungen zwischen ST-Linien durch BAPS1-Untergruppen oder Haplotypzusammensetzung und über cgMLST-Varianten innerhalb von ST-Linien; und vi) Teilansicht des Grades der genotypischen Homogenität einer ST-Linie durch die cgMLST-Variantenzusammensetzung.

Figure 1
Abbildung 1: Phylogenie-geführte Abbildung hierarchischer Genotypen für das S. Newport Bevölkerung. Eine Kerngenom-Phylogenie (schwarzer zentrierter Kreis) wurde verwendet, um hierarchische Genotypen abzubilden, einschließlich Serovar (niedrigste Auflösungsstufe - innerster farbiger Kreis), BAPS-Ebene 1 (BAPS1) Untergruppen oder Haplotypen, ST-Linien und cgMLST-Varianten (höchste Auflösungsstufe - äußerster farbiger Kreis). Serovars wurden in Newport (S. Newport) oder "Andere Serovare" basierend auf der algorithmischen SISTR-Klassifizierung von Genomen, die Kerngenom-MLST-Informationen nutzten und als Teil der Computerplattform ProkEvo liefen. BAPS1 stratifiziert die Population agnostisch in Untergruppen oder Cluster verwandter Haplotypen unter Verwendung von Kerngenomdaten innerhalb von ProkEvo. BAPS1 ist hierarchisch zwischen Serovar und ST-Linien platziert, da es die Ahnenbeziehungen zwischen STs genau erfasst hat. ST-Linien werden auf der Grundlage einer kanonischen MLST-Analyse unter Verwendung von sieben genomverstreuten Loci gebildet. In der Grafik wurden nur die wichtigsten oder häufigsten STs (Anteil >1%) dargestellt. Schließlich wurden nur die häufigsten cgMLST-Varianten (Anteil >3,5%) verwendet, um die gesamte hierarchische Struktur für das S darzustellen. Newport Bevölkerung (n = 2.365 USA isoliert nur). Die Kategorie "Andere STs" oder "Andere cgMLSTs" besteht aus kleineren bzw. niederfrequenten Linien oder Varianten, wobei willkürlich Schwellenwerte vorgenommen werden, die empirisch oder statistisch auf der Grundlage des Datensatzes festgelegt werden sollten. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Relative Häufigkeiten aller hierarchischen Genotypen wurden dann verwendet, um die Gesamtverteilung und die am häufigsten beobachteten Klassifikationen (d.h. Genotypen) zu bewerten (Abbildung 2). In Abbildung 2C-D wurden seltenere (geringfügige) ST-Linien oder cgMLST-Varianten als "Andere STs" bzw. "Andere cgMLSTs" aggregiert, um die Datenvisualisierung (Dimensionalitätsreduktion) zu erleichtern. Wenn die Probenahme systematisch über Umgebungen und/oder Wirte hinweg durchgeführt wird und entsprechend statistisch fundiert ist, kann die Frequenzverteilung zu einem Proxy für die ökologische Fitness werden. Das heißt, es könnte dann vorhergesagt werden, dass die häufigsten Linien oder Varianten eine höhere Fitness haben, was zu weiteren Untersuchungen führt, um die ursächlichen genetischen Determinanten zu bestimmen, die einem solchen quantitativen Merkmal zugrunde liegen 6,30.

Figure 2
Abbildung 2: Anteil von S. Newport hierarchische Genotypen auf verschiedenen Auflösungsebenen. (A) Serovaren sind Phänotypen des S. Enterica Lineage I-Population, die aufgrund des vererbbaren Ungleichgewichts zwischen Core-Loci und O- und H-Antigen-kodierenden Loci (Oberflächenproteinen) ausschließlich aus kerngenomischen Daten vorhergesagt werden kann. Bei der Verwendung von ProkEvo werden Salmonellengenome mit dem SISTR-Programm automatisch in Serovare klassifiziert. Obwohl nur S. Newport (Newport) Genome von NCBI wurden angeblich heruntergeladen, einige wurden als "Andere Serovare" innerhalb von ProkEvo klassifiziert. Etwa 2% (48 von 2.365) aller Genome wurden als anders als S klassifiziert. Newport Serovar (B) Der Anteil der BAPS-Level-1-Untergruppen (BAPS1) oder Haplotypen. BAPS1 wird im hierarchischen Schema zwischen Serovar und ST-Linien eingefügt, da es die angestammten Beziehungen zwischen STs genau und agnostisch erfasst hat. (C) Der Anteil der großen ST-Linien stellte nur STs dar, die > 1% in relativer Häufigkeit waren. Minor STs wurden als "Other STs" gruppiert. D) Der Anteil der großen cgMLST-Varianten zeigte nur vier vorherrschende cgMLSTs, die >3% in relativer Häufigkeit waren. Die restlichen cgMLSTs wurden als "Other cgMLSTs" gruppiert. (B-D) Genome, die von SISTR als "Andere Serovare" (2,03%) klassifiziert wurden, wurden aus den Daten herausgefiltert, bevor die relativen Häufigkeiten von BAPS1, ST und cgMLST aufgetragen wurden. (C-D) Schwellenwerte, die zur Darstellung von ST- und cgMLST-Daten verwendet wurden, wurden willkürlich definiert und sollten von Fall zu Fall empirisch festgelegt werden. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Alternativ kann ein Streudiagramm verwendet werden, um die Verteilung und den Anteil beider ST-Linien oder cgMLST-Varianten ohne Datenaggregation zu bewerten (Ergänzende Abbildung 1). Diese Verwendung eines Streudiagramms ist besonders nützlich für ST-Linien und cgMLST-Varianten wegen des typischen Auftretens von Hundertstel-, wenn nicht Tausenden von Klassifikationen für beide Genotypen. Diese spärliche Verteilung tritt für die Auflösungsebenen Serovar und BAPS1 im Allgemeinen nicht auf, da sie sich auf einer niedrigeren Auflösungsebene befinden, wobei Sequenzen erblich in einige Untergruppen oder Kategorien reduziert werden.

Als nächstes wurden die angestammten Beziehungen zwischen STs unter Verwendung eines verschachtelten Ansatzes untersucht, der die Bewertung der relativen Häufigkeit von ST-Linien durch BAPS1-Untergruppen oder Haplotypen umfasst (Abbildung 3). ST-Linien, die derselben BAPS1-Untergruppe angehörten, hatten in jüngerer Zeit eher einen gemeinsamen Vorfahren als mit anderen STs (d. h. ST5 und ST118 vs. ST45). In ähnlicher Weise kann durch die Untersuchung der Verteilung von cgMLST-Varianten innerhalb von ST-Linien der Grad der genotypischen Heterogenität über STs hinweg erfasst werden, während ihre genetische Zusammensetzung bewertet und die angestammte Beziehung zwischen cgMLSTs aufgedeckt wird (d. h. eng verwandte cgMLST-Varianten gehören derselben ST-Linie oder demselben klonalen Komplex) (Ergänzende Abbildung 2).

Figure 3
Abbildung 3: Verteilung der ST-Linien, die in BAPS1-Untergruppen für das S verschachtelt sind . Newport Bevölkerung. Dieses Diagramm zeigt die Verteilung der ST-Abstammung innerhalb jeder BAPS-Level-1-Untergruppe oder Haplotyp, mit Ausnahme von Genomen, die als "Andere Serovare" klassifiziert sind (2,03% der gesamten Daten). Wichtige STs (Anteil >1%) für jede BAPS1-Untergruppe werden in jedem Diagramm hervorgehoben. Je größer der Kreisdurchmesser, desto höher der Anteil für die jeweilige ST-Linie. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Angesichts der Tatsache, dass das Muster von S. Zwei statistische Ansätze wurden verwendet, um den ST-basierten Grad der Klonalität (d. h. genetische Homogenität) zu bewerten, einschließlich Simpsons D-Index der Diversität (Ergänzende Abbildung 3) und die Verteilung von BAPS-Untergruppen oder Haplotypen unter Verwendung der BAPS-Stufen 1-6 (Ergänzende Abbildung 4 ). Die Beurteilung des Klonalitätsgrades einer Population kann die folgenden Aspekte aufklären: i) ein besseres Verständnis der genetischen Vielfalt und der Populationsstruktur; ii) Feinabstimmungsanalyse von Diversifikationsmustern über wichtige genotypische Einheiten wie ST-Linien hinweg; und iii) ein Indikator für die Notwendigkeit sein, akzessorisches Genom-Mining zu verwenden, um kryptische genotypische Einheiten zu finden, die neue Subcluster in der Bevölkerung aufdecken können. Je klonaler eine Population auf der Kern-Genom-Ebene ist, desto schwieriger wird es, zwischen Varianten zu unterscheiden, und desto wahrscheinlicher ist es, dass der akzessorische Genomgehalt informativ ist, um die Population in sinnvolle genotypische Einheiten zu schichten, die mit einzigartigen ökologischen Verteilungen verbunden sind18,19,21.

Die relative Häufigkeit der ST-Liniendifferenzierung von AMR-Loci wurde bewertet, um eindeutige akzessorische genomische Signaturen zu identifizieren, die mit dem S verbunden sind . Newport-Bevölkerungsstruktur (Abbildung 4). Dieser Schritt der Analyse konzentrierte sich auf die AMR-Verteilung, da es sich um ein mit der öffentlichen Gesundheit verbundenes Merkmal handelt, aber derselbe Ansatz kann überwacht (gezielt) oder agnostisch angewendet werden, um andere Komponenten des akzessorischen Genoms zu untersuchen, einschließlich Stoffwechselwege, Virulenzfaktoren usw. Bemerkenswerterweise scheinen mdf(A)_1 und aac(6')-Iaa_1 loci von den S erworben worden zu sein . Newport Bevölkerung; während ST45 voraussichtlich multiresistent ist. Auffallend ist, dass diese Daten auch darauf hindeuten, dass die anderen großen ST-Linien, ST5 und ST118, im Vergleich zu ST45 eher für mehrere Medikamente anfällig sind. Diese Punkte müssen aufgrund der im Datensatz vorhandenen Verzerrungen sorgfältig abgewogen werden. Dies stellt jedoch eine potenzielle epidemiologische Schlussfolgerung dar, die aus robusteren WGS-Datensammlungen gezogen werden könnte.

Im Allgemeinen sind hier einige Punkte, die bei der Durchführung einer akzessorischen Genomkartierung auf hierarchische Genotypen zu berücksichtigen sind: i) Betrachten Sie die Häufigkeitsverteilung als quantitatives Merkmal, aber seien Sie sich bewusst, dass die allelische Zusammensetzung eines Locus die Merkmalsvarianz verändern kann. Darüber hinaus sollte das Vorhandensein eines Locus oder Locis auf die Funktion hinweisen, aber nicht kausal, da der Phänotyp polygen sein oder je nach allelischer Zusammensetzung für den ursächlichen Locus variieren kann (z. B. wirkt sich eine nicht-synonyme Mutation auf der aktiven Seite eines Proteins eher auf die Funktion aus); ii) Die Loci-Verteilung kann Gene zeigen, die in der Population fixiert sind (z. B. in hoher Häufigkeit über alle ST-Linien hinweg zu finden) oder kürzlich von bestimmten ST-Linien und cgMLST-Varianten erworben wurden, und können das ökologische oder epidemiologische Muster widerspiegeln; iii) Multi-Drug-Resistenzen können aus genomischen Daten vorhergesagt werden. Und wenn die Verteilung von AMR-Loci oder anderen Signalwegen stark miteinander verbunden ist oder häufig von bestimmten Linien vererbt wird, dann können Phänotypen durch Inferenz aus hierarchischen Genotypen vorhergesagt werden, wie im Fall von ST-Linien45,46; und iv) die Messung von Phänotypen im Labor ist immer noch deterministisch, um computergestützte Vorhersagen zu validieren.

Figure 4
Abbildung 4: Verteilung der AMR-Loci über die wichtigsten ST-Linien der S Newport Bevölkerung. Relative frequenzbasierte Verteilung einer ausgewählten Anzahl von AMR-Loci über die wichtigsten ST-Linien (>1% der Bevölkerung). Minor STs wurden als "Other STs" gruppiert. Nur Genome, die als S klassifiziert sind . Newport durch den SISTR-Algorithmus wurden in der Analyse berücksichtigt. Für die Datenvisualisierung wurden AMR-Loci mit einer relativen Häufigkeit größer oder gleich 10% ausgewählt. Dies ist ein beliebiger Schwellenwert, der für jedes Dataset bestimmt werden sollte. Die Proportionen wurden unter Verwendung einer binären Matrix berechnet, die sich aus der Anwesenheit oder Abwesenheit von Genen zusammensetzt. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Schließlich wurde eine phylogenieverankerte Visualisierung verwendet, um die hierarchischen Populationsstrukturdaten systematisch zusammen mit der ST-Linie zu integrieren, die die AMR-Loci-Verteilung basierend auf dem Genvorkommen differenziert (Abbildung 5). Durch die Kombination der Populationsstruktur mit der akzessorischen genomischen Zusammensetzung können die folgenden Fragen in jedem beliebigen Datensatz beantwortet werden: 1) Wie ist die Population strukturiert? Wie verhalten sich STs zueinander und zu den Vorfahren durch BAPS1-Untergruppen? Wie variabel ist die cgMLST-Zusammensetzung über STs hinweg? 2) Was ist das phylogenetische Verzweigungsmuster und die Gesamtbaumtopologie? und 3) Wie ist das akzessorische Genom verteilt? Ist die akzessorische genomische Zusammensetzung höchstwahrscheinlich von den Vorfahren erworben oder kürzlich abgeleitet? Was ist das linien- oder variantenspezifische Muster? Was ist die phänotypische Vorhersage und ökologische Inferenz? Gibt es nischentranszendierende vs. nischenspezifizierende Gene? Wie hängt das beobachtete Muster mit der Epidemiologie im Falle von Krankheitserregern zusammen oder informiert sie? Können Abstammungslinien oder Varianten auf der Grundlage des akzessorischen genomischen Inhalts informativ subgruppiert werden?

Figure 5
Abbildung 5: Phylogenie-geführte Kartierung von hierarchischen Genotypen und akzessorischen AMR-Loci, die zwischen den wichtigsten ST-Linien innerhalb der S unterscheiden. Newport Bevölkerung. Eine Kern-Genom-Phylogenie (schwarzer zentrierter Kreis) wurde verwendet, um hierarchische Genotypen abzubilden, einschließlich Serovar (niedrigste Auflösungsstufe - innerster farbiger Kreis), BAPS-Ebene 1 (BAPS1) Untergruppen oder Haplotypen, ST-Linien und cgMLST-Varianten (höchste Auflösungsstufe - äußerster farbiger Kreis), zusammen mit AMR-Loci, die dunkelblau gefärbt sind, wenn sie vorhanden sind, oder grau, wenn sie nicht vorhanden sind. Serovars wurden in Newport (S. Newport) oder "Andere Serovare" basierend auf der algorithmischen SISTR-Klassifikation. BAPS1 ist hierarchisch zwischen Serovar und ST-Linien platziert, da es die angestammten Beziehungen zwischen STs genau und agnostisch erfasst hat. ST-Linien werden auf der Grundlage einer kanonischen MLST-Analyse unter Verwendung von sieben genomverstreuten Loci gebildet. In der Grafik wurden nur die wichtigsten oder häufigsten STs (Anteil >1%) dargestellt. Auch wurden nur die dominantesten cgMLST-Varianten (Anteil >3,5%) verwendet, um die gesamte hierarchische Struktur für das S zu zeigen. Newport Bevölkerung (n = 2.365 USA isoliert nur). Die Kategorie "Andere STs" oder "Andere cgMLSTs", bestehend aus kleineren bzw. niederfrequenten Linien oder Varianten, und die Schwellenwertbestimmung wurde willkürlich durchgeführt und sollte basierend auf dem Datensatz festgelegt werden. Für die Datenvisualisierung wurden AMR-Loci mit einer relativen Häufigkeit größer oder gleich 10% ausgewählt. Diese spezifische Grafik zeigt eine eindeutige Verteilung von AMR-Loci, die hauptsächlich in den Linien ST31, ST45 und ST132 vorkommen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung zu sehen.

Ergänzende Abbildung 1: Sparse Verteilung von ST-Linien und cgMLST-Varianten für die S. Newport Bevölkerung. (A) Der Anteil der ST-Abstammungslinien ohne Aggregation niederfrequenter STs. STs mit einem Anteil von >1% werden im Diagramm hervorgehoben. (B) Der Anteil der cgMLST-Varianten ohne Aggregation niederfrequenter cgMLSTs. cgMLSTs mit einem Anteil > 3% werden im Diagramm hervorgehoben. (A-B) Schwellenwerte, die zum Darstellen von ST- und cgMLST-Daten verwendet werden, wurden willkürlich definiert und sollten basierend auf dem Datensatz festgelegt werden. Genome, die von SISTR als "Andere Serovare" (2,03%) klassifiziert wurden, wurden aus den Daten herausgefiltert, bevor sowohl ST- als auch cgMLST-relative Häufigkeiten aufgetragen wurden. Je größer der Kreisdurchmesser ist, desto höher ist der Anteil für die ST-Linie oder die cgMLST-Variante. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Abbildung 2: Verteilung der cgMLST-Varianten, die innerhalb der ST-Linien für das S verschachtelt sind. Newport Bevölkerung. Dieses Diagramm zeigt die Verteilung der cgMLST-Variante über die ST-Linien mit Ausnahme von Genomen, die als "Andere Serovare" klassifiziert sind (2,03% der gesamten Daten). Wichtige cgMLSTs (Anteil >15%) für jede ST-Linie werden in jedem Diagramm hervorgehoben. Je größer der Kreisdurchmesser, desto höher der Anteil für die spezifische cgMSLT-Variante. Niederfrequente STs wurden als "Other STs" gruppiert. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Abbildung 3: Simpsons D-basierter Grad der genetischen Vielfalt über ST-Linien unter Verwendung von BAPS-Haplotypen der Stufen 1-6 oder cgMLST-Genotypen als Eingabedaten für die S. Newport Bevölkerung. Der Grad der Klonalität oder genetischen Vielfalt jeder ST-Linie wurde über verschiedene genotypische Auflösungsschichten berechnet, einschließlich BAPS-Stufen 1 (niedrigste Auflösungsstufe) bis 6 (höchste Auflösungsebene) Untergruppen oder Haplotypen, und zusätzlich unter Verwendung der cgMLST-basierten Verteilung von Varianten. Je höher der Indexwert, desto höher der Grad der genetischen Vielfalt. Sehr unterschiedliche ST-Linien haben höhere Indexwerte, die von BAPS1 zu BAPS6 reichen (d. h. typischerweise steigt der Index und erreicht schließlich ein Plateau, wenn er von BAPS1 zu BAPS6 wechselt). Nur Genome, die als S klassifiziert sind . Newport durch das SISTR-Programm wurden in der Analyse berücksichtigt. Niederfrequente STs wurden als "Other STs" gruppiert. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Abbildung 4: Verteilung der BAPS-Stufen 1-6 Untergruppen oder Haplotypen über die wichtigsten ST-Linien der S. Newport-Population. Relative frequenzbasierte Verteilung von BAPS-Untergruppen oder Haplotypen über die wichtigsten ST-Linien von der niedrigsten (BAPS1) bis zur höchsten Auflösungsstufe (BAPS6). Wichtige STs wurden auf der Grundlage eines Anteils von >1% ausgewählt. Nur Genome, die als S klassifiziert sind. Newport durch das SISTR-Programm wurden in der Analyse berücksichtigt. Je höher der Grad der Klonalität ist, desto weniger spärlich oder verteilt wird die Verteilung von BAPS-Untergruppen oder Haplotypen, wenn man von BAPS1 zu BAPS6 übergeht. Mit anderen Worten, eine genetisch vielfältigere ST-Linie hat eine breitere Palette von BAPS-Untergruppen auf BAPS-Ebene 6 (höchster Auflösungsgrad). Niederfrequente STs wurden als "Other STs" gruppiert. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzungsdatei 1: Links zur Materialliste und zur Genomliste Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Datei 2: Hierarchisch-basierte bakterielle Populationsgenomik Analyse mit R Bitte klicken Sie hier, um diese Datei herunterzuladen.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Die Verwendung einer systembasierten heuristischen und hierarchischen Populationsstrukturanalyse bietet einen Rahmen für die Identifizierung neuartiger genomischer Signaturen in bakteriellen Datensätzen, die das Potenzial haben, einzigartige ökologische und epidemiologische Muster zu erklären20. Darüber hinaus kann die Kartierung von akzessorischen Genomdaten auf die Populationsstruktur verwendet werden, um auf von Vorfahren erworbene und/oder kürzlich abgeleitete Merkmale zu schließen, die die Ausbreitung von ST-Linien oder cgMLST-Varianten über die Reservoirs 6,20,21,45,46 erleichtern. Im weiteren Sinne kann eine globale Bewertung der pangenomischen Inhaltsverteilung in Bakterienpopulationen Diversifikationsmuster aufdecken, die den ökologischen Tropismen oder georäumlichen/zeitlichen Engpässen zugrunde liegen, denen eine Population kürzlich widerstanden habenkönnte 18,21. Im Falle pathogener Arten können durch die Gewinnung der Populationsstruktur von klinischen vs. Umweltisolaten genetische Determinanten, die mit zoonotischen Ereignissen assoziiert sind, identifiziert und zur Verbesserung der Diagnostik und Überwachung verwendetwerden 33,34. Derselbe Ansatz kann auf nicht-pathogene Arten angewendet werden, um Genotypen mit wünschenswerten nischenspezifischen Engrafting-Eigenschaften zu identifizieren, wie im Fall von gastrointestinalen probiotischen Stämmen, die zur Verbesserung der menschlichen Gesundheit verwendet werden 49,50,51. Die Nutzung bakterieller WGS-Daten für populationsbasierte Abfragen erfordert jedoch den Einsatz reproduzierbarer, automatisierter und skalierbarer Rechenplattformen wie ProkEvo20. Jeder computergestützte Ansatz hat seine Vorbehalte und Nuancen, aber im Allgemeinen können frei verfügbare, gut dokumentierte, tragbare und benutzerfreundliche Plattformen wie ProkEvo die Arbeit von Mikrobiologen, Ökologen und Epidemiologen erleichtern, die heuristische bakterielle Populationsgenomik betreiben.

In der vorliegenden Arbeit wurde gezeigt, wie ProkEvo-abgeleitete Ergebnisse verwendet werden können, um eine hierarchische Populationsstrukturanalyse durchzuführen, die verwendet werden kann, um Genotypen von Interesse auf verschiedenen Auflösungsebenen zu kartieren und zu verfolgen, zusammen mit der Vorhersage nützlicher Merkmale aus WGS-Daten. Dieses Rechenprotokoll wurde mit der Programmiersprache R geschrieben, aber das Framework oder der konzeptionelle Ansatz ist beispielsweise durch die Verwendung der Pandas-Bibliothek auf andere Sprachen wie Python verallgemeinerbar. Die Eingangsdaten werden von ProkEvo20 generiert, was einige Hürden bei der Standardisierung von Ausgaben und Datenformaten für die anschließende Analyse vermeidet. Mit Ausnahme von Phylogenien liegen alle anderen Eingabedatasets in einem tabellarischen Format vor, das leicht qualitätskontrolliert, aggregiert, analysiert und integriert werden kann, um nützliche Berichte für die Dateninterpretation zu generieren. Es ist jedoch wichtig, einige kritische Schritte hervorzuheben, um die Reproduzierbarkeit bei der Verwendung dieses Protokolls zu verbessern: i) sicherzustellen, dass die Softwareversionen immer aktualisiert und nachverfolgt werden; ii) die Versionen der verwendeten Data Science-Bibliotheken zu verfolgen und vorzugsweise im Laufe der Zeit zu aktualisieren; iii) Qualitätskontrolle der Daten unter Verwendung von Domänenwissensexpertise, um die von ProkEvo oder einer ähnlichen Pipeline generierten Ergebnisse im Lichte dessen, was für die angestrebte Bakterienpopulation verstanden wird, zu verstehen; iv) eine explorative Datenanalyse durchzuführen, bevor ein Modellierungsansatz verwendet wird; v) die Daten auf der Grundlage empirischer Erkenntnisse und/oder statistischer Auswertungen zu aggregieren; vi) eine Strategie zu definieren, um mit fehlenden Werten a priori umzugehen und konsistent und völlig transparent zu sein; vii) Wenn Sie R verwenden, versuchen Sie, alle von Tidyverse bereitgestellten Pakete zu verwenden, da diese Sammlung die funktionale Programmierung, Portabilität und Optimierung erleichtert und frei verfügbar ist. und viii) Seien Sie sich bewusst, dass Visualisierungsansätze schwierig sein können, da es einige Versuche und Irrtümer erfordert, um die richtige Art von Handlung und Farbschema zu erhalten, die für die gestellte Frage und die dargestellten Daten am besten geeignet ist.

Bemerkenswert ist, dass dieses Protokoll einige Einschränkungen aufweist, die weiter verbessert werden können. Zum Beispiel hat ProkEvo eine intrinsische Grenze, wie viele Genome für die pangenomische Analyse verwendet werden können, wenn der Kern-Genom-Ausrichtungsschritt gleichzeitig generiert wird, während das Roary-Programm (~ 2.000-3.000 Genome) verwendet wird24. Dies ist ein sehr spezifischer Engpass in der Pipeline, der sich auf die Anzahl der Genome auswirkt, die in BAPS-Haplotypen klassifiziert werden können, da dies von der Kern-Genom-Ausrichtung abhängt (d. H. Sehr rechenintensiver Schritt). Die Kern-Genom-Ausrichtung kann jedoch mit anderen Programmen52 durchgeführt werden, und solche Algorithmen könnten theoretisch leicht in ProkEvo integriert werden. Andernfalls können Datensätze strategisch in zufällige Teilmengen oder auf einer anderen Grundlage aufgeteilt werden, z. B. durch Berücksichtigung der Populationsstruktur des betreffenden Organismus. Alternativ kann ProkEvo mit einem einzigen Genom betrieben werden, um ST-basierte Annotationen, Antibiotikaresistenz und Virulenzgenzusammensetzung sowie die Kartierung von Plasmiden zu erhalten, aber die Pipeline wurde für die populationsbasierte Genomik entwickelt. Bemerkenswert, wenn die BAPS1-6-Klassifikationen nicht benötigt werden, kann die Core-Genom-Alignment-Option von Roary deaktiviert werden, und in diesem Fall kann ProkEvo mit vielen Hundertstel von Tausenden von Genomen verwendet werden - es ist nur begrenzt, basierend auf der Anzahl der verfügbaren Computerkerne. Ein Beispiel dafür, wie man ein neues Programm implementiert oder wie man die Core-Genom-Alignment-Option in Roary innerhalb von ProkEvo deaktiviert, findet sich in den folgenden GitHub-Links (https://github.com/npavlovikj/ProkEvo/wiki/4.1.-Add-new-bioinformatics-tool-to-ProkEvo) bzw. (https://github.com/npavlovikj/ProkEvo/wiki/4.3.-Change-running-options-for-existing-tool-in-ProkEvo). Im Falle des akzessorischen genomischen Bergbaus hängt eine agnostische Analyse von der Nutzung des pangenomischen . Von Roary24 generierte Rtab-Datei, die hier nicht speziell verwendet wurde, sondern stattdessen strategisch demonstriert wurde, wie AMR-Loci mit ABRicate mithilfe der Resfinder-Datenbank (https://github.com/tseemann/abricate) abgebildet werden können. Nichtsdestotrotz besteht die Möglichkeit, den Umfang der akzessorischen genomischen Kartierung zu erweitern, indem stattdessen eine pangenomische Datei verwendet wird, die praktisch als Erweiterung des derzeitigen Ansatzes angesehen werden kann (z. B. mehr Loci, die als neue Spalten in den tabellarischen Datensatz aufgenommen werden). Es ist wichtig zu erwähnen, dass die von ProkEvo durchgeführte pangenomische Kartierung nur binäre Informationen in Bezug auf die Loci-Zusammensetzung lieferte und derzeit nicht für die Identifizierung von Einzelnukleotid-Polymorphismen über Gene hinweg verwendet werden kann.

Eine weitere Einschränkung dieses Protokolls ist die Visualisierung des phylogenetischen Baumes. Derzeit ist ggtree das Programm der Wahl, aber das geht auf Kosten der Unfähigkeit, Zweiglängen genau zu inspizieren, und wird umständlich, wenn viele Datenschichten zur Phylogenie hinzugefügt werden müssen. Alternativ ist phandango 41 eine benutzerfreundliche, skalierbare webseitenformatierte GUI (https://jameshadfield.github.io/phandango/#/)41, die leicht verwendet werden könnte, um das gleiche Ziel zu erreichen, und weitere detaillierte Informationen zur Verwendung mit ProkEvo-Ausgaben wurden kürzlichveröffentlicht 20. Andere Tools wie iTOL könnten auch für die phylogenieabhängige Visualisierung von Daten53 verwendet werden, erfordern jedoch die Verwendung einer GUI und können nicht in automatisierte Skripte integriert werden. Außerdem können genaue Kern-Genom-Phylogenien aufgrund der kryptischen datensatzabhängigen Auswirkungen des horizontalen Gentransfers schwer abzuschätzen sein. Programme wie Gubbins54 können für diesen Zweck verwendet werden, aber sie sind auch mit bestimmten Einschränkungen verbunden, wie z. B. der Notwendigkeit, die Ausrichtung des gesamten Genoms und ST-Abstammungsspezifische Datensätze für die korrekte Schätzung von Phylogenien zu verwenden. Stattdessen können andere phylogenieunabhängige Ansätze eingesetzt werden, die dann andere Arten von Visualisierungen erfordern, um Metadaten oder akzessorische genomische Informationen zu integrieren, wie im Fall der mehrdimensionalen Analyse55,56. Schließlich wurde ein empirischer und willkürlicher Ansatz verwendet, um kleinere ST-Linien und cgMLST-Varianten zu aggregieren und zusätzlich die wichtigsten zu quantifizierenden AMR-Loci zu filtern. Diese Art der Datenaggregation kann empirisch unter Verwendung von Domänenwissensexpertise erfolgen, könnte aber auch statistisch erreicht werden, indem ein A-priori-Kriterium des Anteils der Verteilung, der angezeigt werden sollte, definiert wird oder indem verteilungsbezogene Metriken wie Interquartilsbereich, Standardabweichung oder Schiefe verwendet werden, um letztendlich einen Schwellenwert zu definieren. Wichtig ist, dass die Definition für kleinere Genotypen direkt von der Art der Daten beeinflusst wird, da die Stichprobengröße und die Verzerrung der Arten von Umweltproben die genotypische Zusammensetzung direkt beeinflussen können. Unabhängig davon ist die Hauptüberlegung, dass die Abbildung des akzessorischen Genomgehalts auf die Populationsstruktur es ermöglicht, potenzielle genetische Determinanten der ökologischen Diversifizierung zu identifizieren, wie z.B. nischentranszendierende oder nischenspezifizierende Gene57,58,59.

Obwohl die verfügbaren R-Skripte für die Automatisierung der gegenwärtigen Arbeit konzipiert wurden, müssten alle bereitgestellten Skripte weiterentwickelt werden, um eine abstrakte und einsetzbare Data-Science-Bibliothek zu werden, die beispielsweise ein integraler Bestandteil der ProkEvo-Pipeline sein könnte. Nichtsdestotrotz gibt es einige spezifische Vorteile der Verwendung dieses Ansatzes, wie die Verwendung des BAPS-Level-1-Genotypisierungs- oder Clustering-Schemas. Die Platzierung von BAPS-Level-1-Untergruppen oder Haplotypen zwischen Serovarr- und ST-Linien wurde empirisch auf der Grundlage der genetischen Struktur der Salmonellenpopulation definiert, scheint aber auf andere Arten wie Campylobacter jejuni und Staphylococcus aureus20 anwendbar zu sein. Darüber hinaus erfasst BAPS1 genau die Ahnenbeziehung zwischen ST-Linien und bietet einen skalierbaren Ansatz für die evolutionäre Analyse, insbesondere wenn die phylogenetischen Anwendungen begrenzt sind20. Darüber hinaus erleichtert die Verwendung eines verschachtelten Ansatzes zur Untersuchung hierarchischer Beziehungen und Diversifikationsmuster die Identifizierung der Abstammung zwischen ST-Linien unter Verwendung von BAPS1-Untergruppen und zwischen cgMLST-Varianten unter Verwendung von ST-Linien, wobei bei der Beurteilung der Populationsstruktur nacheinander von einer niedrigeren zu einer höheren genotypischen Auflösung übergegangen wird. Es ist wichtig zu wiederholen, dass die Häufigkeitsverteilung von ST-Linien und cgMLST-Varianten, wenn sie aus einer systematisch gesammelten und statistisch gestützten Stichprobe gezogen wird, zu einem Proxy für die ökologische Fitnesswerden kann 1,6,43. Folglich enthalten dominante ST-Linien und cgMLST-Varianten wahrscheinlich einzigartige genomische Merkmale, die die Grundlage des biologischen Mechanismus für ihre Dominanz in der Population in dieser bestimmten Umgebung oder diesem bestimmten Host sein können.

Hierin wurden zwei unabhängige statistische Metriken verwendet, um den Grad der Klonalität der Population zu bewerten, was ein zusätzliches Verständnis der genetischen Vielfalt der Population ermöglicht, was auf das frühere Auftreten von Stichprobenverzerrungen, Populationsengpässen oder Gründereffekten hinweisen kann. Insbesondere die agnostische Bewertung von BAPS-Untergruppen der Stufen 1-6 über ST-Linien hinweg kann das Verständnis der genetischen Vielfalt verfeinern, das normalerweise nicht durch einfaches Betrachten der von SISTR erzeugten Salmonella cgMLST-Variantenebene gelöst werden kann. Wie bereits erwähnt, können andere Merkmale des Pangenoms auf die Populationsstruktur abgebildet werden, und Dateien, die die Plasmid- und Virulenzgenzusammensetzung enthalten, werden neben der Nutzung anderer AMR-Datenbanken zusammen mit einem agnostischen Pangenomdatensatz automatisch von ProkEvo20 generiert. Bemerkenswert ist, dass ProkEvo derzeit keine Unterscheidung zwischen AMR-Loci im bakteriellen Chromosom und Plasmiden zulässt. Ökologische und epidemiologische Metadaten können auch leicht in diesen analytischen Ansatz integriert werden, indem andere Variablen in eine .csv Datei aufgenommen werden, die alle genomischen Informationen enthält. Insbesondere ergänzt die hier vorgestellte Arbeit insbesondere die Nutzung der skalierbaren und portablen Computerplattform ProkEvo, die für Forscher entwickelt wurde, die sich auf heuristische Populationsgenomanalysen konzentrieren, die Data Mining und Anpassung durch den Benutzer erleichtern. Andere Plattformen können für die Genotypisierung, Populationsstrukturanalyse und / oder Kartierung von akzessorischen Genomen wie Enterobase5, PATRIC60 und BacWGSTdb61 verwendet werden. Letztere sind hervorragende Ressourcen, die das Genomik-Data-Mining für Forscher erleichtern, die Cluster-Computing nicht für skalierbare und komplexe Analysen anpassen und nutzen möchten. Der hier vorgestellte analytische Ansatz ist speziell auf Forscher zugeschnitten, die die Flexibilität haben möchten, eine Populationsgenomik-Analyse mit reproduzierbaren Skripten auf ihrem lokalen Computer oder mit einer Cloud- oder Hochleistungs-Rechenplattform durchzuführen.

Zusammenfassend lässt sich sagen, dass die in dieser Arbeit vorgestellte analytische R-basierte Plattform darauf abzielte, Mikrobiologen, Ökologen und Epidemiologen einen praktischen Leitfaden für Folgendes bereitzustellen: i) phylogenieabhängige Ansätze zur Abbildung hierarchischer Genotypen zu verwenden; ii) die Häufigkeitsverteilung von Genotypen als Proxy für die Bewertung der ökologischen Eignung zu bewerten; iii) Bestimmung der linienspezifischen Klonalitätsgrade unter Verwendung unabhängiger statistischer Ansätze; und iv) abbilden liniendifferenzierende AMR-Loci als Beispiel dafür, wie akzessorische genomische Inhalte im Kontext der Populationsstruktur abgebaut werden können. Die hier bereitgestellten Skripte können entweder auf einem lokalen Computer oder auf einer leistungsstarken Rechenplattform verwendet werden. Für experimentelle und Umweltmikrobiologen erleichtert dieser Ansatz das Studium von Datensätzen, die darauf abzielen, einzigartige Merkmale und Kandidatenpfade für weitere mechanistische Studien zu identifizieren, die letztendlich auf Populationsebene kontextualisiert werden können. Ökologen können von diesem Ansatz profitieren, indem sie in der Lage sind, moderate bis große Datensätze zu analysieren, die theoretisch die statistische Aussagekraft erhöhen, die erforderlich ist, um Signaturen der Selektion in einer Population zu finden, während sie Verwandtschaftsbeziehungen und Muster der Diversifizierung berücksichtigen. Schließlich können Epidemiologen einzigartige praktische Informationen für die Diagnostik und Überwachung nutzen, indem sie genotypische Einheiten von Interesse definieren und im Zusammenhang mit der öffentlichen Gesundheit verbundene Merkmale wie AMR vorhersagen. Im weiteren Sinne bietet diese analytische Anleitung einen verallgemeinerbaren Rahmen für die Verwendung von ProkEvo zur Durchführung einer populationsbasierten genomischen Analyse, die verwendet werden kann, um evolutionäre und ökologische Muster für pathogene und nicht-pathogene Arten abzuleiten, da der Ansatz auf andere Bakterienarten verallgemeinert werden kann.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Die Autoren haben erklärt, dass keine konkurrierenden Interessen bestehen.

Acknowledgments

Diese Arbeit wurde durch Mittel unterstützt, die von der UNL-IANR Agricultural Research Division und dem National Institute for Antimicrobial Resistance Research and Education sowie vom Nebraska Food for Health Center am Food Science and Technology Department (UNL) zur Verfügung gestellt wurden. Diese Forschung konnte nur durch die Nutzung des Holland Computing Center (HCC) an der UNL abgeschlossen werden, das von der Nebraska Research Initiative unterstützt wird. Wir sind auch dankbar dafür, dass wir über das HCC Zugang zu Ressourcen haben, die vom Open Science Grid (OSG) bereitgestellt werden, das von der National Science Foundation und dem Office of Science des US-Energieministeriums unterstützt wird. Diese Arbeit verwendete die Pegasus Workflow Management Software, die von der National Science Foundation (Grant # 1664162) finanziert wird.

Materials

Name Company Catalog Number Comments
amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

DOWNLOAD MATERIALS LIST

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user's guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 - Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. Seemann, T. MLST. GitHub. , Available from: https://github.com/tseemann/mist (2020).
  29. Seemann, T. ABRicate. GitHub. , Available from: https://github.com/tseemann/abricate (2020).
  30. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. at. Available from: https://cran.r-project.org (2021).
  31. Studio Team. RStudio: Integrated Development for R. Studio, PBC. , Boston, MA. Available from: http://www.rstudio.com (2020).
  32. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  33. rOpenSci: The skimr package. GitHub. , Berkeley, CA. Available from: https://github.com/ropensci/skimr/ (2021).
  34. Oksanen, J., et al. vegan: Community ecology package. R package version 2.5-5. , Available from: https://CRAN.R-project.org/package=vegan (2019).
  35. Tierney, N. J., Cook, D. H. Expanding tidy data principles to facilitate missing data exploration, visualization and assessment of imputations. arXiv. , Available from: http://arxiv.org/abs/1809.02264 (2020).
  36. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  37. Kassambara, A. ggpubr: "ggplot2" Based Publication Ready Plots. R package version 0.4.0. , Available from: https://CRAN.R-project.org/package=ggpubr (2020).
  38. Slowikowski, K. ggrepel: Automatically Position Non-Overlapping Text Labels with "ggplot2”. R package version 0.9.1. , Available from: https://CRAN.R-project.org/package=ggrepel (2021).
  39. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  40. Neuwirth, E. RColorBrewer: ColorBrewer Palettes. R package version 1.1-2. , Available from: https://CRAN.R-project.org/package=RColorBrewer (2014).
  41. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  42. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  43. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  44. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  45. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  46. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  47. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  48. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  49. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  50. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  51. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  52. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  53. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  54. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  55. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  56. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  57. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  58. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  59. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  60. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  61. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Tags

Genetik Ausgabe 178
Heuristisches Mining von hierarchischen Genotypen und akzessorischen Genomloci in Bakterienpopulationen
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Pavlovikj, N., Gomes-Neto, J. C.,More

Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter