Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Minería heurística de genotipos jerárquicos y loci del genoma accesorio en poblaciones bacterianas

Published: December 7, 2021 doi: 10.3791/63115
* These authors contributed equally

Summary

Esta plataforma computacional analítica proporciona orientación práctica para microbiólogos, ecólogos y epidemiólogos interesados en la genómica de poblaciones bacterianas. Específicamente, el trabajo presentado aquí demostró cómo realizar: i) mapeo guiado por filogenia de genotipos jerárquicos; ii) análisis de genotipos basado en la frecuencia; iii) análisis de parentesco y clonalidad; iv) identificación del linaje diferenciador de loci accesorios.

Abstract

El uso rutinario y sistemático de la secuenciación bacteriana del genoma completo (WGS) está mejorando la precisión y la resolución de las investigaciones epidemiológicas llevadas a cabo por los laboratorios de salud pública y las agencias reguladoras. Se pueden utilizar grandes volúmenes de datos de WGS disponibles públicamente para estudiar poblaciones patógenas a gran escala. Recientemente, se publicó una plataforma computacional disponible gratuitamente llamada ProkEvo para permitir análisis genómicos de población basados en jerarquías reproducibles, automatizados y escalables utilizando datos bacterianos de WGS. Esta implementación de ProkEvo demostró la importancia de combinar el mapeo genotípico estándar de poblaciones con la extracción de contenido genómico accesorio para la inferencia ecológica. En particular, el trabajo destacado aquí utilizó resultados derivados de ProkEvo para análisis jerárquicos a escala poblacional utilizando el lenguaje de programación R. El objetivo principal fue proporcionar una guía práctica para microbiólogos, ecólogos y epidemiólogos mostrando cómo: i) utilizar un mapeo guiado por filogenia de genotipos jerárquicos; ii) evaluar las distribuciones de frecuencia de los genotipos como indicador de la aptitud ecológica; iii) determinar las relaciones de parentesco y la diversidad genética utilizando clasificaciones genotípicas específicas; y iv) mapear el linaje diferenciando los loci accesorios. Para mejorar la reproducibilidad y la portabilidad, se utilizaron archivos de rebaja R para demostrar todo el enfoque analítico. El conjunto de datos de ejemplo contenía datos genómicos de 2.365 aislamientos del patógeno zoonótico transmitido por los alimentos Salmonella Newport. El mapeo de genotipos jerárquicos anclados en filogenia (Serovar -> BAPS1 -> ST -> cgMLST) reveló la estructura genética de la población, destacando los tipos de secuencia (ST) como el genotipo diferenciador clave. En los tres linajes más dominantes, ST5 y ST118 compartieron un ancestro común más recientemente que con el filotipo ST45 altamente clonal. Las diferencias basadas en ST se destacaron aún más por la distribución de loci accesorios de resistencia a los antimicrobianos (RAM). Por último, se utilizó una visualización anclada en filogenia para combinar genotipos jerárquicos y contenido de RAM para revelar la estructura de parentesco y las firmas genómicas específicas del linaje. Combinado, este enfoque analítico proporciona algunas pautas para realizar análisis genómicos heurísticos de poblaciones bacterianas utilizando información pangenómica.

Introduction

El creciente uso de la secuenciación bacteriana del genoma completo (WGS) como base para la vigilancia de rutina y la investigación epidemiológica por parte de los laboratorios de salud pública y las agencias reguladoras ha mejorado sustancialmente las investigaciones de brotes de patógenos 1,2,3,4. Como consecuencia, grandes volúmenes de datos WGS no identificados están ahora a disposición del público y pueden utilizarse para estudiar aspectos de la biología de la población de especies patógenas a una escala sin precedentes, incluidos estudios basados en: estructuras de población, frecuencias de genotipos y frecuencias de genes / alelos en múltiples reservorios, regiones geográficas y tipos de entornos5 . Las investigaciones epidemiológicas guiadas por WGS más utilizadas se basan en análisis que utilizan solo el contenido core-genómico compartido, donde el contenido compartido (conservado) solo se utiliza para la clasificación genotípica (por ejemplo, llamadas variantes), y estas variantes se convierten en la base para el análisis epidemiológico y el rastreo 1,2,6,7 . Por lo general, el genotipado basado en el genoma central bacteriano se lleva a cabo con enfoques de tipificación de secuencia de múltiples locus (MLST) utilizando de siete a unos pocos miles de loci 8,9,10. Estas estrategias basadas en MLST abarcan el mapeo de secuencias genómicas preensambladas o ensambladas en bases de datos altamente curadas, combinando así información alélica en unidades genotípicas reproducibles para el análisis epidemiológico y ecológico11,12. Por ejemplo, esta clasificación basada en MLST puede generar información genotípica a dos niveles de resolución: tipos de secuencia de nivel inferior (ST) o linajes ST (7 loci), y variantes MLST del genoma central de nivel superior (cgMLST) (~ 300-3,000 loci)10.

La clasificación genotípica basada en MLST es computacionalmente portátil y altamente reproducible entre laboratorios, por lo que es ampliamente aceptada como un enfoque preciso de subtipificación por debajo del nivel de especie bacteriana13,14. Sin embargo, las poblaciones bacterianas están estructuradas con diversos grados de clonalidad específicos de la especie (es decir, homogeneidad genotípica), patrones complejos de parentesco jerárquico entre genotipos 15,16,17 y una amplia gama de variación en la distribución del contenido genómico accesorio 18,19 . Así, un enfoque más holístico va más allá de las clasificaciones discretas en genotipos MLST e incorpora las relaciones jerárquicas de genotipos a diferentes escalas de resolución, junto con el mapeo del contenido genómico accesorio en clasificaciones genotípicas, lo que facilita la inferencia poblacional 18,20,21 . Además, los análisis también pueden centrarse en patrones compartidos de herencia de loci genómicos accesorios incluso entre genotipos relacionados a distancia21,22. En general, el enfoque combinado permite el interrogatorio agnóstico de las relaciones entre la estructura de la población y la distribución de composiciones genómicas específicas (por ejemplo, loci) entre gradientes geoespaciales o ambientales. Tal enfoque puede proporcionar información fundamental y práctica sobre las características ecológicas de poblaciones específicas que pueden, a su vez, explicar su tropismo y patrones de dispersión a través de reservorios, como animales de alimentación o humanos.

Este enfoque jerárquico orientado a la población basado en sistemas exige grandes volúmenes de datos WGS para obtener suficiente poder estadístico para predecir firmas genómicas distinguibles. En consecuencia, el enfoque requiere una plataforma computacional capaz de procesar muchos miles de genomas bacterianos a la vez. Recientemente, ProkEvo fue desarrollado y es una plataforma bioinformática gratuita, automatizada, portátil y escalable que permite análisis integradores de poblaciones bacterianas basadas en jerarquías, incluido el mapeo pangenómico20. ProkEvo permite el estudio de conjuntos de datos bacterianos a gran escala al tiempo que proporciona un marco para generar hipótesis epidemiológicas y ecológicas comprobables e inferibles y predicciones fenotípicas que pueden ser personalizadas por el usuario. Este trabajo complementa esa canalización al proporcionar una guía sobre cómo utilizar los archivos de salida derivados de ProkEvo como entrada para análisis e interpretación de clasificaciones jerárquicas de poblaciones y minería genómica accesoria. El estudio de caso presentado aquí utilizó la población de Salmonella enterica linaje I zoonótico serovar S. Newport como ejemplo y estaba específicamente dirigido a proporcionar pautas prácticas para microbiólogos, ecólogos y epidemiólogos sobre cómo: i) utilizar un enfoque automatizado dependiente de la filogenia para mapear genotipos jerárquicos; ii) evaluar la distribución de frecuencias de los genotipos como indicador para evaluar la aptitud ecológica; iii) determinar los grados de clonalidad específicos del linaje utilizando enfoques estadísticos independientes; y iv) mapear los loci DE RAM diferenciadores de linaje como ejemplo de cómo extraer contenido genómico accesorio en el contexto de la estructura de la población. En términos más generales, este enfoque analítico proporciona un marco generalizable para realizar un análisis genómico basado en la población a una escala que se puede utilizar para inferir patrones evolutivos y ecológicos independientemente de la especie objetivo.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Preparar archivos de entrada

NOTA: El protocolo está disponible aquí - https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. El protocolo asume que el investigador ha utilizado específicamente ProkEvo (o una canalización comparable) para obtener los resultados necesarios disponibles en este repositorio de Figshare (https://figshare.com/account/projects/116625/articles/15097503 - se requieren credenciales de inicio de sesión - ¡El usuario debe crear una cuenta gratuita para tener acceso a los archivos!). Cabe destacar que ProkEvo descarga automáticamente secuencias genómicas del repositorio NCBI-SRA y solo requiere un archivo .txt que contenga una lista de identificaciones del genoma como entrada20, y la utilizada para este trabajo en S. Los aislamientos de Newport USA se proporcionan aquí (https://figshare.com/account/projects/116625/articles/15097503?file=29025729).  La información detallada sobre cómo instalar y utilizar esta plataforma de genómica bacteriana está disponible aquí (https://github.com/npavlovikj/ProkEvo/wiki/2.-Quick-start)20

  1. Generar filogenia del genoma central utilizando FastTree23 como se describió anteriormente20, que no forma parte de la plataforma bioinformática20. FastTree requiere la alineación núcleo-genoma de Roary24 como archivo de entrada. El archivo de filogenia se denomina newport_phylogeny.tree (https://figshare.com/account/projects/116625/articles/15097503?file=29025690).
  2. Generar salida SISTR25 que contenga la información sobre las clasificaciones de serovares para Salmonella y los datos de llamada de variantes cgMLST (sistr_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025699).
  3. Generar archivo BAPS por fastbaps 26,27 que contiene la clasificación BAPS niveles 1-6 de genomas en subgrupos o haplotipos (fastbaps_partition_baps_prior_l6.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025684).
  4. Generar la clasificación basada en MLST de genomas en ST utilizando el programa MLST (https://github.com/tseemann/mlst)28 (salmonellast_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025696).
  5. Genere la salida ABRicate (https://github.com/tseemann/abricate)29 como un archivo .csv que contiene loci AMR mapeados por genoma (sabricate_resfinder_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025693).
    NOTA: El usuario puede desactivar partes específicas de la tubería de bioinformática de ProkEvo (consulte aquí para obtener más información - https://github.com/npavlovikj/ProkEvo/wiki/4.2.-Remove-existing-bioinformatics-tool-from-ProkEvo). El enfoque analítico que se presenta aquí proporciona pautas sobre cómo realizar un análisis basado en la población después de que se haya ejecutado la tubería de bioinformática.

2. Descargue e instale el software estadístico y la aplicación del entorno de desarrollo integrado (IDE)

  1. Descargue la versión gratuita más actualizada del software R para Linux, Mac o PC30. Siga los pasos de instalación predeterminados.
  2. Descargue la versión más actualizada disponible gratuitamente del IDE de escritorio RStudio aquí31. Siga los pasos predeterminados para la instalación.
    NOTA: Los siguientes pasos se incluyen en el script disponible, incluida la información detallada de la utilización del código, y deben ejecutarse secuencialmente para generar los resultados y las figuras presentadas en este trabajo (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). El usuario puede decidir utilizar otro lenguaje de programación para realizar este análisis analítico / estadístico como Python. En ese caso, utilice los pasos de los scripts como marco para llevar a cabo el análisis.

3. Instalar y activar bibliotecas de ciencia de datos

  1. Instale todas las bibliotecas de ciencia de datos a la vez como primer paso en el análisis. Evite instalar las bibliotecas cada vez que sea necesario volver a ejecutar el script. Utilice la función install.packages() para la instalación de la biblioteca. Alternativamente, el usuario puede hacer clic en la pestaña Paquetes dentro del IDE e instalar automáticamente los paquetes. El código utilizado para instalar todas las bibliotecas necesarias se presenta aquí:
    # Instalar Tidyverse
    install.packages("tidyverse")
    # Instalar skimr

    install.packages("skimr")
    # Instalar vegano
    install.packages("vegano")
    # Instalar forcats
    install.packages("forcats")
    # Instalar naniar
    install.packages("naniar")
    # Instalar ggpubr
    install.packages("ggpubr")
    # Instalar ggrepel
    install.packages("ggrepel")
    # Instalar reshape2
    install.packages("reshape2")
    # Instalar RColorBrewer
    install.packages("RColorBrewer")
    # Instalar ggtree
    if (!requireNamespace("BiocManager", silenciosamente = TRUE))
    install.packages("BiocManager")
    BiocManager::install("ggtree")
    # La instalación de ggtree generará una pregunta sobre la instalación: la respuesta es "a" para instalar / actualizar todas las dependencias
  2. Active todas las bibliotecas o paquetes utilizando la función library() al principio del script, justo después de la instalación. Aquí hay una demostración sobre cómo activar todos los paquetes necesarios:
    # Activar las bibliotecas y paquetes
    biblioteca(tidyverse)
    biblioteca(skimr)
    biblioteca (vegano)
    biblioteca(forcats)
    biblioteca(naniar)
    biblioteca(ggtree)
    biblioteca(ggpubr)
    biblioteca(ggrepel)
    biblioteca(remodelar2)
    biblioteca(RColorBrewer)
  3. Suprima la salida del código utilizado para la instalación y activación de bibliotecas y paquetes mediante {r, include = FALSE} en el código chuck, como se indica a continuación:
    ''' {r, include = FALSE}
    # Instalar Tidyverse

    install.packages("tidyverse")
    ```

    NOTA: Este paso es opcional, pero evita mostrar fragmentos de código innecesario en el informe final html, doc o pdf.
  4. Para obtener una breve descripción de las funciones específicas de todas las bibliotecas, junto con algunos enlaces útiles para recopilar más información, consulte los pasos 3.4.1-3.4.11.
    1. Tidyverse: utilice esta colección de paquetes utilizados para la ciencia de datos, incluida la entrada de datos, la visualización, el análisis y la agregación, y el modelado estadístico. Normalmente, ggplot2 (visualización de datos) y dplyr (data wrangling and modeling) son paquetes prácticos presentes en esta biblioteca32.
    2. skimr: utilice este paquete para generar estadísticas resumidas de tramas de datos, incluida la identificación de los valores faltantes33.
    3. vegano: utilice este paquete para análisis estadísticos de ecología comunitaria, como el cálculo de estadísticas basadas en la diversidad (por ejemplo, alfa y beta-diversidad)34.
    4. forcats: utilice este paquete para trabajar con variables categóricas, como reordenar clasificaciones. Este paquete forma parte de la biblioteca Tidyverse32.
    5. naniar: utilice este paquete para visualizar la distribución de los valores que faltan entre las variables de un marco de datos, mediante la función viss_miss()35.
    6. ggtree - utilice este paquete para la visualización de árboles filogenéticos36.
    7. ggpubr - utilice este paquete para mejorar la calidad de las visualizaciones basadas en ggplot237.
    8. ggrepel - utilice este paquete para el etiquetado de texto dentro de los gráficos38.
    9. reshape2: utilice la función melt() de este paquete para la transformación de tramas de datos de formato ancho a largo39.
    10. RColorBrewer: utilice este paquete para administrar colores en visualizaciones basadas en ggplot240.
    11. Utilice las siguientes funciones básicas para el análisis exploratorio de datos: head() para comprobar las primeras observaciones en un marco de datos, tail() para comprobar las últimas observaciones de un marco de datos, is.na() para contar el número de filas con valores faltantes en un marco de datos, dim() para comprobar el número de filas y columnas en un conjunto de datos, table() para contar las observaciones en una variable, y sum() para contar el número total de observaciones o instancias.

4. Entrada y análisis de datos

NOTA: Se puede encontrar información detallada sobre cada paso de este análisis en el script disponible (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). Sin embargo, aquí hay algunos puntos importantes a considerar:

  1. Realice todas las entradas de datos genómicos, incluidas todas las clasificaciones genotípicas (serovar, BAPS, ST y cgMLST) utilizando la función read_csv().
  2. Cambie el nombre, cree nuevas variables y seleccione columnas de interés de cada conjunto de datos antes de la agregación de varios conjuntos de datos.
  3. No elimine los valores que faltan de ningún conjunto de datos independiente. Espere hasta que se agreguen todos los conjuntos de datos para modificar o excluir los valores que faltan. Si se crean nuevas variables para cada conjunto de datos, los valores que faltan se clasifican de forma predeterminada en una de las clasificaciones recién generadas.
  4. Compruebe si hay caracteres erróneos, como guiones o marcas de interrogación, y sustitúyalos por NA (no aplicable). Haga lo mismo con los valores que faltan.
  5. Datos agregados basados en el orden jerárquico de los genotipos (serovar -> BAPS1 -> ST -> cgMLST), y mediante la agrupación en función de las identificaciones del genoma individual.
  6. Compruebe si faltan valores utilizando múltiples estrategias y trate con tales inconsistencias explícitamente. Solo elimine un genoma o aíslelo de los datos si la clasificación no es confiable. De lo contrario, considere el análisis que se está realizando y elimine las NA caso por caso.
    NOTA: Es muy recomendable establecer una estrategia para hacer frente a dichos valores a priori. Evite eliminar todos los genomas o aislados con valores faltantes en cualquier variable. Por ejemplo, un genoma puede tener clasificación ST sin tener un número de variante cgMLST. En ese caso, el genoma todavía se puede utilizar para el análisis basado en ST.
  7. Una vez que se agregan todos los conjuntos de datos, asígnelos a un nombre de marco de datos u objeto que se pueda usar en múltiples ubicaciones en el análisis de seguimiento, para evitar tener que generar el mismo archivo de metadatos para cada figura en el documento.

5. Realizar análisis y generar visualizaciones

NOTA: Una descripción detallada de cada paso necesario para producir todos los análisis y visualizaciones se puede encontrar en el archivo de rebajas para este documento (https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code). El código para cada figura se separa en fragmentos y todo el script debe ejecutarse secuencialmente. Además, el código para cada figura principal y suplementaria se proporciona como un archivo separado (consulte el Archivo complementario 1 y el Archivo complementario 2). Aquí hay algunos puntos esenciales (con fragmentos de código) a considerar al generar cada figura principal y complementaria.

  1. Use ggtree para trazar un árbol filogenético junto con información genotípica (Figura 1).
    1. Optimice el tamaño de la figura ggtree, incluido el diámetro y el ancho de los anillos, cambiando los valores numéricos dentro de las funciones xlim() y gheatmap(width = ), respectivamente (consulte el código de ejemplo a continuación).
      tree_plot <- ggtree(árbol, diseño = "circular") + xlim(-250, NA)
      figure_1 <- gheatmap(tree_plot, d4, offset=.0, width=20, colnames = FALSE)
      NOTA: Para una comparación más detallada de los programas que se pueden utilizar para el trazado filogenético, consulte este trabajo20. El trabajo destacó un intento realizado de identificar estrategias para mejorar las visualizaciones basadas en ggtree, como la disminución del tamaño del conjunto de datos, pero las longitudes de las ramas y la topología del árbol no discriminaban tan claramente como en comparación con phandango41.
    2. Agregue todos los metadatos en la menor cantidad de categorías posible para facilitar la elección del panel de coloración al trazar varias capas de datos con el árbol filogenético (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_1.Rmd). Llevar a cabo la agregación de datos en función de la cuestión del interés y el conocimiento del dominio.
  2. Utilice un gráfico de barras para evaluar las frecuencias relativas (Figura 2).
    1. Agregue datos tanto para linajes ST como para variantes cgMLST para facilitar las visualizaciones. Elija un umbral empírico o estadístico utilizado para la agregación de datos, mientras considera la pregunta que se está haciendo.
    2. Para obtener un código de ejemplo que se puede utilizar para inspeccionar la distribución de frecuencia de los linajes ST para determinar el corte, consulte a continuación:
      st_dist <- d2 %>% group_by(ST) %>% # grupo por la columna ST
      count() %>% # cuenta el número de observaciones
      arrange(desc(n)) # organizar los recuentos en orden decreciente
    3. Para obtener un código de ejemplo que muestre cómo se pueden agregar los ST menores (de baja frecuencia), consulte a continuación. Como se demuestra a continuación, los ST que no están numerados como 5, 31, 45, 46, 118, 132 o 350, se agrupan como "Otros ST". Utilice un código similar para las variantes de cgMLST (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_2.Rmd).
      d2$st <- ifelse(d2$ST == 5, "ST5", # crear una nueva columna ST para la cual se agregan S T menores como Otros
      ifelse(d2$ST == 31, "ST31",
      ifelse(d2$ST == 45, "ST45",
      ifelse(d2$ST == 46, "ST46",
      ifelse(d2$ST == 118, "ST118",
      ifelse(d2$ST == 132, "ST132", ifelse(d2$ST == 350, "ST350", "Otros ST"))))))))
  3. Utilice un enfoque anidado para calcular la proporción de cada linaje ST dentro de cada subgrupo BAPS1 para identificar los ST que están relacionados ancestralmente (pertenecen al mismo subgrupo BAPS1) (Figura 3). El siguiente código ejemplifica cómo se puede calcular la proporción basada en ST en todos los subgrupos BAPS1 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_3.Rmd):
    baps <- d2b %>% filter(serovar == "Newport") %>% # filter Newport serovars
    select(baps_1, ST) %>% # seleccione baps_1 y columnas ST
    mutate(ST = as.numeric(ST)) %>% # cambiar la columna ST a numérica
    drop_na(baps_1, ST) %>% # drop NA
    group_by(baps_1, ST) %>% # grupo por baps_1 y ST
    summarise(n = n()) %>% # recuento observaciones
    mutate(prop = n/sum(n)*100) # calcular proporciones
  4. Trazar la distribución de los loci AMR a través de los linajes ST utilizando los resultados de anotación de genes basados en Resfinder (Figura 4).
    NOTA: Resfinder ha sido ampliamente utilizado en estudios ecológicos y epidemiológicos42. La anotación de genes codificantes de proteínas puede variar dependiendo de la frecuencia con la que se curan y actualizan las bases de datos. Si utiliza la tubería de bioinformática sugerida, el investigador puede comparar las clasificaciones de loci basadas en AMR en diferentes bases de datos20. Asegúrese de verificar qué bases de datos se actualizan continuamente. No utilice bases de datos obsoletas o mal seleccionadas, para evitar llamadas erróneas.
    1. Utilice un umbral empírico o estadístico para filtrar los loci AMR más importantes para facilitar las visualizaciones. Proporcione un archivo de .csv sin procesar que contenga las proporciones calculadas de todos los loci AMR en todos los linajes ST, como se muestra aquí (https://figshare.com/account/projects/116625/articles/15097503?file=29025687).
    2. Calcule la proporción de AMR para cada ST utilizando el siguiente código (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_4.Rmd):
      # Cálculos para ST45
      d2c <- data6 %>% filter(st == "ST45") # filtrar primero los datos ST45
      # para ST45, calcule la proporción de loci AMR y solo mantenga la proporción superior al 10%

      d3c <- d2c %>% select(id, gen) %>% # seleccionar columnas
      group_by(id, gen) %>% # grupo por id y gen
      summarize(count = n()) %>% # count observaciones
      mutate(count = replace(count, count == 2, 1)) %>% # replace counts equal to 2 with 1 to consider only one copy of each gene (las duplicaciones pueden no ser fiables), pero el investigador puede decidir excluirlas o mantenerlas. Si el investigador quiere excluirlos, use la función filter(count != 2) o bien déjelos como están
      filter(count <= 1) # filter counts below or equal to 1
      d4c <- d3c %>% group_by(gen) %>% # grupo por gen
      summarize(value = n()) %>% # count observations
      mutate(total = table(data1$st)[6]) %>% # obtener los recuentos totales de st mutate(prop = (valor/total)*100) # calcular proporciones
      d5c <- d4c %>% mutate(st = "ST45") # crear una columna st y agregar información ST
    3. Una vez realizados los cálculos para todos los ST, combine los conjuntos de datos como un marco de datos, utilizando el siguiente código:
      # Combinar conjuntos de datos
      d6 <- rbind(d5a, d5b, d5c, d5d, d5e, d5f, d5g, d5h) # datasets de enlace de fila
    4. Para exportar el archivo .csv que contiene las proporciones calculadas, utilice el código:
      # Tabla de datos de exportación que contiene información de loci ST y AMR
      abx_newport_st <- d6 write.csv(abx_newport_st,"abx_newport_st.csv", row.names = FALSE)
    5. Antes de trazar la distribución basada en AMR entre linajes ST, filtre los datos en función de un umbral para facilitar las visualizaciones, como se muestra a continuación:
      # Filtro AMR loci con proporción mayor o igual al 10%
      d7 <- d6 %>% filter(prop >= 10) # determinar el umbral empírica o estadísticamente
  5. Trazar la filogenia del genoma central junto con las clasificaciones genotípicas jerárquicas y los datos de AMR en una sola gráfica usando ggtree (Figura 5).
    1. Optimice el tamaño de la figura dentro de ggtree utilizando los parámetros mencionados anteriormente (consulte el paso 5.1.1.).
    2. Optimice las visualizaciones agregando variables o utilizando una clasificación binaria como la presencia o ausencia de genes. Cuantas más características se agreguen a la trama, más difícil se vuelve el proceso de selección de coloración (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_5.Rmd).
      NOTA: Figuras suplementarias: la descripción detallada de todo el código se puede encontrar aquí (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd).
  6. Utilice un gráfico de dispersión en ggplot2, sin agregación de datos, para mostrar la distribución de linajes ST o variantes cgMLST mientras resalta los genotipos más frecuentes (Figura suplementaria 1) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s1.Rmd).
  7. Hacer un análisis anidado para evaluar la composición de los linajes ST a través de la proporción de variantes cgMLST con el fin de obtener una visión de la diversidad genética basada en ST, al tiempo que se identifican las variantes más frecuentes y sus relaciones genéticas (es decir, las variantes cgMLST que pertenecen al mismo ST compartieron un ancestro más recientemente que las que pertenecen a ST distintos) (Figura suplementaria 2 ) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s2.Rmd).
  8. Utilice la métrica de ecología comunitaria, es decir, el índice D de diversidad de Simpson, para medir el grado de clonalidad o diversidad genotípica de cada uno de los principales linajes ST43 (Figura suplementaria 3).
    1. Calcule el índice de diversidad entre linajes ST en diferentes niveles de resolución genotípica, incluidos los niveles BAPS 1 a 6 y cgMLST. A continuación se muestra el ejemplo de código sobre cómo hacer este cálculo en el nivel BAPS 1 (BAPS1) de resolución genotípica:
      # BAPS nivel 1 (BAPS1)
      # suelte los ST y BAPS1 con NA, agrupe por ST y BAPS1 y luego calcule el índice de Simpson
      baps1 <- data6 %>%
      select(st, BAPS1) %>% # seleccionar columnas
      drop_na(st, BAPS1) %>% # drop NA
      group_by(st, BAPS1) %>% # agrupar por columnas
      summarise(n = n()) %>% # recuento observaciones
      mutate(simpson = diversidad(n, "simpson")) %>% # calculan la diversidad
      group_by(st) %>% # grupo por columna
      summarise(simpson = media(simpson)) %>% # calcular la media del índice
      melt(id.vars=c("st"), measure.vars="simpson",
      variable.name="index", value.name="value") %>% # encubierto en formato largo
      mutate(strat = "BAPS1") # crear una columna strat
      NOTA: Una población genéticamente más diversa (es decir, más variantes en diferentes capas de resolución genotípica) tiene un índice más alto a nivel de cgMLST y produce valores crecientes basados en índices que van del nivel BAPS 2 al 6 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s3.Rmd).
  9. Examinar el grado de diversidad genotípica de los linajes ST trazando la frecuencia relativa de los subgrupos BAPS en todos los niveles de resolución (BAPS1-6) (Figura suplementaria 4). Cuanto más diversa es la población, más escasa es la distribución de los subgrupos BAPS (haplotipos) pasando de BAPS1 (menor nivel de resolución) a BAPS6 (mayor nivel de resolución) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s4.Rmd).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Al utilizar la plataforma computacional ProkEvo para análisis de genómica de poblaciones, el primer paso en la minería de datos WGS bacteriana consiste en examinar la estructura jerárquica de la población en el contexto de una filogenia del genoma central (Figura 1). En el caso de S. linaje enterico I, como lo ejemplifica el S. Conjunto de datos de Newport, la población está estructurada jerárquicamente de la siguiente manera: serovar (nivel más bajo de resolución), subgrupos o haplotipos BAPS1, linajes ST y variantes cgMLST (nivel más alto de resolución)20. Este análisis guiado por filogenia de la estructura jerárquica de la población permite específicamente examinar los siguientes puntos: i) distribución filogenética de genomas mal clasificados basados en SISTR en otros serovares en el caso de Salmonella; ii) estructura genética o de parentesco de la población; iii) patrón de diversificación a diferentes niveles de resolución genotípica; iv) identificación de las principales unidades genotípicas subyacentes a patrones evolutivos, ecológicos o epidemiológicos; v) relaciones ancestrales entre linajes ST a través de subgrupos BAPS1 o composición de haplotipos, y a través de variantes cgMLST dentro de linajes ST; y vi) visión parcial del grado de homogeneidad genotípica de un linaje ST por la composición de la variante cgMLST.

Figure 1
Figura 1: Mapeo guiado por filogenia de genotipos jerárquicos para el S. Población de Newport. Se utilizó una filogenia del genoma central (círculo centrado en el negro) para mapear genotipos jerárquicos, incluidos serovar (nivel más bajo de resolución - círculo de color más interno), subgrupos o haplotipos BAPS nivel 1 (BAPS1), linajes ST y variantes cgMLST (nivel más alto de resolución - círculo de color más externo). Los serovares se agruparon en Newport (S. Newport) o "Otros serovares" basados en la clasificación algorítmica de genomas SISTR, que utilizó información MLST del genoma central y se ejecutó como parte de la plataforma computacional ProkEvo. BAPS1 estratifica agnósticamente la población en subgrupos o grupos de haplotipos relacionados utilizando datos genómicos centrales dentro de ProkEvo. BAPS1 se coloca jerárquicamente entre los linajes serovar y ST porque capturó con precisión las relaciones ancestrales entre los ST. Los linajes ST se forman sobre la base del análisis canónico MLST utilizando siete loci dispersos por el genoma. En el gráfico solo se representaron las ST principales o más frecuentes (proporción >1%). Por último, solo se utilizaron las variantes cgMLST más frecuentes (proporción >3,5%) para mostrar toda la estructura jerárquica para el S. Población de Newport (n = 2.365 aislados de EE.UU. solamente). La categoría "Otros ST" u "Otros cgMLST" comprende linajes o variantes menores o de baja frecuencia, respectivamente, con umbrales realizados arbitrariamente que deben establecerse empírica o estadísticamente en función del conjunto de datos. Haga clic aquí para ver una versión más grande de esta figura.

Las frecuencias relativas de todos los genotipos jerárquicos se utilizaron para evaluar la distribución general y las clasificaciones observadas con mayor frecuencia (es decir, los genotipos) (Figura 2). En la Figura 2C-D, los linajes ST menos frecuentes (menores) o las variantes cgMLST se agregaron como "Otros ST" u "Otros cgMLST", respectivamente, para facilitar la visualización de datos (reducción de dimensionalidad). Si el muestreo se realiza sistemáticamente en entornos y / o huéspedes y se alimenta estadísticamente de manera adecuada, la distribución de frecuencias puede convertirse en un indicador de la aptitud ecológica. Es decir, se podría predecir que los linajes o variantes más frecuentes tendrían una mayor aptitud, lo que supondría una mayor investigación para determinar los determinantes genéticos causales subyacentes a tal rasgo cuantitativo 6,30.

Figure 2
Figura 2: Proporción de S. Genotipos jerárquicos de Newport a diferentes niveles de resolución. (A) Los serovares son fenotipos de la S. población del linaje enterica I que puede predecirse únicamente a partir de datos genómicos del núcleo debido al alto desequilibrio de enlace heredable entre los loci del núcleo y los loci codificantes antigénicos O y H (proteínas de superficie). Cuando se utiliza ProkEvo, los genomas de Salmonella se clasifican automáticamente en serovares utilizando el programa SISTR. Aunque sólo S. Los genomas de Newport (Newport) del NCBI se descargaron supuestamente, algunos se han clasificado como "Otros serovares" dentro de ProkEvo. Aproximadamente el 2% (48 de 2.365) de todos los genomas se clasificaron como distintos de S. Newport serovar. B) La proporción de subgrupos o haplotipos baps de nivel 1 (BAPS1). BAPS1 se inserta entre los linajes serovar y ST en el esquema jerárquico porque capturó de manera precisa y agnóstica las relaciones ancestrales entre los ST. (C) La proporción de linajes ST principales representaba solo ST que estaban > 1% en frecuencia relativa. Los ST menores se agruparon como "Otros ST". (D) La proporción de las principales variantes de cgMLST mostró solo cuatro cgMLST predominantes que fueron >3% en frecuencia relativa. El resto de los cgMLST se agruparon como "Otros cgMLST". (B-D) Los genomas clasificados por SISTR como "Otros serovares" (2,03%) se filtraron de los datos antes de trazar las frecuencias relativas BAPS1, ST y cgMLST. (C-D) Los umbrales utilizados para trazar los datos st y cgMLST se definieron arbitrariamente y deben establecerse empíricamente caso por caso. Haga clic aquí para ver una versión más grande de esta figura.

Alternativamente, se puede utilizar un diagrama de dispersión para evaluar la distribución y la proporción de ambos linajes ST o variantes cgMLST, sin ninguna agregación de datos (Figura suplementaria 1). Este uso de un diagrama de dispersión es particularmente útil para los linajes ST y las variantes cgMLST debido a la ocurrencia típica de centésimas, si no miles, clasificaciones para ambos genotipos. Esta distribución dispersa comúnmente no ocurre para los niveles de resolución serovar y BAPS1, porque están en un nivel de resolución más bajo con secuencias que colapsan heredablemente en unos pocos subgrupos o categorías.

A continuación, se examinaron las relaciones ancestrales entre los ST utilizando un enfoque anidado que abarca la evaluación de la frecuencia relativa de los linajes ST por subgrupos BAPS1 o haplotipos (Figura 3). Los linajes ST que pertenecían al mismo subgrupo BAPS1 tenían más probabilidades de haber compartido un ancestro común más recientemente que con otros ST (es decir, ST5 y ST118 frente a ST45). Del mismo modo, al examinar la distribución de las variantes de cgMLST dentro de los linajes ST, se puede capturar el grado de heterogeneidad genotípica entre los ST, al tiempo que se evalúa su composición genética y se revela la relación ancestral entre los cgMLST (es decir, las variantes cgMLST estrechamente relacionadas pertenecen al mismo linaje ST o complejo clonal) (Figura suplementaria 2).

Figure 3
Figura 3: Distribución de los linajes ST anidados dentro de los subgrupos BAPS1 para el S. Población de Newport. Esta gráfica representa la distribución del linaje ST dentro de cada subgrupo o haplotipo BAPS nivel 1, excluyendo los genomas clasificados como "Otros serovares" (2,03% de los datos completos). Los principales ST (proporción >1%) para cada subgrupo BAPS1 se resaltan en cada gráfico. Cuanto mayor sea el diámetro del círculo, mayor será la proporción para el linaje ST particular. Haga clic aquí para ver una versión más grande de esta figura.

Dado que el patrón de S. La diversificación de la población de Newport pareció estar impulsada principalmente por la composición st (Figura 1), se utilizaron dos enfoques estadísticos para evaluar el grado de clonalidad basado en ST (es decir, homogeneidad genética), incluido el índice D de diversidad de Simpson (Figura suplementaria 3) y la distribución de subgrupos o haplotipos BAPS utilizando los niveles BAPS 1-6 (Figura suplementaria 4 ). La evaluación del grado de clonalidad de una población puede dilucidar los siguientes aspectos: i) una mejor comprensión de la diversidad genética y la estructura de la población; ii) análisis de ajuste fino de los patrones de diversificación en las principales unidades genotípicas, como los linajes ST; y iii) ser un indicador de la necesidad de utilizar la minería genómica accesoria para encontrar unidades genotípicas crípticas que puedan revelar nuevos subgrupos presentes en la población. Cuanto más clonal es una población a nivel del genoma central, más difícil se vuelve diferenciar entre variantes, y más probable es que el contenido del genoma accesorio sea informativo para estratificar la población en unidades genotípicas significativas asociadas con distribuciones ecológicas únicas 18,19,21.

Se evaluó la frecuencia relativa de los loci AMR diferenciadores del linaje ST para identificar firmas genómicas accesorias únicas vinculadas a la S. Estructura de la población de Newport (Figura 4). Este paso del análisis se centró en la distribución de la RAM porque es un rasgo asociado a la salud pública, pero el mismo enfoque se puede aplicar de manera supervisada (dirigida) o agnóstica para examinar otros componentes del genoma accesorio, incluidas las vías metabólicas, los factores de virulencia, etc. Notablemente, mdf(A)_1 y aac(6')-Iaa_1 loci parecen ser adquiridos ancestralmente por los S. población de Newport; mientras que, se predice que ST45 es resistente a múltiples fármacos. Sorprendentemente, estos datos también sugieren que los otros linajes ST principales, ST5 y ST118, tienen más probabilidades de ser susceptibles a múltiples fármacos en comparación con ST45. Estos puntos deben considerarse cuidadosamente debido a los sesgos presentes en el conjunto de datos; sin embargo, esto representa una inferencia epidemiológica potencial que podría hacerse a partir de recopilaciones de datos de WGS más sólidas.

En general, aquí hay algunos puntos a considerar al realizar un mapeo del genoma accesorio en genotipos jerárquicos: i) considerar la distribución de frecuencia como un rasgo cuantitativo, pero tenga en cuenta que la composición alélica de un locus puede alterar la varianza del rasgo. Además, la presencia de un locus o loci debe ser indicativa de función pero no causal, porque el fenotipo puede ser poligénico o variar según la composición alélica del locus causal (por ejemplo, una mutación no sinónima en el sitio activo de una proteína es más probable que afecte la función); ii) la distribución de loci puede demostrar genes que son fijos en la población (por ejemplo, encontrados en alta frecuencia en todos los linajes ST) o recientemente adquiridos por linajes ST específicos y variantes cgMLST, y pueden reflejar el patrón ecológico o epidemiológico; iii) la resistencia a múltiples fármacos se puede predecir a partir de datos genómicos. Y si la distribución de los loci AMR, u otras vías, está fuertemente vinculada o comúnmente heredada por linajes específicos, entonces los fenotipos pueden predecirse por inferencia a partir de genotipos jerárquicos, como en el caso de los linajes ST45,46; y iv) la medición de fenotipos en el laboratorio sigue siendo determinista para validar las predicciones computacionales.

Figure 4
Figura 4: Distribución de los loci AMR entre los principales linajes ST del S. Población de Newport. Distribución relativa basada en la frecuencia de un número seleccionado de loci AMR en los principales linajes ST (>1% de la población). Los ST menores se agruparon como "Otros ST". Sólo genomas clasificados como S. Newport por el algoritmo SISTR se mantuvo en el análisis. Se seleccionaron loci AMR con una frecuencia relativa mayor o igual al 10% para la visualización de datos. Este es un umbral arbitrario que debe determinarse para cada conjunto de datos. Las proporciones se calcularon utilizando una matriz binaria compuesta por presencia o ausencia de genes. Haga clic aquí para ver una versión más grande de esta figura.

Por último, se utilizó una visualización anclada en filogenia para integrar sistemáticamente los datos de la estructura jerárquica de la población junto con el linaje ST diferenciando la distribución de loci AMR en función de la ocurrencia de genes (Figura 5). Al combinar la estructura de la población junto con la composición genómica accesoria, se puede abordar el siguiente conjunto de preguntas en cualquier conjunto de datos dado: 1) ¿Cómo se estructura la población? ¿Cómo se relacionan los ST entre sí y ancestralmente a través de los subgrupos BAPS1? ¿Qué tan variable es la composición de cgMLST en todos los ST? 2) ¿Cuál es el patrón de ramificación filogenética y la topología general del árbol? y 3) ¿Cómo se distribuye el genoma accesorio? ¿Es probable que la composición genómica accesoria sea adquirida ancestralmente o de recientemente derivada? ¿Cuál es el linaje o el patrón específico de la variante? ¿Qué es la predicción fenotípica y la inferencia ecológica? ¿Hay genes que trascienden el nicho frente a los que especifican el nicho? ¿Cómo se relaciona o informa el patrón observado la epidemiología en el caso de los patógenos? ¿Pueden los linajes o variantes ser sub-agrupados informativamente en función del contenido genómico accesorio?

Figure 5
Figura 5: Mapeo guiado por filogenia de genotipos jerárquicos y loci AMR accesorios que diferencian entre los principales linajes ST dentro del S. Población de Newport. Se utilizó una filogenia del genoma central (círculo centrado en el negro) para mapear genotipos jerárquicos, incluidos serovares (nivel más bajo de resolución - círculo de color más interno), subgrupos o haplotipos BAPS nivel 1 (BAPS1), linajes ST y variantes cgMLST (nivel más alto de resolución - círculo de color más externo), junto con loci AMR coloreados como azul oscuro si están presentes o grises si están ausentes. Los serovares se agruparon en Newport (S. Newport) o "Otros serovares" basados en la clasificación algorítmica SISTR. BAPS1 se coloca jerárquicamente entre los linajes serovar y ST porque capturó de manera precisa y agnóstica las relaciones ancestrales entre los ST. Los linajes ST se forman sobre la base del análisis canónico de MLST utilizando siete loci dispersos por el genoma. En el gráfico solo se representaron las ST principales o más frecuentes (proporción >1%). Además, solo las variantes cgMLST más dominantes (proporción >3,5%) se utilizaron para mostrar toda la estructura jerárquica para el S. Población de Newport (n = 2.365 aislados de EE.UU. solamente). La categoría "Otros ST" u "Otros cgMLST" compuesta por linajes o variantes menores o de baja frecuencia, respectivamente, y el umbral se realizó arbitrariamente y debe establecerse en función del conjunto de datos. Se seleccionaron loci AMR con una frecuencia relativa mayor o igual al 10% para la visualización de datos. Este gráfico específico muestra una distribución única de loci AMR que ocurre predominantemente en los linajes ST31, ST45 y ST132. Haga clic aquí para ver una versión más grande de esta figura.

Figura suplementaria 1: Distribución dispersa de linajes ST y variantes cgMLST para el S. Población de Newport. (A) La proporción de linajes ST sin agregar ST de baja frecuencia. En la gráfica se destacan los ST con proporción >1%. (B) La proporción de variantes de cgMLST sin agregar cgMLST de baja frecuencia. En la gráfica se destacan los cgMLST con proporción > el 3%. (A-B) Los umbrales utilizados para trazar los datos ST y cgMLST se definieron arbitrariamente y deben establecerse en función del conjunto de datos. Los genomas clasificados por SISTR como "Otros serovares" (2,03%) se filtraron de los datos antes de trazar las frecuencias relativas ST y cgMLST. Cuanto mayor sea el diámetro del círculo, mayor será la proporción para el linaje ST o la variante cgMLST. Haga clic aquí para descargar este archivo.

Figura suplementaria 2: Distribución de las variantes de cgMLST anidadas dentro de los linajes ST para el S. Población de Newport. Esta gráfica representa la distribución de la variante cgMLST entre los linajes ST, excluyendo los genomas clasificados como "Otros serovares" (2,03% de los datos completos). Los principales cgMLST (proporción >15%) para cada linaje ST se destacan en cada gráfico. Cuanto mayor sea el diámetro del círculo, mayor será la proporción para la variante específica de cgMSLT. Los ST de baja frecuencia se agruparon como "Otros ST". Haga clic aquí para descargar este archivo.

Figura suplementaria 3: Grado de diversidad genética basado en D de Simpson a través de linajes ST utilizando haplotipos BAPS niveles 1-6 o genotipos cgMLST como datos de entrada para el S. Población de Newport. El grado de clonalidad o diversidad genética de cada linaje ST se calculó a través de diferentes capas genotípicas de resolución, incluidos los niveles BAPS 1 (nivel más bajo de resolución) a 6 (nivel más alto de resolución) subgrupos o haplotipos, y utilizando adicionalmente la distribución de variantes basada en cgMLST. Cuanto mayor sea el valor del índice, mayor será el grado de diversidad genética. Los linajes ST muy diversos tienen valores de índice más altos que van de BAPS1 a BAPS6 (es decir, típicamente el índice aumenta y eventualmente se estanca cuando se pasa de BAPS1 a BAPS6). Sólo genomas clasificados como S. Newport por el programa SISTR se mantuvo en el análisis. Los ST de baja frecuencia se agruparon como "Otros ST". Haga clic aquí para descargar este archivo.

Figura complementaria 4: Distribución de los niveles de BAPS 1-6 subgrupos o haplotipos en los principales linajes ST de la población de S. Newport. Distribución relativa basada en la frecuencia de los subgrupos o haplotipos BAPS, a través de los principales linajes ST, desde el nivel más bajo (BAPS1) hasta el más alto nivel de resolución (BAPS6). Los st principales se seleccionaron en función de tener una proporción >1%. Sólo genomas clasificados como S. Newport por el programa SISTR se mantuvo en el análisis. Cuanto mayor sea el grado de clonalidad, menos escasa o extendida será la distribución de subgrupos o haplotipos BAPS al pasar de BAPS1 a BAPS6. En otras palabras, un linaje ST genéticamente más diverso tiene una gama más amplia de subgrupos BAPS en el nivel BAPS 6 (el mayor grado de resolución). Los ST de baja frecuencia se agruparon como "Otros ST". Haga clic aquí para descargar este archivo.

Archivo complementario 1: Enlaces a la lista de materiales y la lista de genomas Haga clic aquí para descargar este archivo.

Archivo complementario 2: Análisis genómico de poblaciones bacterianas de base jerárquica utilizando R Haga clic aquí para descargar este archivo.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

La utilización de un análisis heurístico y jerárquico de la estructura de la población basado en sistemas proporciona un marco para identificar nuevas firmas genómicas en conjuntos de datos bacterianos que tienen el potencial de explicar patrones ecológicos y epidemiológicos únicos20. Además, el mapeo de datos del genoma accesorio en la estructura de la población se puede utilizar para inferir rasgos adquiridos ancestralmente y / o derivados recientemente que facilitan la propagación de linajes ST o variantes cgMLST a través de reservorios 6,20,21,45,46. En términos más generales, una evaluación global de la distribución del contenido pangenómico en poblaciones bacterianas puede revelar patrones de diversificación que subyacen a los tropismos ecológicos o cuellos de botella geoespaciales / temporales que una población podría haber soportado recientemente18,21. En el caso de las especies patógenas, al extraer la estructura poblacional de aislados clínicos vs. ambientales, se pueden identificar y utilizar determinantes genéticos asociados a eventos zoonóticos para mejorar el diagnóstico y la vigilancia33,34. El mismo enfoque se puede aplicar a especies no patógenas para identificar genotipos con propiedades de injerto deseables específicas de nicho, como en el caso de las cepas probióticas gastrointestinales utilizadas para mejorar la salud humana 49,50,51. Sin embargo, la utilización de datos WGS bacterianos para consultas basadas en la población requiere el uso de plataformas computacionales reproducibles, automatizadas y escalables como ProkEvo20. Cualquier enfoque computacional viene con sus advertencias y matices, pero en general, las plataformas disponibles gratuitamente, bien documentadas, portátiles y fáciles de usar como ProkEvo pueden facilitar el trabajo de microbiólogos, ecólogos y epidemiólogos que realizan genómica heurística basada en poblaciones bacterianas.

En el presente trabajo, se demostró cómo utilizar los resultados derivados de ProkEvo para realizar un análisis jerárquico de la estructura de la población que se puede utilizar para mapear y rastrear genotipos de interés a diferentes niveles de resolución, junto con la predicción de rasgos útiles a partir de datos de WGS. Este protocolo computacional fue escrito utilizando el lenguaje de programación R, pero el marco o enfoque conceptual es generalizable a otros lenguajes como Python a través de la utilización de la biblioteca Pandas, por ejemplo. Los datos de entrada son generados por ProkEvo20, lo que evita que se enfrenten algunos obstáculos en términos de estandarización de productos y formatos de datos para su posterior análisis. Con la excepción de las filogenias, todos los demás conjuntos de datos de entrada vienen en un formato tabular que puede ser fácilmente controlado de calidad, agregado, analizado e integrado para generar informes útiles para la interpretación de datos. Sin embargo, es importante destacar algunos pasos críticos para mejorar la reproducibilidad mientras se utiliza este protocolo: i) asegúrese de que las versiones de software siempre estén actualizadas y rastreadas; ii) realizar un seguimiento de las versiones de las bibliotecas de ciencia de datos que se utilizan, y preferiblemente actualizarlas con el tiempo; iii) controlar la calidad de los datos utilizando la experiencia en conocimientos de dominio para dar sentido a los resultados generados por ProkEvo, o una tubería similar, a la luz de lo que se entiende para la población bacteriana objetivo; iv) realizar un análisis exploratorio de datos antes de utilizar cualquier enfoque de modelado; v) agregar los datos basados en conocimientos empíricos y/o evaluaciones estadísticas; vi) definir una estrategia para hacer frente a los valores faltantes a priori y ser coherentes y completamente transparentes al respecto; vii) si utiliza R, intente utilizar todos los paquetes proporcionados por Tidyverse, ya que esta colección facilita la programación funcional, la portabilidad, la optimización y está disponible gratuitamente; y viii) tenga en cuenta que los enfoques de visualización pueden ser difíciles porque se necesita un poco de prueba y error para obtener el tipo correcto de trama y esquema de coloración que sea más apropiado para la pregunta que se hace y los datos que se retratan.

Cabe destacar que este protocolo viene con algunas limitaciones que se pueden mejorar aún más. Por ejemplo, ProkEvo tiene un límite intrínseco a la cantidad de genomas que se pueden utilizar para el análisis pangenómico, si el paso de alineación núcleo-genoma se genera concomitantemente, mientras se utiliza el programa Roary (~ 2,000-3,000 genomas)24. Ese es un cuello de botella muy específico en la tubería que afectará el número de genomas que se pueden clasificar en haplotipos BAPS, ya que depende de la alineación núcleo-genoma (es decir, un paso altamente exigente computacionalmente). Sin embargo, la alineación núcleo-genoma se puede hacer con otros programas52, y tales algoritmos, en teoría, podrían incorporarse fácilmente a ProkEvo. De lo contrario, los conjuntos de datos se pueden dividir estratégicamente en subconjuntos aleatorios, o en otra base, como considerando la estructura poblacional del organismo en cuestión. Alternativamente, ProkEvo se puede ejecutar con un solo genoma para obtener anotación basada en ST, resistencia a antibióticos y composición de genes de virulencia, y mapeo de plásmidos, pero la tubería fue diseñada para la genómica basada en la población. Cabe destacar que si no se necesitan las clasificaciones BAPS1-6, entonces la opción de alineación núcleo-genoma de Roary se puede desactivar, y en ese caso, ProkEvo se puede usar con muchas centésimas de miles de genomas, solo está limitado en función del número de núcleos de computadora disponibles. Un ejemplo de cómo implementar un nuevo programa o cómo desactivar la opción de alineación núcleo-genoma en Roary dentro de ProkEvo se puede encontrar en los siguientes enlaces de GitHub (https://github.com/npavlovikj/ProkEvo/wiki/4.1.-Add-new-bioinformatics-tool-to-ProkEvo) y (https://github.com/npavlovikj/ProkEvo/wiki/4.3.-Change-running-options-for-existing-tool-in-ProkEvo), respectivamente. En el caso de la minería genómica accesoria, un análisis agnóstico depende de la utilización de la pangenómica. Archivo Rtab generado por Roary24, que no se usó específicamente aquí, sino que se demostró estratégicamente cómo mapear loci AMR con ABRicate utilizando la base de datos Resfinder (https://github.com/tseemann/abricate). No obstante, existe la opción de ampliar el alcance del mapeo genómico accesorio mediante el uso de un archivo pangenómico en su lugar, que puede verse prácticamente como una expansión del enfoque actual (por ejemplo, más loci incluidos en el conjunto de datos tabulares como nuevas columnas). Es importante mencionar que el mapeo pangenómico realizado por ProkEvo solo proporcionó información binaria en términos de composición de loci, y actualmente, no se puede usar para la identificación de polimorfismos de un solo nucleótido a través de genes.

Otra limitación de este protocolo es la visualización del árbol filogenético. Actualmente, ggtree es el programa de elección, pero eso tiene el costo de no poder inspeccionar con precisión las longitudes de las ramas y se vuelve engorroso cuando se deben agregar muchas capas de datos a la filogenia. Alternativamente, phandango41 es una GUI (https://jameshadfield.github.io/phandango/#/)41 con formato de página web escalable y fácil de usar que podría usarse fácilmente para lograr el mismo objetivo, y recientemente se publicó información detallada sobre cómo usarla con salidas ProkEvo20. Otras herramientas como iTOL también podrían usarse para la visualización de datos dependiente de la filogenia53, pero requieren el uso de una GUI y no se pueden incorporar en scripts automatizados. Además, las filogenias precisas del genoma central pueden ser difíciles de estimar debido al impacto críptico dependiente del conjunto de datos de la transferencia horizontal de genes. Programas como Gubbins54 se pueden usar para ese propósito, pero también vienen con ciertas limitaciones, como la necesidad de usar la alineación del genoma completo y los conjuntos de datos específicos del linaje ST para la estimación correcta de las filogenias. En su lugar, se pueden implementar otros enfoques independientes de la filogenia, que luego terminan requiriendo otros tipos de visualizaciones para integrar metadatos o información genómica accesoria, como en el caso del análisis multidimensional55,56. Por último, se utilizó un enfoque empírico y arbitrario para agregar linajes ST menores y variantes cgMLST, además de filtrar los loci AMR más importantes a cuantificar. Este tipo de agregación de datos se puede hacer empíricamente utilizando la experiencia en conocimientos de dominio, pero también podría lograrse estadísticamente definiendo un criterio a priori de la proporción de la distribución que debe mostrarse, o utilizando métricas relacionadas con la distribución, como el rango intercuartílico, la desviación estándar o la asimetría, para definir en última instancia un umbral. Es importante destacar que la definición de genotipos menores está directamente influenciada por la naturaleza de los datos, ya que el tamaño de la muestra y el sesgo en los tipos de muestras ambientales puede influir directamente en la composición genotípica. En cualquier caso, la consideración principal es que el mapeo del contenido del genoma accesorio en la estructura de la población permite identificar posibles determinantes genéticos de la diversificación ecológica, como los genes que trascienden o especificannichos 57,58,59.

Aunque los scripts de R disponibles se diseñaron para la automatización del trabajo actual, todos los scripts proporcionados tendrían que desarrollarse aún más para convertirse en una biblioteca de ciencia de datos abstracta e implementable, que podría ser, por ejemplo, una parte integral de la canalización de ProkEvo. No obstante, hay algunas ventajas específicas de utilizar este enfoque, como el uso del genotipado BAPS nivel 1 o el esquema de agrupamiento. La ubicación de los subgrupos o haplotipos BAPS nivel 1 entre los linajes serovar y ST se definió empíricamente en función de la estructura genética de la población de Salmonella, pero parece ser aplicable a otras especies como Campylobacter jejuni y Staphylococcus aureus20. Además, BAPS1 captura con precisión la relación ancestral entre los linajes ST y proporciona un enfoque escalable para el análisis evolutivo, especialmente cuando las aplicaciones filogenéticas son limitadas20. Además, el uso de un enfoque anidado para examinar las relaciones jerárquicas y los patrones de diversificación facilita la identificación de la ascendencia entre los linajes ST utilizando subgrupos BAPS1, y a través de variantes cgMLST utilizando linajes ST, pasando sucesivamente de menor a mayor resolución genotípica en la evaluación de la estructura de la población. Es importante reiterar que la distribución de frecuencias de los linajes ST y las variantes cgMLST, si se extrae de una muestra recolectada sistemáticamente y estadísticamente potenciada, puede convertirse en un indicador de la aptitud ecológica 1,6,43. En consecuencia, es probable que los linajes ST dominantes y las variantes de cgMLST contengan características genómicas únicas que pueden ser la base del mecanismo biológico para su dominancia en la población en ese entorno o huésped en particular.

Aquí, se utilizaron dos métricas estadísticas independientes para evaluar el grado de clonalidad de la población, lo que permite una comprensión auxiliar de la diversidad genética de la población, lo que puede indicar la ocurrencia pasada de sesgo de la muestra, cuellos de botella de la población o efecto fundador. En particular, la evaluación agnóstica de los subgrupos de los niveles 1-6 de BAPS en todos los linajes ST puede refinar la comprensión de la diversidad genética que normalmente no se puede resolver simplemente observando el nivel de variante de Salmonella cgMLST generado por SISTR. Como se mencionó anteriormente, otras características del pangenoma se pueden mapear en la estructura de la población y los archivos que contienen la composición del plásmido y el gen de virulencia, además de la utilización de otras bases de datos AMR junto con el conjunto de datos del pangenoma agnóstico, son generados automáticamente por ProkEvo20. Cabe destacar que ProkEvo actualmente no permite la diferenciación entre los loci AMR presentes en el cromosoma bacteriano frente a los plásmidos. Los metadatos ecológicos y epidemiológicos también se pueden integrar fácilmente en este enfoque analítico mediante la incorporación de otras variables en un archivo .csv que contiene toda la información genómica. En particular, el trabajo presentado aquí complementa específicamente la utilización de la plataforma computacional escalable y portátil ProkEvo, que fue diseñada para ser utilizada por investigadores centrados en análisis heurísticos de genómica de poblaciones que facilitan la minería de datos y la personalización por parte del usuario. Se pueden utilizar otras plataformas para genotipado, análisis de la estructura de la población y / o mapeo de genomas accesorios como Enterobase5, PATRIC60 y BacWGSTdb61. Estos últimos son excelentes recursos que facilitan la minería de datos genómicos para los investigadores que no buscan personalizar y utilizar la computación en clúster para un análisis escalable y complejo. El enfoque analítico presentado aquí está específicamente diseñado para investigadores que desean tener la flexibilidad de llevar a cabo un análisis genómico poblacional utilizando scripts reproducibles en su máquina local o mediante el uso de una plataforma computacional en la nube o de alto rendimiento.

En conclusión, la plataforma analítica basada en R presentada en este trabajo tuvo como objetivo proporcionar una guía práctica para microbiólogos, ecólogos y epidemiólogos sobre cómo: i) utilizar enfoques dependientes de la filogenia para mapear genotipos jerárquicos; ii) evaluar la distribución de frecuencias de los genotipos como indicador para evaluar la aptitud ecológica; iii) determinar los grados de clonalidad específicos del linaje utilizando enfoques estadísticos independientes; y iv) mapear los loci DE RAM diferenciadores de linaje como ejemplo de cómo extraer contenido genómico accesorio en el contexto de la estructura de la población. Los scripts proporcionados aquí se pueden utilizar en una máquina local o en una plataforma computacional de alto rendimiento. Para los microbiólogos experimentales y ambientales, este enfoque facilita los estudios de conjuntos de datos destinados a identificar rasgos únicos y vías candidatas para estudios mecanicistas adicionales que, en última instancia, pueden contextualizarse a nivel de la población. Los ecologistas pueden beneficiarse de este enfoque al poder analizar conjuntos de datos de moderados a grandes, que en teoría, aumentan el poder estadístico necesario para encontrar firmas de selección en una población mientras se consideran las relaciones de parentesco y los patrones de diversificación. Por último, los epidemiólogos pueden aprovechar la información práctica única para el diagnóstico y la vigilancia mediante la definición de unidades genotípicas de interés y la predicción de rasgos asociados a la salud pública, como la RAM. En términos más generales, esta guía analítica proporciona un marco generalizable para utilizar ProkEvo para realizar un análisis genómico basado en la población que se puede utilizar para inferir patrones evolutivos y ecológicos para especies patógenas y no patógenas, ya que el enfoque es generalizable a otras especies bacterianas.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Los autores han declarado que no existen intereses contrapuestos.

Acknowledgments

Este trabajo fue apoyado por fondos proporcionados por la División de Investigación Agrícola de UNL-IANR y el Instituto Nacional de Investigación y Educación sobre la Resistencia a los Antimicrobianos y por el Centro de Alimentos para la Salud de Nebraska en el Departamento de Ciencia y Tecnología de los Alimentos (UNL). Esta investigación solo podría completarse utilizando el Holland Computing Center (HCC) en UNL, que recibe el apoyo de la Iniciativa de Investigación de Nebraska. También estamos agradecidos por tener acceso, a través del HCC, a los recursos proporcionados por Open Science Grid (OSG), que cuenta con el apoyo de la Fundación Nacional de Ciencias y la Oficina de Ciencia del Departamento de Energía de los Estados Unidos. Este trabajo utilizó el software de gestión de flujo de trabajo Pegasus que está financiado por la National Science Foundation (subvención # 1664162).

Materials

Name Company Catalog Number Comments
amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

DOWNLOAD MATERIALS LIST

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user's guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 - Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. Seemann, T. MLST. GitHub. , Available from: https://github.com/tseemann/mist (2020).
  29. Seemann, T. ABRicate. GitHub. , Available from: https://github.com/tseemann/abricate (2020).
  30. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. at. Available from: https://cran.r-project.org (2021).
  31. Studio Team. RStudio: Integrated Development for R. Studio, PBC. , Boston, MA. Available from: http://www.rstudio.com (2020).
  32. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  33. rOpenSci: The skimr package. GitHub. , Berkeley, CA. Available from: https://github.com/ropensci/skimr/ (2021).
  34. Oksanen, J., et al. vegan: Community ecology package. R package version 2.5-5. , Available from: https://CRAN.R-project.org/package=vegan (2019).
  35. Tierney, N. J., Cook, D. H. Expanding tidy data principles to facilitate missing data exploration, visualization and assessment of imputations. arXiv. , Available from: http://arxiv.org/abs/1809.02264 (2020).
  36. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  37. Kassambara, A. ggpubr: "ggplot2" Based Publication Ready Plots. R package version 0.4.0. , Available from: https://CRAN.R-project.org/package=ggpubr (2020).
  38. Slowikowski, K. ggrepel: Automatically Position Non-Overlapping Text Labels with "ggplot2”. R package version 0.9.1. , Available from: https://CRAN.R-project.org/package=ggrepel (2021).
  39. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  40. Neuwirth, E. RColorBrewer: ColorBrewer Palettes. R package version 1.1-2. , Available from: https://CRAN.R-project.org/package=RColorBrewer (2014).
  41. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  42. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  43. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  44. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  45. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  46. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  47. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  48. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  49. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  50. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  51. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  52. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  53. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  54. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  55. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  56. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  57. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  58. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  59. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  60. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  61. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Tags

Genética Número 178
Minería heurística de genotipos jerárquicos y loci del genoma accesorio en poblaciones bacterianas
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Pavlovikj, N., Gomes-Neto, J. C.,More

Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter