Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Эвристическая добыча иерархических генотипов и локусов генома аксессуаров в бактериальных популяциях

Published: December 7, 2021 doi: 10.3791/63115
* These authors contributed equally

Summary

Эта аналитическая вычислительная платформа предоставляет практическое руководство для микробиологов, экологов и эпидемиологов, заинтересованных в бактериальной популяционной геномике. В частности, представленная здесь работа продемонстрировала, как выполнять: i) филогенное картирование иерархических генотипов; ii) частотный анализ генотипов; iii) анализ родства и клональности; iv) идентификация родословной, дифференцирующей локусы аксессуаров.

Abstract

Регулярное и систематическое использование бактериального секвенирования всего генома (WGS) повышает точность и разрешение эпидемиологических расследований, проводимых лабораториями общественного здравоохранения и регулирующими органами. Большие объемы общедоступных данных WGS могут быть использованы для изучения патогенных популяций в больших масштабах. Недавно была опубликована свободно доступная вычислительная платформа под названием ProkEvo, позволяющая воспроизводить, автоматизировать и масштабировать иерархический геномный анализ популяций с использованием бактериальных данных WGS. Эта реализация ProkEvo продемонстрировала важность сочетания стандартного генотипического картирования популяций с добычей дополнительного геномного содержания для экологического вывода. В частности, в работе, выделенной здесь, использовались выходные данные ProkEvo для иерархического анализа в масштабе популяции с использованием языка программирования R. Основная цель состояла в том, чтобы предоставить практическое руководство для микробиологов, экологов и эпидемиологов, показав, как: i) использовать филогенное картирование иерархических генотипов; ii) оценивать частотные распределения генотипов в качестве показателя экологической пригодности; iii) определять родственные отношения и генетическое разнообразие с использованием специфических генотипических классификаций; и iv) карта родословной, дифференцирующая локусы аксессуаров. Для повышения воспроизводимости и переносимости использовались файлы R markdown для демонстрации всего аналитического подхода. Пример набора данных содержал геномные данные из 2 365 изолятов зоонозного пищевого патогена Salmonella Newport. Филогенное картирование иерархических генотипов (серовар -> BAPS1 -> ST -> cgMLST) выявило генетическую структуру популяции, выделив типы последовательностей (STs) в качестве краеугольного камня, дифференцирующего генотип. В трех наиболее доминирующих линиях ST5 и ST118 имели общего предка совсем недавно, чем с высококлональным типом ST45. Различия на основе ST были дополнительно подчеркнуты распределением локусов дополнительной устойчивости к противомикробным препаратам (УПП). Наконец, филогенная визуализация была использована для объединения иерархических генотипов и содержания AMR для выявления структуры родства и геномных сигнатур, специфичных для линии. В совокупности этот аналитический подход предоставляет некоторые рекомендации для проведения эвристического бактериального геномного анализа популяции с использованием пангеномной информации.

Introduction

Все более широкое использование бактериального секвенирования всего генома (WGS) в качестве основы для рутинного эпиднадзора и эпидемиологического расследования лабораториями общественного здравоохранения и регулирующими органами значительно улучшило расследования вспышек патогенов 1,2,3,4. Как следствие, большие объемы деидентифицированных данных WGS в настоящее время находятся в открытом доступе и могут быть использованы для изучения аспектов популяционной биологии патогенных видов в беспрецедентных масштабах, включая исследования, основанные на: структурах популяций, частотах генотипов и частотах генов / аллелей в нескольких резервуарах, географических регионах и типах сред5 . Наиболее часто используемые эпидемиологические запросы, управляемые WGS, основаны на анализах с использованием только общего основного геномного содержания, где только общее (сохраненное) содержание используется только для генотипической классификации (например, вызов вариантов), и эти варианты становятся основой для эпидемиологического анализа и отслеживания 1,2,6,7 . Как правило, генотипирование бактериального ядра на основе генома осуществляется с помощью многолокусного типирования последовательности (MLST) с использованием от семи до нескольких тысяч локусов 8,9,10. Эти стратегии, основанные на MLST, включают в себя отображение предварительно собранных или собранных геномных последовательностей в высоко курируемых базах данных, тем самым объединяя аллельную информацию в воспроизводимые генотипические единицы для эпидемиологического и экологического анализа11,12. Например, эта классификация на основе MLST может генерировать генотипическую информацию на двух уровнях разрешения: типы последовательностей более низкого уровня (ST) или линии ST (7 локусов) и варианты MLST более высокого уровня (~ 300-3000 локусов)10.

Генотипическая классификация на основе MLST является вычислительно портативной и хорошо воспроизводимой между лабораториями, что делает ее широко принятой в качестве точного подхода к субтипированию ниже уровня видов бактерий13,14. Однако бактериальные популяции структурированы с видоспецифичными различными степенями клональности (т.е. генотипической однородности), сложными паттернами иерархического родства между генотипами 15,16,17 и широким диапазоном вариаций в распределении добавочного геномного содержания 18,19 . Таким образом, более целостный подход выходит за рамки дискретных классификаций в генотипы MLST и включает иерархические отношения генотипов на разных масштабах разрешения, наряду с отображением дополнительного геномного содержимого на генотипические классификации, что облегчает популяционный вывод 18,20,21 . Кроме того, анализ может также сосредоточиться на общих паттернах наследования вспомогательных геномных локусов даже отдаленно связанных генотипов21,22. В целом, комбинированный подход позволяет агностически исследовать взаимосвязи между структурой популяции и распределением конкретных геномных составов (например, локусов) между геопространственными или экологическими градиентами. Такой подход может дать как фундаментальную, так и практическую информацию об экологических характеристиках конкретных популяций, которая, в свою очередь, может объяснить их тропизм и закономерности дисперсии по водоемам, таким как пищевые животные или люди.

Этот системный иерархический популяционно-ориентированный подход требует больших объемов данных WGS для достаточной статистической мощности для прогнозирования различимых геномных сигнатур. Следовательно, подход требует вычислительной платформы, способной обрабатывать многие тысячи бактериальных геномов одновременно. Недавно был разработан ProkEvo и представляет собой свободно доступную, автоматизированную, портативную и масштабируемую биоинформатику, которая позволяет проводить интегративный иерархический анализ бактериальных популяций, включая пангеномное картирование20. ProkEvo позволяет изучать средне- и крупномасштабные наборы бактериальных данных, обеспечивая при этом основу для создания проверяемых и выводимых эпидемиологических и экологических гипотез и фенотипических прогнозов, которые могут быть настроены пользователем. Эта работа дополняет этот конвейер в предоставлении руководства по использованию выходных файлов, полученных из ProkEvo, в качестве входных данных для анализа и интерпретации иерархических классификаций популяций и геномного майнинга аксессуаров. В представленном здесь тематическом исследовании использовалась популяция Salmonella enterica lineage I zoonotic serovar S. Ньюпорт в качестве примера и был специально направлен на предоставление практических рекомендаций для микробиологов, экологов и эпидемиологов о том, как: i) использовать автоматизированный филогенийно-зависимый подход для картирования иерархических генотипов; ii) оценивать частотное распределение генотипов в качестве прокси для оценки экологической пригодности; iii) определять специфические для родословной степени клональности с использованием независимых статистических подходов; и iv) картирование локусов УПП, дифференцирующих родословную, в качестве примера того, как добывать дополнительное геномное содержание в контексте структуры популяции. В более широком смысле, этот аналитический подход обеспечивает обобщаемую основу для выполнения популяционного геномного анализа в масштабе, который может быть использован для вывода эволюционных и экологических моделей независимо от целевого вида.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Подготовка входных файлов

ПРИМЕЧАНИЕ: Протокол доступен здесь - https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code. Протокол предполагает, что исследователь специально использовал ProkEvo (или сопоставимый конвейер) для получения необходимых выходных данных, доступных в этом репозитории Figshare (https://figshare.com/account/projects/116625/articles/15097503 - требуются учетные данные для входа - пользователь должен создать бесплатную учетную запись, чтобы иметь доступ к файлу!). Следует отметить, что ProkEvo автоматически загружает геномные последовательности из репозитория NCBI-SRA и требует только .txt файл, содержащий список идентификаций генома в качестве входных данных20 и тот, который используется для этой работы на S. Изоляты ньюпорт-США приведены здесь (https://figshare.com/account/projects/116625/articles/15097503?file=29025729).  Подробная информация о том, как установить и использовать эту платформу бактериальной геномики, доступна здесь (https://github.com/npavlovikj/ProkEvo/wiki/2.-Quick-start)20

  1. Генерация филогении ядра-генома с помощью FastTree23 , какописано ранее 20, которое не является частью биоинформатической платформы20. FastTree требует выравнивания ядра генома Roary24 в качестве входного файла. Файл филогении называется newport_phylogeny.tree (https://figshare.com/account/projects/116625/articles/15097503?file=29025690).
  2. Генерация выходных данных SISTR25 , содержащих информацию о классификациях сероваров для сальмонеллы и cgMLST вариантов вызывающих данных (sistr_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025699).
  3. Генерация BAPS файла fastbaps 26,27, содержащего BAPS уровней 1-6 классификации геномов на подгруппы или гаплотипы (fastbaps_partition_baps_prior_l6.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025684).
  4. Генерация классификации геномов на основе MLST в ST с помощью программы MLST (https://github.com/tseemann/mlst)28 (salmonellast_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025696).
  5. Генерация выходных данных ABRicate (https://github.com/tseemann/abricate)29 в виде файла .csv, содержащего локусы AMR, нанесенные на геном (sabricate_resfinder_output.csv - https://figshare.com/account/projects/116625/articles/15097503?file=29025693).
    ПРИМЕЧАНИЕ: Пользователь может отключить определенные части конвейера биоинформатики ProkEvo (см. здесь для получения дополнительной информации - https://github.com/npavlovikj/ProkEvo/wiki/4.2.-Remove-existing-bioinformatics-tool-from-ProkEvo). Аналитический подход, представленный здесь, предоставляет руководящие принципы для проведения популяционного анализа после запуска конвейера биоинформатики.

2. Загрузите и установите статистическое программное обеспечение и приложение интегрированной среды разработки (IDE)

  1. Загрузите самую последнюю свободно доступную версию программного обеспечения R для Linux, Mac или PC30. Следуйте инструкциям по установке по умолчанию.
  2. Загрузите самую актуальную в свободно доступном доступе версию RStudio desktop IDE здесь31. Следуйте инструкциям по умолчанию для установки.
    ПРИМЕЧАНИЕ: Следующие шаги включены в доступный сценарий, включая подробную информацию об использовании кода, и должны выполняться последовательно для получения выходных данных и рисунков, представленных в этой работе (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). Пользователь может решить использовать другой язык программирования для проведения этого аналитического / статистического анализа, такой как Python. В этом случае используйте шаги в скриптах в качестве основы для проведения анализа.

3. Установка и активация библиотек обработки и анализа данных

  1. Установите все библиотеки обработки и анализа данных сразу в качестве первого шага в анализе. Избегайте установки библиотек каждый раз, когда сценарий необходимо перезапускать. Используйте функцию install.packages() для установки библиотеки. Кроме того, пользователь может щелкнуть вкладку Пакеты внутри среды IDE и автоматически установить пакеты. Код, используемый для установки всех необходимых библиотек, представлен здесь:
    # Установить Tidyverse
    install.packages("tidyverse")
    # Установить skimr

    install.packages("skimr")
    # Установить веганский
    install.packages("веганский")
    # Установка forcats
    install.packages("forcats")
    # Установить наниар
    install.packages("naniar")
    # Установить ggpubr
    install.packages("ggpubr")
    # Установить грепель
    install.packages("ggrepel")
    # Установить изменение формы2
    install.packages("reshape2")
    # Установить RColorBrewer
    install.packages("RColorBrewer")
    # Установить ggtree
    if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
    BiocManager::install("ggtree")
    # Установка ggtree вызовет вопрос об установке - ответ "a" для установки/обновления всех зависимостей
  2. Активируйте все библиотеки или пакеты с помощью функции library() в начале скрипта, сразу после установки. Вот демонстрация того, как активировать все необходимые пакеты:
    # Активация библиотек и пакетов
    библиотека(аккуратный)
    библиотека(скимр)
    библиотека (веганская)
    библиотека(форкаты)
    библиотека(наниар)
    библиотека(ggtree)
    библиотека(ggpubr)
    библиотека(ггрепель)
    библиотека(изменить форму2)
    библиотека(RColorBrewer)
  3. Подавите вывод кода, используемого для установки и активации библиотеки и пакета, с помощью {r, include = FALSE} в коде chuck, следующим образом:
    ''' {r, include = FALSE}
    # Установить Tidyverse

    install.packages("tidyverse")
    ```

    ПРИМЕЧАНИЕ: Этот шаг является необязательным, но позволяет избежать отображения фрагментов ненужного кода в окончательном отчете html, doc или pdf.
  4. Краткое описание конкретных функций всех библиотек, а также некоторые полезные ссылки для сбора дополнительной информации см. в шагах 3.4.1-3.4.11.
    1. Tidyverse - используйте эту коллекцию пакетов, используемых для обработки и анализа данных, включая ввод данных, визуализацию, синтаксический анализ и агрегацию, а также статистическое моделирование. Как правило, ggplot2 (визуализация данных) и dplyr (споры и моделирование данных) являются практическими пакетами, присутствующими в этой библиотеке32.
    2. skimr - использовать этот пакет для генерации сводной статистики кадров данных, включая идентификацию отсутствующих значений33.
    3. веганский - используйте этот пакет для статистического анализа экологии сообщества, такого как расчет статистики на основе разнообразия (например, альфа- и бета-разнообразия)34.
    4. forcats - используйте этот пакет для работы с категориальными переменными, такими как переупорядочивание классификаций. Этот пакет является частью библиотеки Tidyverse32.
    5. naniar - используйте этот пакет для визуализации распределения отсутствующих значений по переменным во фрейме данных с помощью функции35 viss_miss().
    6. ggtree - используйте этот пакет для визуализации филогенетических деревьев36.
    7. ggpubr - используйте этот пакет для улучшения качества визуализаций на основе ggplot237.
    8. ggrepel - используйте этот пакет для маркировки текста внутри графиков38.
    9. reshape2 - используйте функцию melt() из этого пакета для преобразования кадров данных из широкого форматав длинный формат 39.
    10. RColorBrewer - используйте этот пакет для управления цветами в визуализациях на основе ggplot240.
    11. Используйте следующие основные функции для исследовательского анализа данных: head() для проверки первых наблюдений во фрейме данных, tail() для проверки последних наблюдений фрейма данных, is.na() для подсчета количества строк с отсутствующими значениями в фрейме данных, dim() для проверки количества строк и столбцов в наборе данных, table() для подсчета наблюдений по переменной, и sum() для подсчета общего числа наблюдений или случаев.

4. Ввод и анализ данных

ПРИМЕЧАНИЕ: Подробную информацию о каждом шаге этого анализа можно найти в доступном скрипте (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd). Тем не менее, вот некоторые важные моменты, которые следует учитывать:

  1. Выполните ввод всех геномных данных, включая все генотипические классификации (серовар, BAPS, ST и cgMLST), используя функцию read_csv().
  2. Переименуйте, создайте новые переменные и выберите интересующие столбцы из каждого набора данных перед агрегацией нескольких наборов данных.
  3. Не удаляйте отсутствующие значения из любого независимого набора данных. Подождите, пока все наборы данных не будут агрегированы, чтобы изменить или исключить отсутствующие значения. Если для каждого набора данных создаются новые переменные, то отсутствующие значения по умолчанию классифицируются в одну из вновь созданных классификаций.
  4. Проверьте наличие ошибочных символов, таких как дефисы или знаки допросов, и замените их на NA (не применимо). Проделайте то же самое для отсутствующих значений.
  5. Агрегированные данные основаны на иерархическом порядке генотипов (серовар -> BAPS1 -> ST -> cgMLST), а также путем группировки на основе идентификации индивидуального генома.
  6. Проверьте наличие отсутствующих значений, используя несколько стратегий, и явно разберитесь с такими несоответствиями. Удаляйте геном или изолируйте из данных только в том случае, если классификация ненадежна. В противном случае рассмотрите проводимый анализ и удалите НС в каждом конкретном случае.
    ПРИМЕЧАНИЕ: Настоятельно рекомендуется разработать стратегию, позволяющую априори обращаться с такими значениями. Избегайте удаления всех геномов или изолятов с отсутствующими значениями в любых переменных. Например, геном может иметь классификацию ST без номера варианта cgMLST. В этом случае геном все еще может быть использован для анализа на основе ST.
  7. Как только все наборы данных будут агрегированы, присвойте их имени фрейма данных или объекту, который можно использовать в нескольких местах в последующем анализе, чтобы избежать необходимости генерировать один и тот же файл метаданных для каждого рисунка в документе.

5. Проводите анализ и генерируйте визуализации

ПРИМЕЧАНИЕ: Подробное описание каждого шага, необходимого для проведения всех анализов и визуализаций, можно найти в файле markdown для этой статьи (https://github.com/jcgneto/jove_bacterial_population_genomics/tree/main/code). Код для каждого рисунка разделен на куски, и весь скрипт должен выполняться последовательно. Кроме того, код для каждого основного и дополнительного рисунка предоставляется в виде отдельного файла (см. Дополнительный файл 1 и Дополнительный файл 2). Вот некоторые важные моменты (с фрагментами кода), которые следует учитывать при генерации каждой основной и дополнительной фигур.

  1. Используйте ggtree для построения филогенетического дерева вместе с генотипической информацией (рисунок 1).
    1. Оптимизируйте размер фигуры ggtree, включая диаметр и ширину колец, изменив числовые значения внутри функций xlim() и gheatmap(width = ) соответственно (см. пример кода ниже).
      tree_plot <- ggtree(дерево, макет = "круглый") + xlim(-250, NA)
      figure_1 <- gheatmap(tree_plot, d4, offset=.0, width=20, colnames = FALSE)
      ПРИМЕЧАНИЕ: Для более подробного сравнения программ, которые могут быть использованы для филогенетического построения, проверьте эту работу20. В работе подчеркивается попытка определить стратегии для улучшения визуализаций на основе ggtree, таких как уменьшение размера набора данных, но длина ветвей и топология дерева не были столь четко различимыми по сравнению с phandango41.
    2. Агрегируйте все метаданные в как можно меньше категорий, чтобы облегчить выбор цветовой панели при построении нескольких слоев данных с филогенетическим деревом (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_1.Rmd). Проведите агрегацию данных на основе вопроса об интересе и знания предметной области.
  2. Используйте гистограмму для оценки относительных частот (рисунок 2).
    1. Агрегируйте данные как для линий ST, так и для вариантов cgMLST для облегчения визуализации. Выберите эмпирический или статистический порог, используемый для агрегирования данных, при рассмотрении задаваемого вопроса.
    2. Пример кода, который можно использовать для проверки частотного распределения линий ST для определения пороговой границы, см. ниже:
      st_dist <- d2 %>% group_by(ST) %>% # по столбцу ST
      count() %>% # подсчитать количество наблюдений
      arrange(desc(n)) # упорядочить счетчики в порядке убывания
    3. Пример кода, показывающий, как могут быть агрегированы второстепенные (низкочастотные) ST, приведен ниже. Как показано ниже, СП, которые не пронумерованы как 5, 31, 45, 46, 118, 132 или 350, группируются вместе как «Другие СП». Используйте аналогичный код для вариантов cgMLST (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_2.Rmd).
      d2$st <- ifelse(d2$ST == 5, "ST5", # создать новый столбец ST, для которого второстепенные S T агрегируются как Другие
      ifelse(d2$ST == 31, "ST31",
      ifelse(d2$ST == 45, "ST45",
      ifelse(d2$ST == 46, "ST46",
      ifelse(d2$ST == 118, "ST118",
      ifelse(d2$ST == 132, "ST132", ifelse(d2$ST == 350, "ST350", "Other STs")))))))
  3. Используйте вложенный подход для расчета доли каждой линии ST в каждой подгруппе BAPS1 для идентификации ST, которые связаны между предками (принадлежат к одной и той же подгруппе BAPS1) (рисунок 3). Приведенный ниже код иллюстрирует, как пропорция на основе ST может быть рассчитана для подгрупп BAPS1 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_3.Rmd):
    baps <- d2b %>% фильтр(серовар == "Ньюпорт") %>% # фильтр Ньюпорта
    select(baps_1, ST) %>% # выбрать столбцы baps_1 и ST
    mutate(ST = as.numeric(ST)) %>% # изменить столбец ST на числовой
    drop_na(baps_1, ST) %>% # падение NA
    group_by(baps_1, ST) %>% # группа по baps_1 и ST
    summaryse(n = n()) %>% # количество наблюдений
    mutate(prop = n/sum(n)*100) # рассчитать пропорции
  4. Построение распределения локусов AMR по линиям ST с использованием результатов аннотации генов на основе Resfinder (рисунок 4).
    ПРИМЕЧАНИЕ: Resfinder широко используется в эколого-эпидемиологических исследованиях42. Аннотация генов, кодирующих белок, может варьироваться в зависимости от того, как часто базы данных курируются и обновляются. При использовании предлагаемого конвейера биоинформатики исследователь может сравнить классификации локусов на основе УПП в разных базах данных20. Обязательно проверьте, какие базы данных постоянно обновляются. Не используйте устаревшие или плохо подобранные базы данных, чтобы избежать просчетов.
    1. Используйте эмпирический или статистический порог для фильтрации наиболее важных локусов УПП для облегчения визуализации. Предоставьте необработанный файл .csv, содержащий рассчитанные пропорции всех локусов AMR во всех линиях ST, как показано здесь (https://figshare.com/account/projects/116625/articles/15097503?file=29025687).
    2. Рассчитайте пропорцию AMR для каждого ST, используя следующий код (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_4.Rmd):
      # Расчеты для ST45
      d2c <- data6 %>% фильтр(st == "ST45") # сначала фильтр данных ST45
      # для ST45, рассчитать долю локусов AMR и сохранить только пропорцию более 10%

      d3c <- d2c %>% select(id, gene) %>% # выбрать столбцы
      group_by(id, ген) %>% # группа по id и гену
      суммировать(количество = n()) %>% # количество наблюдений
      mutate(count = replace(count, count == 2, 1)) %>% # заменить количество, равное 2 с 1, чтобы рассмотреть только одну копию каждого гена (дупликации могут быть ненадежными), но исследователь может решить исключить или сохранить их. Если исследователь хочет исключить их, то используйте функцию filter(count != 2) или оставьте как есть
      filter(count <= 1) # количество фильтров меньше или равно 1
      d4c <- d3c %>% group_by(ген) %>% # группа по генам
      суммировать(значение = n()) %>% # количество наблюдений
      mutate(total = table(data1$st)[6]) %>% # получить общее количество st mutate(prop = (значение/итог)*100) # рассчитать пропорции
      d5c <- d4c %>% mutate(st = "ST45") # создать столбец st и добавить информацию ST
    3. После выполнения вычислений для всех ПАКЕТОВ данных объедините наборы данных в один фрейм данных, используя следующий код:
      # Объединение наборов данных
      d6 <- rbind(d5a, d5b, d5c, d5d, d5e, d5f, d5g, d5h) # наборы данных привязки строк
    4. Чтобы экспортировать файл .csv, содержащий вычисляемые пропорции, используйте код:
      # Экспорт таблицы данных, содержащей информацию о локусах ST и AMR
      abx_newport_st <- d6 write.csv(abx_newport_st,"abx_newport_st.csv", row.names = FALSE)
    5. Перед построением распределения на основе AMR по линиям ST отфильтруйте данные на основе порогового значения для облегчения визуализации, как показано ниже:
      # Фильтр локусов AMR с долей выше или равной 10%
      d7 <- d6 %>% фильтр (prop >= 10) # определить порог эмпирически или статистически
  5. Построение филогении ядра генома вместе с иерархическими генотипическими классификациями и данными УПП на одном графике с использованием ggtree (рисунок 5).
    1. Оптимизируйте размер фигуры внутри ggtree, используя вышеупомянутые параметры (см. шаг 5.1.1.).
    2. Оптимизируйте визуализации путем агрегирования переменных или использования двоичной классификации, такой как наличие или отсутствие генов. Чем больше особенностей добавляется к сюжету, тем сложнее становится процесс выбора раскраски (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/figure_5.Rmd).
      ПРИМЕЧАНИЕ: Дополнительные цифры - подробное описание всего кода можно найти здесь (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/data_analysis_R_code.Rmd).
  6. Используйте точечную диаграмму в ggplot2 без агрегации данных для отображения распределения линий ST или вариантов cgMLST при выделении наиболее частых генотипов (дополнительный рисунок 1) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s1.Rmd).
  7. Проведите вложенный анализ для оценки состава линий ST через долю вариантов cgMLST, чтобы получить представление о генетическом разнообразии на основе ST, при этом выявив наиболее частые варианты и их генетические отношения (т. Е. Варианты cgMLST, которые принадлежат к одному и тому же ST, имели предка совсем недавно, чем те, которые принадлежат к отдельным ST) (Дополнительный рисунок 2 ) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s2.Rmd).
  8. Используйте метрику экологии сообщества, а именно индекс разнообразия D Симпсона, для измерения степени клональности или генотипического разнообразия каждой из основных линий ST43 (дополнительный рисунок 3).
    1. Рассчитайте индекс разнообразия по линиям ST на разных уровнях генотипического разрешения, включая BAPS уровня с 1 по 6 и cgMLST. Ниже приведен пример кода о том, как выполнить это вычисление на уровне BAPS 1 (BAPS1) генотипического разрешения:
      # BAPS уровень 1 (BAPS1)
      # отбросьте ST и BAPS1 с NA, сгруппируйте по ST и BAPS1, а затем рассчитайте индекс Симпсона
      baps1 <- данные6 %>%
      select(st, BAPS1) %>% # выбрать столбцы
      drop_na(st, BAPS1) %>% # падение NA
      group_by(st, BAPS1) %>% # группировка по столбцам
      summaryse(n = n()) %>% # количество наблюдений
      mutate(simpson = diversity(n, "simpson")) %>% # рассчитать разнообразие
      group_by(st) %>% # группа по столбцам
      summarise(simpson = mean(simpson)) %>% # рассчитать среднее значение индекса
      melt(id.vars=c("st"), measure.vars="simpson",
      variable.name="index", value.name="value") %>% # скрытый в длинном формате
      mutate(strat = "BAPS1") # создать столбец слоя
      ПРИМЕЧАНИЕ: Более генетически разнообразная популяция (т.е. больше вариантов на разных уровнях генотипического разрешения) имеет более высокий индекс на уровне cgMLST и производит увеличение значений на основе индексов, начиная с уровня BAPS 2 до 6 (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s3.Rmd).
  9. Изучить степень генотипического разнообразия линий ST путем построения относительной частоты подгрупп BAPS на всех уровнях разрешения (BAPS1-6) (дополнительный рисунок 4). Чем разнообразнее популяция, тем более редким становится распределение подгрупп BAPS (гаплотипов), переходящее от BAPS1 (более низкий уровень разрешения) к BAPS6 (более высокий уровень разрешения) (https://github.com/jcgneto/jove_bacterial_population_genomics/blob/main/code/supplementary_figure_s4.Rmd).

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Используя вычислительную платформу ProkEvo для анализа популяционной геномики, первым шагом в интеллектуальном анализе данных бактериальной WGS является изучение иерархической структуры популяции в контексте филогении ядра-генома (рисунок 1). В случае С. энтерическая линия I, на примере S. В наборе данных Ньюпорта популяция иерархически структурирована следующим образом: серовар (самый низкий уровень разрешения), подгруппы или гаплотипы BAPS1, линии ST и варианты cgMLST (самый высокий уровень разрешения)20. Этот филогенный анализ иерархической структуры популяции, в частности, позволяет изучить следующие моменты: i) филогенетическое распределение неправильно классифицированных геномов на основе SISTR в другие серовары в случае сальмонеллы; ii) генетическая или родственная структура населения; iii) структура диверсификации на различных уровнях генотипического разрешения; iv) идентификация основных генотипических единиц, лежащих в основе эволюционных, экологических или эпидемиологических моделей; v) наследственные отношения между линиями ST через подгруппы BAPS1 или состав гаплотипов, а также между вариантами cgMLST в линиях ST; и vi) частичное представление степени генотипической однородности линии ST по составу варианта cgMLST.

Figure 1
Рисунок 1: Филогенное отображение иерархических генотипов для S. Население Ньюпорта. Филогенез ядра-генома (черный центрированный круг) использовался для отображения иерархических генотипов, включая серовар (самый низкий уровень разрешения - самый внутренний цветной круг), подгруппы или гаплотипы BAPS уровня 1 (BAPS1), линии ST и варианты cgMLST (самый высокий уровень разрешения - самый внешний цветной круг). Серовары были сгруппированы в Ньюпорт (S. Newport) или «Другие серовары» на основе алгоритмической классификации геномов SISTR, которая использовала информацию MLST основного генома и работала как часть вычислительной платформы ProkEvo. BAPS1 агностически стратифицирует популяцию на подгруппы или кластеры родственных гаплотипов, используя основные геномные данные в ProkEvo. BAPS1 иерархически расположен между сероварными и ST линиями, потому что он точно захватил наследственные отношения между STs. Линии ST формируются на основе канонического анализа MLST с использованием семи разбросанных по геному локусов. На графике были изображены только основные или наиболее частые СТ (доля >1%). Наконец, только наиболее частые варианты cgMLST (пропорция >3,5%) были использованы для отображения всей иерархической структуры для S. Население Ньюпорта (n = 2 365 США только изоляты). Категория «Другие СТ» или «Другие cgMLST» состоит из второстепенных или низкочастотных линий или вариантов, соответственно, с произвольным пороговым значением, которое должно быть установлено эмпирически или статистически на основе набора данных. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Относительные частоты всех иерархических генотипов затем использовались для оценки общего распределения и наиболее часто наблюдаемых классификаций (т.е. генотипов) (рисунок 2). На рисунке 2C-D менее частые (второстепенные) линии ST или варианты cgMLST были агрегированы как «Другие ST» или «Другие cgMLST», соответственно, чтобы облегчить визуализацию данных (уменьшение размерности). Если отбор проб систематически проводится в разных средах и/или хозяевах и надлежащим образом статистически обусловлен, распределение частот может стать показателем экологической пригодности. То есть, наиболее частые линии или варианты могут быть предсказаны как имеющие более высокую пригодность, что приведет к дальнейшему исследованию для определения причинных генетических детерминант, лежащих в основе такого количественного признака 6,30.

Figure 2
Рисунок 2: Пропорция S. Иерархические генотипы Ньюпорта на разных уровнях разрешения. (A) Серовары являются фенотипами S. Энтерикальная линия I популяции, которая может быть предсказана исключительно на основе керно-геномных данных из-за наследуемого неравновесия высокой связи между ядром-локусами и антигенно-кодирующими локусами O и H (поверхностными белками). При использовании ProkEvo геномы сальмонелл автоматически классифицируются на серовары с помощью программы SISTR. Хотя только С. Геномы Ньюпорта (Newport) из NCBI были предположительно загружены, некоторые из них были классифицированы как «Другие серовары» в ProkEvo. Примерно 2% (48 из 2 365) всех геномов были классифицированы как отличные от S. Ньюпорт серовар. (B) Доля подгрупп или гаплотипов уровня 1 (BAPS1) BAPS. BAPS1 вставлен между сероварными и ST линиями в иерархической схеме, потому что он точно и агностически захватывает наследственные отношения между ST. (C) Доля основных линий ST изображает только ST, которые были > 1% в относительной частоте. Второстепенные СТ были сгруппированы как «Другие СП». (Г) Доля основных вариантов cgMLST показала только четыре преобладающих cgMLST, которые были >3% по относительной частоте. Остальные cgMLST были сгруппированы как «Другие cgMLST». (Б-Д) Геномы, классифицированные SISTR как «Другие серовары» (2,03%), были отфильтрованы из данных до построения относительных частот BAPS1, ST и cgMLST. (С-Д) Пороговые значения, используемые для построения как данных ST, так и cgMLST, были произвольно определены и должны устанавливаться эмпирически в каждом конкретном случае. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Альтернативно, точечная диаграмма может быть использована для оценки распределения и доли как линий ST, так и вариантов cgMLST без какой-либо агрегации данных (дополнительный рисунок 1). Такое использование точечной диаграммы особенно полезно для линий ST и вариантов cgMLST из-за типичного появления сотых, если не тысяч, классификаций для обоих генотипов. Это разреженное распределение обычно не встречается для уровней разрешения серовара и BAPS1, поскольку они находятся на более низком уровне разрешения с последовательностями, наследуемо сворачивающимися в несколько подгрупп или категорий.

Затем предковые отношения между ST были изучены с использованием вложенного подхода, который включает оценку относительной частоты линий ST по подгруппам или гаплотипам BAPS1 (рисунок 3). Линии ST, которые принадлежали к одной и той же подгруппе BAPS1, с большей вероятностью имели общего предка совсем недавно, чем с другими ST (т. Е. ST5 и ST118 против ST45). Аналогичным образом, изучая распределение вариантов cgMLST в линиях ST, можно уловить степень генотипической гетерогенности между ST, оценивая их генетический состав и выявляя предковую связь между cgMLST (т.е. тесно связанные варианты cgMLST принадлежат к одной и той же линии ST или клональному комплексу) (дополнительный рисунок 2).

Figure 3
Рисунок 3: Распределение линий ST, вложенных в подгруппы BAPS1 для S. Население Ньюпорта. На этом графике показано распределение линии ST в пределах каждой подгруппы или гаплотипа уровня BAPS, исключая геномы, классифицированные как «другие серовары» (2,03% от всех данных). Основные СТ (доля >1%) для каждой подгруппы BAPS1 выделены на каждом графике. Чем больше диаметр круга, тем выше пропорция для конкретной линии ST. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Учитывая, что паттерн S. Диверсификация населения Ньюпорта, по-видимому, в основном определялась составом ST (рисунок 1), для оценки степени клональности на основе ST (т.е. генетической однородности) использовались два статистических подхода, включая индекс разнообразия D Симпсона (дополнительный рисунок 3), и распределение подгрупп или гаплотипов BAPS с использованием уровней BAPS 1-6 (дополнительный рисунок 4). ). Оценка степени клональности популяции может прояснить следующие аспекты: i) лучшее понимание генетического разнообразия и структуры популяции; ii) анализ тонкой настройки моделей диверсификации по основным генотипическим единицам, таким как линии ST; и iii) быть индикатором необходимости использования дополнительного интеллектуального анализа генома для поиска загадочных генотипических единиц, которые могут выявить новые подкластеры, присутствующие в популяции. Чем более клональная популяция находится на уровне ядра-генома, тем труднее становится дифференцировать варианты, и тем более вероятно, что содержание генома аксессуара будет информативным для стратификации популяции на значимые генотипические единицы, связанные с уникальными экологическими распределениями 18,19,21.

Относительная частота линий ST, дифференцирующих локусы AMR, оценивалась для выявления уникальных вспомогательных геномных сигнатур, связанных с S. Структура населения Ньюпорта (рисунок 4). Этот этап анализа был сосредоточен на распределении УПП, потому что это признак, связанный с общественным здравоохранением, но тот же подход может быть применен контролируемым (целевым) или агностическим образом для изучения других компонентов дополнительного генома, включая метаболические пути, факторы вирулентности и т. Д. Примечательно, что mdf(A)_1 и aac(6')-Iaa_1 локусы, по-видимому, приобретены предками S. Население Ньюпорта; в то время как ST45, по прогнозам, будет иметь множественную лекарственную устойчивость. Поразительно, что эти данные также свидетельствуют о том, что другие основные линии ST, ST5 и ST118, с большей вероятностью будут восприимчивы к нескольким лекарствам по сравнению с ST45. Эти моменты должны быть тщательно рассмотрены из-за предвзятости, присутствующей в наборе данных; однако это представляет собой потенциальный эпидемиологический вывод, который может быть сделан на основе более надежных сборов данных WGS.

В общем, вот некоторые моменты, которые следует учитывать при проведении картирования генома аксессуара на иерархические генотипы: i) рассматривать частотное распределение как количественный признак, но имейте в виду, что аллельный состав локуса может изменять дисперсию признака. Кроме того, наличие локуса или локуса должно указывать на функцию, но не на причинно-следственную связь, поскольку фенотип может быть полигенным или варьироваться в зависимости от аллельного состава для причинного локуса (например, несинонимная мутация на активном участке белка с большей вероятностью влияет на функцию); ii) распределение локусов может демонстрировать гены, которые зафиксированы в популяции (например, встречаются с высокой частотой во всех линиях ST) или недавно приобретены конкретными линиями ST и вариантами cgMLST, и может отражать экологическую или эпидемиологическую картину; iii) множественная лекарственная устойчивость может быть предсказана на основе данных геномики. И если распределение локусов УПП или других путей тесно связано или обычно наследуется конкретными линиями, то фенотипы могут быть предсказаны путем вывода из иерархических генотипов, таких как в случае линий ST45,46; и iv) измерение фенотипов в лаборатории по-прежнему детерминировано для проверки вычислительных прогнозов.

Figure 4
Рисунок 4: Распределение локусов УПП по основным линиям ST S. Население Ньюпорта. Относительное частотное распределение выбранного числа локусов УПП по основным линиям ST (>1% населения). Второстепенные СТ были сгруппированы как «Другие СП». Только геномы, классифицированные как S. Ньюпорт по алгоритму SISTR был сохранен в анализе. Для визуализации данных были выбраны локусы УПП с относительной частотой, превышающей или равной 10%. Это произвольное пороговое значение, которое должно быть определено для каждого набора данных. Пропорции были рассчитаны с использованием бинарной матрицы, состоящей из присутствия или отсутствия генов. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Наконец, для систематической интеграции данных иерархической структуры популяции наряду с линией ST, дифференцирующей распределение локусов УПП на основе встречаемости генов, была использована филогенная визуализация, основанная на частоте возникновения генов (рисунок 5). Комбинируя структуру популяции вместе со вспомогательным геномным составом, в любом заданном наборе данных можно решить следующий набор вопросов: 1) Как структурирована популяция? Как СТ соотносятся друг с другом и предками через подгруппы BAPS1? Насколько изменчива композиция cgMLST в разных ST? 2) Что такое филогенетическая модель ветвления и общая топология дерева? и 3) Как распределяется вспомогательный геном? Является ли вспомогательный геномный состав, скорее всего, приобретенным предками или недавно полученным? Что такое родословная или шаблон, специфичный для варианта? Что такое фенотипическое предсказание и экологический вывод? Существуют ли гены, выходящие за пределы ниши, и гены, определяющие нишу? Каким образом наблюдаемая картина соотносится или информирует эпидемиологию в случае патогенов? Могут ли линии или варианты быть информативно подгруппированы на основе дополнительного геномного содержания?

Figure 5
Рисунок 5: Филогенное картирование иерархических генотипов и вспомогательных локусов AMR, дифференцирующее основные линии ST в пределах S. Население Ньюпорта. Филогенез ядра генома (черный центрированный круг) использовался для отображения иерархических генотипов, включая серовар (самый низкий уровень разрешения - самый внутренний цветной круг), подгруппы или гаплотипы BAPS уровня 1 (BAPS1), линии ST и варианты cgMLST (самый высокий уровень разрешения - самый внешний цветной круг), а также локусы AMR, окрашенные как темно-синий, если присутствует, или серый, если отсутствует. Серовары были сгруппированы в Ньюпорт (S. Newport) или «Другие серовары» на основе алгоритмической классификации SISTR. BAPS1 иерархически расположен между сероварными линиями и линиями ST, потому что он точно и агностически захватывает наследственные отношения между ST. Линии ST формируются на основе канонического анализа MLST с использованием семи разбросанных по геному локусов. На графике были изображены только основные или наиболее частые СТ (доля >1%). Кроме того, только наиболее доминирующие варианты cgMLST (пропорция >3,5%) были использованы для отображения всей иерархической структуры для S. Население Ньюпорта (n = 2 365 США только изоляты). Категория «Другие СТ» или «Другие cgMLST» состоит из второстепенных или низкочастотных линий или вариантов, соответственно, и пороговое значение выполняется произвольно и должно устанавливаться на основе набора данных. Для визуализации данных были выбраны локусы УПП с относительной частотой, превышающей или равной 10%. Этот конкретный график показывает уникальное распределение локусов AMR, преимущественно встречающихся в линиях ST31, ST45 и ST132. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Дополнительный рисунок 1: Разреженное распределение линий ST и вариантов cgMLST для S. Население Ньюпорта. (A) На графике выделена доля линий ST без агрегирования низкочастотных ST. НА ГРАФИКЕ выделены ST с долей >1%. (B) Доля вариантов cgMLST без агрегирования низкочастотных cgMLST. На графике выделены cgMLST с долей > 3%. (А-Б) Пороговые значения, используемые для построения данных ST и cgMLST, были произвольно определены и должны устанавливаться на основе набора данных. Геномы, классифицированные SISTR как «Другие серовары» (2,03%), были отфильтрованы из данных до построения относительных частот ST и cgMLST. Чем больше диаметр круга, тем выше пропорция для линии ST или варианта cgMLST. Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительный рисунок 2: Распределение вариантов cgMLST, вложенных в линии ST для S. Население Ньюпорта. На этом графике показано распределение вариантов cgMLST по линиям ST, исключая геномы, классифицированные как «Другие серовары» (2,03% от всех данных). Основные cgMLST (доля >15%) для каждой линии ST выделены на каждом графике. Чем больше диаметр круга, тем выше пропорция для конкретного варианта cgMSLT. Низкочастотные СТ были сгруппированы как «Другие СТ». Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительный рисунок 3: Степень генетического разнообразия Симпсона на основе D по линиям ST с использованием гаплотипов BAPS уровней 1-6 или генотипов cgMLST в качестве входных данных для S. Население Ньюпорта. Степень клональности или генетического разнообразия каждой линии ST была рассчитана на различных генотипических слоях разрешения, включая baPS levels 1 (самый низкий уровень разрешения) до 6 (самый высокий уровень разрешения) подгрупп или гаплотипов, а также с использованием распределения вариантов на основе cgMLST. Чем выше значение индекса, тем выше степень генетического разнообразия. Очень разнообразные линии ST имеют более высокие значения индекса, начиная с BAPS1 до BAPS6 (т. Е. Обычно индекс увеличивается и в конечном итоге стабилизируется при переходе от BAPS1 к BAPS6). Только геномы, классифицированные как S. Ньюпорт по программе SISTR был сохранен в анализе. Низкочастотные СТ были сгруппированы как «Другие СТ». Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительный рисунок 4: Распределение уровней BAPS 1-6 подгрупп или гаплотипов по основным линиям ST популяции S. Newport. Относительное частотное распределение подгрупп или гаплотипов BAPS по основным линиям ST от самого низкого (BAPS1) до самого высокого уровня разрешения (BAPS6). Основные СП были выбраны на основе доли >1%. Только геномы, классифицированные как S. Ньюпорт по программе SISTR был сохранен в анализе. Чем выше степень клональности, тем менее разреженным или распространенным становится распределение подгрупп или гаплотипов BAPS при переходе от BAPS1 к BAPS6. Другими словами, более генетически разнообразная линия ST имеет более широкий спектр подгрупп BAPS на уровне BAPS 6 (наивысшая степень разрешения). Низкочастотные СТ были сгруппированы как «Другие СТ». Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительный файл 1: Ссылки на список материалов и список геномов Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Дополнительный файл 2: Иерархический анализ геномики бактериальной популяции с использованием R Пожалуйста, нажмите здесь, чтобы загрузить этот файл.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Использование системного эвристического и иерархического анализа структуры популяции обеспечивает основу для выявления новых геномных сигнатур в наборах бактериальных данных, которые могут объяснить уникальные экологические и эпидемиологические закономерности20. Кроме того, картирование дополнительных данных генома на структуру популяции может быть использовано для вывода анцестрально приобретенных и/или недавно полученных признаков, которые облегчают распространение линий ST или вариантов cgMLST по резервуарам 6,20,21,45,46. В более широком смысле, глобальная оценка распределения пангеномного содержания в бактериальных популяциях может выявить закономерности диверсификации, которые лежат в основе экологических тропизмов или геопространственных/временных узких мест, которые популяция могла недавно выдержать18,21. В случае патогенных видов путем определения популяционной структуры клинических и экологических изолятов могут быть выявлены и использованы генетические детерминанты, связанные с зоонозными событиями, для улучшения диагностики и эпиднадзора33,34. Такой же подход может быть применен к непатогенным видам для идентификации генотипов с желательными нишевыми специфическими приживляющими свойствами, как в случае желудочно-кишечных пробиотических штаммов, используемых для улучшения здоровья человека 49,50,51. Тем не менее, использование бактериальных данных WGS для популяционных запросов требует использования воспроизводимых, автоматизированных и масштабируемых вычислительных платформ, таких как ProkEvo20. Любой вычислительный подход имеет свои предостережения и нюансы, но в целом свободно доступные, хорошо документированные, портативные и удобные для пользователя платформы, такие как ProkEvo, могут облегчить работу микробиологов, экологов и эпидемиологов, занимающихся эвристической бактериальной популяционной геномикой.

В настоящей работе было продемонстрировано, как использовать выходные данные, полученные из ProkEvo, для проведения иерархического анализа структуры популяции, который может быть использован для отображения и отслеживания генотипов, представляющих интерес на разных уровнях разрешения, наряду с прогнозированием полезных признаков на основе данных WGS. Этот вычислительный протокол был написан с использованием языка программирования R, но фреймворк или концептуальный подход можно обобщить на другие языки, такие как Python, например, за счет использования библиотеки Pandas. Входные данные генерируются ProkEvo20, что предотвращает некоторые препятствия с точки зрения стандартизации выходных данных и форматов данных для последующего анализа. За исключением филогений, все другие входные наборы данных поставляются в табличном формате, который можно легко контролировать качеством, агрегировать, анализировать и интегрировать для создания полезных отчетов для интерпретации данных. Тем не менее, важно выделить несколько важных шагов для повышения воспроизводимости при использовании этого протокола: i) убедитесь, что версии программного обеспечения всегда обновляются и отслеживаются; ii) отслеживать версии используемых библиотек обработки и анализа данных и предпочтительно обновлять их с течением времени; iii) контроль качества данных с использованием опыта в области знаний, чтобы понять результаты, генерируемые ProkEvo или аналогичным конвейером, в свете того, что понимается для целевой бактериальной популяции; iv) проводить исследовательский анализ данных до использования любого подхода к моделированию; v) агрегировать данные на основе эмпирических знаний и/или статистических оценок; vi) определить стратегию для решения проблемы недостающих ценностей априори и быть последовательным и полностью прозрачным в отношении нее; vii) при использовании R старайтесь использовать все пакеты, предоставляемые Tidyverse, поскольку эта коллекция облегчает функциональное программирование, переносимость, оптимизацию и находится в свободном доступе; и viii) имейте в виду, что подходы к визуализации могут быть трудными, поскольку требуется некоторое количество проб и ошибок, чтобы получить правильный тип графика и цветовой схемы, который наиболее подходит для задаваемого вопроса и изображаемых данных.

Следует отметить, что этот протокол поставляется с некоторыми ограничениями, которые могут быть дополнительно улучшены. Например, ProkEvo имеет внутренний предел того, сколько геномов может быть использовано для пангеномного анализа, если этап выравнивания ядра-генома генерируется одновременно, при использовании программы Роари (~ 2000-3000 геномов)24. Это очень специфическое узкое место в конвейере, которое повлияет на количество геномов, которые могут быть классифицированы в гаплотипы BAPS, поскольку это зависит от выравнивания ядра-генома (то есть очень вычислительно сложного шага). Тем не менее, выравнивание ядра-генома может быть выполнено с другими программами52, и такие алгоритмы, теоретически, могут быть легко включены в ProkEvo. В противном случае наборы данных могут быть стратегически разделены на случайные подмножества или на другой основе, например, путем рассмотрения популяционной структуры рассматриваемого организма. В качестве альтернативы, ProkEvo может быть запущен с одним геномом, чтобы получить аннотацию на основе ST, состав генов устойчивости к антибиотикам и вирулентности, а также картирование плазмид, но конвейер был разработан для популяционной геномики. Примечательно, что если классификации BAPS1-6 не нужны, то опция выравнивания ядра-генома Roary может быть отключена, и в этом случае ProkEvo можно использовать со многими сотыми тысячами геномов — она ограничена только в зависимости от количества доступных компьютерных ядер. Пример того, как реализовать новую программу или как отключить опцию выравнивания основного генома в Roary в ProkEvo, можно найти в следующих ссылках GitHub (https://github.com/npavlovikj/ProkEvo/wiki/4.1.-Add-new-bioinformatics-tool-to-ProkEvo) и (https://github.com/npavlovikj/ProkEvo/wiki/4.3.-Change-running-options-for-existing-tool-in-ProkEvo) соответственно. В случае вспомогательного геномного майнинга агностический анализ зависит от использования пангеномного. Файл Rtab, сгенерированный Roary24, который специально не использовался здесь, но вместо этого был стратегически продемонстрирован, как сопоставить локусы AMR с ABRicate с помощью базы данных Resfinder (https://github.com/tseemann/abricate). Тем не менее, существует возможность расширить область геномного отображения аксессуаров, используя вместо этого пангеномный файл, который можно практически рассматривать как расширение текущего подхода (например, больше локусов, включенных в табличный набор данных в качестве новых столбцов). Важно отметить, что пангеномное картирование, выполненное ProkEvo, предоставило только двоичную информацию с точки зрения состава локусов и в настоящее время не может быть использовано для идентификации однонуклеотидных полиморфизмов между генами.

Другим ограничением этого протокола является визуализация филогенетического дерева. В настоящее время ggtree является предпочтительной программой, но это происходит за счет неспособности точно проверять длину ветвей и становится громоздким, когда в филогению необходимо добавить много слоев данных. В качестве альтернативы, phandango41 представляет собой удобный, масштабируемый графический интерфейс в формате веб-страницы (https://jameshadfield.github.io/phandango/#/)41, который можно легко использовать для достижения той же цели, и более подробная информация о том, как использовать его с выходами ProkEvo, недавно опубликована20. Другие инструменты, такие как iTOL, также могут быть использованы для филогенно-зависимой визуализации данных53, но они требуют использования графического интерфейса и не могут быть включены в автоматизированные скрипты. Кроме того, точные филогении ядра генома может быть трудно оценить из-за загадочного влияния горизонтального переноса генов, зависящего от набора данных. Такие программы, как Gubbins54, могут быть использованы для этой цели, но они также имеют определенные ограничения, такие как необходимость использования выравнивания всего генома и наборов данных, специфичных для линии ST, для правильной оценки филогений. Вместо этого могут быть развернуты другие филогенно-независимые подходы, которые затем требуют других типов визуализаций для интеграции метаданных или дополнительной геномной информации, как в случае многомерного анализа55,56. Наконец, эмпирический и произвольный подход был использован для агрегирования второстепенных линий ST и вариантов cgMLST, в дополнение к фильтрации наиболее важных локусов AMR, подлежащих количественной оценке. Этот тип агрегирования данных может быть выполнен эмпирически с использованием опыта знаний предметной области, но также может быть достигнут статистически путем определения априорного критерия доли распределения, которое должно отображаться, или с использованием метрик, связанных с распределением, таких как межквартильный диапазон, стандартное отклонение или асимметрия, чтобы в конечном итоге определить пороговое значение. Важно отметить, что определение минорных генотипов напрямую зависит от характера данных, поскольку размер выборки, а смещение в типах образцов окружающей среды может напрямую влиять на генотипический состав. Несмотря на это, основное соображение заключается в том, что картирование содержимого генома аксессуаров в структуру популяции позволяет идентифицировать потенциальные генетические детерминанты экологической диверсификации, такие как нишевые или нишевые гены 57,58,59.

Хотя имеющиеся скрипты R были разработаны для автоматизации настоящей работы, все предоставленные сценарии должны быть доработаны, чтобы стать абстрактной и развертываемой библиотекой науки о данных, которая, например, могла бы стать неотъемлемой частью конвейера ProkEvo. Тем не менее, есть некоторые конкретные преимущества использования этого подхода, такие как использование генотипирования или схемы кластеризации BAPS уровня 1. Размещение подгрупп или гаплотипов уровня BAPS 1 между линиями серовара и ST было определено эмпирически на основе генетической структуры популяции сальмонелл, но, по-видимому, применимо к другим видам, таким как Campylobacter jejuni и Staphylococcus aureus20. Кроме того, BAPS1 точно фиксирует предковые отношения между линиями ST и обеспечивает масштабируемый подход к эволюционному анализу, особенно когда филогенетические приложения ограничены20. Кроме того, использование вложенного подхода для изучения иерархических отношений и моделей диверсификации облегчает идентификацию родословной между линиями ST с использованием подгрупп BAPS1 и между вариантами cgMLST с использованием линий ST, последовательно переходя от более низкого к более высокому генотипическому разрешению при оценке структуры популяции. Важно повторить, что частотное распределение линий ST и вариантов cgMLST, если оно взято из систематически собранной и статистически питаемой выборки, может стать показателем экологической пригодности 1,6,43. Следовательно, доминирующие линии ST и варианты cgMLST, вероятно, будут содержать уникальные геномные особенности, которые могут быть основой биологического механизма их доминирования в популяции в этой конкретной среде или хозяине.

При этом для оценки степени клональности популяции были использованы две независимые статистические метрики, что позволяет получить вспомогательное понимание генетического разнообразия популяции, что может указывать на прошлое возникновение смещения выборки, узких мест популяции или эффекта основателя. В частности, агностическая оценка уровней BAPS 1-6 подгрупп по линиям ST может улучшить понимание генетического разнообразия, которое обычно не может быть решено простым взглядом на уровень варианта Salmonella cgMLST, генерируемый SISTR. Как упоминалось ранее, другие особенности пангенома могут быть нанесены на структуру популяции, и файлы, содержащие состав генов плазмиды и вирулентности, в дополнение к использованию других баз данных AMR вместе с агностическим набором данных пангенома, автоматически генерируются ProkEvo20. Следует отметить, что ProkEvo в настоящее время не позволяет дифференцировать локусы AMR, присутствующие в бактериальной хромосоме, и плазмидами. Эколого-эпидемиологические метаданные также могут быть легко интегрированы в этот аналитический подход путем включения других переменных в .csv файл, содержащий всю геномную информацию. В частности, представленная здесь работа специально дополняет использование масштабируемой и портативной вычислительной платформы ProkEvo, которая была разработана для использования исследователями, ориентированными на эвристический анализ популяционной геномики, который облегчает интеллектуальный анализ данных и настройку пользователем. Другие платформы могут использоваться для генотипирования, анализа структуры популяции и/или картирования вспомогательных геномов, таких как Enterobase5, PATRIC60 и BacWGSTdb61. Последние являются отличными ресурсами, которые облегчают интеллектуальный анализ геномных данных для исследователей, которые не стремятся настраивать и использовать кластерные вычисления для масштабируемого и сложного анализа. Аналитический подход, представленный здесь, специально разработан для исследователей, которые хотят иметь гибкость для проведения анализа геномики популяции с использованием воспроизводимых скриптов на своей локальной машине или с использованием облачной или высокопроизводительной вычислительной платформы.

В заключение, аналитическая платформа на основе R, представленная в этой работе, была направлена на предоставление практического руководства для микробиологов, экологов и эпидемиологов о том, как: i) использовать филогенийно-зависимые подходы для картирования иерархических генотипов; ii) оценивать частотное распределение генотипов в качестве прокси для оценки экологической пригодности; iii) определять специфические для родословной степени клональности с использованием независимых статистических подходов; и iv) картирование локусов УПП, дифференцирующих родословную, в качестве примера того, как добывать дополнительное геномное содержание в контексте структуры популяции. Скрипты, представленные здесь, могут быть использованы либо на локальной машине, либо на высокопроизводительной вычислительной платформе. Для экспериментальных и экологических микробиологов этот подход облегчает изучение наборов данных, направленных на выявление уникальных признаков и путей-кандидатов для дальнейших механистических исследований, которые в конечном итоге могут быть контекстуализированы на уровне популяции. Экологи могут извлечь выгоду из этого подхода, имея возможность анализировать умеренные и большие наборы данных, которые теоретически увеличивают статистическую мощность, необходимую для поиска сигнатур отбора в популяции, рассматривая родственные отношения и модели диверсификации. Наконец, эпидемиологи могут использовать уникальную практическую информацию для диагностики и эпиднадзора, определяя генотипические единицы, представляющие интерес, и прогнозируя черты, связанные с общественным здравоохранением, такие как УПП. В более широком смысле, это аналитическое руководство обеспечивает обобщающую основу для использования ProkEvo для выполнения популяционного геномного анализа, который может быть использован для вывода эволюционных и экологических моделей для патогенных и непатогенных видов, поскольку этот подход обобщается для других видов бактерий.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Авторы заявили, что конкурирующих интересов не существует.

Acknowledgments

Эта работа была поддержана финансированием, предоставленным Отделом сельскохозяйственных исследований UNL-IANR и Национальным институтом исследований и образования в области устойчивости к противомикробным препаратам, а также Центром продовольствия для здоровья штата Небраска при Департаменте пищевой науки и техники (UNL). Это исследование может быть завершено только с использованием Голландского вычислительного центра (HCC) в UNL, который получает поддержку от Исследовательской инициативы Небраски. Мы также благодарны за доступ через HCC к ресурсам, предоставляемым Open Science Grid (OSG), которая поддерживается Национальным научным фондом и Управлением науки Министерства энергетики США. В этой работе использовалось программное обеспечение Для управления рабочими процессами Pegasus, которое финансируется Национальным научным фондом (грант No 1664162).

Materials

Name Company Catalog Number Comments
amr_data_filtered https://figshare.com/account/projects/116625/articles/14829225?file=28758762
amr_data_raw https://figshare.com/account/projects/116625/articles/14829225?file=28547994
baps_output https://figshare.com/account/projects/116625/articles/14829225?file=28548003
Core-genome phylogeny https://figshare.com/account/projects/116625/articles/14829225?file=28548006
genome_sra https://figshare.com/account/projects/116625/articles/14829225?file=28639209
Linux, Mac, or PC any high-performance platform
mlst_output https://figshare.com/account/projects/116625/articles/14829225?file=28547997
sistr_output https://figshare.com/account/projects/116625/articles/14829225?file=28548000
figshare credentials are required for login and have access to the files

DOWNLOAD MATERIALS LIST

References

  1. Grad, Y. H., et al. Genomic epidemiology of the Escherichia coli O104:H4 outbreaks in Europe, 2011. Proceedings of the National Academy of Sciences of the United States of America. 109 (8), 3065-3070 (2012).
  2. Worby, C. J., Chang, H. -H., Hanage, W. P., Lipsitch, M. The distribution of pairwise genetic distances: a tool for investigating disease transmission. Genetics. 198 (4), 1395-1404 (2014).
  3. Leekitcharoenphon, P., et al. Global genomic epidemiology of Salmonella enterica serovar Typhimurium DT104. Applied and Environmental Microbiology. 82 (8), 2516-2526 (2016).
  4. Alba, P., et al. Molecular epidemiology of Salmonella Infantis in Europe: insights into the success of the bacterial host and its parasitic pESI-like megaplasmid. Microbial Genomics. 6 (5), (2020).
  5. Zhou, Z., Alikhan, N. -F., Mohamed, K., Fan, Y. the Agama Study Group, Achtman, M. The EnteroBase user's guide, with case studies on Salmonella transmissions, Yersinia pestis phylogeny, and Escherichia core genomic diversity. Genome Research. 30 (1), 138-152 (2020).
  6. Azarian, T., et al. Global emergence and population dynamics of divergent serotype 3 CC180 pneumococci. PLOS Pathogens. 14 (11), 1007438 (2018).
  7. Saltykova, A., et al. Comparison of SNP-based subtyping workflows for bacterial isolates using WGS data, applied to Salmonella enterica serotype Typhimurium and serotype 1,4,[5],12:i. PLOS ONE. 13 (2), 0192504 (2018).
  8. Achtman, M., et al. Multi-locus sequence typing as a replacement for serotyping in Salmonella enterica. PLoS Pathogens. 8 (6), 1002776 (2012).
  9. Maiden, M. C. J., et al. Multi-locus sequence typing: A portable approach to the identification of clones within populations of pathogenic microorganisms. Proceedings of the National Academy of Sciences of the United States of America. 95 (6), 3140-3145 (1998).
  10. Alikhan, N. -F., Zhou, Z., Sergeant, M. J., Achtman, M. A genomic overview of the population structure of Salmonella. PLOS Genetics. 14 (4), 1007261 (2018).
  11. Gupta, A., Jordan, I. K., Rishishwar, L. stringMLST: a fast k-mer based tool for multi-locus sequence typing. Bioinformatics. 33 (1), 119-121 (2017).
  12. Jolley, K. A., Maiden, M. C. BIGSdb: Scalable analysis of bacterial genome variation at the population level. BMC Bioinformatics. 11 (1), 595 (2010).
  13. Maiden, M. C. J., et al. MLST revisited: the gene-by-gene approach to bacterial genomics. Nature Reviews Microbiology. 11 (10), 728-736 (2013).
  14. Maiden, M. C. J. Multilocus sequence typing of bacteria. Annual Review of Microbiology. 60 (1), 561-588 (2006).
  15. Shapiro, B. J., Polz, M. F. Ordering microbial diversity into ecologically and genetically cohesive units. Trends in Microbiology. 22 (5), 235-247 (2014).
  16. Cordero, O. X., Polz, M. F. Explaining microbial genomic diversity in light of evolutionary ecology. Nature Reviews Microbiology. 12 (4), 263-273 (2014).
  17. Achtman, M., Wagner, M. Microbial diversity and the genetic nature of microbial species. Nature Reviews Microbiology. 6 (6), 431-440 (2008).
  18. Abudahab, K., et al. PANINI: Pangenome neighbour identification for bacterial populations. Microbial Genomics. 5 (4), (2019).
  19. Laing, C. R., Whiteside, M. D., Gannon, V. P. J. Pan-genome analyses of the species Salmonella enterica, and identification of genomic markers predictive for species, subspecies, and serovar. Frontiers in Microbiology. 8, 1345 (2017).
  20. Pavlovikj, N., Gomes-Neto, J. C., Deogun, J. S., Benson, A. K. ProkEvo: an automated, reproducible, and scalable framework for high-throughput bacterial population genomics analyses. PeerJ. 9, 11376 (2021).
  21. McNally, A., et al. Combined analysis of variation in core, accessory and regulatory genome regions provides a super-resolution view into the evolution of bacterial populations. PLOS Genetics. 12 (9), 1006280 (2016).
  22. Langridge, G. C., et al. Patterns of genome evolution that have accompanied host adaptation in Salmonella. Proceedings of the National Academy of Sciences of the United States of America. 112 (3), 863-868 (2015).
  23. Price, M. N., Dehal, P. S., Arkin, A. P. FastTree 2 - Approximately maximum-likelihood trees for large alignments. PLoS ONE. 5 (3), 9490 (2010).
  24. Page, A. J., et al. Roary: rapid large-scale prokaryote pan genome analysis. Bioinformatics. 31 (22), 3691-3693 (2015).
  25. Yoshida, C. E., et al. The Salmonella In silico typing resource (SISTR): An open web-accessible tool for rapidly typing and subtyping draft Salmonella genome assemblies. PLOS ONE. 11 (1), 0147101 (2016).
  26. Cheng, L., Connor, T. R., Siren, J., Aanensen, D. M., Corander, J. Hierarchical and spatially explicit clustering of DNA sequences with BAPS software. Molecular Biology and Evolution. 30 (5), 1224-1228 (2013).
  27. Tonkin-Hill, G., Lees, J. A., Bentley, S. D., Frost, S. D. W., Corander, J. Fast hierarchical Bayesian analysis of population structure. Nucleic Acids Research. 47 (11), 5539-5549 (2019).
  28. Seemann, T. MLST. GitHub. , Available from: https://github.com/tseemann/mist (2020).
  29. Seemann, T. ABRicate. GitHub. , Available from: https://github.com/tseemann/abricate (2020).
  30. R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. , Vienna, Austria. at. Available from: https://cran.r-project.org (2021).
  31. Studio Team. RStudio: Integrated Development for R. Studio, PBC. , Boston, MA. Available from: http://www.rstudio.com (2020).
  32. Wickham, H., et al. Welcome to the Tidyverse. Journal of Open Source Software. 4 (43), 1686 (2019).
  33. rOpenSci: The skimr package. GitHub. , Berkeley, CA. Available from: https://github.com/ropensci/skimr/ (2021).
  34. Oksanen, J., et al. vegan: Community ecology package. R package version 2.5-5. , Available from: https://CRAN.R-project.org/package=vegan (2019).
  35. Tierney, N. J., Cook, D. H. Expanding tidy data principles to facilitate missing data exploration, visualization and assessment of imputations. arXiv. , Available from: http://arxiv.org/abs/1809.02264 (2020).
  36. Yu, G. Using ggtree to visualize data on tree-like structures. Current Protocols in Bioinformatics. 69 (1), (2020).
  37. Kassambara, A. ggpubr: "ggplot2" Based Publication Ready Plots. R package version 0.4.0. , Available from: https://CRAN.R-project.org/package=ggpubr (2020).
  38. Slowikowski, K. ggrepel: Automatically Position Non-Overlapping Text Labels with "ggplot2”. R package version 0.9.1. , Available from: https://CRAN.R-project.org/package=ggrepel (2021).
  39. Wickham, H. Reshaping Data with the reshape Package. Journal of Statistical Software. 21 (12), (2007).
  40. Neuwirth, E. RColorBrewer: ColorBrewer Palettes. R package version 1.1-2. , Available from: https://CRAN.R-project.org/package=RColorBrewer (2014).
  41. Hadfield, J., Croucher, N. J., Goater, R. J., Abudahab, K., Aanensen, D. M., Harris, S. R. Phandango: an interactive viewer for bacterial population genomics. Bioinformatics. 34 (2), 292-293 (2018).
  42. Perron, G. G., et al. Functional characterization of bacteria isolated from ancient arctic soil exposes diverse resistance mechanisms to modern antibiotics. PLOS ONE. 10 (3), 0069533 (2015).
  43. Mitchell, P. K., et al. Population genomics of pneumococcal carriage in Massachusetts children following introduction of PCV-13. Microbial Genomics. 5 (2), (2019).
  44. Klemm, E. J., et al. Emergence of host-adapted Salmonella Enteritidis through rapid evolution in an immunocompromised host. Nature Microbiology. 1 (3), 15023 (2016).
  45. Břinda, K., et al. Rapid inference of antibiotic resistance and susceptibility by genomic neighbour typing. Nature Microbiology. 5 (3), 455-464 (2020).
  46. MacFadden, D. R., et al. Using genetic distance from archived samples for the prediction of antibiotic resistance in Escherichia coli. Antimicrobial Agents and Chemotherapy. 64 (5), (2020).
  47. Mageiros, L., et al. Genome evolution and the emergence of pathogenicity in avian Escherichia coli. Nature Communications. 12 (1), 765 (2021).
  48. Yahara, K., et al. Genome-wide association of functional traits linked with Campylobacter jejuni survival from farm to fork. Environmental Microbiology. 19 (1), 361-380 (2017).
  49. Walter, J., Maldonado-Gómez, M. X., Martínez, I. To engraft or not to engraft: an ecological framework for gut microbiome modulation with live microbes. Current Opinion in Biotechnology. 49, 129-139 (2018).
  50. Maldonado-Gómez, M. X., et al. Stable engraftment of Bifidobacterium longum AH1206 in the human gut depends on individualized features of the resident microbiome. Cell Host & Microbe. 20 (4), 515-526 (2016).
  51. Zhao, S., et al. Adaptive evolution within gut microbiomes of healthy people. Cell Host & Microbe. 25 (5), 656-667 (2019).
  52. Treangen, T. J., Ondov, B. D., Koren, S., Phillippy, A. M. The Harvest suite for rapid core-genome alignment and visualization of thousands of intraspecific microbial genomes. Genome Biology. 15 (11), 524 (2014).
  53. Letunic, I., Bork, P. Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research. 49, 293-296 (2021).
  54. Croucher, N. J., et al. Rapid phylogenetic analysis of large samples of recombinant bacterial whole genome sequences using Gubbins. Nucleic Acids Research. 43 (3), 15 (2015).
  55. Fenske, G. J., Thachil, A., McDonough, P. L., Glaser, A., Scaria, J. Geography shapes the population genomics of Salmonella enterica Dublin. Genome Biology and Evolution. 11 (8), 2220-2231 (2019).
  56. Lees, J. A., et al. Fast and flexible bacterial genomic epidemiology with PopPUNK. Genome Research. 29 (2), 304-316 (2019).
  57. Cohan, F. M. Towards a conceptual and operational union of bacterial systematics, ecology, and evolution. Philosophical Transactions of the Royal Society B: Biological Sciences. 361 (1475), 1985-1996 (2006).
  58. Cohan, F. M., Koeppel, A. F. The origins of ecological diversity in prokaryotes. Current Biology. 18 (21), 1024-1034 (2008).
  59. Cohan, F. M. Transmission in the origins of bacterial diversity, from ecotypes to phyla. Microbial Transmission. 5 (5), 311-343 (2019).
  60. Davis, J. J., et al. The PATRIC bioinformatics resource center: expanding data and analysis capabilities. Nucleic Acids Research. 48, 606-612 (2019).
  61. Feng, Y., Zou, S., Chen, H., Yu, Y., Ruan, Z. BacWGSTdb 2.0: a one-stop repository for bacterial whole-genome sequence typing and source tracking. Nucleic Acids Research. 49, 644-650 (2021).

Tags

Генетика выпуск 178
Эвристическая добыча иерархических генотипов и локусов генома аксессуаров в бактериальных популяциях
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Pavlovikj, N., Gomes-Neto, J. C.,More

Pavlovikj, N., Gomes-Neto, J. C., Benson, A. K. Heuristic Mining of Hierarchical Genotypes and Accessory Genome Loci in Bacterial Populations. J. Vis. Exp. (178), e63115, doi:10.3791/63115 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter