Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Вспомогательный выбор биомаркеров по размеру эффекта линейного дискриминантного анализа (LEfSe) в данных микробиома

Published: May 16, 2022 doi: 10.3791/61715
* These authors contributed equally

Summary

LEfSe (LDA Effect Size) - это инструмент для многомерного анализа биомаркеров для выявления геномных особенностей (таких как гены, пути и таксономии), которые значительно характеризуют две или более группы в данных микробиома.

Abstract

Растет внимание к закрытым биологическим геномам в окружающей среде и в здравоохранении. Для изучения и выявления межгрупповых различий между различными выборками или средами крайне важно обнаружить биомаркеры со статистическими различиями между группами. Применение линейного дискриминантного анализа Effect Size (LEfSe) может помочь найти хорошие биомаркеры. На основе исходных данных генома осуществляется контроль качества и количественная оценка различных последовательностей на основе таксонов или генов. Во-первых, ранж-тест Крускала-Уоллиса использовался для различения конкретных различий между статистическими и биологическими группами. Затем между двумя группами, полученными на предыдущем шаге, был проведен ранж-тест Уилкоксона, чтобы оценить, были ли различия последовательными. Наконец, был проведен линейный дискриминантный анализ (LDA) для оценки влияния биомаркеров на значительно отличающиеся группы на основе показателей LDA. Подводя итог, LEfSe обеспечил удобство для идентификации геномных биомаркеров, характеризующих статистические различия между биологическими группами.

Introduction

Биомаркеры — это биологические характеристики, которые могут быть измерены и могут указывать на некоторые явления, такие как инфекция, болезнь или окружающая среда. Среди них функциональные биомаркеры могут быть специфическими биологическими функциями отдельных видов или общими для некоторых видов, такими как ген, белок, метаболит и пути. Кроме того, таксономические биомаркеры указывают на необычный вид, группу организмов (царство, тип, класс, отряд, семейство, род, вид), вариацию последовательности Ампликона (ASV)1 или операционную таксономическую единицу (OTU)2. Для того чтобы быстрее и точнее найти биомаркеры, необходим инструмент для анализа биологических данных. Различия между классами могут быть объяснены LEfSe в сочетании со стандартными тестами на статистическую значимость и дополнительными тестами, кодирующими биологическую согласованность и релевантность эффекта3. LEfSe доступен в виде галактического модуля, формулы conda, образа docker и включен в bioBakery (VM и cloud)4. Как правило, при анализе микробного разнообразия часто используется непараметрический тест для неопределенного распределения сообщества образцов. Тест на ранговую сумму является непараметрическим методом тестирования, который использует ранг образцов для замены значения образцов. В зависимости от разницы выборочных групп его можно разделить на две выборки с тестом на сумму ранга Уилкоксона и на несколько образцов с тестом Крускала-Уоллиса 5,6. Примечательно, что при наличии существенных различий между несколькими группами выборок следует проводить ранж-суммовый тест попарного сравнения нескольких образцов. LDA (что расшифровывается как линейный дискриминантный анализ), изобретенный Рональдом Фишером в 1936 году, является типом контролируемого обучения, также известным как линейный дискриминант Фишера7. Это классический и популярный алгоритм в современной области интеллектуального анализа данных машинного обучения.

Здесь анализ LEfSe был оптимизирован серверами Conda и Galaxy. Три группы последовательностей генов 16S рРНК анализируются, чтобы продемонстрировать значительные различия между различными группами с показателями LDA микробных сообществ и результатами визуализации.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

ПРИМЕЧАНИЕ: Протокол был получен и модифицирован из исследований Segata et al.3. Метод приведен в https://bitbucket.org/biobakery/biobakery/wiki/lefse.

1. Подготовка входного файла для анализа

  1. Подготовьте входной файл (таблица 1) LEfSe, который может быть легко сгенерирован многими рабочими процессами8 или предыдущими протоколами9 с исходными файлами (файл образца и соответствующий файл аннотации вида).

2. Собственный анализ LEfSe (ограничен сервером Linux)

  1. Установка LEfSe
    ПРИМЕЧАНИЕ: Трубопровод LEfSe рекомендуется устанавливать вместе с Conda10.
    1. Выполните следующие команды, чтобы исключить возможность конфликта зависимостей. Создайте среду conda для LEfSe (этот шаг рекомендуется, но не является обязательным.). -n обозначает имя среды.
      $ conda create -n LEfSe-env
    2. Чтобы активировать созданную среду LEfSe, выполните:
      $ источник активировать LEfSe-env
    3. Чтобы установить LEfSe с каналом bioBakery, где -c означает имя канала, выполните:
      $ conda install -c био пекарня lefse
  2. Форматирование данных для LEfSe
    1. Выполните следующую команду, чтобы отформатировать исходный файл во внутренний формат LEfSe. Таблица.txt является входным файлом, а Table-reformat.in — выходным файлом. -c используется для установки функции, которая используется в качестве класса (по умолчанию 1), а -o используется для установки значения нормализации (по умолчанию -1.0 означает отсутствие нормализации).
      $ format_input.py Таблица.txt Table-reformat.in -c 1 -o 1000000
  3. Расчет размера эффекта линейного дискриминантного анализа (LDA)
    1. Выполните следующую команду. Целью этого шага является выполнение LDA предыдущего результата и создание результирующего файла для визуализации. Table-reformat.in создается с помощью предыдущего шага и используется в качестве входного файла на этом шаге. Table-reformat.res является результирующим файлом.
      $ run_lefse.py Table-reformat.in Таблица-переформатирование.res
  4. Визуализация по участкам
    1. Построение результатов LEfSe. Для отображения размера эффекта биомаркеров в pdf-файле,. Table-reformat.res создается с помощью предыдущего шага, а LDA.pdf является файлом печати. –format используется для задания формата выходного файла.
      $ plot_res.py Table-reformat.res LDA.pdf --format pdf
    2. Построение кладограммы. Нарисовать видовое дерево и отобразить биомаркеры в кладограмме. cladogram.pdf является выходным файлом.
      $ plot_cladogram.py Table-reformat.res кладограмма.pdf --format pdf
    3. Сюжет один объект (опционально) Для построения графиков различий одного биомаркера между разными группами. -f используется для задания особенностей сюжета. Если он был установлен, необходимо дать –feature_name.
      $ plot_features.py -f one --feature_name "k__Bacteria.p__Firmicutes.c__Bacilli.o__Bacillales" --format pdf Table-reformat.in Table-reformat.res Bacillales.pdf
    4. График дифференциальных признаков (опционально), чтобы нарисовать все функции, но слишком много нужно сделать с осторожностью. --archive используется для выбора, следует ли сжимать результаты. ./ означает путь результатов.
      $ plot_features.py -f diff --архив нет --формат pdf Table-reformat.in Table-reformat.res ./

3. LEfSe онлайн анализ (галактика)

  1. Отправляйтесь на сервер галактики Хаттенхауэр11:http://huttenhower.sph.harvard.edu/galaxy.
  2. Загрузите файлы. Нажмите кнопку со стрелкой вверх на левой панели и загрузите файл. Нажмите Выбрать локальный файл , чтобы выбрать входной файл и выбрать табличный формат, а затем нажмите кнопку Пуск .
    ПРИМЕЧАНИЕ: Ссылаясь на веб-страницу (https://bitbucket.org/biobakery/biobakery/wiki/lefse), используйте скрипт (taxonomy_summary. R) для генерации входного файла LEfSe, и требуется формат (каждый столбец с именем группы, каждая строка с разным уровнем аннотации, разделенный «|») как показано в таблице 1. Схематический обзор процесса загрузки показан на рисунке 1.
  3. Форматирование данных для LEfSe. Нажмите на | LEfSe Ссылка Формат данных для LEfSe на левой панели, выберите конкретные строки для класса в файле и нажмите кнопку Выполнить . Схематический обзор операционного процесса и используемых параметров показан на рисунке 2.
  4. Рассчитайте размер эффекта LDA. Нажмите на | LEfSe Ссылка LDA Effect Size (LEfSe) на левой панели и выберите значения параметров в соответствии с требованиями анализа. Нажмите кнопку Выполнить. Схематический обзор операционного процесса и используемых параметров показан на рисунке 3.
  5. Построение результатов LEfSe. Нажмите на | LEfSe Нарисуйте ссылку Результаты LEfSe на левой панели и нажмите кнопку Выполнить . Схематический обзор операционного процесса и используемых параметров показан на рисунке 4.
  6. Построение кладограммы. Нажмите на Plot Cladogram на левой панели и нажмите кнопку Выполнить после выбора значений параметров. Схематический обзор операционного процесса и используемых параметров показан на рисунке 5.
  7. Нарисуйте один объект, щелкнув Plot One Feature на левой панели и нажав кнопку Выполнить после выбора значений параметров. Схематический обзор операционного процесса и используемых параметров показан на рисунке 6.
  8. Построение дифференциальных объектов путем нажатия кнопки «Построение дифференциальных объектов» на левой панели и нажатия кнопки «Выполнить» после выбора значений параметров. Схематический обзор операционного процесса и используемых параметров показан на рисунке 7.
    ПРИМЕЧАНИЕ: Эти сгенерированные рисунки могут быть визуализированы и загружены для результирующего вывода в правой панели.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Оценка LDA микробных сообществ со значительными различиями в каждой группе путем анализа последовательностей генов 16S рРНК трех образцов показана на рисунке 8. Цвет гистограммы представляет различные группы, в то время как длина представляет собой показатель LDA, который является влиянием вида со значительными различиями между различными группами. Гистограмма показывает виды со значительными различиями, показатель LDA которых больше заданного значения. По умолчанию задано значение 2,0, поэтому на графике отображаются только абсолютные значения балла LDA (abscissa) больше 2,0.

Биомаркеры со значительным различием и видовое дерево между различными уровнями классификации показаны на рисунке 9. Круги, излучающие изнутри наружу, представляют классификационные уровни от типа к роду (самый внутренний желтый круг — царство). Диаметр каждого малого круга на различных уровнях классификации представляет собой размер относительной численности. Виды без существенных различий равномерно окрашены в желтый цвет, а значительно отличающиеся видовые биомаркеры окрашены соответствующими группами. Классы A, B и C являются названиями групп собранных микробных образцов. Красные узлы представляют собой микробные группы, которые играют важную роль в красной группе (А); зеленые узлы представляют собой микробные группы, которые играют важную роль в зеленой группе (B); а синие узлы представляют собой микробные группы, которые играют важную роль в синей группе (C). Соответствующее видовое название биомаркеров, не показанных на участке, показано с правой стороны, а буквенные цифры соответствуют названиям на графике (по умолчанию в эстетических целях показаны только дифференциальные виды из типа в семейство).

Обилие одного биомаркера, имеющего различия между различными группами по результатам LEfSe, показано на рисунке 10. В графике относительного изобилия сплошная линия представляет среднюю относительную численность, пунктирная линия представляет среднюю относительную численность, а каждый столбец представляет относительное изобилие каждой выборки в разных группах.

Таблица 1: Пример файла для анализа LEfSe онлайн. Пожалуйста, нажмите здесь, чтобы загрузить эту таблицу.

Figure 1
Рисунок 1: Схематический обзор процесса загрузки. Нажмите на красные цифры в последовательном порядке на рисунке. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 2
Рисунок 2: Схематический обзор операционного процесса изменения формата данных. Нажмите на красные цифры в последовательном порядке на рисунке. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 3
Рисунок 3: Схематический обзор операционного процесса расчета размера эффекта LDA. Нажмите на красные цифры в последовательном порядке на рисунке. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 4
Рисунок 4: Схематический обзор операционного процесса построения результатов LEfSe. Нажмите на красные цифры в последовательном порядке на рисунке. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 5
Рисунок 5: Схематический обзор операционного процесса построения кладограммы. Нажмите на красные цифры в последовательном порядке на рисунке. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 6
Рисунок 6: Схематический обзор операционного процесса построения одного объекта. Нажмите на красные цифры в последовательном порядке на рисунке. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 7
Рисунок 7: Схематический обзор операционного процесса построения дифференциальных признаков. Нажмите на красные цифры в последовательном порядке на рисунке. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 8
Рисунок 8: Гистограмма распределения значений LDA. Оценки LDA микробных сообществ со значительными различиями в каждой группе были проанализированы по размеру эффекта LDA в соответствии с их влияниями и корреляциями. Пожалуйста, нажмите здесь, чтобы загрузить этот рисунок.

Figure 9
Рисунок 9: Кладограмма. Типичный график кладограммы получен протоколом, что позволяет представить разницу между различными уровнями классификации трех групп. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Figure 10
Рисунок 10: Один векторный график. Показан барсюжет изобилия одного биомаркера, который имеет различия между различными группами в соответствии с results.is LEfSe. Пожалуйста, нажмите здесь, чтобы просмотреть увеличенную версию этого рисунка.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Здесь описан протокол идентификации и характеристики биомаркеров в пределах разных групп. Этот протокол может быть легко адаптирован для других типов образцов, таких как OTU микроорганизмов. Статистический метод LEfSe позволяет найти характерные микроорганизмы в каждой группе (по умолчанию LDA >2), то есть микроорганизмы, которые более распространены в этой группе относительно остальных12. LEfSe доступен как в нативной, так и в веб-версиях Linux, где пользователи также могут выполнять анализ LEfSe на веб-страницах. LEfSe основан на алгоритме LDA и нуждается в уровне вида, чтобы нарисовать дерево видов. При применении инструмента можно сравнить относительное изобилие между группами. Все дифференциальные биомаркеры могут быть нанесены на один график. Кроме того, один биомаркер или все биомаркеры могут быть нанесены партиями.

Независимо от того, выполняется ли LEfSe через родной сервер или онлайн-сайт, есть много настраиваемых параметров для рисования необходимых изображений. Из-за сложной структуры входных файлов и необходимости преобразования их в предпочтительные форматы данных для дальнейшего анализа LEfSe также были разработаны некоторые универсальные сервисы. Поэтому оптимизация более простых операций может быть сложной задачей. С другой стороны, есть несколько ограничений при анализе сложных данных с помощью LEfSe. LDA проецирует компонент, который на одно измерение меньше категории, и если требуется больше функций, вводятся другие методы. Варианты LDA могут решить некоторые трудности. Например, Kernel LDA является решением, если исходные данные не могут быть хорошо разделены после проекции. Поскольку объем вычислений LDA связан с размерностью данных, 2DLDA может значительно уменьшить объем вычислений LDA. Как LDA, так и PCA являются широко используемыми методами уменьшения размерности. Уменьшение размерности PCA (Principal Component Analysisis) напрямую связано с размерностью данных, а проекционная система координат ортогональна. Однако LDA фокусируется на способности классификации в соответствии с маркировкой категорий, поэтому проектируемая система координат, как правило, не ортогональна.

LEfSe оказывает помощь в подборе биомаркеров. Обладая многими преимуществами (например, настраиваемыми параметрами, подробными результатами различных деталей, применением между двумя или более группами), он широко используется13. С ростом спроса на анализ многомерных данных применение этого метода будет становиться все более и более обширным для изучения биомаркеров признаков (организмов, клад, операционных таксономических единиц, генов или функций), влияющих на здоровье и болезни человека.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Авторам нечего раскрывать.

Acknowledgments

Эта работа была поддержана грантом Фондов фундаментальных исследований для Центральных научно-исследовательских институтов общественного благосостояния (TKS170205) и Фонда развития науки и техники, а также Тяньцзиньского научно-исследовательского института инженерии водного транспорта (TIWTE), M.O.T. (KJFZJJ170201).

Materials

Name Company Catalog Number Comments
No materials used

DOWNLOAD MATERIALS LIST

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. McIver, M., Sayoldin, B., Shafquat, A. Biobakery / lefse [tool]. , Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019).
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Tags

Генетика Выпуск 183 LEfSe Биомаркер Геном Биоразнообразие Статистическая разница Биологическая корреляция
Вспомогательный выбор биомаркеров по размеру эффекта линейного дискриминантного анализа (LEfSe) в данных микробиома
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Chang, F., He, S., Dang, C. Assisted More

Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter