Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Seleção Assistida de Biomarcadores por Tamanho de Efeito de Análise Discriminante Linear (LEfSe) em dados de microbioma

Published: May 16, 2022 doi: 10.3791/61715
* These authors contributed equally

Summary

LEfSe (LDA Effect Size) é uma ferramenta para mineração biomarcadora de alta dimensão para identificar características genômicas (como genes, caminhos e taxonomias) que caracterizam significativamente dois ou mais grupos em dados de microbioma.

Abstract

Há uma atenção crescente para genomas biológicos fechados no meio ambiente e na saúde. Para explorar e revelar as diferenças entre diferentes amostras ou ambientes, é crucial descobrir biomarcadores com diferenças estatísticas entre os grupos. A aplicação do Linear discriminant analysis Effect Size (LEfSe) pode ajudar a encontrar bons biomarcadores. Com base nos dados originais do genoma, o controle de qualidade e a quantificação de diferentes sequências baseadas em taxas ou genes são realizados. Primeiro, o teste de classificação Kruskal-Wallis foi utilizado para distinguir entre diferenças específicas entre grupos estatísticos e biológicos. Em seguida, foi realizado o teste de classificação de Wilcoxon entre os dois grupos obtidos na etapa anterior para avaliar se as diferenças eram consistentes. Finalmente, foi realizada uma análise discriminante linear (LDA) para avaliar a influência dos biomarcadores em grupos significativamente diferentes com base nos escores de LDA. Resumindo, a LEfSe proporcionou a conveniência de identificar biomarcadores genômicos que caracterizam diferenças estatísticas entre grupos biológicos.

Introduction

Biomarcadores são características biológicas que podem ser medidas e podem indicar alguns fenômenos como infecção, doença ou ambiente. Entre eles, biomarcadores funcionais podem ser funções biológicas específicas de espécies únicas ou comuns a algumas espécies, como gene, proteína, metabólito e caminhos. Além disso, biomarcadores taxonômicos indicam uma espécie incomum, um grupo de organismos (reino, filo, classe, ordem, família, gênero, espécie), a Sequência Despíope Varient (ASV)1, ou a Unidade Taxonômica Operacional (OTU)2. Para encontrar biomarcadores de forma mais rápida e precisa, é necessária uma ferramenta para analisar os dados biológicos. As diferenças entre as classes podem ser explicadas pelo LEfSe, juntamente com testes padrão de significância estatística e testes adicionais codificando a consistência biológica e a relevância do efeito3. LEfSe está disponível como um módulo de galáxia, uma fórmula conda, uma imagem docker, e incluído no bioBakery (VM e cloud)4. Geralmente, a análise da diversidade microbiana muitas vezes utiliza um teste não paramétrico para a distribuição incerta de uma comunidade amostral. O teste de soma de classificação é um método de teste não paramétrico, que utiliza a classificação de amostras para substituir o valor das amostras. De acordo com a diferença de grupos amostrais, ele pode ser dividido em duas amostras com o teste de soma de classificação wilcoxon e em várias amostras com o teste de Kruskal-Wallis 5,6. Notavelmente, quando há diferenças significativas entre vários grupos de amostras, deve ser realizado um teste de classificação de comparação em pares de múltiplas amostras. LDA (que significa Análise Discriminante Linear) inventada por Ronald Fisher em 1936, é um tipo de aprendizado supervisionado, também conhecido como Fisher's Linear Discriminant7. É um algoritmo clássico e popular no campo atual da mineração de dados de aprendizado de máquina.

Aqui, o ensaio LEfSe foi otimizado pelos servidores Conda e Galaxy. Três grupos de sequências genéticas de rRNA 16S são analisados para demonstrar as diferenças significativas entre diferentes grupos com escores de LDA de comunidades microbianas e resultados de visualização.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

NOTA: O protocolo foi originado e modificado a partir da pesquisa de Segata et al.3. O método é fornecido em https://bitbucket.org/biobakery/biobakery/wiki/lefse.

1. Preparação do arquivo de entrada para análise

  1. Prepare o arquivo de entrada (Tabela 1) do LEfSe, que poderia ser facilmente gerado por muitos fluxos de trabalho8 ou protocolos anteriores9 com os arquivos originais (arquivo de amostra e arquivo de anotação de espécies correspondentes).

2. Análise nativa LEfSe (limitada ao servidor Linux)

  1. Instalação LEfSe
    NOTA: Recomenda-se que o gasoduto LEfSe seja instalado com a Conda10.
    1. Execute os seguintes comandos para excluir a possibilidade de conflitos de dependências. Crie um ambiente conda para LEfSe (Esta etapa é recomendada, mas não necessária.). -n significa o nome do meio ambiente.
      $ conda criar -n LEfSe-env
    2. Para ativar o ambiente LEfSe criado, execute:
      Fonte de $ ativar LEfSe-env
    3. Para instalar o LEfSe com o canal bioBakery onde -c significa nome do canal, execute:
      $ conda instalar -c biobakery lefse
  2. Formatar dados para LEfSe
    1. Execute o seguinte comando para formatar o arquivo original para o formato interno do LEfSe. Tabela.txt é o arquivo de entrada e Table-reformat.in é o arquivo de saída. -c é usado para definir o recurso, que é usado como classe (padrão 1) e -o é usado para definir o valor de normalização (padrão -1.0 sem normalização).
      $ format_input.py Tabela.txt Table-reformat.in -c 1 -o 1000000
  3. Cálculo do tamanho do efeito de análise discriminante linear (LDA)
    1. Execute o seguinte comando. O objetivo desta etapa é realizar o LDA do resultado anterior e gerar o arquivo de resultado para a visualização. Table-reformat.in é gerado usando a etapa anterior e é usado como o arquivo de entrada nesta etapa. Table-reformat.res é o arquivo de resultado.
      $ run_lefse.py Table-reformat.in Table-reformat.res
  4. Visualização por parcelas
    1. Plote os resultados do LEfSe. Para traçar o tamanho do efeito dos biomarcadores em um arquivo pdf,. Table-reformat.res é gerado usando a etapa anterior e o LDA.pdf é o arquivo de plot. –o formato é usado para definir o formato do arquivo de saída.
      $ plot_res.py Table-reformat.res LDA.pdf --formato pdf
    2. Trace o cladograma. Para desenhar a árvore da espécie e exibir os biomarcadores em um cladograma. cladograma.pdf é o arquivo de saída.
      $ plot_cladogram.py Table-reformat.res cladogram.pdf --formato pdf
    3. Recurso de plot one (opcional) Para traçar as diferenças de um único biomarcador entre diferentes grupos. -f é usado para definir as características do enredo. Se um foi definido, o feature_name deve ser dado.
      $ plot_features.py -f um --feature_name "k__Bacteria.p__Firmicutes.c__Bacilli.o__Bacillales" --formato pdf Table-reformat.in Table-reformat.res Bacillales.pdf
    4. Plote os recursos diferenciais (opcional) para desenhar todos os recursos, mas há muito a ser feito com cautela. --o arquivamento é usado para escolher se deve comprimir os resultados. ./ significa o caminho dos resultados.
      $ plot_features.py -f diff --archive none --format pdf Table-reformat.in Table-reformat.res ./

3. Análise on-line LEfSe (galáxia)

  1. Vá para o huttenhower galaxy server11: http://huttenhower.sph.harvard.edu/galaxy.
  2. Carregue os arquivos. Pressione o botão de seta para cima no painel esquerdo e carregue o arquivo. Clique em Escolher arquivo local para selecionar o arquivo de entrada e selecionar o tabular de formato e, em seguida, clique no botão Iniciar .
    NOTA: Consulte a página da web (https://bitbucket.org/biobakery/biobakery/wiki/lefse), use o script (taxonomy_summary. R) para gerar o arquivo de entrada do LEfSe, e o formato (cada coluna com um nome de grupo, cada linha com um nível diferente de anotação separada por "|") é necessário como mostrado na Tabela 1. Uma visão geral esquemática do processo de upload é mostrada na Figura 1.
  3. Formatar os dados para LEfSe. Clique no LEfSe | Formatar dados para o link LEfSe no painel esquerdo e selecionar as linhas específicas para classe no arquivo e clicar no botão Executar . Uma visão geral esquemática do processo operacional e dos parâmetros utilizados são mostrados na Figura 2.
  4. Calcule o tamanho do efeito LDA. Clique no | LEfSe O link LDA Effect Size (LEfSe) no painel esquerdo e seleciona valores de parâmetros de acordo com os requisitos de análise. Clique em Executar. Uma visão geral esquemática do processo operacional e dos parâmetros utilizados são mostrados na Figura 3.
  5. Plote os resultados do LEfSe. Clique no LEfSe | Plote o link LEfSe Resultados no painel esquerdo e clique no botão Executar . Uma visão geral esquemática do processo operacional e dos parâmetros utilizados são mostrados na Figura 4.
  6. Trace o cladograma. Clique em Plot Cladogram no painel esquerdo e clique no botão Executar depois de selecionar os valores do parâmetro. Uma visão geral esquemática do processo operacional e dos parâmetros utilizados são mostrados na Figura 5.
  7. Plot um recurso clicando no Recurso plot one no painel esquerdo e clicando no botão Executar depois de selecionar valores de parâmetro. Uma visão geral esquemática do processo operacional e dos parâmetros utilizados são mostrados na Figura 6.
  8. Plot diferencial recursos clicando em Plot Diferencial Features no painel esquerdo e clcking no botão Executar após selecionar valores de parâmetro. Uma visão geral esquemática do processo operacional e dos parâmetros utilizados são mostrados na Figura 7.
    NOTA: Estas figuras geradas podem ser visualizadas e baixadas contra a saída resultante no painel direito.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Os escores de LDA de comunidades microbianas com diferenças significativas em cada grupo, analisando as sequências genéticas de rRNA 16S de três amostras, são mostrados na Figura 8. A cor do histograma representa diferentes grupos, enquanto o comprimento representa a pontuação LDA, que é a influência da espécie com diferenças significativas entre diferentes grupos. O histograma mostra a espécie com diferenças significativas cujo escore de LDA é maior do que o valor predefinido. O valor predefinido padrão é de 2.0, portanto, apenas valores absolutos de pontuação LDA (abscissa) maiores que 2.0 são mostrados na parcela.

Os biomarcadores com diferença significativa e árvore de espécies entre diferentes níveis de classificação são mostrados na Figura 9. Os círculos que irradiam de dentro para fora representam os níveis de classificação do filo ao gênero (o círculo amarelo mais íntimo é o reino). O diâmetro de cada pequeno círculo nos diferentes níveis de classificação representa o tamanho da abundância relativa. As espécies sem diferença significativa são uniformemente coloridas amarelas, e os biomarcadores de espécies significativamente diferentes são coloridos com os grupos correspondentes. As classes A, B e C são os nomes do grupo de amostras microbianas coletadas. Os nódulos vermelhos representam os grupos microbianos que desempenham um papel importante no grupo vermelho (A); os nódulos verdes representam os grupos microbianos que desempenham um papel importante no grupo verde (B); e os nódulos azuis representam os grupos microbianos que desempenham um papel importante no grupo azul (C). O nome correspondente da espécie dos biomarcadores não mostrados na trama são mostrados no lado direito, e os números das letras correspondem a isso na trama (apenas mostrando espécies diferenciais do filo para a família por padrão para fins estéticos).

A abundância de um biomarcador que tem diferenças entre diferentes grupos de acordo com os resultados do LEfSe é mostrada na Figura 10. Na parcela de abundância relativa, a linha sólida representa a abundância relativa média, a linha pontilhada representa a abundância relativa mediana, e cada coluna representa a abundância relativa de cada amostra em diferentes grupos.

Tabela 1: O arquivo de exemplo para análise LEfSe on-line. Clique aqui para baixar esta tabela.

Figure 1
Figura 1: Visão geral do processo de upload. Clique nos números vermelhos em ordem sequencial na figura. Clique aqui para ver uma versão maior desta figura.

Figure 2
Figura 2: Visão geral do processo operacional para alteração do formato de dados. Clique nos números vermelhos em ordem sequencial na figura. Clique aqui para ver uma versão maior desta figura.

Figure 3
Figura 3: Visão geral esquemática do processo operacional para o cálculo do tamanho do efeito LDA. Clique nos números vermelhos em ordem sequencial na figura. Clique aqui para ver uma versão maior desta figura.

Figure 4
Figura 4: Visão geral do processo operacional para a plotagem dos resultados do LEfSe. Clique nos números vermelhos em ordem sequencial na figura. Clique aqui para ver uma versão maior desta figura.

Figure 5
Figura 5: Visão geral do processo operacional para traçar o cladograma. Clique nos números vermelhos em ordem sequencial na figura. Clique aqui para ver uma versão maior desta figura.

Figure 6
Figura 6: Visão geral do processo operacional para traçar um recurso. Clique nos números vermelhos em ordem sequencial na figura. Clique aqui para ver uma versão maior desta figura.

Figure 7
Figura 7: Visão geral do processo operacional para traçar características diferenciais. Clique nos números vermelhos em ordem sequencial na figura. Clique aqui para ver uma versão maior desta figura.

Figure 8
Figura 8: Histograma da distribuição dos valores de LDA. Os escores de LDA de comunidades microbianas com diferenças significativas em cada grupo foram analisados pelo LDA Effect Size de acordo com suas influências e correlações. Clique aqui para baixar este número.

Figure 9
Figura 9: Cladograma. O enredo típico do cladograma obtido pelo protocolo, que permite a representação da diferença entre diferentes níveis de classificação de três grupos. Clique aqui para ver uma versão maior desta figura.

Figure 10
Figura 10: Um enredo de longa-metragem. A abundância de um biomarcador que tem diferenças entre diferentes grupos de acordo com o LEfSe results.is mostrado. Clique aqui para ver uma versão maior desta figura.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Aqui, descreve-se o protocolo de identificação e caracterização de biomarcadores em diferentes grupos. Este protocolo pode ser facilmente adaptado para outros tipos de amostra, como OTUs de microrganismos. O método estatístico da LEfSe pode encontrar os microrganismos característicos em cada grupo (padrão é LDA >2), ou seja, os microrganismos que são mais abundantes neste grupo em relação aos outros12. O LEfSe está disponível em versões nativas e web Linux, onde os usuários também podem realizar análises LEfSe em páginas da Web. LEfSe é baseado no algoritmo LDA e precisa de um nível de espécie para desenhar uma árvore de espécies. Por aplicação da ferramenta, a abundância relativa entre os grupos pode ser comparada. Todos os biomarcadores diferenciais podem ser plotados em um único gráfico. Além disso, um único biomarcador ou todos os biomarcadores podem ser plotados em lotes.

Se o LEfSe é realizado através do servidor nativo ou de um site online, há muitos parâmetros insíficos para desenhar as imagens necessárias. Devido à complexa estrutura de arquivos de entrada e à necessidade de convertê-los em formatos de dados preferidos para análises adicionais do LEfSe, alguns serviços de uma parada também foram desenvolvidos. Portanto, a otimização de operações mais fáceis pode ser desafiadora. Por outro lado, existem algumas limitações ao analisar dados complexos usando LEfSe. O LDA projeta um recurso que é uma dimensão menor que a categoria, e se mais recursos forem necessários, outros métodos são introduzidos. As variantes do LDA podem resolver algumas dificuldades. Por exemplo, o Kernel LDA é uma solução se os dados originais não puderem ser separados bem após a projeção. Como a quantidade de computação da LDA está relacionada à dimensão dos dados, o 2DLDA pode reduzir consideravelmente a quantidade de computação do LDA. Tanto lDA quanto PCA são técnicas de redução de dimensionalidade comumente utilizadas. A redução da dimensionalidade do PCA (Principal Component Analysisis) está diretamente relacionada à dimensão dos dados, e o sistema de coordenadas projetado é ortogonal. No entanto, a LDA se concentra na capacidade de classificação de acordo com a rotulagem das categorias, de modo que o sistema de coordenadas projetado geralmente não é ortogonal.

A LEfSe presta assistência para a seleção de biomarcadores. Com muitas vantagens (por exemplo, parâmetros ajustáveis, os resultados detalhados de várias partes, aplicação entre dois ou mais grupos), tem sido amplamente utilizado13. Com a crescente demanda por análise de dados de alta dimensão, a aplicação desse método se tornará cada vez mais extensa para explorar os biomarcadores das características (organismos, clades, unidades taxonômicas operacionais, genes ou funções) impactando na saúde e na doença humana.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Os autores não têm nada a revelar.

Acknowledgments

Este trabalho foi apoiado por uma bolsa do Fundamental Research Funds para os Institutos Centrais de Pesquisa em Bem-Estar Público (TKS170205) e fundação para o desenvolvimento de ciência e tecnologia, e do Tianjin Research Institute for Water Transport Engineering (TIWTE), M.O.T. (KJFZJJ170201).

Materials

Name Company Catalog Number Comments
No materials used

DOWNLOAD MATERIALS LIST

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. McIver, M., Sayoldin, B., Shafquat, A. Biobakery / lefse [tool]. , Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019).
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Tags

Genética Questão 183 LEfSe Biomarcador Genoma Biodiversidade Diferença Estatística Correlação Biológica
Seleção Assistida de Biomarcadores por Tamanho de Efeito de Análise Discriminante Linear (LEfSe) em dados de microbioma
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Chang, F., He, S., Dang, C. Assisted More

Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter