Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Sélection assistée de biomarqueurs par taille d’effet d’analyse discriminante linéaire (LEfSe) dans les données du microbiome

Published: May 16, 2022 doi: 10.3791/61715
* These authors contributed equally

Summary

LEfSe (LDA Effect Size) est un outil d’exploration de biomarqueurs de haute dimension pour identifier les caractéristiques génomiques (telles que les gènes, les voies et les taxonomies) qui caractérisent de manière significative deux groupes ou plus dans les données du microbiome.

Abstract

On s’intéresse de plus en plus aux génomes biologiques fermés dans l’environnement et dans la santé. Pour explorer et révéler les différences entre les groupes entre différents échantillons ou environnements, il est crucial de découvrir des biomarqueurs avec des différences statistiques entre les groupes. L’application de l’analyse discriminante linéaire Effect Size (LEfSe) peut aider à trouver de bons biomarqueurs. Sur la base des données génomiques originales, le contrôle de la qualité et la quantification de différentes séquences basées sur des taxons ou des gènes sont effectués. Tout d’abord, le test de rang de Kruskal-Wallis a été utilisé pour distinguer les différences spécifiques entre les groupes statistiques et biologiques. Ensuite, le test de rang de Wilcoxon a été effectué entre les deux groupes obtenus à l’étape précédente pour évaluer si les différences étaient cohérentes. Enfin, une analyse discriminante linéaire (LDA) a été menée pour évaluer l’influence des biomarqueurs sur des groupes significativement différents en fonction des scores LDA. Pour résumer, LEfSe a fourni la commodité pour identifier les biomarqueurs génomiques qui caractérisent les différences statistiques entre les groupes biologiques.

Introduction

Les biomarqueurs sont des caractéristiques biologiques qui peuvent être mesurées et peuvent indiquer certains phénomènes tels que l’infection, la maladie ou l’environnement. Parmi eux, les biomarqueurs fonctionnels peuvent être des fonctions biologiques spécifiques d’une seule espèce ou communes à certaines espèces, telles que les gènes, les protéines, les métabolites et les voies. En outre, les biomarqueurs taxonomiques indiquent une espèce inhabituelle, un groupe d’organismes (règne, embranchement, classe, ordre, famille, genre, espèce), la variation de séquence amplicon (ASV)1 ou l’unité taxonomique opérationnelle (OTU)2. Afin de trouver des biomarqueurs plus rapidement et avec plus de précision, un outil d’analyse des données biologiques est nécessaire. Les différences entre les classes peuvent être expliquées par LEfSe couplé à des tests standard de signification statistique et à des tests supplémentaires codant pour la cohérence biologique et la pertinence de l’effet3. LEfSe est disponible sous la forme d’un module galaxie, d’une formule conda, d’une image docker et inclus dans bioBakery (VM et cloud)4. En général, l’analyse de la diversité microbienne utilise souvent un test non paramétrique pour la distribution incertaine d’une communauté d’échantillons. Le test de somme de rang est une méthode de test non paramétrique, qui utilise le rang des échantillons pour remplacer la valeur des échantillons. Selon la différence des groupes d’échantillons, il peut être divisé en deux échantillons avec le test de somme de rang de Wilcoxon et en plusieurs échantillons avec le test de Kruskal-Wallis 5,6. Notamment, lorsqu’il existe des différences significatives entre plusieurs groupes d’échantillons, un test de somme de rang de comparaison par paires de plusieurs échantillons devrait être effectué. LDA (qui signifie Linear Discriminant Analysis) inventé par Ronald Fisher en 1936, est un type d’apprentissage supervisé, également connu sous le nom de Fisher’s Linear Discriminant7. Il s’agit d’un algorithme classique et populaire dans le domaine actuel de l’exploration de données d’apprentissage automatique.

Ici, le test LEfSe a été optimisé par les serveurs Conda et Galaxy. Trois groupes de séquences de gènes d’ARNr 16S sont analysés pour démontrer les différences significatives entre les différents groupes ayant des scores LDA de communautés microbiennes et des résultats de visualisation.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

NOTE: Le protocole provient et a été modifié à partir des recherches de Segata et al.3. La méthode est fournie à https://bitbucket.org/biobakery/biobakery/wiki/lefse.

1. Préparation du fichier d’entrée pour analyse

  1. Préparez le fichier d’entrée (Tableau 1) de LEfSe, qui pourrait être facilement généré par de nombreux workflows8 ou protocoles précédents9 avec les fichiers d’origine (fichier d’exemple et fichier d’annotation d’espèce correspondant).

2. Analyse native LEfSe (limitée au serveur Linux)

  1. LEfSe Installation
    REMARQUE : Il est recommandé d’installer le pipeline LEfSe avec Conda10.
    1. Exécutez les commandes suivantes pour exclure la possibilité de conflit de dépendances. Créez un environnement conda pour LEfSe (cette étape est recommandée mais pas obligatoire. -n signifie le nom de l’environnement.
      $ conda create -n LEfSe-env
    2. Pour activer l’environnement LEfSe créé, exécutez :
      $ source activer LEfSe-env
    3. Pour installer LEfSe avec le canal bioBakery où -c signifie nom du canal, exécutez :
      $ conda installer -c biobakery lefse
  2. Formater les données pour LEfSe
    1. Exécutez la commande suivante pour formater le fichier d’origine au format interne de LEfSe. Table .txt est le fichier d’entrée et Table-reformat.in est le fichier de sortie. -c est utilisé pour définir la fonction, qui est utilisée comme classe (1 par défaut) et -o est utilisé pour définir la valeur de normalisation (par défaut -1.0 signifiant aucune normalisation).
      Tableau format_input.py $ .txt Table-reformat.in -c 1 -o 1000000
  3. Calcul de la taille de l’effet de l’analyse discriminante linéaire (LDA)
    1. Exécutez la commande suivante. Le but de cette étape est d’effectuer la LDA du résultat précédent et de générer le fichier de résultats pour la visualisation. Table-reformat.in est généré à l’aide de l’étape précédente et est utilisé comme fichier d’entrée dans cette étape. Table-reformat.res est le fichier de résultats.
      $ run_lefse.py Table-reformat.in Table-reformat.res
  4. Visualisation par tracés
    1. Tracez les résultats LEfSe. Pour tracer la taille de l’effet des biomarqueurs dans un fichier pdf,. Table-reformat.res est généré à l’aide de l’étape précédente et le LDA.pdf est le fichier de tracé. –format est utilisé pour définir le format du fichier de sortie.
      $ plot_res.py Table-reformat.res LDA.pdf --format pdf
    2. Tracez le cladogramme. Dessiner l’arbre de l’espèce et afficher les biomarqueurs dans un cladogramme. cladogramme.pdf est le fichier de sortie.
      $ plot_cladogram.py Cladogramme Table-reformat.res.pdf --format pdf
    3. Tracer une fonction (facultatif) Tracer les différences d’un seul biomarqueur entre différents groupes. -f est utilisé pour définir les caractéristiques de l’intrigue. Si l’un d’entre eux a été défini, le feature_name doit être donné.
      $ plot_features.py -f one --feature_name « k__Bacteria.p__Firmicutes.c__Bacilli.o__Bacillales » --format pdf Table-reformat.in Table-reformat.res Bacillales.pdf
    4. Tracez les caractéristiques différentielles (facultatif) pour dessiner toutes les caractéristiques, mais il y a trop à faire avec prudence. --archive permet de choisir de compresser ou non les résultats. ./ signifie le chemin des résultats.
      $ plot_features.py -f diff --archive none --format pdf Table-reformat.in Table-reformat.res ./

3. Analyse en ligne LEfSe (galaxie)

  1. Allez sur le serveur huttenhower galaxy11: http://huttenhower.sph.harvard.edu/galaxy.
  2. Téléchargez les fichiers. Appuyez sur le bouton fléché Haut dans le volet gauche et téléchargez le fichier. Cliquez sur Choisir un fichier local pour sélectionner le fichier d’entrée et sélectionnez le format tabulaire, puis cliquez sur le bouton Démarrer .
    REMARQUE : Reportez-vous à la page Web (https://bitbucket.org/biobakery/biobakery/wiki/lefse), utilisez le script (taxonomy_summary. R) pour générer le fichier d’entrée de LEfSe, et le format (chaque colonne avec un nom de groupe, chaque ligne avec un niveau d’annotation différent séparé par « | ») est requis comme indiqué dans le tableau 1. Une vue d’ensemble schématique du processus de téléchargement est illustrée à la figure 1.
  3. Formatez les données pour LEfSe. Cliquez sur le | LEfSe Mettre en forme le lien Données pour LEfSe dans le volet gauche, sélectionner les lignes spécifiques pour la classe dans le fichier, puis cliquer sur le bouton Exécuter . Un aperçu schématique du processus opérationnel et des paramètres utilisés est illustré à la figure 2.
  4. Calculez la taille de l’effet LDA. Cliquez sur le | LEfSe LDA Effect Size (LEfSe) dans le volet gauche et sélectionnez les valeurs des paramètres en fonction des exigences d’analyse. Cliquez sur Exécuter. Un aperçu schématique du processus opérationnel et des paramètres utilisés est illustré à la figure 3.
  5. Tracez les résultats LEfSe. Cliquez sur le | LEfSe Tracez le lien Résultats LEfSe dans le volet gauche, puis cliquez sur le bouton Exécuter . Un aperçu schématique du processus opérationnel et des paramètres utilisés est illustré à la figure 4.
  6. Tracez le cladogramme. Cliquez sur Cladogramme de tracé dans le volet gauche, puis cliquez sur le bouton Exécuter après avoir sélectionné les valeurs des paramètres. Un aperçu schématique du processus opérationnel et des paramètres utilisés est illustré à la figure 5.
  7. Tracez une fonction en cliquant sur Tracer une fonction dans le volet gauche, puis en cliquant sur le bouton Exécuter après avoir sélectionné les valeurs des paramètres. Un aperçu schématique du processus opérationnel et des paramètres utilisés est illustré à la figure 6.
  8. Tracez les fonctions différentielles en cliquant sur Tracer les fonctions différentielles dans le volet gauche et en cliquant sur le bouton Exécuter après avoir sélectionné les valeurs des paramètres. Un aperçu schématique du processus opérationnel et des paramètres utilisés est illustré à la figure 7.
    REMARQUE: Ces chiffres générés peuvent être visualisés et téléchargés par rapport à la sortie résultante dans le volet droit.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Les scores LDA des communautés microbiennes avec des différences significatives dans chaque groupe en analysant les séquences de gènes d’ARNr 16S de trois échantillons sont illustrés à la figure 8. La couleur de l’histogramme représente différents groupes, tandis que la longueur représente le score LDA, qui est l’influence de l’espèce avec des différences significatives entre les différents groupes. L’histogramme montre les espèces présentant des différences significatives dont le score LDA est supérieur à la valeur prédéfinie. La valeur prédéfinie par défaut est 2,0, de sorte que seules les valeurs absolues du score LDA (abscisse) supérieures à 2,0 sont affichées dans le graphique.

Les biomarqueurs présentant une différence significative et l’arbre des espèces entre les différents niveaux de classification sont illustrés à la figure 9. Les cercles rayonnant de l’intérieur vers l’extérieur représentent les niveaux de classification du phylum au genre (le cercle jaune le plus intérieur est le royaume). Le diamètre de chaque petit cercle aux différents niveaux de classification représente la taille de l’abondance relative. Les espèces sans différence significative sont uniformément colorées en jaune, et les biomarqueurs d’espèces significativement différents sont colorés avec les groupes correspondants. Les classes A, B et C sont les noms de groupe des échantillons microbiens prélevés. Les nœuds rouges représentent les groupes microbiens qui jouent un rôle important dans le groupe rouge (A); les nœuds verts représentent les groupes microbiens qui jouent un rôle important dans le groupe vert (B); et les nœuds bleus représentent les groupes microbiens qui jouent un rôle important dans le groupe bleu (C). Le nom d’espèce correspondant des biomarqueurs non montrés dans le graphique est indiqué sur le côté droit, et les chiffres de lettre correspondent à celui du graphique (montrant uniquement les espèces différentielles du phylum à la famille par défaut à des fins esthétiques).

L’abondance d’un biomarqueur qui présente des différences entre les différents groupes selon les résultats de LEfSe est illustrée à la figure 10. Dans le diagramme à barres d’abondance relative, la ligne continue représente l’abondance relative moyenne, la ligne pointillée représente l’abondance relative médiane et chaque colonne représente l’abondance relative de chaque échantillon dans différents groupes.

Tableau 1 : Exemple de fichier pour l’analyse LEfSe en ligne. Veuillez cliquer ici pour télécharger ce tableau.

Figure 1
Figure 1 : Vue d’ensemble schématique du processus de téléchargement. Cliquez sur les chiffres rouges dans l’ordre séquentiel sur la figure. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 2
Figure 2 : Vue d’ensemble schématique du processus opérationnel de modification du format des données. Cliquez sur les chiffres rouges dans l’ordre séquentiel sur la figure. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 3
Figure 3 : Vue d’ensemble schématique du processus opérationnel de calcul de la taille de l’effet LDA. Cliquez sur les chiffres rouges dans l’ordre séquentiel sur la figure. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 4
Figure 4 : Vue d’ensemble schématique du processus opérationnel de traçage des résultats LEfSe. Cliquez sur les chiffres rouges dans l’ordre séquentiel sur la figure. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 5
Figure 5 : Vue d’ensemble schématique du processus opérationnel de traçage du cladogramme. Cliquez sur les chiffres rouges dans l’ordre séquentiel sur la figure. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 6
Figure 6 : Vue d’ensemble schématique du processus opérationnel de traçage d’une entité. Cliquez sur les chiffres rouges dans l’ordre séquentiel sur la figure. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 7
Figure 7 : Vue d’ensemble schématique du processus opérationnel de traçage des caractéristiques différentielles. Cliquez sur les chiffres rouges dans l’ordre séquentiel sur la figure. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 8
Figure 8 : Histogramme de la distribution des valeurs LDA. Les scores LDA des communautés microbiennes avec des différences significatives dans chaque groupe ont été analysés par LDA Effect Size en fonction de leurs influences et corrélations. Veuillez cliquer ici pour télécharger cette figure.

Figure 9
Figure 9 : Cladogramme. Le tracé typique du cladogramme obtenu par le protocole, qui permet la représentation de la différence entre les différents niveaux de classification de trois groupes. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 10
Figure 10 : Tracé d’une entité. Le diagramme d’abondance d’un biomarqueur qui présente des différences entre les différents groupes selon le LEfSe results.is montré. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Ici, le protocole pour l’identification et la caractérisation des biomarqueurs au sein de différents groupes est décrit. Ce protocole peut facilement être adapté à d’autres types d’échantillons, tels que les OTU de micro-organismes. La méthode statistique de LEfSe permet de trouver les micro-organismes caractéristiques dans chaque groupe (la valeur par défaut est LDA >2), c’est-à-dire les micro-organismes les plus abondants dans ce groupe par rapport aux autres12. LEfSe est disponible en versions Linux native et Web où les utilisateurs peuvent également effectuer une analyse LEfSe sur des pages Web. LEfSe est basé sur l’algorithme LDA et a besoin d’un niveau d’espèce pour dessiner un arbre d’espèce. Par l’application de l’outil, l’abondance relative entre les groupes peut être comparée. Tous les biomarqueurs différentiels pourraient être tracés dans un seul graphique. En outre, un seul biomarqueur ou tous les biomarqueurs peuvent être tracés par lots.

Que LEfSe soit effectué via le serveur natif ou un site en ligne, il existe de nombreux paramètres réglables pour dessiner les images requises. En raison de la structure complexe des fichiers d’entrée et de la nécessité de les convertir en formats de données préférés pour des analyses plus approfondies de LEfSe, certains services à guichet unique ont également été développés. Par conséquent, l’optimisation d’opérations plus faciles peut être difficile. D’autre part, il existe quelques limitations lors de l’analyse de données complexes à l’aide de LEfSe. LDA projette une fonctionnalité d’une dimension de moins que la catégorie, et si d’autres fonctionnalités sont nécessaires, d’autres méthodes sont introduites. Les variantes de LDA peuvent résoudre certaines difficultés. Par exemple, Kernel LDA est une solution si les données d’origine ne peuvent pas être séparées bien après la projection. Parce que la quantité de calcul de LDA est liée à la dimension des données, 2DLDA peut réduire considérablement la quantité de calcul de LDA. Le LDA et le PCA sont des techniques de réduction de la dimensionnalité couramment utilisées. La réduction de dimensionnalité PCA (Principal Component Analysisis) est directement liée à la dimension de la donnée, et le système de coordonnées projeté est orthogonal. Cependant, LDA se concentre sur la capacité de classification en fonction de l’étiquetage des catégories, de sorte que le système de coordonnées projeté n’est généralement pas orthogonal.

LEfSe fournit une assistance pour la sélection de biomarqueurs. Avec de nombreux avantages (par exemple, des paramètres réglables, les résultats détaillés de diverses pièces, l’application entre deux groupes ou plus), il a été largement utilisé13. Avec la demande croissante d’analyse de données de haute dimension, l’application de cette méthode deviendra de plus en plus étendue pour explorer les biomarqueurs des caractéristiques (organismes, clades, unités taxonomiques opérationnelles, gènes ou fonctions) ayant un impact sur la santé humaine et la maladie.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs n’ont rien à divulguer.

Acknowledgments

Ce travail a été soutenu par une subvention des Fonds de recherche fondamentale pour les Instituts centraux de recherche sur le bien-être public (TKS170205) et la Fondation pour le développement de la science et de la technologie, et de l’Institut de recherche de Tianjin pour l’ingénierie du transport par eau (TIWTE), M.O.T. (KJFZJJ170201).

Materials

Name Company Catalog Number Comments
No materials used

DOWNLOAD MATERIALS LIST

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. McIver, M., Sayoldin, B., Shafquat, A. Biobakery / lefse [tool]. , Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019).
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Tags

Génétique Numéro 183 LEfSe Biomarqueur Génome Biodiversité Différence statistique Corrélation biologique
Sélection assistée de biomarqueurs par taille d’effet d’analyse discriminante linéaire (LEfSe) dans les données du microbiome
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Chang, F., He, S., Dang, C. Assisted More

Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter