Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Geassisteerde selectie van biomarkers door lineaire discriminante analyse-effectgrootte (LEfSe) in microbioomgegevens

Published: May 16, 2022 doi: 10.3791/61715
* These authors contributed equally

Summary

LEfSe (LDA Effect Size) is een hulpmiddel voor hoogdimensionale biomarkermijnbouw om genomische kenmerken (zoals genen, paden en taxonomieën) te identificeren die twee of meer groepen in microbioomgegevens aanzienlijk karakteriseren.

Abstract

Er is steeds meer aandacht voor gesloten biologische genomen in het milieu en in de gezondheid. Om de intergroepsverschillen tussen verschillende monsters of omgevingen te onderzoeken en te onthullen, is het cruciaal om biomarkers met statistische verschillen tussen groepen te ontdekken. De toepassing van Lineaire discriminante analyse Effect Size (LEfSe) kan helpen bij het vinden van goede biomarkers. Op basis van de originele genoomgegevens worden kwaliteitscontrole en kwantificering van verschillende sequenties op basis van taxa of genen uitgevoerd. Ten eerste werd de Kruskal-Wallis-rangtest gebruikt om onderscheid te maken tussen specifieke verschillen tussen statistische en biologische groepen. Vervolgens werd de Wilcoxon-rangtest uitgevoerd tussen de twee groepen die in de vorige stap waren verkregen om te beoordelen of de verschillen consistent waren. Ten slotte werd een lineaire discriminante analyse (LDA) uitgevoerd om de invloed van biomarkers op significant verschillende groepen te evalueren op basis van LDA-scores. Kortom, LEfSe bood het gemak voor het identificeren van genomische biomarkers die statistische verschillen tussen biologische groepen karakteriseren.

Introduction

Biomarkers zijn biologische kenmerken die kunnen worden gemeten en kunnen wijzen op bepaalde verschijnselen zoals infectie, ziekte of omgeving. Onder hen kunnen functionele biomarkers specifieke biologische functies van afzonderlijke soorten zijn of gemeenschappelijk voor sommige soorten, zoals gen, eiwit, metaboliet en routes. Bovendien duiden taxonomische biomarkers op een ongewone soort, een groep organismen (koninkrijk, phylum, klasse, orde, familie, geslacht, soort), de Amplicon Sequence Varient (ASV)1 of de Operational Taxonomic Unit (OTU)2. Om biomarkers sneller en nauwkeuriger te vinden, is een tool voor het analyseren van de biologische gegevens noodzakelijk. De verschillen tussen klassen kunnen worden verklaard door LEfSe in combinatie met standaardtests voor statistische significantie en aanvullende tests die coderen voor biologische consistentie en effectrelevantie3. LEfSe is beschikbaar als galaxy-module, een conda-formule, een docker-image en opgenomen in bioBakery (VM en cloud)4. Over het algemeen maakt de analyse van microbiële diversiteit vaak gebruik van een niet-parametrische test voor de onzekere verdeling van een steekproefgemeenschap. De rangsomtest is een niet-parametrische testmethode, waarbij de rang van monsters wordt gebruikt om de waarde van monsters te vervangen. Afhankelijk van het verschil in monstergroepen kan het worden verdeeld in twee monsters met de Wilcoxon rank sum test en in meerdere samples met de Kruskal-Wallis test 5,6. Met name wanneer er significante verschillen zijn tussen meerdere groepen monsters, moet een rangsomtest van paarsgewijze vergelijking van meerdere monsters worden uitgevoerd. LDA (wat staat voor Linear Discriminant Analysis) uitgevonden door Ronald Fisher in 1936, is een vorm van supervised learning, ook bekend als Fisher's Linear Discriminant7. Het is een klassiek en populair algoritme in het huidige veld van machine learning datamining.

Hier is de LEfSe-test geoptimaliseerd door Conda- en Galaxy-servers. Drie groepen van 16S rRNA-gensequenties worden geanalyseerd om de significante verschillen tussen verschillende groepen aan te tonen met LDA-scores van microbiële gemeenschappen en visualisatieresultaten.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

OPMERKING: Het protocol is afkomstig van en aangepast uit het onderzoek van Segata et al.3. De methode wordt op https://bitbucket.org/biobakery/biobakery/wiki/lefse gegeven.

1. Voorbereiding van het invoerbestand voor analyse

  1. Bereid het invoerbestand (tabel 1) van LEfSe voor, dat eenvoudig kan worden gegenereerd door veel workflows8 of eerdere protocollen9 met de originele bestanden (voorbeeldbestand en bijbehorend soortannotatiebestand).

2. LEfSe native analyse (beperkt tot de Linux server)

  1. LEfSe Installatie
    OPMERKING: De LEfSe-pijplijn wordt aanbevolen om te worden geïnstalleerd met Conda10.
    1. Voer de volgende opdrachten uit om de mogelijkheid van afhankelijkhedenconflicten uit te sluiten. Maak een conda-omgeving voor LEfSe (deze stap wordt aanbevolen, maar is niet vereist.). -n staat voor de milieunaam.
      $ conda create -n LEfSe-env
    2. Voer het volgende uit om de gemaakte LEfSe-omgeving te activeren:
      $ source activeren LEfSe-env
    3. Voer het volgende uit om LEfSe te installeren met kanaalbioBakery waarbij -c staat voor kanaalnaam:
      $ conda install -c biobakery lefse |
  2. Gegevens opmaken voor LEfSe
    1. Voer de volgende opdracht uit om het oorspronkelijke bestand te formatteren naar de interne indeling voor LEfSe. Tabel.txt is het invoerbestand en Table-reformat.in is het uitvoerbestand. -c wordt gebruikt om de functie in te stellen, die wordt gebruikt als klasse (standaard 1) en -o wordt gebruikt om de normalisatiewaarde in te stellen (standaard -1.0 betekent geen normalisatie).
      $ format_input.py Tafel.txt Table-reformat.in -c 1 -o 1000000
  3. Berekening van de lineaire discriminantanalyse (LDA) effectgrootte
    1. Voer de volgende opdracht uit. Het doel van deze stap is om LDA van het vorige resultaat uit te voeren en het resultaatbestand voor de visualisatie te genereren. Table-reformat.in wordt gegenereerd met behulp van de vorige stap en wordt gebruikt als het invoerbestand in deze stap. Table-reformat.res is het resultaatbestand.
      $ run_lefse.py Table-reformat.in Table-reformat.res
  4. Visualisatie door plots
    1. Plot de LEfSe-resultaten. Om de effectgrootte van de biomarkers in een pdf-bestand te plotten. Table-reformat.res wordt gegenereerd met behulp van de vorige stap en de LDA.pdf is het plotbestand. -formaat wordt gebruikt om het uitvoerbestandsformaat in te stellen.
      $ plot_res.py Table-reformat.res LDA.pdf --formaat pdf
    2. Plot het cladogram. Om de soortboom te tekenen en de biomarkers in een cladogram weer te geven. cladogram.pdf is het uitvoerbestand.
      $ plot_cladogram.py Table-reformat.res cladogram.pdf --formaat pdf
    3. Plot één functie (optioneel) Om de verschillen van een enkele biomarker tussen verschillende groepen in kaart te brengen. -f wordt gebruikt om de kenmerken van het plot in te stellen. Als er een is ingesteld, moet de -feature_name worden gegeven.
      $ plot_features.py -f one --feature_name "k__Bacteria.p__Firmicutes.c__Bacilli.o__Bacillales" --formaat pdf Table-reformat.in Table-reformat.res Bacillales.pdf
    4. Plot de differentiële functies (optioneel) om alle functies te tekenen, maar er is te veel om voorzichtig te doen. --archief wordt gebruikt om te kiezen of de resultaten moeten worden gecomprimeerd. ./ betekent het pad van de resultaten.
      $ plot_features.py -f diff --archief none --formaat pdf Table-reformat.in Table-reformat.res ./

3. LEfSe online analyse (galaxy)

  1. Ga naar de huttenhower galaxy server11: http://huttenhower.sph.harvard.edu/galaxy.
  2. Upload de bestanden. Druk op de pijl-omhoog in het linkerdeelvenster en upload het bestand. Klik op Kies lokaal bestand om het invoerbestand te selecteren en selecteer het formaat in tabelvorm en klik vervolgens op de knop Start .
    OPMERKING: Als u naar de webpagina (https://bitbucket.org/biobakery/biobakery/wiki/lefse) verwijst, gebruikt u het script (taxonomy_summary. R) om het invoerbestand van LEfSe te genereren, en het formaat (elke kolom met een groepsnaam, elke regel met een ander niveau van annotatie gescheiden door "|") is vereist zoals weergegeven in tabel 1. Een schematisch overzicht van het uploadproces is weergegeven in figuur 1.
  3. Maak de gegevens op voor LEfSe. Klik op de LEfSe | De koppeling Gegevens opmaken voor LEfSe in het linkerdeelvenster en selecteer de specifieke rijen voor klasse in het bestand en klik op de knop Uitvoeren . Een schematisch overzicht van het operationele proces en de gebruikte parameters zijn weergegeven in figuur 2.
  4. Bereken de grootte van het LDA-effect. Klik op de LEfSe | LDA-effectgroottekoppeling (LEfSe) in het linkerdeelvenster en selecteer parameterwaarden op basis van de analysevereisten. Klik op Uitvoeren. Een schematisch overzicht van het operationele proces en de gebruikte parameters zijn weergegeven in figuur 3.
  5. Plot de LEfSe-resultaten. Klik op de LEfSe | Plot de link LEfSe-resultaten in het linkerdeelvenster en klik op de knop Uitvoeren . Een schematisch overzicht van het operationele proces en de gebruikte parameters zijn weergegeven in figuur 4.
  6. Plot het cladogram. Klik op Cladogram plotten in het linkerdeelvenster en klik op de knop Uitvoeren nadat u de parameterwaarden hebt geselecteerd. Een schematisch overzicht van het operationele proces en de gebruikte parameters zijn weergegeven in figuur 5.
  7. Plot één functie door te klikken op Eén functie plotten in het linkerdeelvenster en op de knop Uitvoeren te klikken nadat u parameterwaarden hebt geselecteerd. Een schematisch overzicht van het operationele proces en de gebruikte parameters zijn weergegeven in figuur 6.
  8. Plot differentiële functies door te klikken op Differentiële kenmerken plotten in het linkerdeelvenster en de knop Uitvoeren vast te klikken nadat u parameterwaarden hebt geselecteerd. Een schematisch overzicht van het operationele proces en de gebruikte parameters zijn weergegeven in figuur 7.
    OPMERKING: Deze gegenereerde cijfers kunnen worden gevisualiseerd en gedownload tegen de resulterende uitvoer in het rechterdeelvenster.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

De LDA-scores van microbiële gemeenschappen met significante verschillen in elke groep door de 16S rRNA-gensequenties van drie monsters te analyseren, zijn weergegeven in figuur 8. De kleur van het histogram vertegenwoordigt verschillende groepen, terwijl de lengte de LDA-score vertegenwoordigt, wat de invloed is van de soort met significante verschillen tussen verschillende groepen. Het histogram toont de soort met significante verschillen waarvan de LDA-score groter is dan de vooraf ingestelde waarde. De standaard vooraf ingestelde waarde is 2,0, dus alleen absolute waarden van de LDA-score (abscis) groter dan 2,0 worden weergegeven in de grafiek.

De biomarkers met significant verschil en soortboom tussen verschillende classificatieniveaus zijn weergegeven in figuur 9. De cirkels die van binnen naar buiten uitstralen, vertegenwoordigen de classificatieniveaus van phylum tot geslacht (de binnenste gele cirkel is het koninkrijk). De diameter van elke kleine cirkel op de verschillende classificatieniveaus vertegenwoordigt de grootte van de relatieve abundantie. De soorten zonder significant verschil zijn uniform geel gekleurd en de aanzienlijk verschillende soorten biomarkers zijn gekleurd met de overeenkomstige groepen. De klassen A, B en C zijn de groepsnamen van microbiële monsters die zijn verzameld. Rode knopen vertegenwoordigen de microbiële groepen die een belangrijke rol spelen in de rode groep (A); groene knooppunten vertegenwoordigen de microbiële groepen die een belangrijke rol spelen in de groene groep (B); en blauwe knopen vertegenwoordigen de microbiële groepen die een belangrijke rol spelen in de blauwe groep (C). De overeenkomstige soortnaam van de biomarkers die niet op het waarnemingspunt zijn vermeld, wordt aan de rechterkant weergegeven en de letternummers komen overeen met die in het waarnemingspunt (standaard alleen differentiële soorten van het fylum tot de familie voor esthetische doeleinden).

De abundantie van één biomarker die verschillen heeft tussen verschillende groepen volgens de LEfSe-resultaten is weergegeven in figuur 10. In de relatieve abundantie barplot vertegenwoordigt de ononderbroken lijn de gemiddelde relatieve abundantie, de stippellijn vertegenwoordigt de mediane relatieve abundantie en elke kolom vertegenwoordigt de relatieve abundantie van elk monster in verschillende groepen.

Tabel 1: Het voorbeeldbestand voor LEfSe-analyse online. Klik hier om deze tabel te downloaden.

Figure 1
Figuur 1: Schematisch overzicht van het uploadproces. Klik op de rode cijfers in opeenvolgende volgorde op de figuur. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 2
Figuur 2: Schematisch overzicht van het operationele proces voor het wijzigen van het gegevensformaat. Klik op de rode cijfers in opeenvolgende volgorde op de figuur. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 3
Figuur 3: Schematisch overzicht van het operationele proces voor het berekenen van de LDA-effectgrootte. Klik op de rode cijfers in opeenvolgende volgorde op de figuur. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 4
Figuur 4: Schematisch overzicht van het operationele proces voor het plotten van LEfSe-resultaten. Klik op de rode cijfers in opeenvolgende volgorde op de figuur. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 5
Figuur 5: Schematisch overzicht van het operationele proces voor het plotten van cladogram. Klik op de rode cijfers in opeenvolgende volgorde op de figuur. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 6
Figuur 6: Schematisch overzicht van het operationele proces voor het plotten van één kenmerk. Klik op de rode cijfers in opeenvolgende volgorde op de figuur. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 7
Figuur 7: Schematisch overzicht van het operationele proces voor het plotten van differentiële kenmerken. Klik op de rode cijfers in opeenvolgende volgorde op de figuur. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 8
Figuur 8: Histogram van de verdeling van LDA-waarden. LDA-scores van microbiële gemeenschappen met significante verschillen in elke groep werden geanalyseerd door LDA-effectgrootte op basis van hun invloeden en correlaties. Klik hier om deze figuur te downloaden.

Figure 9
Figuur 9: Cladogram. De typische plot van het cladogram verkregen door het protocol, dat de weergave van het verschil tussen verschillende classificatieniveaus van drie groepen mogelijk maakt. Klik hier om een grotere versie van deze figuur te bekijken.

Figure 10
Figuur 10: Eén feature plot. De abundantie van één biomarker die volgens de LEfSe-results.is verschillen tussen verschillende groepen heeft. Klik hier om een grotere versie van deze figuur te bekijken.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Hier wordt het protocol voor de identificatie en karakterisering van biomarkers binnen verschillende groepen beschreven. Dit protocol kan eenvoudig worden aangepast voor andere monstertypen, zoals OTA's van micro-organismen. De statistische methode van LEfSe kan de karakteristieke micro-organismen in elke groep vinden (standaard is LDA >2), dat wil zeggen, de micro-organismen die overvloediger voorkomen in deze groep in vergelijking met de anderen12. LEfSe is beschikbaar in zowel native als web Linux-versies, waar gebruikers ook LEfSe-analyses op webpagina's kunnen uitvoeren. LEfSe is gebaseerd op het LDA-algoritme en heeft een soortniveau nodig om een soortboom te tekenen. Door toepassing van de tool kan de relatieve abundantie tussen groepen worden vergeleken. Alle differentiële biomarkers konden in één grafiek worden uitgezet. Ook kan een enkele biomarker of alle biomarkers in batches worden uitgezet.

Of LEfSe nu wordt uitgevoerd via de native server of een online site, er zijn veel instelbare parameters om de vereiste afbeeldingen te tekenen. Vanwege de complexe structuur van invoerbestanden en de noodzaak om ze om te zetten naar voorkeursgegevensformaten voor verdere analyses van LEfSe, zijn er ook enkele one-stop-services ontwikkeld. Daarom kan de optimalisatie van eenvoudigere bewerkingen een uitdaging zijn. Aan de andere kant zijn er een paar beperkingen bij het analyseren van complexe gegevens met behulp van LEfSe. LDA projecteert een functie die één dimensie kleiner is dan de categorie, en als er meer functies nodig zijn, worden andere methoden geïntroduceerd. De varianten van LDA kunnen enkele problemen oplossen. Kernel LDA is bijvoorbeeld een oplossing als de oorspronkelijke gegevens niet goed na projectie kunnen worden gescheiden. Omdat de hoeveelheid berekening van LDA gerelateerd is aan de dimensie van gegevens, kan 2DLDA de hoeveelheid berekening van LDA aanzienlijk verminderen. Zowel LDA als PCA zijn veelgebruikte dimensionaliteitsreductietechnieken. PCA (Principal Component Analysisis) dimensionaliteitsreductie is direct gerelateerd aan de gegevensdimensie en het geprojecteerde coördinatenstelsel is orthogonaal. LDA richt zich echter op het vermogen om te classificeren volgens de etikettering van categorieën, dus het geprojecteerde coördinatensysteem is over het algemeen niet orthogonaal.

LEfSe biedt hulp bij de selectie van biomarkers. Met veel voordelen (bijv. Instelbare parameters, de gedetailleerde resultaten van verschillende onderdelen, toepassing tussen twee of meer groepen), is het op grote schaal gebruikt13. Met de toenemende vraag naar hoogdimensionale data-analyse, zal de toepassing van deze methode steeds uitgebreider worden om de biomarkers van de kenmerken (organismen, clades, operationele taxonomische eenheden, genen of functies) te onderzoeken die van invloed zijn op de menselijke gezondheid en ziekte.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteurs hebben niets te onthullen.

Acknowledgments

Dit werk werd ondersteund door een subsidie van Fundamental Research Funds voor de Central Public Welfare Research Institutes (TKS170205) en De Foundation for Development of Science and Technology, en Tianjin Research Institute for Water Transport Engineering (TIWTE), M.O.T. (KJFZJJ170201).

Materials

Name Company Catalog Number Comments
No materials used

DOWNLOAD MATERIALS LIST

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. McIver, M., Sayoldin, B., Shafquat, A. Biobakery / lefse [tool]. , Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019).
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Tags

Genetica LEfSe Biomarker Genoom Biodiversiteit Statistisch verschil Biologische correlatie
Geassisteerde selectie van biomarkers door lineaire discriminante analyse-effectgrootte (LEfSe) in microbioomgegevens
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Chang, F., He, S., Dang, C. Assisted More

Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter