Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Assisterat urval av biomarkörer genom linjär diskriminant analyseffektstorlek (LEfSe) i mikrobiomdata

Published: May 16, 2022 doi: 10.3791/61715
* These authors contributed equally

Summary

LEfSe (LDA Effect Size) är ett verktyg för högdimensionell biomarkörbrytning för att identifiera genomiska egenskaper (såsom gener, vägar och taxonomier) som signifikant karakteriserar två eller flera grupper i mikrobiomdata.

Abstract

Det finns en växande uppmärksamhet mot slutna biologiska genom i miljön och i hälsan. För att utforska och avslöja skillnaderna mellan grupper mellan olika prover eller miljöer är det viktigt att upptäcka biomarkörer med statistiska skillnader mellan grupper. Tillämpningen av linjär diskriminant analys Effektstorlek (LEfSe) kan hjälpa till att hitta bra biomarkörer. Baserat på de ursprungliga genomdata utförs kvalitetskontroll och kvantifiering av olika sekvenser baserade på taxa eller gener. Först användes Kruskal-Wallis ranktest för att skilja mellan specifika skillnader mellan statistiska och biologiska grupper. Därefter utfördes Wilcoxon-rankningstestet mellan de två grupperna som erhölls i föregående steg för att bedöma om skillnaderna var konsekventa. Slutligen genomfördes en linjär diskriminantanalys (LDA) för att utvärdera biomarkörernas påverkan på signifikant olika grupper baserat på LDA-poäng. Sammanfattningsvis tillhandahöll LEfSe bekvämligheten för att identifiera genomiska biomarkörer som karakteriserar statistiska skillnader mellan biologiska grupper.

Introduction

Biomarkörer är biologiska egenskaper som kan mätas och kan indikera vissa fenomen som infektion, sjukdom eller miljö. Bland dem kan funktionella biomarkörer vara specifika biologiska funktioner hos enstaka arter eller gemensamma för vissa arter, såsom gen, protein, metabolit och vägar. Dessutom indikerar taxonomiska biomarkörer en ovanlig art, en grupp organismer (rike, fylum, klass, ordning, familj, släkt, art), Amplicon Sequence Varient (ASV)1 eller Operational Taxonomic Unit (OTU)2. För att hitta biomarkörer snabbare och mer exakt är ett verktyg för att analysera biologiska data nödvändigt. Skillnaderna mellan klasserna kan förklaras av LEfSe i kombination med standardtester för statistisk signifikans och ytterligare tester som kodar för biologisk konsistens och effektrelevans3. LEfSe är tillgänglig som en galaxmodul, en conda-formel, en docker-avbildning och ingår i bioBakery (VM och moln)4. I allmänhet använder analysen av mikrobiell mångfald ofta ett icke-parametriskt test för den osäkra fördelningen av ett provsamhälle. Rangsummatestet är en icke-parametrisk testmetod, som använder rangordningen av prover för att ersätta värdet på proverna. Enligt skillnaden i provgrupper kan den delas in i två prover med Wilcoxon rank sum test och i flera prover med Kruskal-Wallis test 5,6. När det finns signifikanta skillnader mellan flera grupper av prover bör ett rangsummatest av parvis jämförelse av flera prover utföras. LDA (som står för Linear Discriminant Analysis) uppfunnet av Ronald Fisher 1936, är en typ av övervakat lärande, även känt som Fisher's Linear Discriminant7. Det är en klassisk och populär algoritm inom det nuvarande området för maskininlärningsdatautvinning.

Här har LEfSe-analysen optimerats av Conda- och Galaxy-servrar. Tre grupper av 16S rRNA-gensekvenser analyseras för att visa de signifikanta skillnaderna mellan olika grupper med LDA-poäng av mikrobiella samhällen och visualiseringsresultat.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

OBS: Protokollet hämtades och modifierades från forskningen i Segata et al.3. Metoden tillhandahålls vid https://bitbucket.org/biobakery/biobakery/wiki/lefse.

1. Förberedelse av indatafil för analys

  1. Förbered indatafilen (tabell 1) för LEfSe, som enkelt kan genereras av många arbetsflöden8 eller tidigare protokoll9 med originalfilerna (exempelfil och motsvarande artanteckningsfil).

2. LEfSe inbyggd analys (begränsad till Linux-servern)

  1. LEfSe-installation
    OBS: LEfSe-rörledningen rekommenderas att installeras med Conda10.
    1. Kör följande kommandon för att utesluta risken för beroendekonflikter. Skapa en conda-miljö för LEfSe (det här steget rekommenderas men krävs inte.). -n står för miljönamnet.
      $ conda create -n LEfSe-env
    2. Om du vill aktivera LEfSe-miljön som skapades kör du:
      $ källa aktivera LEfSe-env
    3. Om du vill installera LEfSe med channel bioBakery där -c står för kanalnamn kör du:
      $ conda install -c biobakery lefse
  2. Formatera data för LEfSe
    1. Kör följande kommando för att formatera originalfilen till det interna formatet för LEfSe. Tabell.txt är indatafilen och Table-reformat.in är utdatafilen. -c används för att ställa in funktionen, som används som klass (standard 1) och -o används för att ställa in normaliseringsvärdet (standard -1.0 betyder ingen normalisering).
      $ format_input.py Tabell.txt Table-reformat.in -c 1 -o 1000000
  3. Beräkning av effektstorlek för linjär diskriminantanalys (LDA)
    1. Kör följande kommando. Syftet med det här steget är att utföra LDA för föregående resultat och generera resultatfilen för visualiseringen. Table-reformat.in genereras med föregående steg och används som indatafil i det här steget. Table-reformat.res är resultatfilen.
      $ run_lefse.py Table-reformat.in Table-reformat.res
  4. Visualisering efter diagram
    1. Plotta LEfSe-resultaten. För att plotta effektstorleken för biomarkörerna i en pdf-fil,. Table-reformat.res genereras med föregående steg och LDA.pdf är plotfilen. –format används för att ställa in utdatafilformatet.
      $ plot_res.py Table-reformat.res LDA.pdf --format pdf
    2. Plotta kladogrammet. Att rita artträdet och visa biomarkörerna i ett kladogram. cladogram.pdf är utdatafilen.
      $ plot_cladogram.py Table-reformat.res cladogram.pdf --format pdf
    3. Rita en funktion (valfritt) Att plotta skillnaderna i en enda biomarkör mellan olika grupper. -f används för att ställa in funktionerna i tomten. Om en sådan var inställd måste –feature_name ges.
      $ plot_features.py -f one --feature_name "k__Bacteria.p__Firmicutes.c__Bacilli.o__Bacillales" --format pdf Table-reformat.in Table-reformat.res Bacillales.pdf
    4. Plotta differentialfunktionerna (tillval) för att rita alla funktioner, men det finns för mycket att göra med försiktighet. --archive används för att välja om resultaten ska komprimeras. ./ betyder resultatets väg.
      $ plot_features.py -f diff --archive none --format pdf Table-reformat.in Table-reformat.res ./

3. LEfSe online-analys (galax)

  1. Gå till huttenhower galaxy server11: http://huttenhower.sph.harvard.edu/galaxy.
  2. Ladda upp filerna. Tryck på uppåtpilen i den vänstra rutan och ladda upp filen. Klicka på Välj lokal fil för att välja inmatningsfilen och välj formattabellen och klicka sedan på Start-knappen .
    OBS: Hänvisas till webbsidan (https://bitbucket.org/biobakery/biobakery/wiki/lefse), använd skriptet (taxonomy_summary. R) för att generera indatafilen för LEfSe, och formatet (varje kolumn med ett gruppnamn, varje rad med en annan anteckningsnivå åtskild av "|") krävs som visas i tabell 1. En schematisk översikt över uppladdningsprocessen visas i figur 1.
  3. Formatera data för LEfSe. Klicka på LEfSe-| Formatera data för LEfSe-länken i den vänstra rutan och välj de specifika raderna för klassen i filen och klicka på knappen Kör . En schematisk översikt över driftsprocessen och de parametrar som används visas i figur 2.
  4. Beräkna LDA-effektstorleken. Klicka på LEfSe-| LDA Effect Size (LEfSe) länk i den vänstra rutan och välj parametervärden enligt analyskraven. Klicka på Kör. En schematisk översikt över driftsprocessen och de parametrar som används visas i figur 3.
  5. Plotta LEfSe-resultaten. Klicka på LEfSe-| Plotta LEfSe Results-länken i den vänstra rutan och klicka på knappen Execute . En schematisk översikt över driftsprocessen och de parametrar som används visas i figur 4.
  6. Plotta kladogrammet. Klicka på Plot Cladogram i den vänstra rutan och klicka på knappen Execute när du har valt parametervärdena. En schematisk översikt över driftsprocessen och de parametrar som används visas i figur 5.
  7. Rita en funktion genom att klicka på Plot One Feature i den vänstra rutan och klicka på knappen Execute efter att ha valt parametervärden. En schematisk översikt över den operativa processen och de parametrar som används visas i figur 6.
  8. Rita differentiella funktioner genom att klicka på Plot Differential Features i den vänstra rutan och klamra dig fast vid knappen Execute efter att du har valt parametervärden. En schematisk översikt över driftsprocessen och de parametrar som används visas i figur 7.
    OBS: Dessa genererade siffror kan visualiseras och laddas ner mot den resulterande utgången i den högra rutan.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

LDA-poängen för mikrobiella samhällen med signifikanta skillnader i varje grupp genom att analysera 16S rRNA-gensekvenserna av tre prover visas i figur 8. Histogrammets färg representerar olika grupper, medan längden representerar LDA-poängen, vilket är artens inflytande med signifikanta skillnader mellan olika grupper. Histogrammet visar arten med signifikanta skillnader vars LDA-poäng är större än det förinställda värdet. Standardvärdet för förinställt är 2,0, så endast absoluta värden för LDA-poäng (abscissa) som är större än 2,0 visas i diagrammet.

Biomarkörerna med signifikant skillnad och artträd mellan olika klassificeringsnivåer visas i figur 9. Cirklarna som strålar ut från insidan till utsidan representerar klassificeringsnivåerna från fylum till släkte (den innersta gula cirkeln är riket). Diametern för varje liten cirkel på de olika klassificeringsnivåerna representerar storleken på relativ överflöd. Arterna utan signifikant skillnad är likformigt färgade gula, och de signifikant olika artbiomarkörerna är färgade med motsvarande grupper. Klasserna A, B och C är gruppnamnen på mikrobiella prover som samlats in. Röda noder representerar de mikrobiella grupper som spelar en viktig roll i den röda gruppen (A); gröna noder representerar de mikrobiella grupper som spelar en viktig roll i den gröna gruppen (B); och blå noder representerar de mikrobiella grupper som spelar en viktig roll i den blå gruppen (C). Motsvarande artnamn för de biomarkörer som inte visas i diagrammet visas på höger sida, och bokstavsnumren motsvarar det i diagrammet (visar endast differentiella arter från fylumet till familjen som standard för estetiska ändamål).

Överflödet av en biomarkör som har skillnader mellan olika grupper enligt LEfSe-resultaten visas i figur 10. I den relativa överflödsdiagrammen representerar den heldragna linjen det genomsnittliga relativa överflödet, den prickade linjen representerar medianens relativa överflöd och varje kolumn representerar det relativa överflödet för varje prov i olika grupper.

Tabell 1: Exempelfilen för LEfSe-analys online. Klicka här för att ladda ner den här tabellen.

Figure 1
Bild 1: Schematisk översikt över uppladdningsprocessen. Klicka på de röda siffrorna i sekventiell ordning på figuren. Klicka här för att se en större version av denna figur.

Figure 2
Figur 2: Schematisk översikt över den operativa processen för att ändra dataformat. Klicka på de röda siffrorna i sekventiell ordning på figuren. Klicka här för att se en större version av denna figur.

Figure 3
Figur 3: Schematisk översikt över den operativa processen för beräkning av LDA-effektstorlek. Klicka på de röda siffrorna i sekventiell ordning på figuren. Klicka här för att se en större version av denna figur.

Figure 4
Figur 4: Schematisk översikt över driftsprocessen för att plotta LEfSe-resultat. Klicka på de röda siffrorna i sekventiell ordning på figuren. Klicka här för att se en större version av denna figur.

Figure 5
Figur 5: Schematisk översikt över driftsprocessen för plottning av kladogram. Klicka på de röda siffrorna i sekventiell ordning på figuren. Klicka här för att se en större version av denna figur.

Figure 6
Bild 6: Schematisk översikt över driftsprocessen för att plotta en funktion. Klicka på de röda siffrorna i sekventiell ordning på figuren. Klicka här för att se en större version av denna figur.

Figure 7
Figur 7: Schematisk översikt över driftsprocessen för att plotta differentiella funktioner. Klicka på de röda siffrorna i sekventiell ordning på figuren. Klicka här för att se en större version av denna figur.

Figure 8
Figur 8: Histogram över fördelningen av LDA-värden. LDA-poäng av mikrobiella samhällen med signifikanta skillnader i varje grupp analyserades av LDA-effektstorlek enligt deras influenser och korrelationer. Klicka här för att ladda ner den här siffran.

Figure 9
Figur 9: Kladogram. Den typiska plottningen av kladogrammet erhållet av protokollet, vilket möjliggör representation av skillnaden mellan olika klassificeringsnivåer av tre grupper. Klicka här för att se en större version av denna figur.

Figure 10
Bild 10: Ett funktionsdiagram. Överflödsbarploten för en biomarkör som har skillnader mellan olika grupper enligt LEfSe-results.is visade. Klicka här för att se en större version av denna figur.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Här beskrivs protokollet för identifiering och karakterisering av biomarkörer inom olika grupper. Detta protokoll kan enkelt anpassas för andra provtyper, såsom OTU av mikroorganismer. Den statistiska metoden med LEfSe kan hitta de karakteristiska mikroorganismerna i varje grupp (standard är LDA >2), det vill säga de mikroorganismer som är rikligare i denna grupp i förhållande till de andra12. LEfSe finns i både inbyggda och webb-Linux-versioner där användare också kan utföra LEfSe-analys på webbsidor. LEfSe är baserad på LDA-algoritmen och behöver en artnivå för att rita ett artträd. Genom tillämpning av verktyget kan det relativa överflödet mellan grupper jämföras. Alla differentiella biomarkörer kan ritas i ett enda diagram. Dessutom kan en enda biomarkör eller alla biomarkörer ritas i satser.

Oavsett om LEfSe utförs via den inbyggda servern eller en online-webbplats, finns det många avstämbara parametrar för att rita de nödvändiga bilderna. På grund av den komplexa strukturen hos indatafiler och behovet av att konvertera dem till föredragna dataformat för vidare analyser av LEfSe har vissa one-stop-tjänster också utvecklats. Därför kan optimering av enklare operationer vara utmanande. Å andra sidan finns det några begränsningar när man analyserar komplexa data med LEfSe. LDA projicerar en funktion som är en dimension mindre än kategorin, och om fler funktioner behövs introduceras andra metoder. Varianterna av LDA kan lösa vissa svårigheter. Till exempel är Kernel LDA en lösning om originaldata inte kan separeras väl efter projektion. Eftersom mängden beräkning av LDA är relaterad till dimensionen av data kan 2DLDA kraftigt minska mängden beräkning av LDA. Både LDA och PCA är vanliga dimensionalitetsreduceringstekniker. PCA (Principal Component Analysisis) dimensionalitetsreduktion är direkt relaterad till datadimensionen, och det projicerade koordinatsystemet är ortogonalt. LDA fokuserar dock på klassificeringsförmågan enligt märkning av kategorier, så det projicerade koordinatsystemet är i allmänhet inte ortogonalt.

LEfSe hjälper till att välja biomarkörer. Med många fördelar (t.ex. justerbara parametrar, detaljerade resultat av olika delar, tillämpning mellan två eller flera grupper) har den använts i stor utsträckning13. Med ökande efterfrågan på högdimensionell dataanalys kommer tillämpningen av denna metod att bli mer och mer omfattande för att utforska biomarkörerna för de funktioner (organismer, klader, operativa taxonomiska enheter, gener eller funktioner) som påverkar människors hälsa och sjukdom.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Författarna har inget att avslöja.

Acknowledgments

Detta arbete stöddes av ett bidrag från fundamentala forskningsfonder för Central Public Welfare Research Institutes (TKS170205) och Foundation for Development of Science and Technology, och Tianjin Research Institute for Water Transport Engineering (TIWTE), M.O.T. (KJFZJJ170201).

Materials

Name Company Catalog Number Comments
No materials used

DOWNLOAD MATERIALS LIST

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. McIver, M., Sayoldin, B., Shafquat, A. Biobakery / lefse [tool]. , Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019).
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Tags

Genetik utgåva 183 LEfSe Biomarkör Genom Biologisk mångfald Statistisk skillnad Biologisk korrelation
Assisterat urval av biomarkörer genom linjär diskriminant analyseffektstorlek (LEfSe) i mikrobiomdata
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Chang, F., He, S., Dang, C. Assisted More

Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter