Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Assistert utvalg av biomarkører ved lineær diskriminerende analyseeffektstørrelse (LEfSe) i mikrobiomedata

Published: May 16, 2022 doi: 10.3791/61715
* These authors contributed equally

Summary

LEfSe (LDA Effect Size) er et verktøy for høydimensjonal biomarkørutvinning for å identifisere genomiske egenskaper (for eksempel gener, veier og taksonomier) som betydelig karakteriserer to eller flere grupper i mikrobiomedata.

Abstract

Det er økende oppmerksomhet mot lukkede biologiske genomer i miljøet og i helse. For å utforske og avdekke intergruppeforskjellene mellom ulike prøver eller miljøer, er det avgjørende å oppdage biomarkører med statistiske forskjeller mellom grupper. Anvendelsen av lineær diskriminerende analyse Effektstørrelse (LEfSe) kan bidra til å finne gode biomarkører. Basert på de opprinnelige genomdataene utføres kvalitetskontroll og kvantifisering av forskjellige sekvenser basert på taxa eller gener. For det første ble Kruskal-Wallis-rangtesten brukt til å skille mellom spesifikke forskjeller mellom statistiske og biologiske grupper. Deretter ble Wilcoxon-rangeringstesten utført mellom de to gruppene som ble oppnådd i forrige trinn for å vurdere om forskjellene var konsistente. Til slutt ble det utført en lineær diskriminerende analyse (LDA) for å evaluere biomarkørers påvirkning på betydelig forskjellige grupper basert på LDA-score. For å oppsummere ga LEfSe bekvemmeligheten for å identifisere genomiske biomarkører som karakteriserer statistiske forskjeller mellom biologiske grupper.

Introduction

Biomarkører er biologiske egenskaper som kan måles og kan indikere noen fenomener som infeksjon, sykdom eller miljø. Blant dem kan funksjonelle biomarkører være spesifikke biologiske funksjoner av enkeltarter eller felles for noen arter, for eksempel gen, protein, metabolitt og stier. Dessuten indikerer taksonomiske biomarkører en uvanlig art, en gruppe organismer (rike, phylum, klasse, orden, familie, slekt, arter), Amplicon Sequence Varient (ASV)1 eller Operational Taxonomic Unit (OTU)2. For å finne biomarkører raskere og mer nøyaktig, er det nødvendig med et verktøy for å analysere de biologiske dataene. Forskjellene mellom klasser kan forklares av LEfSe kombinert med standardtester for statistisk signifikans og ytterligere tester som koder biologisk konsistens og effektrelevans3. LEfSe er tilgjengelig som en galaksemodul, en conda-formel, et docker-bilde og inkludert i bioBakery (VM og cloud)4. Generelt bruker analysen av mikrobielt mangfold ofte en ikke-parametrisk test for usikker fordeling av et utvalgssamfunn. Rangeringssumtesten er en ikke-parametrisk testmetode, som bruker utvalgsrangeringen til å erstatte verdien av prøver. I henhold til forskjellen i utvalgsgrupper kan den deles inn i to prøver med Wilcoxon-rangeringssumtesten og i flere prøver med Kruskal-Wallis-testen 5,6. Spesielt når det er betydelige forskjeller mellom flere grupper av prøver, bør det utføres en rangeringssumtest av parvis sammenligning av flere prøver. LDA (som står for Linear Discriminant Analysis) oppfunnet av Ronald Fisher i 1936, er en type veiledet læring, også kjent som Fisher's Linear Discriminant7. Det er en klassisk og populær algoritme innen det nåværende feltet maskinlæringsdatautvinning.

Her er LEfSe-analysen optimalisert av Conda- og Galaxy-servere. Tre grupper av 16S rRNA gensekvenser analyseres for å demonstrere de signifikante forskjellene mellom ulike grupper med LDA-skår av mikrobielle samfunn og visualiseringsresultater.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

MERK: Protokollen ble hentet og modifisert fra forskningen til Segata et al.3. Metoden er angitt på https://bitbucket.org/biobakery/biobakery/wiki/lefse.

1. Utarbeidelse av inndatafil for analyse

  1. Klargjør inndatafilen (tabell 1) for LEfSe, som enkelt kan genereres av mange arbeidsflyter8 eller tidligere protokoller9 med de opprinnelige filene (eksempelfil og tilsvarende artmerknadsfil).

2. LEfSe innfødt analyse (begrenset til Linux-serveren)

  1. Installasjon av LEfSe
    MERK: LEfSe-rørledningen anbefales å installeres med Conda10.
    1. Kjør følgende kommandoer for å utelate muligheten for avhengighetskonflikt. Opprett et conda-miljø for LEfSe (dette trinnet anbefales, men ikke nødvendig).). -n står for miljønavnet.
      $ conda opprette -n LEfSe-env
    2. Hvis du vil aktivere LEfSe-miljøet som ble opprettet, kjører du:
      $ kilde aktivere LEfSe-env
    3. Hvis du vil installere LEfSe med kanalbioBakery der -c står for kanalnavn, kjører du:
      $ conda installere -c biobakery lefse
  2. Formatere data for LEfSe
    1. Kjør følgende kommando for å formatere den opprinnelige filen til det interne formatet for LEfSe. Tabell.txt er inndatafilen, og Table-reformat.in er utdatafilen. -c brukes til å angi funksjonen, som brukes som klasse (standard 1) og -o brukes til å angi normaliseringsverdien (standard -1,0 betyr ingen normalisering).
      $ format_input.py Tabell.txt Table-reformat.in -c 1 -o 10000000
  3. Beregning av lineær diskriminerende analyse (LDA) effektstørrelse
    1. Kjør følgende kommando. Formålet med dette trinnet er å utføre LDA for det forrige resultatet og generere resultatfilen for visualiseringen. Table-reformat.in genereres ved hjelp av forrige trinn og brukes som inndatafil i dette trinnet. Table-reformat.res er resultatfilen.
      $ run_lefse.py Table-reformat.in Tabell -reformat.res
  4. Visualisering etter plott
    1. Tegn inn LEfSe-resultatene. Å plotte effektstørrelsen på biomarkørene i en pdf-fil,. Table-reformat.res genereres ved hjelp av forrige trinn, og LDA.pdf er plottfilen. – brukes til å angi utdatafilformatet.
      $ plot_res.py Table-reformat.res LDA.pdf --format pdf
    2. Plott kladogrammet. Å tegne arten treet og vise biomarkører i et cladogram. cladogram.pdf er utdatafilen.
      $ plot_cladogram.py Table-reformat.res kleddogram.pdf --format pdf
    3. Tegne inn én funksjon (valgfritt) Å plotte forskjellene i en enkelt biomarkør blant forskjellige grupper. -f brukes til å angi funksjonene i plottet. Hvis det ble angitt en, må –feature_name angis.
      $ plot_features.py -f en --feature_name "k__Bacteria.p__Firmicutes.c__Bacilli.o__Bacillales" --format pdf Table-reformat.in Table-reformat.res Bacillales.pdf
    4. Plott differensialfunksjonene (valgfritt) for å tegne alle funksjonene, men det er for mye å gjøre med forsiktighet. --archive brukes til å velge om resultatene skal komprimeres. ./ betyr banen til resultatene.
      $ plot_features.py -f diff --arkiv ingen --format pdf Table-reformat.in Table-reformat.res ./

3. LEfSe online analyse (galakse)

  1. Gå til huttenhower Galaxy Server11: http://huttenhower.sph.harvard.edu/galaxy.
  2. Last opp filene. Trykk PIL OPP-knappen i ruten til venstre og last opp filen. Klikk på Velg lokal fil for å velge inndatafilen og velg formatet tabellformet, og klikk deretter på Start-knappen .
    MERK: Henvist til nettsiden (https://bitbucket.org/biobakery/biobakery/wiki/lefse), bruk skriptet (taxonomy_summary. R) for å generere inndatafilen til LEfSe, og formatet (hver kolonne med et gruppenavn, kreves hver linje med et annet merknadsnivå atskilt med "|") som vist i tabell 1. En skjematisk oversikt over opplastingsprosessen vises i figur 1.
  3. Formater dataene for LEfSe. Klikk på LEfSe | Formater data for LEfSe-kobling i venstre rute, og velg de spesifikke radene for klassen i filen, og klikk på Kjør-knappen . En skjematisk oversikt over driftsprosessen og parameterne som brukes, vises i figur 2.
  4. Beregn LDA-effektstørrelsen. Klikk på LEfSe | LDA Effect Size (LEfSe)- koblingen i den venstre ruten, og velg parameterverdier i henhold til analysekravene. Klikk på Utfør. En skjematisk oversikt over driftsprosessen og parameterne som brukes, vises i figur 3.
  5. Tegn inn LEfSe-resultatene. Klikk på LEfSe | Tegn LEfSe Results-koblingen i den venstre ruten, og klikk på Kjør-knappen . En skjematisk oversikt over driftsprosessen og parameterne som brukes, vises i figur 4.
  6. Plott kladogrammet. Klikk på Plot Cladogram i venstre rute, og klikk på Utfør-knappen etter å ha valgt parameterverdiene. En skjematisk oversikt over driftsprosessen og parameterne som brukes, vises i figur 5.
  7. Plott en funksjon ved å klikke på Plot One Feature i venstre rute, og klikk på Utfør-knappen etter å ha valgt parameterverdier. En skjematisk oversikt over driftsprosessen og parameterne som brukes, vises i figur 6.
  8. Tegn differensialfunksjoner ved å klikke Påtegning differensialfunksjoner i venstre rute, og klyp på Utfør-knappen etter å ha valgt parameterverdier. En skjematisk oversikt over driftsprosessen og parameterne som brukes, vises i figur 7.
    MERK: Disse genererte tallene kan visualiseres og lastes ned mot de resulterende utgangene i høyre rute.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

LDA-skårene for mikrobielle samfunn med signifikante forskjeller i hver gruppe ved å analysere 16S rRNA-gensekvensene av tre prøver er vist i figur 8. Fargen på histogrammet representerer forskjellige grupper, mens lengden representerer LDA-poengsummen, som er artens innflytelse med betydelige forskjeller mellom forskjellige grupper. Histogrammet viser arten med betydelige forskjeller hvis LDA-poengsum er større enn den forhåndsinnstilte verdien. Standard forhåndsinnstilt verdi er 2,0, så bare absolutte verdier for LDA-poengsum (abscissa) større enn 2,0 vises i plottet.

Biomarkørene med signifikant forskjell og artstre mellom ulike klassifiseringsnivåer er vist i figur 9. Sirklene som stråler fra innsiden til utsiden representerer klassifiseringsnivåene fra phylum til slekt (den innerste gule sirkelen er riket). Diameteren på hver liten sirkel på de forskjellige klassifiseringsnivåene representerer størrelsen på relativ overflod. Arten uten signifikant forskjell er jevnt farget gul, og de betydelig forskjellige artene biomarkører er farget med de tilsvarende gruppene. Klassene A, B og C er gruppenavnene på mikrobielle prøver som samles inn. Røde noder representerer de mikrobielle gruppene som spiller en viktig rolle i den røde gruppen (A); grønne noder representerer de mikrobielle gruppene som spiller en viktig rolle i den grønne gruppen (B); og blå noder representerer de mikrobielle gruppene som spiller en viktig rolle i den blå gruppen (C). Det tilsvarende artsnavnet til biomarkørene som ikke er vist på tomten, vises på høyre side, og bokstavnumrene tilsvarer det i tomten (viser bare differensialarter fra fylumen til familien som standard for estetiske formål).

Overfloden av en biomarkør som har forskjeller mellom ulike grupper i henhold til LEfSe-resultatene, er vist i figur 10. I den relative overflodsbarploten representerer den heltrukne linjen den gjennomsnittlige relative overfloden, den stiplede linjen representerer median relativ overflod, og hver kolonne representerer den relative overfloden av hver prøve i forskjellige grupper.

Tabell 1: Eksempelfilen for LEfSe-analyse på nett. Klikk her for å laste ned denne tabellen.

Figure 1
Figur 1: Skjematisk oversikt over opplastingsprosessen. Klikk på de røde tallene i sekvensiell rekkefølge på figuren. Klikk her for å se en større versjon av denne figuren.

Figure 2
Figur 2: Skjematisk oversikt over driftsprosessen for endring av dataformat. Klikk på de røde tallene i sekvensiell rekkefølge på figuren. Klikk her for å se en større versjon av denne figuren.

Figure 3
Figur 3: Skjematisk oversikt over driftsprosessen for beregning av LDA-effektstørrelse. Klikk på de røde tallene i sekvensiell rekkefølge på figuren. Klikk her for å se en større versjon av denne figuren.

Figure 4
Figur 4: Skjematisk oversikt over driftsprosessen for plotting av LEfSe-resultater. Klikk på de røde tallene i sekvensiell rekkefølge på figuren. Klikk her for å se en større versjon av denne figuren.

Figure 5
Figur 5: Skjematisk oversikt over driftsprosessen for plotting av cladogram. Klikk på de røde tallene i sekvensiell rekkefølge på figuren. Klikk her for å se en større versjon av denne figuren.

Figure 6
Figur 6: Skjematisk oversikt over driftsprosessen for plotting av én funksjon. Klikk på de røde tallene i sekvensiell rekkefølge på figuren. Klikk her for å se en større versjon av denne figuren.

Figure 7
Figur 7: Skjematisk oversikt over driftsprosessen for plotting av differensialfunksjoner. Klikk på de røde tallene i sekvensiell rekkefølge på figuren. Klikk her for å se en større versjon av denne figuren.

Figure 8
Figur 8: Histogram for fordelingen av LDA-verdier. LDA-skår av mikrobielle samfunn med signifikante forskjeller i hver gruppe ble analysert av LDA Effect Size i henhold til deres påvirkninger og korrelasjoner. Klikk her for å laste ned denne figuren.

Figure 9
Figur 9: Cladogram. Den typiske tomten til kladogrammet oppnådd av protokollen, noe som muliggjør representasjon av forskjellen mellom forskjellige klassifiseringsnivåer på tre grupper. Klikk her for å se en større versjon av denne figuren.

Figure 10
Figur 10: Ett funksjonstegning. Overflodsbarploten til en biomarkør som har forskjeller mellom ulike grupper i henhold til LEfSe-results.is vist. Klikk her for å se en større versjon av denne figuren.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Her beskrives protokollen for identifisering og karakterisering av biomarkører i ulike grupper. Denne protokollen kan enkelt tilpasses andre utvalgstyper, for eksempel OTUer av mikroorganismer. Den statistiske metoden av LEfSe kan finne de karakteristiske mikroorganismer i hver gruppe (standard er LDA >2), det vilt mikroorganismer som er mer rikelig i denne gruppen i forhold til de andre12. LEfSe er tilgjengelig i både innfødte og web Linux-versjoner der brukere også kan utføre LEfSe-analyse på nettsider. LEfSe er basert på LDA-algoritmen og trenger et artsnivå for å tegne et artstre. Ved påføring av verktøyet kan den relative overfloden mellom grupper sammenlignes. Alle differensialbiomarkører kan plottes i en enkelt graf. Også en enkelt biomarkør eller alle biomarkører kan plottes i partier.

Enten LEfSe utføres gjennom den opprinnelige serveren eller et nettsted, er det mange justerbare parametere for å tegne de nødvendige bildene. På grunn av den komplekse strukturen til inndatafiler og behovet for å konvertere dem til foretrukne dataformater for videre analyser av LEfSe, er det også utviklet noen one-stop-tjenester. Derfor kan optimalisering av enklere operasjoner være utfordrende. På den annen side er det noen begrensninger når du analyserer komplekse data ved hjelp av LEfSe. LDA projiserer en funksjon som er én dimensjon mindre enn kategorien, og hvis det er behov for flere funksjoner, introduseres andre metoder. Variantene av LDA kan løse noen vanskeligheter. Kjerne-LDA er for eksempel en løsning hvis de opprinnelige dataene ikke kan separeres i god tid etter projeksjon. Fordi mengden beregning av LDA er relatert til datadimensjonen, kan 2DLDA i stor grad redusere beregningsmengden til LDA. Både LDA og PCA er ofte brukte dimensjonalitetsreduksjonsteknikker. PCA (Principal Component Analysisis) dimensjonalitetsreduksjon er direkte relatert til datadimensjonen, og det projiserte koordinatsystemet er ortogonalt. LDA fokuserer imidlertid på klassifiseringsevnen i henhold til merking av kategorier, slik at det projiserte koordinatsystemet generelt ikke er ortogonalt.

LEfSe bistår med valg av biomarkører. Med mange fordeler (f.eks. justerbare parametere, detaljerte resultater av ulike deler, anvendelse mellom to eller flere grupper), har det blitt mye brukt13. Med økende etterspørsel etter høydimensjonal dataanalyse vil anvendelsen av denne metoden bli mer og mer omfattende for å utforske biomarkørene til funksjonene (organismer, clades, operasjonelle taksonomiske enheter, gener eller funksjoner) som påvirker menneskers helse og sykdom.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Forfatterne har ingenting å avsløre.

Acknowledgments

Dette arbeidet ble støttet av et stipend fra Fundamental Research Funds for Central Public Welfare Research Institutes (TKS170205) og Foundation for Development of Science and Technology, og Tianjin Research Institute for Water Transport Engineering (TIWTE), M.O.T. (KJFZJJ170201).

Materials

Name Company Catalog Number Comments
No materials used

DOWNLOAD MATERIALS LIST

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. McIver, M., Sayoldin, B., Shafquat, A. Biobakery / lefse [tool]. , Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019).
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Tags

Genetikk Utgave 183 LEfSe Biomarkør Genom Biologisk mangfold Statistisk forskjell Biologisk korrelasjon
Assistert utvalg av biomarkører ved lineær diskriminerende analyseeffektstørrelse (LEfSe) i mikrobiomedata
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Chang, F., He, S., Dang, C. Assisted More

Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter