Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Selezione assistita di biomarcatori mediante LEfSe (Linear Discriminant Analysis Effect Size) nei dati del microbioma

Published: May 16, 2022 doi: 10.3791/61715
* These authors contributed equally

Summary

LEfSe (LDA Effect Size) è uno strumento per l'estrazione di biomarcatori ad alta dimensione per identificare caratteristiche genomiche (come geni, percorsi e tassonomie) che caratterizzano in modo significativo due o più gruppi nei dati del microbioma.

Abstract

C'è una crescente attenzione verso i genomi biologici chiusi nell'ambiente e nella salute. Per esplorare e rivelare le differenze tra i diversi campioni o ambienti, è fondamentale scoprire biomarcatori con differenze statistiche tra i gruppi. L'applicazione dell'analisi lineare discriminante Effect Size (LEfSe) può aiutare a trovare buoni biomarcatori. Sulla base dei dati del genoma originale, vengono effettuati il controllo di qualità e la quantificazione di diverse sequenze basate su taxa o geni. In primo luogo, il test di rango di Kruskal-Wallis è stato utilizzato per distinguere tra differenze specifiche tra gruppi statistici e biologici. Quindi, è stato eseguito il test di rango di Wilcoxon tra i due gruppi ottenuti nella fase precedente per valutare se le differenze erano coerenti. Infine, è stata condotta un'analisi discriminante lineare (LDA) per valutare l'influenza dei biomarcatori su gruppi significativamente diversi in base ai punteggi LDA. Per riassumere, LEfSe ha fornito la comodità per identificare i biomarcatori genomici che caratterizzano le differenze statistiche tra i gruppi biologici.

Introduction

I biomarcatori sono caratteristiche biologiche che possono essere misurate e possono indicare alcuni fenomeni come infezioni, malattie o ambiente. Tra questi, i biomarcatori funzionali possono essere funzioni biologiche specifiche di singole specie o comuni ad alcune specie, come geni, proteine, metaboliti e percorsi. Inoltre, i biomarcatori tassonomici indicano una specie insolita, un gruppo di organismi (regno, phylum, classe, ordine, famiglia, genere, specie), l'Amplicon Sequence Varient (ASV)1 o l'Operational Taxonomic Unit (OTU)2. Per trovare i biomarcatori in modo più rapido e accurato, è necessario uno strumento per analizzare i dati biologici. Le differenze tra le classi possono essere spiegate da LEfSe abbinato a test standard per la significatività statistica e test aggiuntivi che codificano la coerenza biologica e la rilevanza dell'effetto3. LEfSe è disponibile come modulo galattico, formula conda, immagine docker e incluso in bioBakery (VM e cloud)4. Generalmente, l'analisi della diversità microbica utilizza spesso un test non parametrico per la distribuzione incerta di una comunità campione. Il test rank sum è un metodo di test non parametrico, che utilizza il rango dei campioni per sostituire il valore dei campioni. In base alla differenza dei gruppi di campioni, può essere diviso in due campioni con il test di somma di rango di Wilcoxon e in più campioni con il test di Kruskal-Wallis 5,6. In particolare, quando ci sono differenze significative tra più gruppi di campioni, è necessario eseguire un test di rango di confronto a coppie di più campioni. LDA (che sta per Linear Discriminant Analysis) inventato da Ronald Fisher nel 1936, è un tipo di apprendimento supervisionato, noto anche come Fisher's Linear Discriminant7. È un algoritmo classico e popolare nell'attuale campo del data mining di machine learning.

Qui, il test LEfSe è stato ottimizzato dai server Conda e Galaxy. Tre gruppi di sequenze di geni rRNA 16S vengono analizzati per dimostrare le differenze significative tra i diversi gruppi con punteggi LDA di comunità microbiche e risultati di visualizzazione.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

NOTA: Il protocollo è stato originato e modificato dalla ricerca di Segata et al.3. Il metodo è fornito in https://bitbucket.org/biobakery/biobakery/wiki/lefse.

1. Preparazione del file di input per l'analisi

  1. Preparare il file di input (Tabella 1) di LEfSe, che potrebbe essere facilmente generato da molti flussi di lavoro8 o protocolli precedenti9 con i file originali (file di esempio e file di annotazione delle specie corrispondenti).

2. Analisi nativa LEfSe (limitata al server Linux)

  1. Installazione di LEfSe
    NOTA: si consiglia di installare la pipeline LEfSe con Conda10.
    1. Eseguire i comandi seguenti per escludere la possibilità di conflitti di dipendenze. Creare un ambiente conda per LEfSe (questo passaggio è consigliato ma non obbligatorio). -n sta per il nome dell'ambiente.
      $ conda create -n LEfSe-env
    2. Per attivare l'ambiente LEfSe creato, eseguire:
      $ source attiva LEfSe-env
    3. Per installare LEfSe con il canale bioBakery dove -c sta per nome canale, eseguire:
      $ conda install -c biobakery lefse
  2. Formattare i dati per LEfSe
    1. Eseguire il comando seguente per formattare il file originale nel formato interno per LEfSe. Table.txt è il file di input e Table-reformat.in è il file di output. -c viene utilizzato per impostare la funzionalità, che viene utilizzata come classe (predefinito 1) e -o viene utilizzato per impostare il valore di normalizzazione (default -1.0 che significa nessuna normalizzazione).
      $ format_input.py Tabella.txt Table-reformat.in -c 1 -o 1000000
  3. Calcolo della dimensione dell'effetto di analisi discriminante lineare (LDA)
    1. Eseguire il comando seguente. Lo scopo di questo passaggio è eseguire LDA del risultato precedente e generare il file dei risultati per la visualizzazione. Table-reformat.in viene generato utilizzando il passaggio precedente e viene utilizzato come file di input in questo passaggio. Table-reformat.res è il file di risultato.
      $ run_lefse.py Table-reformat.in Tabella-reformat.res
  4. Visualizzazione per grafici
    1. Traccia i risultati LEfSe. Per tracciare la dimensione dell'effetto dei biomarcatori in un file pdf,. Table-reformat.res viene generato utilizzando il passaggio precedente e LDA.pdf è il file di plottaggio. –format viene utilizzato per impostare il formato del file di output.
      $ plot_res.py Table-reformat.res LDA.pdf --formato pdf
    2. Traccia il cladogramma. Per disegnare l'albero delle specie e visualizzare i biomarcatori in un cladogramma. cladogram.pdf è il file di output.
      $ plot_cladogram.py Cladogramma Table-reformat.res.pdf --formato pdf
    3. Traccia una feature (opzionale) Tracciare le differenze di un singolo biomarcatore tra diversi gruppi. -f viene utilizzato per impostare le caratteristiche della trama. Se ne è stato impostato uno, deve essere dato il –feature_name.
      $ plot_features.py -f one --feature_name "k__Bacteria.p__Firmicutes.c__Bacilli.o__Bacillales" --formato pdf Table-reformat.in Table-reformat.res Bacillales.pdf
    4. Tracciate le feature differenziali (facoltative) per disegnare tutte le feature, ma c'è troppo da fare con cautela. --archive viene utilizzato per scegliere se comprimere i risultati. ./ indica il percorso dei risultati.
      $ plot_features.py -f diff --archive none --format pdf Table-reformat.in Table-reformat.res ./

3. Analisi online LEfSe (galassia)

  1. Vai al server galaxy huttenhower11: http://huttenhower.sph.harvard.edu/galaxy.
  2. Carica i file. Premere il pulsante freccia SU nel riquadro di sinistra e caricare il file. Fare clic su Scegli file locale per selezionare il file di input e selezionare il formato tabulare, quindi fare clic sul pulsante Start .
    NOTA: fare riferimento alla pagina Web (https://bitbucket.org/biobakery/biobakery/wiki/lefse), utilizzare lo script (taxonomy_summary. R) per generare il file di input di LEfSe, e il formato (ogni colonna con un nome di gruppo, ogni riga con un diverso livello di annotazione separata da "|") è richiesto come mostrato nella Tabella 1. Una panoramica schematica del processo di caricamento è illustrata nella Figura 1.
  3. Formattare i dati per LEfSe. Clicca sul | LEfSe Formattare il collegamento Dati per LEfSe nel riquadro di sinistra e selezionare le righe specifiche per la classe nel file e fare clic sul pulsante Esegui . Una panoramica schematica del processo operativo e dei parametri utilizzati è illustrata nella Figura 2.
  4. Calcola la dimensione dell'effetto LDA. Clicca sulla | LEfSe LDA Effect Size (LEfSe) nel riquadro di sinistra e selezionare i valori dei parametri in base ai requisiti di analisi. Fare clic su Esegui. Una panoramica schematica del processo operativo e dei parametri utilizzati è illustrata nella Figura 3.
  5. Traccia i risultati LEfSe. Clicca sulla | LEfSe Traccia il collegamento Risultati LEfSe nel riquadro di sinistra e fai clic sul pulsante Esegui . Una panoramica schematica del processo operativo e dei parametri utilizzati è illustrata nella Figura 4.
  6. Traccia il cladogramma. Fare clic su Plot Cladogram nel riquadro di sinistra e fare clic sul pulsante Esegui dopo aver selezionato i valori dei parametri. Una panoramica schematica del processo operativo e dei parametri utilizzati è illustrata nella Figura 5.
  7. Tracciate una feature facendo clic su Stampa una feature nel riquadro sinistro e facendo clic sul pulsante Esegui dopo aver selezionato i valori dei parametri. Una panoramica schematica del processo operativo e dei parametri utilizzati è illustrata nella Figura 6.
  8. Tracciate le feature differenziali facendo clic su Traccia feature differenziali (Plot Differential Features ) nel riquadro sinistro e facendo clic sul pulsante Esegui (Execute ) dopo aver selezionato i valori dei parametri. Una panoramica schematica del processo operativo e dei parametri utilizzati è illustrata nella Figura 7.
    NOTA: queste figure generate possono essere visualizzate e scaricate rispetto all'output risultante nel riquadro di destra.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

I punteggi LDA delle comunità microbiche con differenze significative in ciascun gruppo analizzando le sequenze del gene rRNA 16S di tre campioni sono mostrati nella Figura 8. Il colore dell'istogramma rappresenta diversi gruppi, mentre la lunghezza rappresenta il punteggio LDA, che è l'influenza della specie con differenze significative tra i diversi gruppi. L'istogramma mostra le specie con differenze significative il cui punteggio LDA è maggiore del valore preimpostato. Il valore predefinito predefinito è 2.0, quindi nel grafico vengono visualizzati solo i valori assoluti del punteggio LDA (ascissa) maggiore di 2.0.

I biomarcatori con differenza significativa e l'albero delle specie tra i diversi livelli di classificazione sono mostrati nella Figura 9. I cerchi che si irradiano dall'interno verso l'esterno rappresentano i livelli di classificazione dal phylum al genere (il cerchio giallo più interno è il regno). Il diametro di ogni piccolo cerchio ai diversi livelli di classificazione rappresenta la dimensione dell'abbondanza relativa. Le specie senza differenze significative sono uniformemente colorate di giallo e i biomarcatori di specie significativamente diverse sono colorati con i gruppi corrispondenti. Le classi A, B e C sono i nomi dei gruppi di campioni microbici raccolti. I nodi rossi rappresentano i gruppi microbici che svolgono un ruolo importante nel gruppo rosso (A); i nodi verdi rappresentano i gruppi microbici che svolgono un ruolo importante nel gruppo verde (B); e i nodi blu rappresentano i gruppi microbici che svolgono un ruolo importante nel gruppo blu (C). Il nome della specie corrispondente dei biomarcatori non mostrati nella trama sono mostrati sul lato destro e i numeri delle lettere corrispondono a quelli della trama (mostrando solo specie differenziali dal phylum alla famiglia per impostazione predefinita per scopi estetici).

L'abbondanza di un biomarcatore che presenta differenze tra diversi gruppi in base ai risultati LEfSe è mostrata nella Figura 10. Nel grafico a barre dell'abbondanza relativa, la linea continua rappresenta l'abbondanza relativa media, la linea tratteggiata rappresenta l'abbondanza relativa mediana e ogni colonna rappresenta l'abbondanza relativa di ciascun campione in diversi gruppi.

Tabella 1: Il file di esempio per l'analisi LEfSe online. Fare clic qui per scaricare questa tabella.

Figure 1
Figura 1: Panoramica schematica del processo di caricamento. Fare clic sui numeri rossi in ordine sequenziale sulla figura. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 2
Figura 2: Panoramica schematica del processo operativo per la modifica del formato dei dati. Fare clic sui numeri rossi in ordine sequenziale sulla figura. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 3
Figura 3: Panoramica schematica del processo operativo per il calcolo della dimensione dell'effetto LDA. Fare clic sui numeri rossi in ordine sequenziale sulla figura. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 4
Figura 4: Panoramica schematica del processo operativo per il grafico dei risultati LEfSe. Fare clic sui numeri rossi in ordine sequenziale sulla figura. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 5
Figura 5: Panoramica schematica del processo operativo per il plottaggio del cladogramma. Fare clic sui numeri rossi in ordine sequenziale sulla figura. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 6
Figura 6: Panoramica schematica del processo operativo per il plottaggio di una feature. Fare clic sui numeri rossi in ordine sequenziale sulla figura. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 7
Figura 7: Panoramica schematica del processo operativo per il plottaggio di feature differenziali. Fare clic sui numeri rossi in ordine sequenziale sulla figura. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 8
Figura 8: Istogramma della distribuzione dei valori LDA. I punteggi LDA delle comunità microbiche con differenze significative in ciascun gruppo sono stati analizzati da LDA Effect Size in base alle loro influenze e correlazioni. Fare clic qui per scaricare questa figura.

Figure 9
Figura 9: Cladogramma. La trama tipica del cladogramma ottenuta dal protocollo, che consente la rappresentazione della differenza tra diversi livelli di classificazione di tre gruppi. Fare clic qui per visualizzare una versione più grande di questa figura.

Figure 10
Figura 10: Un grafico di feature. Viene mostrata la barplot di abbondanza di un biomarcatore che presenta differenze tra diversi gruppi secondo l'LEfSe results.is. Fare clic qui per visualizzare una versione più grande di questa figura.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Qui viene descritto il protocollo per l'identificazione e la caratterizzazione dei biomarcatori all'interno di diversi gruppi. Questo protocollo può essere facilmente adattato ad altri tipi di campioni, come le OTU di microrganismi. Il metodo statistico di LEfSe può trovare i microrganismi caratteristici in ciascun gruppo (il default è LDA >2), cioè i microrganismi che sono più abbondanti in questo gruppo rispetto agli altri12. LEfSe è disponibile sia in versione nativa che web Linux in cui gli utenti possono anche eseguire analisi LEfSe su pagine web. LEfSe si basa sull'algoritmo LDA e ha bisogno di un livello di specie per disegnare un albero di specie. Con l'applicazione dello strumento, è possibile confrontare l'abbondanza relativa tra i gruppi. Tutti i biomarcatori differenziali potrebbero essere tracciati in un unico grafico. Inoltre, un singolo biomarcatore o tutti i biomarcatori possono essere tracciati in lotti.

Sia che LEfSe venga eseguito tramite il server nativo o un sito online, ci sono molti parametri sintonizzabili per disegnare le immagini richieste. A causa della complessa struttura dei file di input e della necessità di convertirli in formati di dati preferiti per ulteriori analisi di LEfSe, sono stati sviluppati anche alcuni servizi one-stop. Pertanto, l'ottimizzazione di operazioni più semplici può essere impegnativa. D'altra parte, ci sono alcune limitazioni quando si analizzano dati complessi utilizzando LEfSe. LDA proietta una funzionalità che è una dimensione inferiore alla categoria e, se sono necessarie più funzionalità, vengono introdotti altri metodi. Le varianti di LDA possono risolvere alcune difficoltà. Ad esempio, Kernel LDA è una soluzione se i dati originali non possono essere separati bene dopo la proiezione. Poiché la quantità di calcolo di LDA è correlata alla dimensione dei dati, 2DLDA può ridurre notevolmente la quantità di calcolo di LDA. Sia LDA che PCA sono tecniche di riduzione della dimensionalità comunemente usate. La riduzione della dimensionalità PCA (Principal Component Analysisis) è direttamente correlata alla dimensione dei dati e il sistema di coordinate proiettato è ortogonale. Tuttavia, LDA si concentra sulla capacità di classificazione in base all'etichettatura delle categorie, quindi il sistema di coordinate proiettato non è generalmente ortogonale.

LEfSe fornisce assistenza per la selezione dei biomarcatori. Con molti vantaggi (ad esempio, parametri regolabili, risultati dettagliati di varie parti, applicazione tra due o più gruppi), è stato ampiamente utilizzato13. Con la crescente domanda di analisi dei dati ad alta dimensione, l'applicazione di questo metodo diventerà sempre più ampia per esplorare i biomarcatori delle caratteristiche (organismi, cladi, unità tassonomiche operative, geni o funzioni) che hanno un impatto sulla salute umana e sulle malattie.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non hanno nulla da rivelare.

Acknowledgments

Questo lavoro è stato sostenuto da una sovvenzione dei Fondi di ricerca fondamentale per gli Istituti centrali di ricerca sul benessere pubblico (TKS170205) e la Fondazione per lo sviluppo della scienza e della tecnologia e dell'Istituto di ricerca di Tianjin per l'ingegneria del trasporto idrico (TIWTE), M.O.T. (KJFZJJ170201).

Materials

Name Company Catalog Number Comments
No materials used

DOWNLOAD MATERIALS LIST

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. McIver, M., Sayoldin, B., Shafquat, A. Biobakery / lefse [tool]. , Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019).
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Tags

Genetica Numero 183 LEfSe Biomarcatore Genoma Biodiversità Differenza statistica Correlazione biologica
Selezione assistita di biomarcatori mediante LEfSe (Linear Discriminant Analysis Effect Size) nei dati del microbioma
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Chang, F., He, S., Dang, C. Assisted More

Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter