Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Selección asistida de biomarcadores mediante análisis discriminante lineal del tamaño del efecto (LEfSe) en datos de microbioma

Published: May 16, 2022 doi: 10.3791/61715
* These authors contributed equally

Summary

LEfSe (LDA Effect Size) es una herramienta para la minería de biomarcadores de alta dimensión para identificar características genómicas (como genes, vías y taxonomías) que caracterizan significativamente dos o más grupos en datos de microbiomas.

Abstract

Hay una creciente atención hacia los genomas biológicos cerrados en el medio ambiente y en la salud. Para explorar y revelar las diferencias intergrupales entre diferentes muestras o entornos, es crucial descubrir biomarcadores con diferencias estadísticas entre grupos. La aplicación del análisis discriminante lineal Effect Size (LEfSe) puede ayudar a encontrar buenos biomarcadores. A partir de los datos originales del genoma, se lleva a cabo el control de calidad y cuantificación de diferentes secuencias basadas en taxones o genes. En primer lugar, se utilizó la prueba de rango de Kruskal-Wallis para distinguir entre diferencias específicas entre grupos estadísticos y biológicos. Luego, se realizó la prueba de rango de Wilcoxon entre los dos grupos obtenidos en el paso anterior para evaluar si las diferencias eran consistentes. Finalmente, se realizó un análisis discriminante lineal (LDA) para evaluar la influencia de los biomarcadores en grupos significativamente diferentes en función de las puntuaciones de LDA. En resumen, LEfSe proporcionó la conveniencia de identificar biomarcadores genómicos que caracterizan las diferencias estadísticas entre los grupos biológicos.

Introduction

Los biomarcadores son características biológicas que se pueden medir y pueden indicar algunos fenómenos como la infección, la enfermedad o el medio ambiente. Entre ellos, los biomarcadores funcionales pueden ser funciones biológicas específicas de una sola especie o comunes a algunas especies, como genes, proteínas, metabolitos y vías. Además, los biomarcadores taxonómicos indican una especie inusual, un grupo de organismos (reino, filo, clase, orden, familia, género, especie), el Variente de Secuencia de Amplicon (ASV)1 o la Unidad Taxonómica Operativa (OTU)2. Para encontrar biomarcadores de forma más rápida y precisa, es necesaria una herramienta para analizar los datos biológicos. Las diferencias entre clases pueden explicarse mediante LEfSe junto con pruebas estándar de significación estadística y pruebas adicionales que codifican la consistencia biológica y la relevancia del efecto3. LEfSe está disponible como un módulo de galaxia, una fórmula conda, una imagen docker e incluido en bioBakery (VM y cloud)4. En general, el análisis de la diversidad microbiana a menudo utiliza una prueba no paramétrica para la distribución incierta de una comunidad de muestras. La prueba de suma de rango es un método de prueba no paramétrico, que utiliza el rango de muestras para reemplazar el valor de las muestras. De acuerdo con la diferencia de grupos de muestras, se puede dividir en dos muestras con la prueba de suma de rango de Wilcoxon y en múltiples muestras con la prueba de Kruskal-Wallis 5,6. En particular, cuando hay diferencias significativas entre múltiples grupos de muestras, se debe realizar una prueba de suma de rangos de comparación por pares de múltiples muestras. LDA (que significa Análisis Discriminante Lineal) inventado por Ronald Fisher en 1936, es un tipo de aprendizaje supervisado, también conocido como Discriminante Lineal7 de Fisher. Es un algoritmo clásico y popular en el campo actual de la minería de datos de aprendizaje automático.

Aquí, el ensayo LEfSe ha sido optimizado por los servidores Conda y Galaxy. Se analizan tres grupos de secuencias de genes 16S rRNA para demostrar las diferencias significativas entre los diferentes grupos con puntuaciones LDA de comunidades microbianas y resultados de visualización.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

NOTA: El protocolo fue obtenido y modificado a partir de la investigación de Segata et al.3. El método se proporciona en https://bitbucket.org/biobakery/biobakery/wiki/lefse.

1. Preparación del archivo de entrada para el análisis

  1. Prepare el archivo de entrada (Tabla 1) de LEfSe, que podría ser generado fácilmente por muchos flujos de trabajo8 o protocolos anteriores9 con los archivos originales (archivo de muestra y archivo de anotación de especies correspondiente).

2. Análisis nativo LEfSe (limitado al servidor Linux)

  1. Instalación de LEfSe
    NOTA: Se recomienda instalar la canalización LEfSe con Conda10.
    1. Ejecute los siguientes comandos para excluir la posibilidad de conflicto de dependencias. Cree un entorno conda para LEfSe (este paso se recomienda pero no es obligatorio). -n significa el nombre del entorno.
      $ conda create -n LEfSe-env
    2. Para activar el entorno LEfSe que se creó, ejecute:
      $ fuente activar LEfSe-env
    3. Para instalar LEfSe con bioBakery de canal donde -c significa nombre de canal, ejecute:
      $ conda install -c biobakery lefse
  2. Dar formato a los datos para LEfSe
    1. Ejecute el siguiente comando para dar formato al archivo original al formato interno de LEfSe. Tabla.txt es el archivo de entrada y Table-reformat.in es el archivo de salida. -c se utiliza para establecer la función, que se utiliza como clase (valor predeterminado 1) y -o se utiliza para establecer el valor de normalización (valor predeterminado -1.0 que significa no normalización).
      $ format_input.py Tabla.txt Table-reformat.in -c 1 -o 1000000
  3. Cálculo del tamaño del efecto del análisis discriminante lineal (LDA)
    1. Ejecute el siguiente comando. El propósito de este paso es realizar LDA del resultado anterior y generar el archivo de resultados para la visualización. Table-reformat.in se genera mediante el paso anterior y se utiliza como archivo de entrada en este paso. Table-reformat.res es el archivo de resultados.
      $ run_lefse.py Table-reformat.in Table-reformat.res
  4. Visualización por gráficos
    1. Trazar los resultados de LEfSe. Para trazar el tamaño del efecto de los biomarcadores en un archivo pdf,. Table-reformat.res se genera mediante el paso anterior y el LDA.pdf es el archivo de trazado. –format se utiliza para establecer el formato de archivo de salida.
      $ plot_res.py Table-reformat.res LDA.pdf --format pdf
    2. Traza el cladograma. Dibujar el árbol de especies y mostrar los biomarcadores en un cladograma. cladograma.pdf es el archivo de salida.
      $ plot_cladogram.py Cladograma Table-reformat.res.pdf --format pdf
    3. Función de la trama uno (opcional) Trazar las diferencias de un solo biomarcador entre diferentes grupos. -f se utiliza para establecer las características de la trama. Si se estableció uno, se debe dar el –feature_name.
      $ plot_features.py -f one --feature_name "k__Bacteria.p__Firmicutes.c__Bacilli.o__Bacillales" --format pdf Table-reformat.in Table-reformat.res Bacillales.pdf
    4. Traza las características diferenciales (opcional) para dibujar todas las características, pero hay demasiado que hacer con precaución. --archive se utiliza para elegir si se quieren comprimir los resultados. ./ significa la trayectoria de los resultados.
      $ plot_features.py -f diff --archive none --format pdf Table-reformat.in Table-reformat.res ./

3. Análisis en línea LEfSe (galaxia)

  1. Vaya al servidor de galaxias huttenhower11: http://huttenhower.sph.harvard.edu/galaxy.
  2. Sube los archivos. Presione el botón de flecha hacia arriba en el panel izquierdo y cargue el archivo. Haga clic en Elegir archivo local para seleccionar el archivo de entrada y seleccione el formato tabular, y luego haga clic en el botón Inicio .
    NOTA: Referido a la página web (https://bitbucket.org/biobakery/biobakery/wiki/lefse), utilice el script (taxonomy_summary. R) para generar el archivo de entrada de LEfSe, y se requiere el formato (cada columna con un nombre de grupo, cada línea con un nivel diferente de anotación separada por "|") como se muestra en la Tabla 1. En la Figura 1 se muestra una descripción general esquemática del proceso de carga.
  3. Dar formato a los datos para LEfSe. Haga clic en el | LEfSe Formatear datos para el enlace LEfSe en el panel izquierdo, seleccione las filas específicas para la clase en el archivo, y haga clic en el botón Ejecutar . En la Figura 2 se muestra una visión general esquemática del proceso operativo y los parámetros utilizados.
  4. Calcule el tamaño del efecto LDA. Haga clic en el | LEfSe Tamaño del efecto LDA (LEfSe) en el panel izquierdo y seleccione los valores de los parámetros de acuerdo con los requisitos del análisis. Haga clic en Ejecutar. En la Figura 3 se muestra una visión general esquemática del proceso operativo y los parámetros utilizados.
  5. Trazar los resultados de LEfSe. Haga clic en el | LEfSe Trazar el vínculo Resultados de LEfSe en el panel izquierdo y hacer clic en el botón Ejecutar . En la Figura 4 se muestra una visión general esquemática del proceso operativo y los parámetros utilizados.
  6. Traza el cladograma. Haga clic en Plot Cladogram en el panel izquierdo y haga clic en el botón Ejecutar después de seleccionar los valores de los parámetros. En la Figura 5 se muestra una visión general esquemática del proceso operativo y los parámetros utilizados.
  7. Para trazar una función, haga clic en Trazar una función en el panel izquierdo y haga clic en el botón Ejecutar después de seleccionar los valores de los parámetros. En la Figura 6 se muestra una visión general esquemática del proceso operativo y los parámetros utilizados.
  8. Trazar entidades diferenciales haciendo clic en Trazar características diferenciales en el panel izquierdo y pulsando el botón Ejecutar después de seleccionar los valores de los parámetros. En la Figura 7 se muestra una visión general esquemática del proceso operativo y los parámetros utilizados.
    NOTA: Estas figuras generadas se pueden visualizar y descargar contra la salida resultante en el panel derecho.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Las puntuaciones LDA de las comunidades microbianas con diferencias significativas en cada grupo mediante el análisis de las secuencias del gen 16S rRNA de tres muestras se muestran en la Figura 8. El color del histograma representa diferentes grupos, mientras que la longitud representa la puntuación LDA, que es la influencia de la especie con diferencias significativas entre los diferentes grupos. El histograma muestra las especies con diferencias significativas cuya puntuación LDA es mayor que el valor preestablecido. El valor preestablecido predeterminado es 2.0, por lo que solo se muestran valores absolutos de puntuación LDA (abscisa) superior a 2.0 en la gráfica.

Los biomarcadores con diferencia significativa y el árbol de especies entre los diferentes niveles de clasificación se muestran en la Figura 9. Los círculos que irradian desde el interior hacia el exterior representan los niveles de clasificación del filo al género (el círculo amarillo más interno es el reino). El diámetro de cada círculo pequeño en los diferentes niveles de clasificación representa el tamaño de la abundancia relativa. Las especies sin diferencias significativas son uniformemente de color amarillo, y los biomarcadores de especies significativamente diferentes se colorean con los grupos correspondientes. Las clases A, B y C son los nombres de grupo de las muestras microbianas recogidas. Los nodos rojos representan los grupos microbianos que juegan un papel importante en el grupo rojo (A); los nodos verdes representan los grupos microbianos que desempeñan un papel importante en el grupo verde (B); y los nodos azules representan los grupos microbianos que juegan un papel importante en el grupo azul (C). El nombre de especie correspondiente de los biomarcadores no mostrados en la gráfica se muestra en el lado derecho, y los números de letra corresponden a los de la gráfica (solo mostrando especies diferenciales del filo a la familia por defecto con fines estéticos).

La abundancia de un biomarcador que tiene diferencias entre diferentes grupos según los resultados de LEfSe se muestra en la Figura 10. En el diagrama de barras de abundancia relativa, la línea sólida representa la abundancia relativa promedio, la línea punteada representa la abundancia relativa mediana y cada columna representa la abundancia relativa de cada muestra en diferentes grupos.

Tabla 1: El archivo de ejemplo para el análisis LEfSe en línea. Haga clic aquí para descargar esta tabla.

Figure 1
Figura 1: Descripción general esquemática del proceso de carga. Haga clic en los números rojos en orden secuencial en la figura. Haga clic aquí para ver una versión más grande de esta figura.

Figure 2
Figura 2: Descripción general esquemática del proceso operativo para cambiar el formato de los datos. Haga clic en los números rojos en orden secuencial en la figura. Haga clic aquí para ver una versión más grande de esta figura.

Figure 3
Figura 3: Descripción general esquemática del proceso operativo para calcular el tamaño del efecto LDA. Haga clic en los números rojos en orden secuencial en la figura. Haga clic aquí para ver una versión más grande de esta figura.

Figure 4
Figura 4: Descripción general esquemática del proceso operativo para trazar los resultados de LEfSe. Haga clic en los números rojos en orden secuencial en la figura. Haga clic aquí para ver una versión más grande de esta figura.

Figure 5
Figura 5: Visión general esquemática del proceso operativo para trazar el cladograma. Haga clic en los números rojos en orden secuencial en la figura. Haga clic aquí para ver una versión más grande de esta figura.

Figure 6
Figura 6: Descripción general esquemática del proceso operativo para trazar una característica. Haga clic en los números rojos en orden secuencial en la figura. Haga clic aquí para ver una versión más grande de esta figura.

Figure 7
Figura 7: Visión general esquemática del proceso operativo para trazar características diferenciales. Haga clic en los números rojos en orden secuencial en la figura. Haga clic aquí para ver una versión más grande de esta figura.

Figure 8
Figura 8: Histograma de la distribución de los valores de LDA. Las puntuaciones de LDA de comunidades microbianas con diferencias significativas en cada grupo se analizaron por LDA Effect Size de acuerdo con sus influencias y correlaciones. Haga clic aquí para descargar esta figura.

Figure 9
Figura 9: Cladograma. La gráfica típica del cladograma obtenida por el protocolo, que permite la representación de la diferencia entre los diferentes niveles de clasificación de tres grupos. Haga clic aquí para ver una versión más grande de esta figura.

Figure 10
Figura 10: Un gráfico de características. Se muestra la barplot de abundancia de un biomarcador que tiene diferencias entre diferentes grupos según el LEfSe results.is muestra. Haga clic aquí para ver una versión más grande de esta figura.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Aquí se describe el protocolo para la identificación y caracterización de biomarcadores dentro de diferentes grupos. Este protocolo se puede adaptar fácilmente para otros tipos de muestras, como las OTU de microorganismos. El método estadístico de LEfSe puede encontrar los microorganismos característicos en cada grupo (por defecto es LDA >2), es decir, los microorganismos que son más abundantes en este grupo en relación con los otros12. LEfSe está disponible en versiones nativas y web de Linux, donde los usuarios también pueden realizar análisis LEfSe en páginas web. LEfSe se basa en el algoritmo LDA y necesita un nivel de especie para dibujar un árbol de especie. Mediante la aplicación de la herramienta, se puede comparar la abundancia relativa entre grupos. Todos los biomarcadores diferenciales podrían trazarse en un solo gráfico. Además, un solo biomarcador o todos los biomarcadores se pueden trazar en lotes.

Ya sea que LEfSe se realice a través del servidor nativo o un sitio en línea, hay muchos parámetros ajustables para dibujar las imágenes requeridas. Debido a la compleja estructura de los archivos de entrada y la necesidad de convertirlos a formatos de datos preferidos para análisis posteriores de LEfSe, también se han desarrollado algunos servicios integrales. Por lo tanto, la optimización de operaciones más fáciles puede ser un desafío. Por otro lado, existen algunas limitaciones al analizar datos complejos utilizando LEfSe. LDA proyecta una característica que es una dimensión menos que la categoría, y si se necesitan más características, se introducen otros métodos. Las variantes de LDA pueden resolver algunas dificultades. Por ejemplo, Kernel LDA es una solución si los datos originales no se pueden separar bien después de la proyección. Debido a que la cantidad de cálculo de LDA está relacionada con la dimensión de los datos, 2DLDA puede reducir en gran medida la cantidad de cálculo de LDA. Tanto LDA como PCA son técnicas de reducción de dimensionalidad comúnmente utilizadas. La reducción de la dimensionalidad de PCA (Principal Component Analysisis) está directamente relacionada con la dimensión de datos, y el sistema de coordenadas proyectado es ortogonal. Sin embargo, LDA se centra en la capacidad de clasificación de acuerdo con el etiquetado de categorías, por lo que el sistema de coordenadas proyectado generalmente no es ortogonal.

LEfSe proporciona asistencia para la selección de biomarcadores. Con muchas ventajas (por ejemplo, parámetros ajustables, los resultados detallados de varias partes, aplicación entre dos o más grupos), se ha utilizado ampliamente13. Con la creciente demanda de análisis de datos de alta dimensión, la aplicación de este método será cada vez más extensa para explorar los biomarcadores de las características (organismos, clados, unidades taxonómicas operativas, genes o funciones) que afectan la salud y la enfermedad humanas.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Los autores no tienen nada que revelar.

Acknowledgments

Este trabajo fue apoyado por una subvención de los Fondos de Investigación Fundamental para los Institutos Centrales de Investigación de Bienestar Público (TKS170205) y la Fundación para el Desarrollo de la Ciencia y la Tecnología, y el Instituto de Investigación de Tianjin para la Ingeniería del Transporte Acuático (TIWTE), M.O.T. (KJFZJJ170201).

Materials

Name Company Catalog Number Comments
No materials used

DOWNLOAD MATERIALS LIST

References

  1. Bolyen, E., et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 37 (8), 852-857 (2019).
  2. Knight, R., et al. Best practices for analysing microbiomes. Nature Reviews. Microbiology. 16 (7), 410-422 (2018).
  3. Segata, N., et al. Metagenomic biomarker discovery and explanation. Genome Biology. 12 (6), 60 (2011).
  4. McIver, M., Sayoldin, B., Shafquat, A. Biobakery / lefse [tool]. , Available from: https://bitbucket.org/biobakery/biobakery/wiki/lefse (2019).
  5. Kruskal, W. H. A nonparametric test for the several sample problem. The Annals of Mathematical Statistics. 23 (4), 525-540 (1952).
  6. Wilcoxon, F. Individual comparisons by ranking methods. Biometrics Bulletin. 1 (6), 80-83 (1945).
  7. Fisher, R. A. The use of multiple measurements in taxonomic problems. Annals of Eugenics. 7 (1), 179-188 (1936).
  8. Liu, Y. X., et al. A practical guide to amplicon and metagenomic analysis of microbiome data. Protein and Cell. 41 (7), 1-16 (2020).
  9. Shahi, S. K., Zarei, K., Guseva, N. V., Mangalam, A. K. Microbiota analysis using two-step PCR and next-generation 16S rRNA gene sequencing. Journal of Visualized Experiments: JoVE. (152), e59980 (2019).
  10. Grüning, B., et al. Bioconda: sustainable and comprehensive software distribution for the life sciences. Nature Methods. 15 (7), 475-476 (2018).
  11. Blankenberg, D., Chilton, J., Coraor, N. Galaxy external display applications: closing a dataflow interoperability loop. Nature Methods. 17 (2), 123-124 (2020).
  12. Langille, M. G. I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 31 (9), 814-821 (2013).
  13. Shilei, Z., et al. Reservoir water stratification and mixing affects microbial community structure and functional community composition in a stratified drinking reservoir. Journal of Environmental Management. 267, 110456 (2020).

Tags

Genética Número 183 LEfSe Biomarcador Genoma Biodiversidad Diferencia estadística Correlación biológica
Selección asistida de biomarcadores mediante análisis discriminante lineal del tamaño del efecto (LEfSe) en datos de microbioma
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Chang, F., He, S., Dang, C. Assisted More

Chang, F., He, S., Dang, C. Assisted Selection of Biomarkers by Linear Discriminant Analysis Effect Size (LEfSe) in Microbiome Data. J. Vis. Exp. (183), e61715, doi:10.3791/61715 (2022).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter