Genetics

Análisis metagenomic de ensilaje

Published: January 13, 2017 doi: 10.3791/54936

Richard K. Tennant¹, Christine M. Sambles¹, Georgina E. Diffey¹, Karen A. Moore¹, John Love¹

Introduction

La metagenómica es el análisis directo del ADN purificado a partir de las comunidades biológicas que se encuentran dentro de las muestras ambientales ¹ y se utilizó originalmente para detectar bacterias no cultivables que se encuentran en los sedimentos ^2. Metagenomics ha sido ampliamente utilizado para un número de aplicaciones, tales como la identificación de la microbioma humano ^3, la clasificación de las poblaciones microbianas en el océano ⁴ e incluso para el análisis de las comunidades de bacterias que se desarrollan en las máquinas de café ^5. La introducción de las tecnologías de secuenciación de próxima generación dio lugar a un mayor rendimiento de secuenciación y de salida. En consecuencia, la secuenciación del ADN se ha convertido en más económico ⁶ y la profundidad de secuenciación que puede ser realizado ha aumentado considerablemente, lo que permite la metagenómica para convertirse en una herramienta poderosa, analítica.

Mejoras "front-end" en el aspecto práctico, molecular de secuenciación metagenómica han impulsado el crecimiento de la inherramientas bioinformáticas silico disponibles para la clasificación taxonómica ^7-9, anotación funcional ^10,11 y ^12,13 representación visual de los datos de secuencia de ADN. El número cada vez mayor de disposición, secuenciado procariotas y eucariotas ¹⁴ genomas permite mayor precisión en la clasificación de las comunidades microbianas, que se realizan siempre en contra de una base de datos de referencia "back-end" de ¹⁵ genomas secuenciados. Dos enfoques principales pueden ser adoptados para el análisis de metagenómica.

El método más convencional es el análisis del gen 16S rRNA región del genoma bacteriano que codifica. El 16S rRNA está altamente conservada entre las especies procariotas pero exhibe nueve regiones hiper-variable (V1 - V9) que puede ser explotada para la identificación de especies ^16. La introducción de la secuencia más larga (≤ 300 pb extremo emparejado) permitido para el análisis de secuencias de ADN que abarcan dos regiones hipervariables, en particularV3 - V4 región ^17. Los avances en las tecnologías de secuenciación de otros, tales como Oxford nanoporos ¹⁸ y ¹⁹ PacBio, permiten que todo el gen 16S rRNA para secuenciar de forma contigua.

Aunque las bibliotecas basadas 16S rDNA proporcionan un enfoque dirigido a la identificación de especies y permiten la detección de ADN bajo número de copias que se produce de forma natural en muestras purificadas, las bibliotecas de secuenciación shotgun permiten la detección de especies que pueden contener regiones de ADN que, o bien no son amplificable por 16S secuencias de cebador rRNA marcador usado, o porque las diferencias entre la secuencia de la plantilla y la secuencia del cebador de amplificación son demasiado grandes ^20,21. Además, aunque las ADN polimerasas tienen una alta fidelidad de la replicación de ADN, los errores de base pueden, no obstante, producirse durante la amplificación por PCR y estos errores incorporados pueden dar lugar a la clasificación incorrecta de las especies ²² de origen. Sesgos en la amplificación por PCR de la SEC plantillaTambién se pueden producir influencias; secuencias de ADN con un alto contenido de GC pueden estar bajo representado en la piscina amplicón final de ²³ y de manera similar modificaciones de base no naturales, tales como glicol timina, puede detener ADN polimerasas causando fallos en la amplificación de secuencias de ADN ^24. En contraste, una biblioteca de ADN secuenciación escopeta es una biblioteca de ADN que se ha preparado mediante el uso de todo el ADN purificado que ha sido extraído de una muestra y, posteriormente, fragmentado en longitudes de cadena de ADN más corto antes de la preparación para la secuenciación. Clasificación taxonómica de las secuencias de ADN generadas por secuenciación shotgun es más preciso en comparación con la secuenciación de ARNr 16S amplicón ^25, aunque el coste financiero necesario para alcanzar una profundidad de secuenciación fiable es mayor que la de la secuencia de amplificación ^26. El principal beneficio de la metagenómica secuenciación escopeta es que las regiones secuenciadas de los diferentes genomas en la muestra están disponibles para la prospección de genes una vez que han sidoha sido clasificada taxonómicamente ^27.

datos de la secuencia metagenómica es analizada por una cada vez mayor gama de herramientas bioinformáticas. Estas herramientas son capaces de realizar una amplia variedad de aplicaciones, por ejemplo, análisis de control de calidad de los datos de secuencia en bruto ^28, la superposición del extremo emparejado lee ^29, de novo montaje de secuencia lee a contigs y andamios ^30,31, clasificación taxonómica y la visualización de la secuencia lee y secuencias de ^7,12,32,33 y la anotación funcional de las secuencias ensambladas ^34,35 montado.

El ensilaje, producida por los agricultores de todo el mundo a base de cereales fermentados, como el maíz (Zea mays), se utiliza principalmente como alimento para ganado. El ensilaje se trata con la bacteria Lactobacillus sp. para ayudar a la fermentación ^36, pero hasta la fecha, existe un conocimiento limitado de las otras poblaciones de microbios que se encuentran en el ensilaje. el fermentation proceso puede conducir a los microorganismos indeseables y potencialmente dañinos va imponiendo en el ensilaje de ^37. Además de levaduras y mohos, las bacterias son particularmente adaptable al entorno anaeróbica en la fermentación de ensilaje y están asociados más frecuentemente con enfermedades en el ganado en lugar de la degradación de la ensilaje ^38. Pueden ser añadidos inadvertidamente del suelo bacterias ácido butírico se mantiene durante el llenado de los silos de ensilado y son capaces de convertir el ácido láctico, un producto de la digestión anaerobia, a ácido butírico, lo que aumenta el pH del ensilaje ^39. Este aumento en el pH puede conducir a un aumento de las bacterias de descomposición que normalmente sería incapaz de sostener el crecimiento en condiciones de fermentación óptima de ensilado ^38. Clostridium spp. , Listeria spp. y Bacillus spp. son de particular preocupación, especialmente en el ensilaje para la alimentación de ganado lechero, como esporas bacterianas que han sobrevivido a la gastrtracto ointestinal ⁴⁰ puede entrar en la cadena alimentaria, conducir a la descomposición de los alimentos y, en casos raros, a los animales y muertes humanas ^37,39,41-44. Por otra parte, si bien es difícil estimar el impacto económico exacto de tratamiento veterinario y la pérdida de ganado causada por el deterioro del ensilaje, es probable que sea perjudicial para una granja si un brote se iba a producir.

La hipótesis es que mediante el uso de un enfoque metagenomic podemos clasificar las poblaciones microbianas que están presentes en muestras de ensilaje y además identificar las comunidades microbianas asociadas con el deterioro del ensilaje que, a su vez, lo que podría tener un efecto perjudicial sobre el ganado, lo que permite medidas correctoras necesarias tomado antes de que el ensilado es para ser utilizado como una fuente de alimento.

Protocol

1. Localización del Sitio

Recoger la muestra de ensilaje de un sitio apropiado, tal como una granja. Aquí, la finca se encuentra en Ballydulea, Co. Cork, Irlanda (51 ° 51'58.4 "N 8 ° 16'48.7" W).

2. Extracción de ADN

NOTA: la extracción de ADN se realizó utilizando un kit comercial siguiendo las instrucciones del fabricante. Un control negativo, que no contenía la muestra, se utiliza en todo el método de preparación de la biblioteca.

Añadir 100 a 400 mg de la muestra a un tampón de fosfato de sodio 978 l de tampón de lisis y suelo 122 l en los tubos de lisis suministrados.
Homogeneizar las muestras mediante la colocación de los tubos de lisis en el homogeneizador durante 40 s a una velocidad de 6.0 m / s.
lisados centrifugar a 14.000 xg durante 15 minutos y transferir el sobrenadante a un tubo de microcentrífuga limpio que contenía 250 l de proteína precipitado de la solución (PPS). Mezclar la solución invirtiendo 10 veces y centrifugara 14.000 xg durante 5 min.
Añadir el sobrenadante a 1 ml de matriz de unión a ADN en un tubo de centrífuga limpio de 15 ml. Mezclar la solución invirtiendo el tubo constantemente por 3 min. Dejar que la mezcla se asiente durante 3 minutos, luego descarta 500 l de sobrenadante. Mezclar el sobrenadante restante.
Transferir 600 l de la suspensión a un filtro de giro y se centrifuga a 14.000 xg durante 1 min. Desechar el filtrado y se repite el proceso con el resto de la suspensión.
Añadir 500 l de tampón de lavado a la matriz de unión al ADN dentro del filtro giratorio, mezclar con la pipeta y centrifugar a 14.000 xg durante 1 min.
Desechar el filtrado y centrifugar el filtro de centrifugado de nuevo a 14.000 xg durante 2 min para asegurar se haya eliminado todo el tampón de lavado. Secar el filtro giratorio a 23 ° C durante 5 min.
Pre-caliente (70 ° C) el agua libre de DNasa (DES) y volver a suspender la matriz de unión de ADN en 100 L de DES en el filtro giratorio. Transferir el filtro giratorio a una limpia 1,5 ml de microcentrífuga maser y se centrifuga a 14.000 xg durante 1 min para eluir el ADN. Almacenar el ADN purificado a -20 ° C hasta que se realice un análisis posterior.

3. Perlas de purificación utilizando ADN Purificación de ADN

Se obtuvo Antes de la preparación biblioteca metagenómica se purificó el ADN extraído usando perlas de purificación para asegurar una muestra de ADN puro: NOTA.

Se incuban las perlas a 23ºC durante 30 min antes de su uso. Añadir 2 volúmenes de perlas para la muestra de ADN e incubar la solución a 23 ° C durante 5 min.
Colocar las muestras en un imán de separación para 5 min y luego descartar el sobrenadante. Lavar las perlas dos veces con 200 l de etanol fresco 80% (EtOH). Deje secar al aire las perlas durante 10 minutos.
Eliminar las muestras del imán separación y añadir 50 l de tampón de elución (EB), mezclar mediante pipeteo.
Incubar la suspensión a 23 ° C durante 5 min, después de lo cual Colocar las muestras de nuevo en el imán de separación para 3 min.
Transfer el sobrenadante, que contiene el ADN, a un tubo limpio. Desechar las cuentas.
Cuantificar el ADN purificado de acuerdo con el apartado cuarto.

4. Cuantificación de ADN purificado

NOTA: El ADN purificado se cuantificó usando un fluorómetro y kit de ensayo de doble cadena (dsDNA) de alta sensibilidad (HS) siguiendo las instrucciones del fabricante.

Preparar una solución de trabajo utilizando 199: 1 relación de tampón y el agente reactivo.
Añadir 10 l de cada estándar de ADN de 190 l de solución de trabajo.
Añadir 10 l de ADN purificado a 190 l de solución de trabajo. El volumen final debe ser de 200 l. Incubar las muestras estándar y de ADN a 23 ° C durante 2 min.
Analizar las normas antes de las muestras de ADN en el fluorómetro utilizando las instrucciones que aparecen en pantalla.

5. La secuenciación escopeta Biblioteca Preparación

NOTA: La biblioteca de escopeta secuenciación se preparó usando unkit de preparación de la biblioteca comercial usando las instrucciones del fabricante.

Diluir las muestras de ADN a 0,2 ng / l utilizando EB. Cualquier muestra que ya está por debajo de esta concentración, es decir, el control negativo, se deja a su concentración actual.
Mezclar 5 l de ADN purificado con 10 l de tampón y 5 l mezcla de enzima. Incubar las muestras a 55ºC durante 5 min.
Añadir 5 l de tampón de neutralización y se incuba la solución a 23 ° C durante 5 min.
Añadir 5 l de cada uno de los índices de secuenciación específicos de muestra y 15 l de la mezcla de PCR master.
En un termociclador, se incuban las muestras a 72 ° C durante 3 min, 95 ° C durante 30 s, antes de los 12 ciclos de 95 ° C durante 10 s, 55ºC durante 30 s y 72 ° C durante 30 s. Incubar las muestras finalmente a 72 ° C durante 5 min.
Se purifica el ADN preparado mediante la purificación de talón como antes, pero con una elución final de 30 l de EB.

6. LCantidad ibrary y comprobación de la calidad

NOTA: La cantidad y calidad de las bibliotecas preparadas se evaluaron utilizando un kit comercial y la instrumentación.

Incubar los componentes del kit a 23 ° C durante 30 min antes de su uso.
Añadir 2 l de ADN a 2 l de tampón y de vórtice durante 1 min a 2000 rpm.
Centrifugar la muestra para asegurarse de que está en el fondo del tubo.
Inserte los tubos de muestra, cinta de análisis y consejos en el instrumento, y llevar a cabo análisis de la manera indicada por el software.

La secuenciación de ADN 7.

La transferencia de las bibliotecas de secuenciación de ADN preparados y cuantificadas las muestras a un servicio de secuenciación y la secuencia de 300 pb utilizando la secuencia final emparejado ^45.

8. Análisis de los datos brutos de Secuencia

NOTA: Los comandos para cada programa que usa un sistema operativo Linux se muestran a continuación de la etapa de protocolo. La tubería utilizada para sanálisis de los datos equence se muestra en la Figura 1. Los programas son para ser instalado por el usuario antes del análisis. Este proceso se debe realizar de forma individual para cada muestra.

Analizar y visualizar los datos de la secuencia de ADN utilizando FastQC ⁴⁶ escribiendo en la línea de comandos / ruta-a-archivo / fastqc, seguido por el avance y retroceso en bruto lee raw_read2.fastq raw_read1.fastq.
Especificar una carpeta de salida escribiendo output_fastqc -o y el formato de archivo de los archivos de lectura primas por FASTQ -f.
Ver el archivo de salida (Figura 2).
ruta-a-archivo / fastqc raw_read1.fastq raw_read2.fastq -o -f output_directory FASTQ.

9. Control de Calidad del recorte y filtrado Datos de Secuencia

Ejecutar el programa de recorte, Trimmomatic ²⁸ escribiendo en la línea de comandos java-jar / ruta-a-archivo / trimmomatic-0.35.jar.
Especificar los archivos están emparejados archivos finales escribiendo 'PE'. Estado que el 16 pr centroocessing unidades (CPU) deben ser utilizados por el programa escribiendo -threads 16.
Enumerar los dos archivos a verificación de control de calidad, escribiendo los nombres de la prima hacia adelante y marcha atrás lee. El prefijo de los archivos de salida se determina escribiendo ensilado -baseout.
Definir las opciones para el programa escribiendo ILLUMINACLIP: NexteraPE-PE.fa: 2: 30: 10 principales: 3 TRAILING: 3 SLIDINGWINDOW: 4: 20 CULTIVO: 200 HEADCROP: 15 minlen: 36.
Una vez completa, analizar las secuencias recortadas utilizando FastQC como antes y comparar la salida de la secuencia de datos en bruto para asegurar el recorte se ha realizado con éxito.
NOTA: La herramienta de software, Trimmomatic, recortado lee más mediante la eliminación conduce baja calidad o N bases (por debajo de la calidad 3), la eliminación de arrastre de baja calidad o N bases (por debajo de la calidad 3) y analizando cada lectura con un 4-base amplia ventana deslizante. Los parámetros se establecieron para el corte cuando la calidad promedio por la base cae por debajo de 20 y luego a soltar cualquier lecturas por debajo de 36 bases de largo. Por último, 15 bases fueron cosechadas from la cabeza de cada uno lee y dice estaban recortada para mantener 200 bases desde el inicio de la lectura. Este último paso se llevó a cabo para superar algunos problemas de calidad durante la secuenciación de largo (> 200 pb) lee. Estos se pueden ajustar para las muestras específicas ^28.
java-jar /path-to-file/trimmomatic-0.35.jar PE -threads 16 raw_read1.fastq raw_read2.fastq ensilado -baseout ILLUMINACLIP: NexteraPE-PE.fa: 2: 30: 10 principales: 3 TRAILING: 3 SLIDINGWINDOW: 4 : 20 CULTIVO: 200 HEADCROP: 15 minlen: 36

10. Asamblea Metagenoma

Combinar la desapareado, recortado lee escribiendo gato seguido por el desapareado lee; silage_read1_unpaired.fastq silage_read2_unpaired.fastq. Escribir los archivos a un nuevo archivo escribiendo> silage_merged_unpaired.fastq
gato silage_read1_unpaired.fastq silage_read2_unpaired.fastq> silage_merged_unpaired.fastq
Para novo ensamblar el ADN secuenciado, utilice Picas (San Petersburgo genoma ensamblador) ³⁰ escribiendo / ruta-a-file / spades.py. Especificar que 16 CPU se van a utilizar escribiendo -t 16 y que el parámetro metagenomic debe aplicarse escribiendo --meta.
Identificar los recortado hacia adelante lee usando -1 silage_read1_paired.fastq y el reverso se lee por -2 silage_read2_paired.fastq. El desapareado fusionada lee son especificados por silage_merged_unpaired.fastq -s.
Definir la carpeta de salida escribiendo -o silage_spades.
ruta-a-archivo / spades.py -t 16 --meta -1 -2 silage_read1_paired.fastq silage_read2_paired.fastq -s silage_merged_unpaired.fastq -o silage_spades

11.-extremo emparejado Lee Superposición

Mezcla pares de secuencia de ADN lee el uso de flash (Rápido Ajuste de la longitud de la Corto lecturas) ²⁹ escribiendo en la línea de comandos / ruta-a-archivo / flash. Especifican que 16 CPU deben ser utilizados mediante el uso -t 16 y el prefijo de salida escribiendo -o ensilado.
Identificar recortado lee escribiendo silage_trimmed_R1.fastq silage_trimmed_R2.fastq
ruta-a-archivo / flash-T16 -o FLASHED silage_read2_paired.fastq silage_read1_paired.fastq

La clasificación taxonómica 12.

Tipo / ruta-a-archivo / kraken y especifique la base de datos escribiendo --db / ruta-a-archivo / estándar.
Definir que 16 CPU se deben utilizar escribiendo --threads 16 e identificar una carpeta de salida mediante el uso de --output FLASHed_silage_extendedFrags_kraken.txt. Escriba el nombre del archivo de entrada; FLASHed_silage.extendedFrags.fastq
ruta-a-archivo / norma --db kraken --thread 16 --output FLASHed_silage_extendedFrags_kraken.txt FLASHed_silage.extendedFrags.fastq
NOTA: La clasificación de los andamios montados de secuencias de ADN utilizando Kraken ⁷ se completó en contra de la base de datos más reciente, Kraken estándar que contenía todas las secuencias del genoma procariotas disponibles.
columnas de transferencia 2 y 3 del archivo de salida y a un nuevo archivo escribiendo corte -f2,3 FLASHed_silage_extendedFrags_kraken.txt> FLASHed_silage_extendedFrags_kraken.int

cortar -f2,3 FLASHed_silage_extendedFrags_kraken.txt> FLASHed_silage_extendedFrags_kraken.int

Importe el archivo nuevo en Corona ¹² escribiendo ktImportTaxonomy. Especificar el archivo de entrada escribiendo FLASHed_silage_extendedFrags_kraken.int. Identificar el archivo de salida escribiendo -o FLASHed_silage_extendedFrags_kraken.out.html.
ruta-a-archivo / ktImportTaxonomy FLASHed_silage_extendedFrags_kraken.int -o FLASHed_silage_extendedFrags_kraken.out.html

13. anotación funcional

Ir a la página web ⁴⁷ MG-RAST, http://metagenomics.anl.gov/. Registrarse como nuevo usuario, si es necesario. Después de iniciar sesión, haz clic en el botón "Subir". Sube los andamios montados desde el paso 10.
Una vez que los archivos se han cargado, haga clic en "Enviar" y siga las instrucciones y esperar a la finalización del análisis.
Después de terminado el análisis, ver el enlace enviado a través de EMail de MG-RAST, o, alternativamente, haga clic en "Progreso". Hay una lista de los trabajos terminados. Haga clic en el identificador de trabajo pertinente y luego en el enlace a la "página de descarga".
En la página de descarga, bajo el título "La agrupación de proteínas del 90%", haga clic en el botón de proteínas para descargar el archivo de proteína predicha, 550.cluster.aa90.faa.
Para clasificar las proteínas que supuestamente pertenecen a una clase particular de enzimas CAZy, comparar las proteínas cargadas en la base de datos CAZy ^48. Descargar la base de datos de enzimas activas en carbohidratos (CAZy) a partir de archivos son: AA.zip, CE.zip, GH.zip, GT.zip y PL.zip. Estos archivos representan las siguientes clases de enzimas, respectivamente: Actividades auxiliares (AA), esterasas de hidratos de carbono (CE), glucósido hidrolasas (GH), glicosil transferasas (GT) y el polisacárido liasas (PL).
Descomprimir los archivos de base de datos y anotar las proteínas mediante la determinación de la similitud de proteínas de las proteínas de bases de datos utilizando el Cazy Algor USEARCH UBLASTITHM ^49. Para utilizar un bucle de bash (for i in * .txt) para iterar a través de la base de datos de tipo 5 archivos .txt "for i in * .txt; hacer".
Ejecutar USEARCH escribiendo / ruta-a-archivo / usearch8 con el -ublast parámetro con el fin de utilizar el algoritmo ublast. A continuación, escriba el nombre del archivo de secuencias de proteínas descargado de MG-RAST, "mgmXXXXXX.3.550.cluster.aa90.faa".
Para indicar el archivo de base de datos que se utilizará el tipo "-db $ i" y para especificar el E-valor umbral en 1e ^-5, tipo "-evalue 1e-5".
Para terminar la búsqueda tras el descubrimiento de una secuencia diana y por lo tanto la clasificación de que la secuencia de proteínas como pertenecientes a la clase de la enzima diana, por ejemplo GH, tipo "-masaccepts 1".
Para definir que 16 CPU deben utilizarse tipo "-threads 16" y para especificar el formato del archivo de salida como tipo "-blast6out" ATAB separados texto. Para identificar el tipo de archivo de salida "$ i.ublast". Para terminar el bucle de bash, tipo "; hecho"
for i in * .txt;
hacer / ruta-a-archivo / usearch8 -ublast ../mgmXXXXXX.3.550.cluster.aa90.faa -db $ i -evalue 1e-5 -maxaccepts 1 -threads 16 -blast6out $ i.ublast;
hecho

14. Visualización CAZy Anotación

Para visualizar la salida de la anotación CAZy como un diagrama de Venn, generar listas de ID de la proteína para cada clase de la enzima usando un bucle de bash. Tipo "for i in * .ublast; hacer".
Para transferir la columna 1 del archivo de salida y en un nuevo archivo, tipo "cat $ i | cortó -f 1> $ i.list".
Terminar el bucle y el tipo "; hecho".
Abrir los archivos .list en un editor de texto. Ir a la página web, seleccione el número de series como 5 y pegar el contenido de cada archivo de lista en una caja separada. Descargar el diagrama resultante como un archivo .SVG.
for i in * .ublast;
hacer cat $ i | cut -f 1> $ i.list;
hecho

Representative Results

Antes del procesamiento bioinformático, la secuencia de bajo nivel Lee se recorta y los adaptadores se eliminan con el software Trimmomatic ^28. Después de la etapa de recorte y de filtrar, el número de lecturas se redujo a 50% de la secuencia lee (Tabla 1). La puntuación media Phred base era> 30 después del control de calidad (Figura 2).

Pares de secuencias de ADN que tenían zonas de solapamiento se fusionaron usando el software Flash ²⁹ para generar sola ya lee, no se solapan lee se mantuvieron en un archivo separado. 45.47% lee (105343) combinado con éxito. Tras la superposición de lee el uso de flash de lecturas, los fragmentos ampliados resultantes se sometieron a clasificación taxonómica bacteriana usando el software Kraken ⁷ y posteriormente se visualizaron con el software de Corona (Figura 3).

Figura 4. Las especies más abundantes en el metagenoma eran Lactobacillus spp. (24%; Firmicutes), Corynebacterium spp. (8%; Actinobacteria), Propionibacterium spp. (3%; Actinobacteria) y Prevotella spp. (3%; Bacteroidetes). También se observaron especies importantes para la salud animal y implicados en la enfermedad; Clostridium spp. (1%) Bacillus spp. (0,6%), Listeria spp. (0,2%) se prevé que ser presente en la muestra de ensilaje.

Funcional anotación se realizó en montado lee. Metagenoma fue ensamblado usando el ensamblador Picas ³⁰ mediante el recortado y filtradaemparejado-end y no apareado lee la generación de 92,284 andamios. Con el fin de identificar las celulasas, las proteínas se predijo a partir de MG-RAST y anotaron utilizando la base de datos de enzimas activas en carbohidratos (CAZy). De los 97,562 proteínas predichas, 6357 fueron anotados como una enzima de hidratos de carbono activo putativo en una de las cinco clases de enzimas que conforman la base de datos CAZy (Figura 5). Los resultados se visualizan como un diagrama de Venn usando software InteractiVenn ⁵⁰ que muestra la distribución de las anotaciones de proteínas, incluyendo los que contienen más de una clase de enzimas anotación CAZy. De estos, 3861 se predice que tienen actividad hidrolasa de glucósido y se va a caracterizar aún más en el laboratorio para confirmar la función.

Figura 1: La metagenómica bioinformático de la tubería de Análisis para el ensilaje. Dos enfoques principales eranutilizado para investigar el microbioma del ensilaje, clasificación taxonómica y la anotación funcional. Haga clic aquí para ver una versión más grande de esta figura.

Figura 2: Calidad de secuencia por la base antes y después del recorte y la eliminación del adaptador. La secuencia de trama por la calidad de la base de FASTQC muestra la puntuación media Phred través de la longitud de la secuencia de control lee antes y después de la calidad. Haga clic aquí para ver una versión más grande de esta figura.

Figura 3: taxonómica Classificación del microbioma bacteriana de ensilaje sólido. Clasificación de la secuencia de superposición recortado y lee de la memoria flash se ha realizado mediante Kraken ⁷ y posteriormente ^se visualiza con corona. Haga clic aquí para ver una versión más grande de esta figura.

Figura 4: Distribución taxonómica de la Clase 4 Phyla más abundante en el microbioma bacteriana de ensilaje sólido. El porcentaje de cada clase de bacterias dentro de los cuatro filos más abundante. Firmicutes: clostridios (rojo) y bacilos (azul oscuro); Proteobacterias: delta / épsilon (rosa), alfa (azul claro), gamma (naranja) y beta (turquesa); Bacteroidetes: flavobacteria (azul oscuro) y Bacteroidia(Verde pálido); Actinobacteria: Coriobacteriia (púrpura oscura) y otra actinobacteria (verde oscuro). Haga clic aquí para ver una versión más grande de esta figura.

Figura 5: CAZy anotación del proteoma previsto en el Ensilaje sólido microbioma. diagrama de Venn que muestra la distribución de las cinco clases de enzimas de anotaciones CAZY en el proteoma predicho de microbioma ensilaje sólido. Haga clic aquí para ver una versión más grande de esta figura.

# Raw lee	# Filtrada lee (emparejado) # Filtrada lee	# FLASHED lee
(Emparejado)	# Filtrada lee (emparejado) # Filtrada lee	# FLASHED lee	(Sin pareja)
2374949 x2	231679 x2	1,892,534	105.343

Tabla 1: Tabla resumen de las lecturas de secuenciación.

Discussion

Mientras que un análisis in silico puede dar una excelente visión de las comunidades microbianas que están presentes en muestras ambientales, es fundamental que las clasificaciones taxonómicas demostraron ser realizado en asociación con los controles pertinentes y que una profundidad adecuada de la secuenciación se ha logrado captar la totalidad población actual ^51.

Con cualquier análisis computacional, hay muchas rutas para lograr un objetivo similar. Los métodos que hemos utilizado en este estudio son ejemplos de métodos adecuados y sencillos, que han sido reunidas para lograr una serie de análisis sobre el microbioma ensilado. Una variedad y un número cada vez mayor de herramientas y técnicas de bioinformática están disponibles para analizar los datos de metagenómica, por ejemplo Phylosift ⁸ y ⁵² MetaPhlAn2, y estos deben ser evaluados antes de la investigación por su importancia para la muestra y el análisis reqpedirá otra ^53. métodos de análisis Metagenomic están limitados por las bases de datos disponibles para la clasificación, la profundidad de la secuenciación y la calidad de secuenciación.

El tratamiento bioinformático ha demostrado aquí se llevó a cabo en una máquina motorizada locales, alta; Sin embargo los sistemas basados en la nube también están disponibles. Estos servicios basados en la nube permiten el alquiler de la potencia de cálculo necesaria sin tener la inversión de alto costo de una potente estación de trabajo local adecuado. Una posible aplicación de este método sería evaluar el ensilaje antes de su uso en la agricultura para asegurar que no hay bacterias potencialmente dañinas están presentes, por lo tanto evitando que entren en la cadena alimentaria.

Materials

Name	Company	Catalog Number	Comments
FastDNA SPIN Kit for Soil	MP Bio	116560200	DNA Extraction
DNA FastPrep	MP Bio	116004500	DNA Extraction
Agencourt AMPure XP beads	Beckman Coulter	A63880	DNA Purification
Elution Buffer	Qiagen	19806	DNA Purification
Qubit Fluorometer	Thermo Fisher	Q33216	DNA Quantification
Qubit dsDNA HS Assay Kit	Thermo Fisher	Q32854	DNA Quantification
Nextera XT DNA Library Prep Kit	Illumina	FC-131-1024	Library Preparation
Nextera XT Index Kit	Illumina	FC-131-1001	Library Preparation
TapeStation 2200	Agilent	G2964AA	DNA Quantification
HS D100 ScreenTape	Agilent	5067-5584	DNA Quantification
HS D100 ScreenTape Reagents	Agilent	5067-5585	DNA Quantification
TapeStation Tips	Agilent	5067-5153	DNA Quantification
TapeStation Tubes	Agilent	401428 and 401425	DNA Quantification
HiSeq 2500	Illumina		DNA Sequencing - provided by a sequencing service
High Power Analysis Workstation	Various		Local or cloud based, user preferred system