Genetics

青贮的宏基因组学分析

Published: January 13, 2017 doi: 10.3791/54936

Richard K. Tennant¹, Christine M. Sambles¹, Georgina E. Diffey¹, Karen A. Moore¹, John Love¹

Introduction

宏基因组学是从环境样品¹中发现的生物群落纯化的DNA的直接分析，最初用于检测沉积物中发现的²培养的细菌。宏基因组已被广泛地用于许多应用，如识别人类微生物^3，海洋⁴内，并且即使对于在咖啡机⁵开发细菌群落的分析微生物种群进行分类。引进新一代测序技术，造成了更大的测序通量和输出。因此，DNA测序变得更经济⁶和能够进行测序的深度大大增加，从而使宏基因组学，成为一个强大的，分析工具。

在宏基因组测序的实际，分子方面“前端”的增强推动了中成长可用于系统分类^7-9，功能注释^10,11和DNA序列数据的可视化表示^12,13硅片生物信息学工具。越来越多的使用，测序的原核和真核基因组¹⁴允许进一步精度在微生物群落，这是针对测序的基因组¹⁵的“后端”参考数据库总是进行的分类。两种主要的方法可以为宏基因组分析通过。

更传统的方法是16S rRNA基因编码细菌基因组的区域的分析。该的16S rRNA高度保守原核生物物种之间呈现，但9超可变区（V1 - V9），它可以用于物种鉴定¹⁶所利用。引入再测序（≤300bp的配对末端）允许跨越两个超变区的DNA序列的分析，特别是在V3 - V4区^17。在其它测序技术，如牛津纳米孔¹⁸和PacBIO ^19，进展就允许整个16S rRNA基因被连续测序。

而基于16S rDNA的库提供有针对性的方法来物种鉴定和使低拷贝数的DNA的检测天然纯化的样品内发生，鸟枪测序文库允许检测物种的可能含有要么不是由16S扩增DNA区rRNA基因标记的引物序列使用的，或者是因为模板序列和放大引物序列之间的差异太大^20,21。此外，虽然DNA聚合酶有DNA复制的一个高的保真度，可仍然PCR扩增过程中发生基误差，并可能导致在始发物种²²的不正确分类这些并入的错误。在模板序列的PCR扩增偏差uences也可以发生;具有高GC含量的DNA序列可以根据在最终的扩增子池表示²³和类似人工碱基修饰，如胸腺嘧啶二醇，可以阻止DNA聚合酶导致故障中DNA的扩增序列^24。相反，鸟枪测序DNA文库是已经制备使用所有已经从样品中提取并随后进行测序制备之前裂成较短的DNA链长度的纯化的DNA的DNA文库。通过鸟枪测序产生的DNA序列的系统分类更准确相比的16S rRNA扩增子测序²⁵时，虽然所需要的财务成本达成可靠测序深度比扩增子测序²⁶的更大。鸟枪法测序宏基因组学的主要好处是，在样品中的各种基因组测序的区域可用于基因勘探一旦它们已经已分类学分类的^27。

宏基因组序列数据由不断增加的生物信息学工具范围进行分析。这些工具能够执行的各种应用中，例如，原始序列数据²⁸的质量控制分析，重叠配对末端的读取^29，从头序列的组件读取到重叠群和支架^30,31，分类学分类和可视化顺序读取和顺序组装和^7,12,32,33组装序列^34,35的功能注释。

青贮，农民从谷类发酵，如玉米（玉米）生产遍布世界各地，主要是被用作牛饲料。青贮饲料与SP 乳杆菌属细菌治疗。以帮助发酵³⁶但到目前为止，没有在青贮饲料中发现的其他微生物种群的了解有限。该fermentatioÑ过程可导致不希望的和潜在有害的微生物的青贮³⁷内变得普遍。除了酵母和霉菌，细菌在发酵青贮特别适合于厌氧环境，并且更频繁地用在牲畜疾病而非青贮³⁸的降解有关。丁酸菌可从土壤中被无意添加填充青贮筒仓并能够乳酸，厌氧消化的产物进行转换，以丁酸，从而增加了青贮³⁹的pH值时仍然存在。这种增加pH值可导致腐败菌的高涨，通常会是无法维持最佳青贮发酵条件³⁸下的生长。 梭状芽孢杆菌。， 李斯特菌。和芽孢杆菌 。值得特别关注的，尤其是在青贮奶牛饲料，作为生存了gastr细菌孢子ointestinal道⁴⁰可以进入食物链，导致食品变质，并在极少数情况下，动物和人类死亡^{37,39,41-44。}此外，虽然它是难以估计引起青贮变质兽医治疗和牲畜损失的准确的经济影响，它可能是有害的一个农场如果爆发是发生。

这是假设，通过使用宏基因组的方法，我们可以在微生物群体中存在青贮样品中分类和进一步识别与青贮腐败相关的微生物群落将反过来，可能对家畜有不利的影响，使补救行动是青贮前服用是用作食物来源。

Protocol

1.工地位置

收集合适的站点青贮样本，如一个农场。在这里，农场位于Ballydulea，公司科克，爱尔兰（51°51'58.4“N 8°16'48.7”W）。

2. DNA提取

使用商业试剂盒按照制造商的说明进行DNA提取：注。阴性对照，它不含样品，在整个文库制备方法中使用。

添加100 - 400毫克样品以978微升磷酸钠缓冲液和122微升土壤裂解缓冲液中提供的裂解管。
通过将裂解管放入均化40秒在6.0米/秒的速度均匀的样品。
离心裂解物在14000×g离心15分钟，将上清转移到含有250微升蛋白沉淀溶液（PPS）干净的微离心管中。通过颠倒10次和离心机混合溶液以14,000 xg离心5分钟。
上清液加至1mL DNA结合基质在一个干净的15毫升离心管中。通过不断地颠倒试管3分钟混合溶液。使混合物沉降3分钟，然后弃上清的500微升。混合剩余的上清液。
转移悬浮液600μL到一个旋转过滤器和离心机在14,000rpm xg离心1分钟。弃去滤液，并与其余的悬浮液重复上述过程。
添加洗涤缓冲液500微升的DNA结合矩阵的旋转过滤器内，通过移液混合，然后以14,000 xg离心离心1分钟。
弃去滤液和在14000 xg离心再次离心旋转过滤器2分钟，以确保所有的洗涤缓冲液被除去。干燥在23℃的旋转过滤器5分钟。
预温热（70℃）的游离DNA酶的水（DES）和重新悬浮于100微升的DES的自旋过滤器内的DNA结合基质。旋转过滤器转移到一个干净的1.5毫升微型离心机涂是和在14000×g离心1分钟以洗脱DNA的离心机。在-20℃保存纯化的DNA，直到进行进一步的分析。

3. DNA纯化利用DNA纯化珠

注：宏基因组文库的制备在此之前，用纯化珠，以确保一个纯DNA样品纯化提取的DNA而获得。

孵育小珠在23℃下在使用前30分钟。 2体积的珠添加到DNA样品孵育在23℃的溶液中5分钟。
放置样品到分离磁体5分钟，然后弃上清。用200微升新鲜的80％乙醇（EtOH中）洗涤珠两次。空气干燥该珠10分钟。
从分离磁铁取出样品，并添加洗脱缓冲液（EB）的50μL，吹打混匀。
孵育在23℃的悬浮液5分钟，之后放置样品放回3分钟分离磁体。
TRansfer上清，包含所述DNA，到一个干净的试管中。丢弃的珠子。
量化DNA纯化按照四节。

4.纯化的DNA的定量

注意：使用荧光并按照制造商的说明双链（dsDNA）的高灵敏度（HS）测定试剂盒纯化的DNA进行定量。

准备用199工作解决方案：1的比例缓冲区的试剂。
将每个DNA标准10μL到工作液190微升。
加入纯化DNA的10微升至工作液190微升。最终的体积应为200微升。在23℃孵育标准和DNA样品2分钟。
分析使用屏幕上的说明上荧光DNA样本之前的标准。

5.鸟枪法测序文库制备

注意：使用制备鸟枪测序文库使用制造商的说明商业文库制备试剂盒。

稀释DNA样本至0.2纳克/μL使用EB。任何样品这已经是这个浓度以下，即阴性对照，在其目前的浓度离开了。
混合5微升的纯化的DNA与10微升缓冲液和5微升酶混合物。在55℃孵育样品5分钟。
添加5μL的中和缓冲液中孵育在23℃的溶液中5分钟。
将每个样本特异性测序指数的5μL和15 PCR的μL母液。
在热循环仪，孵育样品在72℃3分钟，95℃30秒，前95℃12个循环保持10秒，55℃30秒和72℃30秒。孵育样品最后于72℃5分钟。
净化用珠纯化如以前但通过EB的30微升的最终洗脱制备的DNA。

6.大号ibrary数量与质量检查

注：制备的库的数量和质量都使用商业试剂盒和仪器评估。

孵育在23℃的试剂盒组分对于在使用前30分钟。
加入DNA 2μL，以缓冲和旋涡2微升1分钟在2000转。
降速样品，以确保它在管的底部。
将样品管，分析磁带和提示放入仪器，并指示由软件进行分析。

7. DNA测序

利用传送300 bp的配对末端测序⁴⁵准备和量化的DNA测序文库样品测序服务和顺序。

8.原始序列数据分析

注：使用Linux操作系统，每个程序的命令显示协议的步骤如下。为S管道equence数据分析示于图1。该程序是由分析前的用户安装。这个过程应该单独对每个样品进行。

分析并通过命令行/路径到文件/ fastqc键入可视使用FastQC ⁴⁶ DNA序列数据，其次是正向和反向原始读取raw_read1.fastq raw_read2.fastq。
通过键入-o output_fastqc和-f FASTQ原始读取文件的文件格式指定输出文件夹。
查看输出文件（ 图2）。
路径到文件/ fastqc raw_read1.fastq raw_read2.fastq -o OUTPUT_DIRECTORY -f FASTQ。

9.质量控制微调和过滤数据序列

通过键入到命令行Java的罐子/路径到文件/ trimmomatic-0.35.jar运行修整程序，Trimmomatic ^28。
指定的文件通过键入'PE'配对末端文件。该国16家央公关ocessing单元（CPU）应通过键入-threads 16被用于通过该程序。
通过键入原始前锋的名字列出两个文件QC检查和反向读取。输出文件的前缀是键入-baseout青贮确定。
通过键入ILLUMINACLIP定义程序的选项：NexteraPE-PE.fa：2：30：10 LEADING：3 TRAILING：3 SLIDINGWINDOW：4：20 CROP：200 HEADCROP：15 MINLEN：36。
一旦完成，分析使用FastQC修整序列作为前和输出比较的原始序列数据，以确保修剪已经成功执行。
注：该软件工具，Trimmomatic，修剪去除导致低质量或N基地进一步读取（以下质量3），消除拖尾低质量或N基地（以下质量3）和扫描每读一个4基底较宽滑动窗口。该参数为每个时基的平均质量低于20，然后将降大任读数低于36个碱基长切割设置。最后，15个碱基FR裁剪OM读取每个的头和读了裁剪，以保持200个碱基从读取的开始。进行最后一步测序时长克服一些质量问题（> 200 bp）的读取。这些可用于特定的样品²⁸进行调整。
Java的罐子/path-to-file/trimmomatic-0.35.jar PE -threads 16 raw_read1.fastq raw_read2.fastq -baseout青贮ILLUMINACLIP：NexteraPE-PE.fa：2：30：10 LEADING：3 TRAILING：3 SLIDINGWINDOW：4 20 CROP：200 HEADCROP：15 MINLEN：36

10.宏基因组大会

合并未成，修整通过输入cat其次未成读取读取; silage_read1_unpaired.fastq silage_read2_unpaired.fastq。通过键入写入文件到一个新的文件> silage_merged_unpaired.fastq
猫silage_read1_unpaired.fastq silage_read2_unpaired.fastq> silage_merged_unpaired.fastq
要从头组装测序的DNA，通过键入/路径使用铁锹（圣彼得堡基因组汇编^）30-file / spades.py。指定16个CPU是通过输入-t 16和宏基因组参数一起使用应适用通过键入--meta。
确定修剪向前读取使用-1 silage_read1_paired.fastq和反向由-2 silage_read2_paired.fastq读取。合并后的未成读取由-s silage_merged_unpaired.fastq指定。
通过键入-o silage_spades定义输出文件夹。
路径到文件/ spades.py -t 16 --meta -1 -2 silage_read1_paired.fastq -s silage_read2_paired.fastq -o silage_merged_unpaired.fastq silage_spades

11.配对末端读重叠

合并对DNA序列的读取采用FLASH（短的快速长度调整读取^）29键入到命令行/路径到文件/闪光灯。指定16个CPU应该使用-t 16和输出前缀键入-o青贮饲料中使用。
确定修剪通过键入silage_trimmed_R1.fastq silage_trimmed_R2.fastq读
路径到文件/闪光-t 16 -o闪过silage_read1_paired.fastq silage_read2_paired.fastq

12.系统分类

类型/路径到文件/海妖，并指定通过键入--db /路径到文件/标准数据库。
定义了16个CPU应该通过键入--threads 16中使用，并通过使用--output FLASHed_silage_extendedFrags_kraken.txt确定一个输出文件夹。键入输入文件名; FLASHed_silage.extendedFrags.fastq
路径到文件/海妖--db标准--thread 16 --output FLASHed_silage_extendedFrags_kraken.txt FLASHed_silage.extendedFrags.fastq
注：使用海妖⁷组装的DNA序列支架的分类主要是针对完成包含所有可用的原核生物基因组序列最近，标准海妖数据库。
从输出文件和一个新的文件通过键入切-f2,3 FLASHed_silage_extendedFrags_kraken.txt> FLASHed_silage_extendedFrags_kraken.int转移2和3列

切-f2,3 FLASHed_silage_extendedFrags_kraken.txt> FLASHed_silage_extendedFrags_kraken.int

通过键入ktImportTaxonomy导入新的文件到克朗^12。通过键入FLASHed_silage_extendedFrags_kraken.int指定输入文件。通过键入-o FLASHed_silage_extendedFrags_kraken.out.html确定输出文件。
路径到文件/ ktImportTaxonomy FLASHed_silage_extendedFrags_kraken.int -o FLASHed_silage_extendedFrags_kraken.out.html

13.功能注释

前往MG-RAST ⁴⁷网站，http://metagenomics.anl.gov/。如果需要注册成为新用户。登录后，点击“上传”按钮。从第10步上传组装支架。
一旦文件上传后，点击“提交”，并按照指示，等待分析完成。
分析完成后，查看通过 EM发送的链接AIL来自MG-RAST，或者，点击“进步”。目前已完成的作业列表。点击相关作业ID，然后链接到“下载页面”。
在下载页面，标题“蛋白质群集90％”下，点击蛋白按钮下载预测蛋白质文件，550.cluster.aa90.faa。
作为推定属于特定CAZy酶类蛋白质进行分类，将下载的蛋白质进行比较，以在CAZy数据库^48。从文件下载碳水化合物，活性酶数据库（CAZy）为：AA.zip，CE.zip，GH.zip，GT.zip和PL.zip。这些文件分别代表下列酶的类：辅助活动（AA），糖酯酶（CE）糖苷水解酶（GH），糖基转移酶（GT）和多糖裂解酶（PL）。
解压缩数据库文件，并通过确定蛋白质相似使用USEARCH UBLAST ALGOR的CAZy数据库的蛋白质注释蛋白质ithm ^49。要使用一个bash循环（对于我在* .TXT）通过5数据库.txt文件类型迭代“，在* .TXT为我;做”。
通过键入/路径到文件/ usearch8与参数-ublast为了使用ublast算法运行USEARCH。然后在来自MG-RAST“mgmXXXXXX.3.550.cluster.aa90.faa”下载的蛋白质序列文件的名称键入。
为了表示对数据库文件中使用类型“-db $ i”和在1E ^-5指定E-值阈值，键入“-evalue 1E-5”。
要终止靶序列后发现搜索和归类，因此蛋白质序列属于靶酶类，如生长激素，键入“-masaccepts 1”。
要定义16个CPU应该使用类型“-threads 16”，并指定输出文件ATAB分隔文本类型“-blast6out”的格式。要确定输出文件类型“$ i.ublast”。要终止在bash循环，TYPE“做”
因为我在* .TXT;
做/路径到文件/ usearch8 -ublast ../mgmXXXXXX.3.550.cluster.aa90.faa -db $ I -evalue 1E-5 -maxaccepts 1 -threads 16 -blast6out $ i.ublast;
DONE

14.可视化CAZy注解

为了显现从CAZy注解的输出作为一个维恩图，生成蛋白质ID列表用于使用一个bash循环每种酶类。 “在* .ublast为我;做”类型。
从输出文件和一个新的文件传输1列，输入“猫$ I |削减-f 1> $ i.list”。
终止循环和类型“;完成”。
在文本编辑器中打开文件.LIST。登陆网站，选择的组数为5，并粘贴到一个单独的盒子每个列表文件的内容。下载所产生的图作为.svg文件。
因为我在* .ublast;
做猫$ I |切-f 1> $ i.list;
DONE

Representative Results

生物信息学处理之前，原始序列读取修整，并使用Trimmomatic软件²⁸被拆除适配器。修剪和过滤步骤后，读取减少到该序列的50％的读取数（ 见表1）。平均基地PHRED得分> 30后的质量控制（ 图2）。

其中有采用FLASH软件^29，以产生单个较长的读取重叠区被合并的DNA序列对，非重叠读取被保存在单独的文件中。 45.47％读取（105343）成功地结合。以下的重叠读取采用FLASH的读取，将所得延伸片段使用海妖软件⁷行细菌系统分类并随后用克朗软件（ 图3）可视化。

图4中可以看到。在宏基因组中最丰富的物种是乳酸杆菌 。（24％;厚壁菌）， 棒状杆菌属。（8％;放线菌）， 丙酸杆菌属。（3％;放线菌）和普雷沃氏菌。（3％;拟杆菌）。在疾病相关物种动物的健康重要，也观察; 梭状芽孢杆菌。（1％） 芽孢杆菌属。（0.6％）， 李斯特菌。（0.2％）被预测为存在所述青贮样本。

于组装读取进行了功能注释。宏基因组用铲子汇编³⁰使用修剪和过滤装配配对末端和不成读取产生92284支架。为了鉴定纤维素酶，蛋白用的MG-RAST预测并使用碳水化合物-活性酶数据库（CAZy）注释。在97562预测蛋白质，6357被注解为在五个酶类组成CAZy数据库（ 图5）中的一个推定的碳水化合物活性酶。结果显现为使用InteractiVenn软件⁵⁰表示蛋白质注释包括含有一个以上CAZy酶类注解那些分布的维恩图。这些中，3861被预测具有糖苷水解酶活性，将其进一步的特征，在实验室进行确认的功能。

图1： 生物信息学宏基因组学管道青贮的分析。两种主要的方法是用于调查青贮，系统分类和功能注释的微生物。请点击此处查看该图的放大版本。

图2： 序列质量每基之前和切边适配器去除后。从FASTQC的每个碱基序列的质量的图显示在整个序列的长度的平均PHRED得分读取之前和之后的质量控制。请点击此处查看该图的放大版本。

图3： 分类Classifica固体青贮的细菌微生物组和灰。修剪和重叠序列分类读取FLASH用海妖⁷进行，随后与瑞典克朗可视化。请点击此处查看该图的放大版本。

图 4： 固体青贮的细菌微生物组的4个最丰富的门类分类级分配。每个班的四个最丰富的门类中的细菌的百分比。厚壁菌门： 梭状芽胞杆菌 （红色）和芽孢杆菌 （深蓝色）;变形菌： 增量/小量 （粉红色），α（淡蓝色），伽玛（橙色）和β（绿松石）;拟杆菌：Flavobacteriia（深蓝色），并Bacteroidia（浅绿色）;放线菌：Coriobacteriia（暗紫色）等放线菌 （深绿色）。请点击此处查看该图的放大版本。

图5： 在Solid青贮微生物组的预测蛋白质组CAZy诠释。维恩图显示CAZy注释五酶类固体微生物青贮的预测蛋白质的分布。请点击此处查看该图的放大版本。

＃读生	＃过滤读取（配对）＃过滤读	＃读闪现
（配对）	＃过滤读取（配对）＃过滤读	＃读闪现	（未成）
2374949 X2	231679 X2	1892534	105343

表1：排序汇总表读。

Discussion

而一个在硅片分析可以得到优异的洞察力是环境样品中存在的微生物群落，这是至关重要的分类学分类表现在与相关的控制关联，并且测序的一个合适的深度已经实现捕获整个执行目前人口^51。

对于任何计算分析，有很多途径来实现类似的目标。我们在这项研究中所使用的方法是合适的，简单的方法，已汇聚，实现了一系列的青贮微生物分析的例子。多种和不断增加数目的生物信息学工具和技术可用来分析宏基因组数据，例如Phylosift ⁸和MetaPhlAn2 ^52，这些应之前，调查其相关性样品和分析REQ评价uired ^53。宏基因组分析方法是由数据库为可用于分类，测序深度和测序的质量的限制。

在当地，大功率的计算机上执行这里展示的生物信息学处理;然而，基于云的系统，也可提供。这些基于云的服务允许进行必要的计算能力的租金，而无需一个合适的强大的本地工作站的高成本投入。这种方法的一个潜在的应用是其在农业使用前评估青贮以确保没有潜在的有害细菌的存在，因此阻止它们进入食物链。

Materials

Name	Company	Catalog Number	Comments
FastDNA SPIN Kit for Soil	MP Bio	116560200	DNA Extraction
DNA FastPrep	MP Bio	116004500	DNA Extraction
Agencourt AMPure XP beads	Beckman Coulter	A63880	DNA Purification
Elution Buffer	Qiagen	19806	DNA Purification
Qubit Fluorometer	Thermo Fisher	Q33216	DNA Quantification
Qubit dsDNA HS Assay Kit	Thermo Fisher	Q32854	DNA Quantification
Nextera XT DNA Library Prep Kit	Illumina	FC-131-1024	Library Preparation
Nextera XT Index Kit	Illumina	FC-131-1001	Library Preparation
TapeStation 2200	Agilent	G2964AA	DNA Quantification
HS D100 ScreenTape	Agilent	5067-5584	DNA Quantification
HS D100 ScreenTape Reagents	Agilent	5067-5585	DNA Quantification
TapeStation Tips	Agilent	5067-5153	DNA Quantification
TapeStation Tubes	Agilent	401428 and 401425	DNA Quantification
HiSeq 2500	Illumina		DNA Sequencing - provided by a sequencing service
High Power Analysis Workstation	Various		Local or cloud based, user preferred system