Abstract
该工作流程允许新手研究人员利用诸如云计算之类的先进计算资源来执行成对的比较转录组学。它还是生物学家开发数据科学家计算技能的基础, 例如执行bash命令,大型数据集的可视化和管理。所有命令行代码和每个命令或步骤的进一步说明可以在wiki上找到( https://wiki.cyverse.org/wiki/x/dgGtAQ )。发现环境和大气平台通过CyVerse数据存储连接在一起。因此,一旦初始的原始测序数据已经上传,就不再需要通过因特网连接传输大数据文件,从而最小化进行分析所需的时间。该协议旨在分析两个实验处理或条件。进行差异基因表达分析比较成对比较,不适合测试多种因素。此工作流程也被设计为手动而不是自动化。每个步骤必须由用户执行和调查,从而更好地了解数据和分析输出,从而为用户提供更好的结果。一旦完成,该协议将为服务不足(非模型)生物体产生从头组装的转录组,而不需要映射到以前组装的参考基因组(其通常在缺乏生物体的情况下不可用)。这些从头转录组进一步用于成对差异基因表达分析,以研究在两个实验条件之间不同的基因。然后在功能上注释差异表达的基因以了解生物体对实验条件的遗传反应。总的来说,从该协议得到的数据用于测试关于缺乏生物体的生物反应的假设。
Introduction
智人和几种关键模型动物物种,如果蝇,果蝇和丹尼io 鱼代表了目前和过去功能基因组学工作的大部分。然而,高通量测序技术的快速降低的成本为非模型( 又称为 “被忽视的”或“服务不足”)动物提供了功能基因组学的机会1 。这是基因组学中的一个重要转变,因为非模式生物体经常代表经济上相关的物种( 例如牡蛎,虾,螃蟹),并提供调查模型物种发现范围之外的新型表型和生物系统的机会。
虽然服务水平不足的生物体提供了研究独特生物系统的有吸引力的机会,但是在生物信息学分析过程中,研究人员特别面临着挑战。一些处理大数据集的挑战是天生的,而另一些挑战则是缺乏对缺乏生物体工作的研究人员缺乏遗传资源,如参考基因组,生物体特异性本体等 。核酸分离和测序的挑战往往是常规的与数据分析相比较,并且这样的生物信息学分析通常被证明是排序项目成本最低的2 。例如,基本的下一代测序生物信息学分析可能包括以下步骤:对原始测序读数进行质量过滤和修剪,将短读集合到更大的连续片段,以及与其他系统的注释和/或比较以获得生物学认识。虽然看起来很简单,但这个示例工作流需要专业知识和计算资源超出实验台计算机的范围,将其放置在许多科学家研究的范围之外,模型生物。
先天的挑战可以是基础设施或基于知识的挑战。经典的基础架构挑战是获得适当的计算资源。例如,装配和注释依赖于需要强大的计算机或计算机集群的计算密集型算法,具有大量RAM(256 GB-1 TB)和运行的多个处理器/内核。不幸的是,许多研究人员无法访问这样的计算资源,也没有必要的知识与这些系统进行交互。其他研究人员可能通过其大学或机构可以访问高性能计算集群,但访问这些资源可能会受到限制,有时会导致每个计算小时的费用, 即 CPU处理器的数量乘以实时“时钟数小时“这些处理器正在运行。利用美国国家科学基金会资助的网络基础设施系统例如,在美国和世界各地为研究人员提供免费获取计算资源的CyVerse 3可以帮助缓解基础设施的挑战,这将在此展示。
典型的基于知识的挑战的一个例子是理解完整分析所需的软件。为了有效地进行基于排序的项目,研究人员需要熟悉为生物信息学分析开发的无数软件工具。学习每个软件包本身是困难的,但是由于软件包不断升级,重新发布,整合成新的工作流程,有时被限制在新的许可证下使用,这一点更加恶化。此外,链接这些工具的输入和输出有时需要转换数据类型以使其兼容,为工作流添加另一个工具。最后,也很难知道哪个软件包是“th”最好的“分析,并且经常识别特定实验条件的最佳软件是一个微妙的差异。在某些情况下,可以使用有用的软件评估,但由于新的更新和软件选项的不断发布,这些快速过时。
对于调查服务不足的生物体的研究人员,除了与分析新生物体数据相关的挑战之外,还有这些先天的挑战。这些缺乏生物体特异性的挑战在基因注释过程中得到了最好的阐述。例如,服务不全的生物体通常没有密切相关的模型生物体,可以合理地用于鉴定基因正义和功能( 例如海洋无脊椎动物和果蝇 )。许多生物信息学工具还需要“培训”来识别可用于鉴定基因功能的结构基序。但是,训练数据通常只适用于mod埃尔生物和培养隐马尔可夫模型(HMMs)不在生物学家的范畴之内,甚至是许多生物信息学家。最后,即使使用模型生物体的数据进行注释,当考虑到缺乏生物体的生物学和自然史( 例如 ,将信息从果蝇转移到虾)时,与模型生物相关的一些基因本体也是没有意义的。
鉴于这些挑战,生物信息资源需要与研究人员进行开发,专门针对不足的生物进行重新分析。未来几年功能基因组测序项目将有助于缩小模型与服务不足生物之间的差距( https://genome10k.soe.ucsc.edu/ ),但是需要开发许多工具来应对挑战以上考虑。 CyVerse致力于创造我的生态系统通过将现有的网络基础设施与第三方应用程序相链接,为生命科学家提供数据管理,生物信息分析工具和数据可视化。互操作性有助于通过提供可扩展的计算资源,限制文件格式转换和平台之间传输的数据量来平滑生物信息学应用程序和平台之间的转换。 CyVerse提供了几个平台,包括发现环境(DE 4 ,Atmosphere 5和Data Store 3) ,DE是基于Web的,并且有许多常用的生物信息学分析工具转换为用户友好的点击式格式(称为“应用程序“),并且是用于数据存储的图形用户界面(GUI),其中存储和管理大数据集( 即原始排序读取,组装的基因组)。大气是云计算服务,为研究人员提供了更大的灵活性使用虚拟机计算资源,预先安装了广泛的生物信息学工具。这两个平台都链接到数据存储,并可以一起使用来创建工作流,如这里描述的。本报告重点介绍从头转录组件和差异基因表达分析工作流程,并进一步阐述与开发和进行生物信息学分析相关的一些最佳实践。 CyVerse( http://www.cyverse.org/about )和详细平台描述( http://www.cyverse.org/learning-center )的更广泛使命的解释是公开的。本文中描述的所有分析都使用发现环境4 (DE)和大气5 ,并以使所有计算级别的研究人员可以访问的方式呈现。 DE工作流程和Atmosph可以直接使用URL来引用图像,以确保长期的来源,可重用性和可重复性。
Protocol
注意:整个协议已根据将在步骤1.2( 图1和2 )中创建和命名的文件夹进行编号。该协议代表了标准的比较从头转录组学分析,这里详细描述的每个步骤对于所有研究人员都不是必需的。此工作流程将在随附的教程wiki中进行详细记录,该wiki还包含所有附加文件和指向每个分析包的第三方开发人员感兴趣的文档的链接( 表1 )。本协议中将包含与此材料的链接,以便于访问此信息。最佳实践是向用户提供的注释,作为完成任务或用户考虑的最佳方式的建议,并将通过协议中的说明进行传达。示例数据输入和分析输出文件夹向用户公开提供,并按照协议( de novo)中的建议进行组织 转录组装配和分析。
1.使用FastQC设置项目,上传原始排序读取和评估阅读
- 访问大气和发现环境。
- 通过导航到注册页面( 例如, person@institution.edu)请求免费的CyVerse帐户。
- 填写所需信息并提交。
- 浏览到主网页(http://www.cyverse.org/),然后选择顶部工具栏上的“登录”。选择“Cyverse登录”并使用您的CyVerse凭据登录。
- 转到应用程序和服务选项卡,并请求访问“大气”。自动授予访问发现环境。
- 设置项目并将数据移动到数据存储。
- 登录发现环境(https://de.iplantcollaborative.org/de)。选择“数据”选项卡以显示包含数据存储中所有文件夹的菜单。 创建一个主项目文件夹,其中将包含与项目相关联的所有数据。找到数据窗口顶部的工具栏,然后选择File |新建文件夹。不要在文件夹名称或任何输入/输出文件名中使用空格或特殊字符, 例如 “!@#()[] {}:; $%^&*”。相反,使用下划线或短划线, 即适当的“_”或“ - ”。
- 在主项目文件夹中创建五个文件夹以组织分析( 图1 )以不带逗号或引号的方式命名文件夹:“1_Raw_Sequence”,“2_High_Quality_Sequence”,“3_Assembly”,“4_Differential_Expression”,“5_Annotated_Assembly”。子文件夹将被放置在这些主要项目文件夹中( 图2 )。
数字1:项目文件夹组织概述和De Novo转运组装和分析工作流程。用户将原始排序读取上传到数据存储上的主项目文件夹,然后将每个步骤的结果放入单独的文件夹中。 请点击此处查看此图的较大版本。
图2:在CyVerse Cyberinfrastructure中发生的De Novo转录组装和分析工作流程的详细概述。整个程序集和分析工作流将通过五个步骤完成,每个步骤都有自己的文件夹(粗体,编号文件夹图标)。五个编号的工作流步骤文件夹中的每一个都有子文件夹,其中包含来自生物信息学分析(文件夹)的输出数据图标)。用于分析的输入来自一个子文件夹,然后通过分析程序(矩形框)的输出移动到另一个文件夹。将前三个步骤的最终数据进行比较并准备出版。最终,该方案产生一个主要的项目文件夹,对协作者和/或手稿审阅者进行逐步分析,可以快速了解工作流程,并在必要时重复使用每个文件。 请点击此处查看此图的较大版本。
- 使用以下三种方法之一将原始FASTQ序列文件上传到文件夹“1_Raw_Sequence”到名为“A_Raw_Reads”的子文件夹中。
- 使用Data Store简单上传功能,通过单击主DE桌面上的数据按钮导航到数据窗口工具栏,然后选择上传|从桌面简单上传。选择浏览按钮导航到本地计算机上的原始FASTQ排序文件。此方法仅适用于2 GB以下的文件。
- 选择屏幕底部的上传按钮提交上传。通知将在DE的右上方注册上传已提交的铃声图标。另一个通知将在上传完成时注册。
- 或者,使用Cyberduck传输较大的文件(https://wiki.cyverse.org/wiki/x/pYcVAQ)。安装Cyberduck,然后作为本地计算机桌面上的程序运行。
- 最后,根据说明(https://wiki.cyverse.org/wiki/display/DS/Using+iCommands)下载iCommands并安装到本地计算机上。
- 使用DE中的FastQC应用程序评估上传的原始排序读数。
- 选择主DE桌面上的“应用程序”按钮打开包含DE中可用的所有分析应用程序的窗口。
- 搜索并打开胜利在窗口顶部的搜索工具栏中的FastQC工具的dow。如果有多个FASTQ文件,请打开多文件版本。选择文件|新建文件夹创建名为“B_FastQC_Raw_Reads”的文件夹,并选择此文件夹作为输出文件夹。
- 将FASTQ读取文件加载到名为“选择输入数据”的工具窗口中,然后选择“启动分析”。
- 分析完成后,打开.html或.pdf文件查看结果。 FastQC运行多个分析,测试读取文件的不同方面( 图3 )。
2.修剪和质量过滤器原始读取以产生高质量序列
注意:使用Trimmomatic应用程序或Sickle应用程序。
- 在DE中搜索可编程的Trimmomatic应用程序,并像以前一样打开它。
- 将原始FASTQ读取文件的文件夹上传到“设置”部分。
- 选择是否优化文件是单对象或成对文件。
- 使用选择浏览按钮并将/ iplant / home / shared / Trinity_transdecoder_trinotate_databases粘贴到“查看:”框中提供的标准控制文件。选择名为Trimmomaticv0.33_control_file的文件并启动分析。该文件可以下载,设置编辑,然后上传到第二个项目文件夹以创建一个自定义修剪脚本。
- 可选:如果FastQC分析确定适配器序列,请使用ILLUMINACLIP设置修剪Illumina适配器。在/ iplant / home / shared / Trinity_transdecoder_trinotate_databases文件夹中选择适当的适配器文件,如上所述。
- 质量修剪顺序读取使用Sickle。
- 在DE中搜索并打开Sickle应用程序。选择修剪的FASTQ读取作为输入读取,并重命名输出文件。在选项中包含质量设置。典型设置是质量格式:illumina,sanger,solexa;质量t门槛:20;最小长度:50。
- 将所有输出移动到修剪和过滤的文件夹(2_High_Quality_Sequence)中。
- 使用FastQC评估最终读数,并与之前的FastQC报告进行比较。选择.html文件打开所有结果的网页。如果无法查看,请选择输出中提供的图像文件(.png)文件夹。
3.在大气中使用三位一体的Devo转运组件
- 通过导航到wiki页面(https://wiki.cyverse.org/wiki/x/dgGtAQ)打开最新版本的Atmosphere实例。选择Trinity和Trinotate图像的最新版本的链接。或者,在Atmosphere图像搜索工具(https://atmo.iplantcollaborative.org/application/images)中搜索“Trinotate”,以显示Trinity和Trinotate图像的所有版本。
- 选择“登录启动”按钮,然后命名大气我nstance。
- 选择“medium3”(CPU:4,Mem:32GB)或“large3”(CPU:8,Mem:64 GB)的实例大小。启动实例,等待它建立。在极少数情况下,CyVerse将进行维护更新平台。现有实例在这些更新期间可用,但可能无法创建新实例。访问CyVerse状态页面以查看任何平台的当前状态(http://status.cyverse.org/)。
- 通过点击名称,然后选择右侧菜单底部的“远程桌面”,打开实例。允许Java和VNC Viewer(如果有)。在“VNC查看器”窗口中选择“连接”按钮,然后选择“继续”。
- 登录以打开将成为新的云计算实例的单独的窗口。
- 使用步骤1.3.1 - 1.3.4中描述的三种方法之一将修剪和/或过滤的FASTQ读取文件移动到实例中。我们使用互联网浏览器访问DE并像以前一样在本地计算机上下载文件。或使用安装在这些图像上的iCommands快速传输大数据集。
- 运行三位一体来组织高质量的读取。
- 在“大气”实例上设置分析文件夹。使用DE(/ iplant / home / shared / Trinity_transdecoder_trinotate_databases)中提供的脚本,或从wiki页面(https://wiki.cyverse.org/wiki/x/dgGtAQ)复制并粘贴命令。所有命令的说明可以在wiki页面找到。
- 分析文件夹和Trinotate数据库建立后,使用上述命令运行Trinity汇编器。有几个输出文件,但最重要的是题为“Trinity.fasta”的最终程序集文件。将此FASTA文件重命名为有机体的独特之处,并将其组合后的读数进行处理,然后再将其移动到Data Store(文件夹3_Assembly)中,以尽量减少潜在的混淆。
注意:将差异基因表达分析的表输出计数到文件夹中(4_Differential_Expression)。
- 使用rnaQUAST评估装配( 图4 )。
- 将Trinity输出文件移动到DE中的“3_Assembly”文件夹中,并将文件夹“A_Trinity_de_novo_assembly”标记。给“A_Trinity_de_novo_assembly”文件夹中的每个转录子组装一个独特的名称,包括生物的科学名称和与每个转录组相关的治疗。在“3_Assembly文件夹”中创建一个名为“B_rnaQUAST_Output”的子文件夹。
- 打开标题为“rnaQUAST 1.2.0(基于denovo)”的应用程序,并命名分析,然后选择“B_rnaQUAST_Output”作为输出文件夹。
- 将从头装配的FASTA文件添加到“数据输入”部分。在“数据输出”部分中,键入从头的唯一名称
- 在“GenemarkS-T基因预测”,“BUSCO”和“参数”部分中选择其他选项。
- 如果生物不是真核生物,请在“GenemarkS-T基因预测”部分选择原核生物。
- 运行BUSCO选择浏览按钮,并将路径iplant / home / shared / iplantcollaborative / example_data / BUSCO.sample.data复制到“查看:”框中,然后按Enter键。选择可用于生物体的最具体的BUSCO文件夹。
注意:BUSCO将评估谱系特异性核心基因的汇编,并输出找到多少百分比的核心基因。有一般文件夹, 例如真核生物和更具体的谱系, 例如节肢动物。
- 搜索“Transcript decoder”,并在de nov上运行Transdecodero发现环境中的Trinity汇编输出FASTA文件。
- 将输出.pep文件移动到从头装配(3_Assembly)文件夹中,以在步骤5注释中使用。
4.在DE中使用DESeq2进行成对差分表达
- 在DE中打开DESeq2应用程序,如前所述。命名分析并选择输出文件夹为4_Differential_Expression。
- 在“输入”部分中,从三位一体程序集运行中选择计数表文件,并在该计数表中找到连字号名称的列。
- 从计数数据表文件中输入列标题,以确定比较哪些列。在每个条件之间加上逗号。不要包含包含contig名称的第一列标题。
- 对于重复,重复相同的名称( 例如 ,Treatment1rep1,Treatment1rep2,Treatment1rep3将成为Treatment1,Treatment1,Treatment1)。在那里e第二行,提供要比较的两个条件的名称( 例如 ,Treatment1,Treatment2)。匹配第一行中提供的列标题名称。
注意:这些列标题必须是字母数字,不能包含任何特殊字符。
5.使用Trinotate注释
- 在大气云计算实例中运行Trinotate的每个部分。注意:Bash命令在txt文件中提供,以在DE(/ iplant / home / shared / Trinity_transdecoder_trinotate_databases)上或wiki页面(https://wiki.cyverse.org/)上运行之前进行修改,然后进行修改。维基/ X / dgGtAQ)。如果注释多个程序集,则每次对每个程序集进行注释,然后将完成的注释文件传回到“5_Annotation”文件夹,每个文件夹都具有与程序集名称对应的唯一文件夹。
- 运行bash命令搜索Trinity成绩单。更改线程数以匹配多少CPU在实例中, 即媒体有4个CPU,而大的8个CPU。有关详细信息,请参阅步骤3.1.2。更改命令Trinity.fasta以匹配装配FASTA文件名。
注意:BLAST +搜索将需要最多的时间。它可能在完成之前的几天。可以在“大气”中检查云计算机活动,而无需启动VNC Viewer。 - 运行bash命令搜索Transdecoder预测蛋白质。如前所述,更改线程号和文件名以符合5.2.1中的条件。
- 为HMMER运行bash命令,并按如上所述更改线程数。
- 如果需要,请运行signalP和tmHMM的bash命令。 SignalP将预测信号肽,tmHMM预测跨膜蛋白基序。
- 运行bash命令搜索Trinity成绩单。更改线程数以匹配多少CPU在实例中, 即媒体有4个CPU,而大的8个CPU。有关详细信息,请参阅步骤3.1.2。更改命令Trinity.fasta以匹配装配FASTA文件名。
- 将结果加载到SQLite数据库
- 一旦完成上述所有分析,运行bash命令将输出文件加载到最终的SQLite注解数据库中。删除任何命令对于没有运行的分析。
- 将SQLite数据库导出为.xls文件,以便在受欢迎的表格查看器中查看。
Representative Results
一旦创建了项目组织文件( 图1和图 2 ),此工作流程中的第一个任务是评估原始排序文件,然后通过修剪和质量过滤来清理它们。 FastQC将从FASTQ文件格式生成关于质量分数和序列长度的人类可读概要统计信息。然后在修剪之前和之后比较FastQC数据,以评估最终读数是否高质量,因此适合于组装。 “每碱基序列质量”显示每个碱基对测序的平均读数质量。最好是通过FastQC数字上的颜色指示超过20-28的噬菌体质量得分。 “每个序列质量得分”决定是否需要读取质量过滤。如果太多读数的平均分数低于20-25,则可能需要根据平均读取质量进行过滤。 “每碱基序列含量”应显示所有四个核苷酸碱基的均匀分布。如果显示核苷酸含量存在偏差,则可能需要修剪末端。 “每个基因GC含量也应该在所有位置上均匀,如果有摆动,读数可能需要像1.4.4.3中的那样被修剪。”每序列GC含量“应该是正态分布适配器或聚合酶链反应)产品可能会排序库中的污染物并使正态分布偏斜,在这种情况下,可能需要进行适配器修剪。“序列长度分布”给出了所有读取的平均长度,通常滤除小于35-45个碱基对的读数。 “序列复制级别”显示了在库中看到给定的读取序列的次数,“重复显示的序列”部分提供了高度重复的读取序列和计数,FastQC还尝试识别重复的读取是衔接子序列或与测序平台相关的其他已知序列。 “无命中”的标签意味着应该使用NCBI BLAST 6进一步研究序列,以确定它是否是生物相关序列,还是应该被去除。 DE还有几个版本的BLAST可用。 DE BLASTn应用程序可从以下网址获取 : https : //de.iplantcollaborative.org/de/?type =apps&app-id= 6f94cc92-6d28-45c6-aef1-036be697671d 。
在对原始测序进行筛选以产生高质量读数之后,读取需要进行组合以创建连续的序列(重叠群)。简而言之,通过对齐所有短序列读取来找到类似的序列来创建程序集。类似序列大于一定长度的区域被认为是sa我的序列是因为随机发生的一定长度的相似序列的概率几乎为零。 Trinity将在装配过程中为每个步骤输出日志文件,fasta文件。然而,最重要的输出是包含contigs的最终程序集文件,它被标记为“Trinity.fasta”,并在主文件夹中找到。该文件包含所有组装的重叠生物,本身实际上并不是“人类可读的”。因此,rnaQUAST工具可以用来更深入地了解组件。 rnaQUAST工具将输出数字,允许用户比较程序集,以确定最完整的程序( 图4 )。有关rnaQUAST中每个数字的其他信息,请参见wiki( https://wiki.cyverse.org/wiki/x/fwuEAQ )。如果BUSCO 7运行,特别感兴趣的是specificity.txt文件,其中显示了完整的数量和p文献BASCO基因和GeneMarkS-T基因预测的数量。 BUSCO基因是一组生物共同的策划的基因组。它们可以用于评估组合是如何捕获预期存在于基于系统发生进化枝的任何给定类型的生物体中的基因的组合。 DE( https://de.iplantcollaborative.org/de/?type=apps&app-id=112b8a52-efd8-11e5-a15c-277125fcb1b1 )中还提供了一个独立的BUSCO应用程序。
差异基因表达分析鉴定了每个汇编的转录本表的简单计数的处理中具有不同表达模式的转录本。 DESeq2使用广义线性模型(GLM)来确定归一化均值的变化。重复实验是优选的,因此技术变化from测序可以通过DESeq2算法进行归一化。 DESeq2 DEG分析产生数字和包含所有输出数字和描述的.html报告文件。或者,可以使用EdgeR而不是DESeq2,并且将使用EdgeR可视化生成相同的.html报告。研究人员可能希望运行DESeq2和EdgeR以找到任何给定实验的两种算法识别的差异表达基因。 Trinotate将创建一个可以在任何电子表格软件程序中打开的输出.xls文件。 DEG.txt文件和注释.xls文件可以在CyVerse平台之外的许多下游应用程序中进行分析和可视化。
图3:原始排序读取,修剪读取和最终修剪和过滤读取的FastQC报告。序列阅读的系统比较在每个预处理步骤之后。高质量的读数是组装从头转录组件所必需的。 FastQC可以帮助研究人员了解其序列数据的初始质量,并跟踪读取的预处理效率。 FastQC的结果将取决于有机体和样品被排序,但所有待比较下游的样品的均匀度是预处理读数的主要目标。 FastQC的作者和开发人员提供了一个教程视频和文档。 请点击此处查看此图的较大版本。
图4:三个独立组件的rnaQUAST报告。 rnaQUAST可用于比较使用相同汇编程序的多个读取程序集,或多个a ssemblers使用相同的初始读取。 rnaQUAST利用BUSCO根据存在于分类进化枝中的已知核心基因产生关于组装的汇总统计。每个誊本的错配数量以及与规范基因匹配的誊本数量有多少,提供了汇编程序准确性的洞察。这里提供的最后四个子图提供了contig和isoform长度的汇总统计量和预期同种型的覆盖率。 NAx表示长度大于y轴长度(bp)的重叠群的百分比(x)。组装的分数是最长的单个组装的转录物除以其长度。覆盖部分是完整组装的转录物/同种型的百分比,如来自BUSCO的核心原核或真核基因所预期的。可以使用由rnaQUAST生成的所有图形的描述( https://wiki.cyverse.org/wiki/x/fwuEAQ )。09 / 55009fig4large.jpg“target =”_ blank“>请点击此处查看此图的较大版本。
应用程序名称 | CyVerse平台 | 第三方文档 | CyVerse文档 | 样本数据集的估计运行时间 | 链接到应用程序 |
FastQC | DE | HTTP://www.bioinformatics。 babraham.ac.uk/projects/fastqc/ https://www.youtube.com/watch?v=bz93ReOv87Y | https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=9316768 | 15分钟 | HTTPS://de.iplantcollaborative。 组织/ DE /β型=应用和应用ID = 112b9aa8-c4a7-11e5-8209- 5f3310948295 |
Trimmomatic v0.33 | DE | https://github.com/timflutre/trimmomatic | https://wiki.cyverse.org/wiki/display/DEapps/Trimmomatic-programmable-0.33 | 30分钟 | HTTPS://de.iplantcollaborative。 组织/ DE /β型=应用和应用ID = 9c2a30dc-028d- 11E6-A915-ab4311791e69 |
镰刀 | DE | https://github.com/najoshi/sickle | https://wiki.cyverse.org/wiki/display/DEapps/Sickle-quality-based-trimming | 30分钟 | HTTPS://de.iplantcollaborative。 组织/ DE /β型=应用和应用ID = 68b278f8-d4d6-414d-9a64-b685a7714f7c |
三位一体 | 大气层 | https://github.com/trinityrnaseq/trinityrnaseq/wiki | HTTPS://pods.iplantcollaborative。 组织/维基/显示/ atmman /三位一体+ - + + Trinotate大气+图像 | 1周 | HTTPS://atmo.iplantcollaborative。 组织/应用/图像/ 1261 |
DE | https://wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1 | 2-5天 | https://开头WIKi.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1 | ||
rnaQUAST v1.2.0 | DE,大气 | http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html | HTTPS://pods.iplantcollaborative。 组织/维基/显示/ TUT / rnaQUAST + 1.2.0 +%28denovo +基于%29 + +使用DE | 30分钟 | HTTPS://de.iplantcollaborative。 组织/ DE /β型=应用和应用ID = 980dd11a-1666- 11e6-9122-930 ba8f23352 |
Transdecoder | DE | https://transdecoder.github.io | https://wiki.cyverse.org/wiki/display/DEapps/Transcript+decoder+2.0 | 2-3小时 | HTTPS://de.iplantcollaborative。 组织/ DE /β型=应用和应用ID = 5a0ba87e-b0fa-4994-92a2- 0d48ee881179 |
DESeq2 | DE | https://bioconductor.org/packages/release/bioc/html/DESeq2.html | HTTPS://pods.iplantcollaborative。 组织/维基/页/viewpage.action?PAGEID = 28115142 | 2-3小时 | HTTPS://de.iplantcollaborative。 组织/ DE /β型=应用和应用ID = 9574e87c-4f90- 11E6-a594-008 cfa5ae621 |
磨边机 | DE | https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf | https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=28115144 | 2-3小时 | HTTPS://de.iplantcollaborative。 组织/ DE /β型=应用和应用ID = 4a08ceda-54fe- 11e6-862f-008 cfa5ae621 |
Trinotate | 大气层 | https://trinotate.github.io/ | HTTPS://pods.iplantcollaborative。 组织/维基/显示/ atmman /三位一体+ - + + Trinotate大气+图像 | 1周 | HTTPS://atmo.iplantcollaborative。 组织/应用/图像/ 1261 |
表1:分析程序,它们可用的平台,a根据第一次出现,可以为按顺序排列的工作流程提供其他资源。所有包装版本截至2016年4月为止。
Discussion
协议中有五个关键步骤,每个关键步骤将在主项目文件夹( 图1和图 2 )中各自创建自己的单独的文件夹。所有主要原始测序数据都是神圣不可侵犯的:它应该被上传并保存在标有“1_Raw_Sequence”的第一个文件夹中,并且不会以任何方式进行更改。数据可以以三种方式之一上传。 DE接口可以直接上传文件。这是上传数据的最简单的方法,但也需要最长的时间才能传输。 Cyberduck具有图形界面,允许用户将文件拖放到DE中。 iCommands是一个命令行工具,可用于将数据传输到数据存储和从数据存储传输数据,创建目录和管理数据集,并且可能是传输数据文件的最快方法。数据存储中的所有数据可以与其他CyVerse用户共享(https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+Discovery +环境),通过生成的URL(https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links)公开,或者可以公开和匿名地托管(无需用户名)可用的社区数据(http://data.iplantcollaborative.org; http://mirrors.cyverse.org)。在该文件夹中,使用FastQC(http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/)分析原始序列读数,以评估如何修剪和过滤读取以生成高质量的读取。在修剪和质量过滤之后,比较FastQC输出以确定读取质量是否已更改,以确定其在不丢失信息的情况下变得更好( 图3 )是有用的。请注意,FastQC的x轴不是线性的,而是用于许多输出图形,这可能会导致结果的误解。然后将修剪和过滤的读数用于使用大气云计算实例组装从头转录组。这个云计算机使用本地计算机屏幕,键盘和鼠标,但具有自己的软件(Trinity和Trinotate)和硬件安装。在云计算机实例上运行程序不会以任何方式影响本地计算机。 从头组装和下游注释很可能是此工作流程中两个最长的运行步骤。因此,它们在大气层完成,以避免常见的实验室共享计算机问题,会中断分析,如断电,深夜自动更新后重新启动或其他用户造成的崩溃。 Trinotate注释使用BLAST + 8 ,HMMER 9 ,tmHMM 10和PFAM 11 。注释的最终输出是SQLite数据库和.xls文件。输出可以在下游分析平台(例如KEGG 12,13)中在CyVerse外部使用。
这个工作流程准备在DE和大气中使用。这样就无需花时间安装,配置和排除每个分析包以及每个工具所需的所有依赖关系。这简化了研究人员的分析,最大限度地减少了浪费的努力,并降低了许多科学家进入的障碍。该工作流程专门组装了Illumina测序平台的单端或双端读取,但DE和Atmosphere中存在许多工具来处理其他类型的测序技术。该工作流程中的工具可以轻松地替换为相应的替代工具来处理任何类型的输入排序技术。新版本的分析工具或全新工具也是如此。
此工作流程专门设计用于一次汇编,比较和注释仅几个转录组。因此,为了比较种群遗传学,组装多个转录组,用户可能会觉得耗时。分析管道将在不久的将来提供给种群遗传学用户,并且可以在wiki页面(https://wiki.cyverse.org/wiki/x/dgGtAQ)上找到与管道的链接。差异基因表达分析步骤可以处理复制,但是它是成对比较的,不能准确评估多个因素( 例如 ,随时间变化的条件,多于两种处理)。对于具有参考基因组的生物,存在自动化工作流程( 例如 ,TRAPLINE 14 )。虽然自动化工作流程对于新手来说最容易使用,但是从头组件需要对这里概述的每个步骤进行评估和考虑。此外,用户在构建时需要使用自动化管道,因此固有的灵活性不足以满足用户不断变化的需求。
由于该协议的大部分是通过互联网进行的,用户可能会遇到使用浏览器设置的麻烦。首先,弹出窗口阻止程序可能会使窗口无法打开,或者可能会保持窗口打开,直到在浏览器中给予CyVerse许可。大气使用VNC访问远程桌面,但可以使用其他软件。这个整个协议是在Firefox版本45.0.2中进行的,应该与所有受欢迎的Internet浏览器配合使用,但可能会出现一些不一致之处。工作流程将随Trinity发行新版本(https://github.com/trinityrnaseq/trinityrnaseq/wiki)而更新。有关工作流程的最新版本和最新信息,请参见wiki教程页面( 表1 ,https://wiki.cyverse.org/wiki/x/dgGtAQ)。用户可以直接联系支持人员或在Ask CyVerse(ask.cyverse.org/)上发布问题,以解决工作流程中的任何问题。
在DE中存在几个应用程序来完成此协议的每个步骤。例如,用户可能希望运行Scythe(https://github.com/najoshi/sickle)而不是Trimmomatic15用于读取修剪或运行EdgeR 16而不是DESeq 17,18 。尽管此手稿范围之外,DE应用程序可以由用户进行复制,编辑和发布(https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+应用程序)或新应用程序可以由用户添加(https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment)。大气图像也可以修改和重新映像,以创建更具体的用户需求的新的或修改的工作流程(https://wiki.cyverse.org/wiki/x/TwHX)。这项工作作为使用命令行来移动数据和执行分析的介绍。用户可以考虑利用更先进的命令行资源,如CyVerse应用程序编程接口(API)(http://www.cyverse.org/science-apis)或设计自己的DE应用程序,这些应用程序需要知识关于如何在命令行上运行分析工具(https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface)。
Materials
Name | Company | Catalog Number | Comments |
Trimmomatic v0.33 | USADELLAB.org | https://github.com/timflutre/trimmomatic | https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69 |
Sickle | Joshi and Fass | https://github.com/najoshi/sickle | https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c |
Trinity | Broad Institute and Hebrew University of Jersalem | https://github.com/trinityrnaseq/trinityrnaseq/wiki | https://atmo.iplantcollaborative.org/application/images/1261 |
rnaQUAST v1.2.0 | Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences | http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html | https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352 |
Transdecoder | Broad Institute and Commonwealth Scientific and Industrial Research Organisation | https://transdecoder.github.io | https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179 |
EdgeR | Robinson et al. 2010. | https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf | https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499 |
Trinotate | Broad Institute and Hebrew University of Jersalem | https://trinotate.github.io/ | https://atmo.iplantcollaborative.org/application/images/1261 |
References
- Hasselmann, M., Ferretti, L., Zayed, A. Beyond fruit-flies: population genomic advances in non-Drosophila arthropods. Brief. Funct. Genomics. 14 (6), 424-431 (2015).
- Scholz, M. B., Lo, C. -C., Chain, P. S. Next generation sequencing and bioinformatic bottlenecks: the current state of metagenomic data analysis. Anal. Biotech. 23 (1), 9-15 (2012).
- Merchant, N., et al. The iPlant Collaborative: Cyberinfrastructure for Enabling Data to Discovery for the Life Sciences. PLoS Biol. 14 (1), e1002342 (2016).
- Oliver, S. L., Lenards, A. J., Barthelson, R. A., Merchant, N., McKay, S. J. Using the iPlant collaborative discovery environment. Cur. Protoc. Bioinformatics. , 1-22 (2013).
- Skidmore, E., Kim, S., Kuchimanchi, S., Singaram, S., Merchant, N., Stanzione, D. iPlant atmosphere: a gateway to cloud infrastructure for the plant sciences. Proc. 2011 ACM. , 59-64 (2011).
- Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic local alignment search tool. J. Mol. Bio. 215 (3), 403-410 (1990).
- Simão, F. A., Waterhouse, R. M., Ioannidis, P., Kriventseva, E. V., Zdobnov, E. M. BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs. Bioinformatics. , (2015).
- Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
- Eddy, S. R. Profile hidden Markov models. Bioinformatics. 14 (9), 755-763 (1998).
- Krogh, A., Larsson, B., von Heijne, G., Sonnhammer, E. L. Predicting transmembrane protein topology with a hidden markov model: application to complete genomes. J. Mol. Biol. 305 (3), 567-580 (2001).
- Finn, R. D., Coggill, P., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Res. 44 (D1), D279-D285 (2016).
- Kanehisa, M., Sato, Y., Kawashima, M., Furumichi, M., Tanabe, M. KEGG as a reference resource for gene and protein annotation. Nucleic Acids Res. 44 (D1), D457-D462 (2016).
- Kanehisa, M., Goto, S. KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res. 28 (1), 27-30 (2000).
- Wolfien, M., et al. TRAPLINE: a standardized and automated pipeline for RNA sequencing data analysis, evaluation and annotation. BMC Bioinformatics. 17, 21 (2016).
- Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
- Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
- Anders, S. Analysing RNA-Seq data with the DESeq package. Mol. Biol. 43 (4), 1-17 (2010).
- Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Bio. 15 (12), 1-21 (2014).