This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.
该工作流程允许新手研究人员利用诸如云计算之类的先进计算资源来执行成对的比较转录组学。它还是生物学家开发数据科学家计算技能的基础, 例如执行bash命令,大型数据集的可视化和管理。所有命令行代码和每个命令或步骤的进一步说明可以在wiki上找到( https://wiki.cyverse.org/wiki/x/dgGtAQ )。发现环境和大气平台通过CyVerse数据存储连接在一起。因此,一旦初始的原始测序数据已经上传,就不再需要通过因特网连接传输大数据文件,从而最小化进行分析所需的时间。该协议旨在分析两个实验处理或条件。进行差异基因表达分析比较成对比较,不适合测试多种因素。此工作流程也被设计为手动而不是自动化。每个步骤必须由用户执行和调查,从而更好地了解数据和分析输出,从而为用户提供更好的结果。一旦完成,该协议将为服务不足(非模型)生物体产生从头组装的转录组,而不需要映射到以前组装的参考基因组(其通常在缺乏生物体的情况下不可用)。这些从头转录组进一步用于成对差异基因表达分析,以研究在两个实验条件之间不同的基因。然后在功能上注释差异表达的基因以了解生物体对实验条件的遗传反应。总的来说,从该协议得到的数据用于测试关于缺乏生物体的生物反应的假设。
智人和几种关键模型动物物种,如果蝇,果蝇和丹尼io 鱼代表了目前和过去功能基因组学工作的大部分。然而,高通量测序技术的快速降低的成本为非模型( 又称为 “被忽视的”或“服务不足”)动物提供了功能基因组学的机会1 。这是基因组学中的一个重要转变,因为非模式生物体经常代表经济上相关的物种( 例如牡蛎,虾,螃蟹),并提供调查模型物种发现范围之外的新型表型和生物系统的机会。
虽然服务水平不足的生物体提供了研究独特生物系统的有吸引力的机会,但是在生物信息学分析过程中,研究人员特别面临着挑战。一些处理大数据集的挑战是天生的,而另一些挑战则是缺乏对缺乏生物体工作的研究人员缺乏遗传资源,如参考基因组,生物体特异性本体等 。核酸分离和测序的挑战往往是常规的与数据分析相比较,并且这样的生物信息学分析通常被证明是排序项目成本最低的2 。例如,基本的下一代测序生物信息学分析可能包括以下步骤:对原始测序读数进行质量过滤和修剪,将短读集合到更大的连续片段,以及与其他系统的注释和/或比较以获得生物学认识。虽然看起来很简单,但这个示例工作流需要专业知识和计算资源超出实验台计算机的范围,将其放置在许多科学家研究的范围之外,模型生物。
先天的挑战可以是基础设施或基于知识的挑战。经典的基础架构挑战是获得适当的计算资源。例如,装配和注释依赖于需要强大的计算机或计算机集群的计算密集型算法,具有大量RAM(256 GB-1 TB)和运行的多个处理器/内核。不幸的是,许多研究人员无法访问这样的计算资源,也没有必要的知识与这些系统进行交互。其他研究人员可能通过其大学或机构可以访问高性能计算集群,但访问这些资源可能会受到限制,有时会导致每个计算小时的费用, 即 CPU处理器的数量乘以实时“时钟数小时“这些处理器正在运行。利用美国国家科学基金会资助的网络基础设施系统例如,在美国和世界各地为研究人员提供免费获取计算资源的CyVerse 3可以帮助缓解基础设施的挑战,这将在此展示。
典型的基于知识的挑战的一个例子是理解完整分析所需的软件。为了有效地进行基于排序的项目,研究人员需要熟悉为生物信息学分析开发的无数软件工具。学习每个软件包本身是困难的,但是由于软件包不断升级,重新发布,整合成新的工作流程,有时被限制在新的许可证下使用,这一点更加恶化。此外,链接这些工具的输入和输出有时需要转换数据类型以使其兼容,为工作流添加另一个工具。最后,也很难知道哪个软件包是“th”最好的“分析,并且经常识别特定实验条件的最佳软件是一个微妙的差异。在某些情况下,可以使用有用的软件评估,但由于新的更新和软件选项的不断发布,这些快速过时。
对于调查服务不足的生物体的研究人员,除了与分析新生物体数据相关的挑战之外,还有这些先天的挑战。这些缺乏生物体特异性的挑战在基因注释过程中得到了最好的阐述。例如,服务不全的生物体通常没有密切相关的模型生物体,可以合理地用于鉴定基因正义和功能( 例如海洋无脊椎动物和果蝇 )。许多生物信息学工具还需要“培训”来识别可用于鉴定基因功能的结构基序。但是,训练数据通常只适用于mod埃尔生物和培养隐马尔可夫模型(HMMs)不在生物学家的范畴之内,甚至是许多生物信息学家。最后,即使使用模型生物体的数据进行注释,当考虑到缺乏生物体的生物学和自然史( 例如 ,将信息从果蝇转移到虾)时,与模型生物相关的一些基因本体也是没有意义的。
鉴于这些挑战,生物信息资源需要与研究人员进行开发,专门针对不足的生物进行重新分析。未来几年功能基因组测序项目将有助于缩小模型与服务不足生物之间的差距( https://genome10k.soe.ucsc.edu/ ),但是需要开发许多工具来应对挑战以上考虑。 CyVerse致力于创造我的生态系统通过将现有的网络基础设施与第三方应用程序相链接,为生命科学家提供数据管理,生物信息分析工具和数据可视化。互操作性有助于通过提供可扩展的计算资源,限制文件格式转换和平台之间传输的数据量来平滑生物信息学应用程序和平台之间的转换。 CyVerse提供了几个平台,包括发现环境(DE 4 ,Atmosphere 5和Data Store 3) ,DE是基于Web的,并且有许多常用的生物信息学分析工具转换为用户友好的点击式格式(称为“应用程序“),并且是用于数据存储的图形用户界面(GUI),其中存储和管理大数据集( 即原始排序读取,组装的基因组)。大气是云计算服务,为研究人员提供了更大的灵活性使用虚拟机计算资源,预先安装了广泛的生物信息学工具。这两个平台都链接到数据存储,并可以一起使用来创建工作流,如这里描述的。本报告重点介绍从头转录组件和差异基因表达分析工作流程,并进一步阐述与开发和进行生物信息学分析相关的一些最佳实践。 CyVerse( http://www.cyverse.org/about )和详细平台描述( http://www.cyverse.org/learning-center )的更广泛使命的解释是公开的。本文中描述的所有分析都使用发现环境4 (DE)和大气5 ,并以使所有计算级别的研究人员可以访问的方式呈现。 DE工作流程和Atmosph可以直接使用URL来引用图像,以确保长期的来源,可重用性和可重复性。
协议中有五个关键步骤,每个关键步骤将在主项目文件夹( 图1和图 2 )中各自创建自己的单独的文件夹。所有主要原始测序数据都是神圣不可侵犯的:它应该被上传并保存在标有“1_Raw_Sequence”的第一个文件夹中,并且不会以任何方式进行更改。数据可以以三种方式之一上传。 DE接口可以直接上传文件。这是上传数据的最简单的方法,但也需要最长的时间才能传输。 Cyberduck具有图形界面,允许用户将文件拖放到DE中。 iCommands是一个命令行工具,可用于将数据传输到数据存储和从数据存储传输数据,创建目录和管理数据集,并且可能是传输数据文件的最快方法。数据存储中的所有数据可以与其他CyVerse用户共享(https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+Discovery +环境),通过生成的URL(https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links)公开,或者可以公开和匿名地托管(无需用户名)可用的社区数据(http://data.iplantcollaborative.org; http://mirrors.cyverse.org)。在该文件夹中,使用FastQC(http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/)分析原始序列读数,以评估如何修剪和过滤读取以生成高质量的读取。在修剪和质量过滤之后,比较FastQC输出以确定读取质量是否已更改,以确定其在不丢失信息的情况下变得更好( 图3 )是有用的。请注意,FastQC的x轴不是线性的,而是用于许多输出图形,这可能会导致结果的误解。然后将修剪和过滤的读数用于使用大气云计算实例组装从头转录组。这个云计算机使用本地计算机屏幕,键盘和鼠标,但具有自己的软件(Trinity和Trinotate)和硬件安装。在云计算机实例上运行程序不会以任何方式影响本地计算机。 从头组装和下游注释很可能是此工作流程中两个最长的运行步骤。因此,它们在大气层完成,以避免常见的实验室共享计算机问题,会中断分析,如断电,深夜自动更新后重新启动或其他用户造成的崩溃。 Trinotate注释使用BLAST + 8 ,HMMER 9 ,tmHMM 10和PFAM 11 。注释的最终输出是SQLite数据库和.xls文件。输出可以在下游分析平台(例如KEGG 12,13)中在CyVerse外部使用。
这个工作流程准备在DE和大气中使用。这样就无需花时间安装,配置和排除每个分析包以及每个工具所需的所有依赖关系。这简化了研究人员的分析,最大限度地减少了浪费的努力,并降低了许多科学家进入的障碍。该工作流程专门组装了Illumina测序平台的单端或双端读取,但DE和Atmosphere中存在许多工具来处理其他类型的测序技术。该工作流程中的工具可以轻松地替换为相应的替代工具来处理任何类型的输入排序技术。新版本的分析工具或全新工具也是如此。
此工作流程专门设计用于一次汇编,比较和注释仅几个转录组。因此,为了比较种群遗传学,组装多个转录组,用户可能会觉得耗时。分析管道将在不久的将来提供给种群遗传学用户,并且可以在wiki页面(https://wiki.cyverse.org/wiki/x/dgGtAQ)上找到与管道的链接。差异基因表达分析步骤可以处理复制,但是它是成对比较的,不能准确评估多个因素( 例如 ,随时间变化的条件,多于两种处理)。对于具有参考基因组的生物,存在自动化工作流程( 例如 ,TRAPLINE 14 )。虽然自动化工作流程对于新手来说最容易使用,但是从头组件需要对这里概述的每个步骤进行评估和考虑。此外,用户在构建时需要使用自动化管道,因此固有的灵活性不足以满足用户不断变化的需求。
由于该协议的大部分是通过互联网进行的,用户可能会遇到使用浏览器设置的麻烦。首先,弹出窗口阻止程序可能会使窗口无法打开,或者可能会保持窗口打开,直到在浏览器中给予CyVerse许可。大气使用VNC访问远程桌面,但可以使用其他软件。这个整个协议是在Firefox版本45.0.2中进行的,应该与所有受欢迎的Internet浏览器配合使用,但可能会出现一些不一致之处。工作流程将随Trinity发行新版本(https://github.com/trinityrnaseq/trinityrnaseq/wiki)而更新。有关工作流程的最新版本和最新信息,请参见wiki教程页面( 表1 ,https://wiki.cyverse.org/wiki/x/dgGtAQ)。用户可以直接联系支持人员或在Ask CyVerse(ask.cyverse.org/)上发布问题,以解决工作流程中的任何问题。
在DE中存在几个应用程序来完成此协议的每个步骤。例如,用户可能希望运行Scythe(https://github.com/najoshi/sickle)而不是Trimmomatic15用于读取修剪或运行EdgeR 16而不是DESeq 17,18 。尽管此手稿范围之外,DE应用程序可以由用户进行复制,编辑和发布(https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+应用程序)或新应用程序可以由用户添加(https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment)。大气图像也可以修改和重新映像,以创建更具体的用户需求的新的或修改的工作流程(https://wiki.cyverse.org/wiki/x/TwHX)。这项工作作为使用命令行来移动数据和执行分析的介绍。用户可以考虑利用更先进的命令行资源,如CyVerse应用程序编程接口(API)(http://www.cyverse.org/science-apis)或设计自己的DE应用程序,这些应用程序需要知识关于如何在命令行上运行分析工具(https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface)。
The authors have nothing to disclose.
The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).
Trimmomatic v0.33 | USADELLAB.org | https://github.com/timflutre/trimmomatic | https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69 |
Sickle | Joshi and Fass | https://github.com/najoshi/sickle | https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c |
Trinity | Broad Institute and Hebrew University of Jersalem | https://github.com/trinityrnaseq/trinityrnaseq/wiki | https://atmo.iplantcollaborative.org/application/images/1261 |
rnaQUAST v1.2.0 | Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences | http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html | https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352 |
Transdecoder | Broad Institute and Commonwealth Scientific and Industrial Research Organisation | https://transdecoder.github.io | https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179 |
EdgeR | Robinson et al. 2010. | https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf | https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499 |
Trinotate | Broad Institute and Hebrew University of Jersalem | https://trinotate.github.io/ | https://atmo.iplantcollaborative.org/application/images/1261 |