Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project

Francis R. G. Amrit; Arjumand Ghazi

doi:10.3791/55473

JoVE Journal > Genetics

Please note that all translations are automatically generated. Click here for the English version.

Genetics

的转录分析ç。线虫 RNA测序数据通过炫套房的银河项目

Published: April 08, 2017

doi:

10.3791/55473

Francis R. G. Amrit, Arjumand Ghazi

¹Department of Pediatrics,University of Pittsburgh School of Medicine, Children’s Hospital of Pittsburgh

Summary

银河和大卫已经成为流行的工具，让没有生物信息学培训调查分析和解释RNA-Seq的数据。我们描述了一种协议，用于秀丽隐杆线虫的研究人员进行RNA测序实验，访问和使用银河处理数据集，并获得从使用DAVID的基因列表有意义的生物信息。

Abstract

新一代测序（NGS）技术已经彻底改变了生物学研究的性质。在这些中，RNA测序（RNA-SEQ）已经成为用于基因表达分析和转录的映射的有力工具。然而，处理RNA-Seq的数据集需要复杂计算的专业知识和带来的生物学研究人员固有的挑战。这个瓶颈已经缓解由开放接入银河项目，使用户无需生物信息学技术分析RNA-Seq的数据，和注释，可视化和集成发现（DAVID）的数据库，基因本体论（GO）项的分析工具，帮助从大的数据集获得生物学意义。但是，对于初次使用者和生物信息学爱好者，自学习和熟悉这些平台可以是耗时且艰巨。我们描述一个简单的工作流程，这将有助于线虫研究人员分离出病毒RNA，进行了RNA-Seq的实验并分析利用银河DAVID平台的数据。这个协议提供了使用各种银河模块在每个步骤访问原始NGS数据，质量控制检查，对准和差异基因表达分析，指导与参数的用户生成可筛选的富集的基因列表逐步指令基因的类或使用DAVID生物过程。总体而言，我们预计，本文将提供信息，以秀丽隐杆线虫的研究人员正在进行运行的小样本首次RNA-Seq的实验以及频繁的用户。

Introduction

人类基因组的测序首先，执行使用弗雷德·桑格的双脱氧核苷酸测序方法，用了10年，耗资估计US $ 3十亿^{^{^1，2。}}然而，自成立以来一点点过去十年，新一代测序（NGS）技术已经使人们有可能在两周内测序整个人类基因组和US $ 1,000。新NGS仪器的成本是允许日益增长的测序数据采集的速度令人难以置信的效率，与急剧下降一起，以难以想象的方式彻底改变现代生物学的基因组测序项目正在迅速成为家常便饭。此外，这些发展已镀锌在许多其他领域，例如通过RNA测序（RNA-SEQ），的基因组范围的表观遗传修饰的研究中，DNA-蛋白质相互作用的基因表达分析的进步，并筛选在人类宿主微生物多样性。 NGS-基于RNA的硒●在特定使得有可能鉴定和地图转录全面与准确度和灵敏度，并且已取代微阵列技术作为选择的一种绘制表达图谱的方法。虽然微阵列技术已经被广泛使用时，它通过其与已知基因组信息预先存在的阵列，以及其它的缺点的依赖的限制，诸如交叉杂交，并且能够可靠地计量的表达的变化限制范围。 RNA-SEQ，在另一方面，可用于检测已知和未知的转录而产生低的背景噪声，由于其明确的DNA映射性质。 RNA-Seq的，加上通过模式生物如酵母提供了众多的遗传工具，蝇，虫，鱼和小鼠，曾担任许多重要生物医学近期发现的基础。然而，显著挑战依然存在，使以更广泛的科学界NGS无法访问，包括存储的局限性，加工，最重要的是，男大量的测序数据的eaningful生物信息学分析。

在测序技术和指数数据积累的快速发展创造了计算平台，将允许研究人员访问，分析和理解这些信息的巨大需求。早期的系统主要依赖于计算机编程知识，反之，基因组浏览器，比如NCBI，允许非程序员访问和可视化数据不允许复杂的分析。基于Web的，开放的接入平台，银河（ https://galaxyproject.org/ ），填补了这一空白，并证明是一个有价值的管道，使研究人员能够处理NGS数据并执行的频谱简单到复杂生物信息学分析。银河初步建立，并保持，由安东Nekrutenko（宾夕法尼亚州立大学）和詹姆斯·泰勒的实验室（约翰霍普金斯大学）F“> 3。银河提供广泛的计算任务使其成为一个‘一站式’为无数生物信息学的需要，包括所有参与的RNA测序研究的步骤。Itallows用户无论是在其服务器或执行数据处理在当地自己的机器上，数据和工作流可以被复制和共享。在线教程，帮助部分和wiki页面 （ https://wiki.galaxyproject.org/Support ）专用于银河项目提供持续的支持。但是，对于初次使用的用户，尤其是那些没有生物信息学培训，该管道可以出现艰巨，自主学习和熟悉的过程可能会非常耗时。此外，生物系统研究，实验和方法的具体使用，冲击在几个步骤的分析决策，而这些可能很难没有指令导航。

整体RN A-SEQ银河工作流包括数据上传和质量检查，随后使用Tuxedo的套件^{^{^{^{^{^{^{^{^{^{^{4，5，6，7，8，9，}}}}}}}}}}}这是用于RNA测序数据分析¹⁰的不同阶段所需的各种工具的集体分析^， ^{^{^{^{^{^{^{11，12，13，14。}}}}}}}典型的RNA测序实验由实验部分（样品制备，分离mRNA和cDNA文库制备）中，并NGS生物信息学分析数据。这些部分，以及涉及在银河管道中的步骤的概述，示于图1。

3fig1.jpg” />
图1：一个RNA测序工作流程的概述。参与的RNA测序实验，以比较两个蠕虫菌株（A和B，橙色和绿色线和箭头，分别地）的基因表达概况的实验和计算步骤图示。银河使用的不同的模块示于盒用在我们的协议以红色表示相应的步骤。各种操作的输出被写在灰色与以蓝色显示的文件格式。请点击此处查看该图的放大版本。

在炫套房的第一个工具是一个名为“ 高顶礼帽 ”的比对程序。它分解的NGS输入读取成较小的片段，然后将它们映射到参考基因组。这种两步处理确保读取跨越内含子区，其比对可以以其他方式二srupted或错过入账和映射。这增加了覆盖范围并促进新的剪接点的鉴定。顶帽输出被报告为两个文件，一个文件BED（具有约剪接点，其包括基因组位置信息）和一个文件BAM（具有每个读映射的详细信息）。接着，BAM文件针对参照基因组对齐来估计使用于所谓的“ 袖扣” Tuxedo的套件随后工具每个样品内的单个转录物的丰度。通过扫描对准来报告全长转录物的片段或“transfrags”跨越所有在为每一个基因的输入数据可能的剪接变体袖扣功能。在此基础上，它会产生一个对于每个样品被测序（每个基因产生的每一个基因的所有转录的组件）“转录”。然后，这些袖扣组件崩溃或再一起合并在一起ference基因组以产生用于使用下一个工具，“Cuffmerge”下游差分分析的单个注释文件。最后，由每个样品的顶帽的输出进行比较，以最终Cuffmerge输出文件（ 图1） 的样品之间的“Cuffdiff”工具措施的差异基因表达。袖扣使用FPKM / RPKM（片段/读取每百万映射成绩单的每千碱基读取）值报告成绩单丰度。这些值反映原始NGS数据的深度归一化和基因长度（基因具有不同的长度，所以计数必须被归一化了的基因，以比较电平的长度（平均数目从对齐到参考基因组中的样本读出）基因之间）。 FPKM和RPKM基本上是相同的与RPKM被用于单端RNA测序，每一个读出对应于一个单一片段，而，FPKM用于配对末端RNA测序，因为它占的事实，两次读取可以对应于相同的片段。最终，这些分析的结果是所测试的条件和/或株之间差异表达的基因的列表。

一旦成功银河运行完成并产生“基因名单”，下一个合乎逻辑的步骤需要更多的生物信息学分析，从数据集推断出有意义的知识。许多软件包应运而生，以满足这方面的需求，其中包括公开可用的基于网络的计算包，如DAVID ^15（用于注释，可视化和集成发现数据库）。 DAVID利于通过比较基因上传列表，其集成的生物知识库和揭示与基因列表相关的生物注释分配生物学意义，从高通量研究大基因列表。其次是富集分析，即测试IDEntify如果任何生物过程或基因类是在以统计学显著方式基因列表（一个或多个）过表达。因为一个广泛的，集成的知识基础和强大的分析算法，使研究人员能够检测富含内生物主题的组合，已成为一个流行的选择基因组衍生的“基因列表” ^{^{^10，16。}}其它优点包括其处理的任何测序平台和高度友好的用户界面创建基因列表的能力。

所述线虫是一种遗传模型系统中，公知为它的许多优点，例如尺寸小，透明体，简单的身体计划，易于培养的和巨大的顺从的遗传和分子清扫。蠕虫有一个小的，简单的和注释良好的基因组，其包括高达40％保守的基因与已知的人类同系物^17。事实上，线虫是第一个后生动物，其基因组被完全测序^18，并且其中RNA测序被用于映射生物体的转录^{^{^19，20}}中的第一物种之一。早期的蠕虫的研究涉及的实验用不同的方法进行高通量RNA捕获，文库制备和测序及生物信息学管道是该技术^{^{^21，22}}的发展作出了贡献。近年来，在蠕虫基于RNA-Seq的，实验已经司空见惯。但是，传统的蠕虫生物学家通过RNA-Seq的数据的计算分析所带来的挑战仍然是技术的更大和更好地利用的一个主要障碍。

在本文中，我们描述了使用Galaxy平台分析来自秀丽隐杆线虫中产生高通量的RNA测序数据的协议。对于许多第一次和小SCA勒用户来说，最具有成本效益的和直接的方式进行的RNA测序实验是在实验室中分离RNA，并利用商用（或内部）NGS设施用于制备测序的cDNA文库和NGS本身。因此，我们已首次详细涉及隔离的步骤，C.量化和质量评估线虫 RNA样品用于RNA测序。接下来，我们为使用Galaxy接口，用于NGS数据的分析中，有用于测序后质量控制检查，随后对准，装配，和基因表达的定量差试验开始提供一步一步的指示。此外，我们已包括方向审议银河使用DAVID生物富集研究产生的基因列表。由于工作流中的最后的步骤中，我们上传到公共服务器，如序列读数存档（SRA）在NCBI（RNA-SEQ数据提供指令的http：//瓦特ww.ncbi.nlm.nih.gov/sra），使其自由科学界访问。总体而言，我们预计，本文将蠕虫生物学家开展运行小样本首次RNA-Seq的实验以及频繁的用户提供全面的，充分的信息。

Protocol

1. RNA分离预防措施向下擦拭整个工作表面，仪器和吸液管使用市售的RNA酶喷雾以消除任何RNA酶存在。在任何时候都戴上手套，定期与在协议的不同步骤新鲜的改变它们。仅使用过滤嘴，并保持所有样品在冰上尽可能避免RNA降解。注：为了获得从NGS平台的最佳数据，它开始与高品质RNA的关键。 RNA分离和制备方法取决于样品来源，测序和研究者偏好方?…

Representative Results

在秀丽隐杆线虫，消去生殖系干细胞（GSC中）延长寿命，提高的应力复原力，和提升体脂肪24,28。 GSC中的损失，或者通过激光烧蚀或通过突变如GLP-1引起，导致寿命延长通过转录的网络因子29活化。一个这样的因素，TCER-1，编码人转录延伸和剪接因子，TCERG1 30的蜗杆同源物…

Discussion

在现代生物学银河测序平台的意义

银河项目已成为帮助生物学家没有生物信息学培训，以处理和快速，高效地分析高通量测序数据的工具。曾经被视为一个艰巨的任务，这个公开可用的平台，取得了运行复杂的生物信息学算法来分析NGS数据的简单，可靠，简单的过程。除了托管范围广泛的生物信息学工具，成功的关键银河也是它的用户界面的该鞋带复杂测序分析的各个方面一起…

Disclosures

The authors have nothing to disclose.

Acknowledgements

作者想表达自己的感激之情谁开发银河和DAVID，从而取得NGS科学界广泛接受的实验室，团体和个人。在我们的生物信息学的培训，在匹兹堡大学的同事提供的帮助和建议是公认的。这项工作是由一个埃里森医学基金会新学者在老龄化奖（AG-NS-0879-12）和美国国立卫生研究院（R01AG051659），以股份公司的资助。

Materials

RNase spray	Fisher Scientific	21-402-178
Trizol	Ambion	15596026
Sonicator	Sonics Vibra Cell	VCX130
Centrifuge	Eppendorf	5415C
chloroform	Sigma Aldrich	288306
2-propanol	Fisher Scientific	A416P-4
Ethanol	Decon Labs	2705HC
RNase-free water	Fisher Scientific	BP561-1
Bioanalyzer	Agilent	G2940CA
Mac/PC

References

Venter, J. C., et al. The sequence of the human genome. Science. 291 (5507), 1304-1351 (2001).
Lander, E. S., et al. Initial sequencing and analysis of the human genome. Nature. 409 (6822), 860-921 (2001).
Afgan, E., et al. The Galaxy platform for accessible, reproducible and collaborative biomedical analyses: 2016 update. Nucleic Acids Res. 44 (W1), W3-W10 (2016).
Trapnell, C., Pachter, L., Salzberg, S. L. TopHat: discovering splice junctions with RNA-Seq. Bioinformatics. 25 (9), 1105-1111 (2009).
Trapnell, C., et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat Biotechnol. 28 (5), 511-515 (2010).
Roberts, A., Trapnell, C., Donaghey, J., Rinn, J. L., Pachter, L. Improving RNA-Seq expression estimates by correcting for fragment bias. Genome Biol. 12 (3), R22 (2011).
Roberts, A., Pimentel, H., Trapnell, C., Pachter, L. Identification of novel transcripts in annotated genomes using RNA-Seq. Bioinformatics. 27 (17), 2325-2329 (2011).
Trapnell, C., et al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nat Protoc. 7 (3), 562-578 (2012).
Trapnell, C., et al. Differential analysis of gene regulation at transcript resolution with RNA-seq. Nat Biotechnol. 31 (1), 46-53 (2013).
Huang da, W., Sherman, B. T., Lempicki, R. A. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc. 4 (1), 44-57 (2009).
Giardine, B., et al. Galaxy: a platform for interactive large-scale genome analysis. Genome Res. 15 (10), 1451-1455 (2005).
Han, Y., Gao, S., Muegge, K., Zhang, W., Zhou, B. Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights. 9 (1), 29-46 (2015).
Mardis, E. R. Next-generation sequencing platforms. Annu Rev Anal Chem (Palo Alto Calif). 6, 287-303 (2013).
Yang, I. S., Kim, S. Analysis of Whole Transcriptome Sequencing Data: Workflow and Software. Genomics Inform. 13 (4), 119-125 (2015).
Khatri, P., Draghici, S. Ontological analysis of gene expression data: current tools, limitations, and open problems. Bioinformatics. 21 (18), 3587-3595 (2005).
Huang da, W., Sherman, B. T., Lempicki, R. A. Bioinformatics enrichment tools: paths toward the comprehensive functional analysis of large gene lists. Nucleic Acids Res. 37 (1), 1-13 (2009).
Shaye, D. D., Greenwald, I. OrthoList: a compendium of C. elegans genes with human orthologs. PLoS One. 6 (5), e20085 (2011).
Consortium, C. e. S. Genome sequence of the nematode C. elegans: a platform for investigating biology. Science. 282 (5396), 2012-2018 (1998).
Agarwal, A., et al. Comparison and calibration of transcriptome data from RNA-Seq and tiling arrays. BMC Genomics. 11, 383 (2010).
Mortazavi, A., et al. Scaffolding a Caenorhabditis nematode genome with RNA-seq. Genome Res. 20 (12), 1740-1747 (2010).
Bohnert, R., Ratsch, G. rQuant.web: a tool for RNA-Seq-based transcript quantitation. Nucleic Acids Res. 38, W348-W351 (2010).
Lamm, A. T., Stadler, M. R., Zhang, H., Gent, J. I., Fire, A. Z. Multimodal RNA-seq using single-strand, double-strand, and CircLigase-based capture yields a refined and extended description of the C. elegans transcriptome. Genome Res. 21 (2), 265-275 (2011).
Amrit, F. R., Ratnappan, R., Keith, S. A., Ghazi, A. The C. elegans lifespan assay toolkit. Methods. 68 (3), 465-475 (2014).
Hsin, H., Kenyon, C. Signals from the reproductive system regulate the lifespan of C. elegans. Nature. 399 (6734), 362-366 (1999).
Alper, S., et al. The Caenorhabditis elegans germ line regulates distinct signaling pathways to control lifespan and innate immunity. J Biol Chem. 285 (3), 1822-1828 (2010).
Steinbaugh, M. J., et al. Lipid-mediated regulation of SKN-1/Nrf in response to germ cell absence. Elife. 4, (2015).
Lapierre, L. R., Gelino, S., Melendez, A., Hansen, M. Autophagy and lipid metabolism coordinately modulate life span in germline-less. C. elegans. Curr Biol. 21 (18), 1507-1514 (2011).
Rourke, E. J., Soukas, A. A., Carr, C. E., Ruvkun, G. C. elegans major fats are stored in vesicles distinct from lysosome-related organelles. Cell Metab. 10 (5), 430-435 (2009).
Ghazi, A. Transcriptional networks that mediate signals from reproductive tissues to influence lifespan. Genesis. 51 (1), 1-15 (2013).
Ghazi, A., Henis-Korenblit, S., Kenyon, C. A transcription elongation factor that links signals from the reproductive system to lifespan extension in Caenorhabditis elegans. PLoS Genet. 5 (9), e1000639 (2009).
Amrit, F. R., et al. DAF-16 and TCER-1 Facilitate Adaptation to Germline Loss by Restoring Lipid Homeostasis and Repressing Reproductive Physiology in C. elegans. PLoS Genet. 12 (2), e1005788 (2016).
Wang, M. C., O’Rourke, E. J., Ruvkun, G. Fat metabolism links germline stem cells and longevity in C. elegans. Science. 322 (5903), 957-960 (2008).
McCormick, M., Chen, K., Ramaswamy, P., Kenyon, C. New genes that extend Caenorhabditis elegans’ lifespan in response to reproductive signals. Aging Cell. 11 (2), 192-202 (2012).
Kartashov, A. V., Barski, A. BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data. Genome Biol. 16, 158 (2015).
Goncalves, A., Tikhonov, A., Brazma, A., Kapushesky, M. A pipeline for RNA-seq data processing and quality assessment. Bioinformatics. 27 (6), 867-869 (2011).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Amrit, F. R. G., Ghazi, A. Transcriptomic Analysis of C. elegans RNA Sequencing Data Through the Tuxedo Suite on the Galaxy Project. J. Vis. Exp. (122), e55473, doi:10.3791/55473 (2017).

的转录分析<em>ç</em>。<em>线虫</em> RNA测序数据通过炫套房的银河项目

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

的转录分析<em>ç</em>。<em>线虫</em> RNA测序数据通过炫套房的银河项目

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below