Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Bioengineering

利用 GeNemo 模式搜索表数据

Published: October 8, 2017 doi: 10.3791/56136
* These authors contributed equally

Summary

与 DNA 序列数据不同, 表数据并不容易受到基于文本的搜索。这里介绍的程序使用升级版本的 GeNemo, 一个基于网络的生物信息学工具, 进行模式搜索的相似性, 表数据比较可用的在线数据库, 包括百科全书的 DNA 元素与用户的数据。

Abstract

与针对基因组或 RNA 测序数据的健壮的基于文本的搜索工具相比, 目前用于模式搜索表和其他功能基因组数据的方法非常有限。GeNemo 是第一个完成这个目标的在线搜索工具。用户在浏览器可扩展数据 (床)、峰值和要人格式中输入他们的功能基因组数据, 并可以搜索任何三种格式的数据。用户可以指定要搜索的数据集类型, 从各种在线数据集中进行选择, 并使用 DNA 元素 (编码) 的百科全书表示不同的表标记、转录因子绑定站点和染色质hypersensitivities 或性在特定的细胞类型, 发育阶段或物种 (老鼠或人类)。GeNemo 返回与输入数据匹配的基因组区域列表, 可以在浏览器中查看, 也可在床文件格式中下载。升级后的 GeNemo 改进了图形显示, 具有更强大的界面, 并且由于加利福尼亚大学圣克鲁斯 (UCSC) 基因组浏览器的变化, 不再容易出现错误。讨论常见问题的疑难解答步骤。随着功能基因组数据的数量呈指数级增长, 迫切需要开发和完善新的生物工具, 如 GeNemo 用于数据分析和解释。

Introduction

最近的技术进步允许快速扩展表或功能基因组数据保存, 这已经超过了相关的分析工具的开发, 以提取生物的洞察力。分析表数据的一个重要方法是搜索用户生成的数据和数据保存, 特别是那些来自 DNA 元素 (编码)1项目的百科全书, 以匹配可能导致新知识的模式。例如, 在基因组中定义的基因座上发现两个不同表标记的相似性, 可能表明不同分子在染色质构象和转录调控上的协调作用2 ,3,4

传统的基于文本的搜索引擎在这方面是无效的, 因为, 与 DNA 序列不同, 表数据主要存在于强度或功能基因组区域的格式中。GeNemo, 站立为基因尼莫 (在寻找尼莫), 被开发为解决这未满足的需要使用模式搜索5。该算法利用马尔可夫链蒙特卡洛最大化过程5。用户可以从保存处下载自己的数据, 或者从数据库中搜索一组在线表数据, 以确定模式的相似性。

GeNemo 的当前版本有一个更新的显示, 接口更加健壮地与加利福尼亚大学, 圣克鲁斯 (UCSC) 基因组浏览器6, 并且较少易受起因于后者的变动引起的问题。特别是, 虽然 GeNemo 的结果页过去是基于 UCSC 基因组浏览器界面, 当前版本的 GeNemo 支持其自己的结果页面, 因此不再是负面影响的结构变化的 UCSC 基因组浏览器。GeNemo 可以使用任何基因组信号, 包括蛋白质结合, 蛋白修饰, 染色质可及性, 拓扑域等, 作为一个查询, 以寻找 colocalized/类似的片段之间的已知数据集大财团。因此, 研究不同的表数据与大规模基因组项目所产生的已知数据之间的关系是一个重要的工具。

Protocol

注意: 协议可以在任何地方暂停.

1. 基本设置

  1. 获取包含要输入到基因组中的数据的床、峰值格式或要人 7 文件。该文件应具有扩展名和 #34; 床和 #34;, #34; broadpeaks 和 #34; #34; narrowpeaks 和 #34; 或 #34; 要人和 #34; 分别.
    #8203; 注意: 这些类型的文件的 zip 版本也将工作.
  2. 使用 internet 浏览器转到 genemo.org。任何能够运行最常见的互联网浏览器的操作系统都应该能够使用 GeNemo.
    1. 使用下拉菜单选择要搜索的物种。目前可用的物种包括人类和老鼠.
    2. 使用 url 或直接上载上传用户文件。要人文件只使用 url 上传方法。床和峰格式文件与两种方法一起使用 (摆动文件不能作为主数据上载到现在).

2。可选设置

  1. 在相应的框中提供电子邮件地址, 以便在搜索完成时通过电子邮件接收搜索结果.
    #8203; 注意: 当搜索大部分的基因组和/或反对大量的轨道 (见下文), 建议用户提供他/她的电子邮件, 因为搜寻可能需要很长的时间。例如, 100 megabase 搜索大约需要十五年代。搜索结果的链接将被发送到搜索完成时提供的电子邮件地址。链接将在搜索完成后的7天内过期.
  2. 提供要人文件或摆动显示文件可能来自 url。这个显示文件不会影响结果;它只会显示在结果旁边.
  3. 在相应的框中指定搜索范围 (包括染色体和基对位置).
    1. 列出染色体、起始基对和结束基对.
    2. 使用和 #39; 宥和 #39; 对于染色体格式, 在哪里和 #39; N 和 #39; 是染色体号/字母 (1、2和 #8230; X 或 Y)。对于基对, 只需键入数字.
    3. 在所有三项之间包含空格, 或包括冒号 (:) 在染色体编号和第一个基对之间, 和/或两个基对之间的连字符。例如: chr1:1000000-2000000, chr1 1000000 2000000, chr1 1000000-2000000, chr1:1000000 2000000.
      注意: 步骤 2.1-2.3 是可选的.

Figure 1
图 1 : GeNemo 和 #39 的首页, 并填写了所需的区域. 和 #160; 用户需要输入的物种, 搜索文件和搜索范围, 并选择轨道, 他/她希望搜索。电子邮件地址和显示文件是可选的. #160; 请单击此处查看此图的较大版本.

3. 数据选择

Figure 2
图 2 : 跟踪选择窗口. #160; 这是通过单击 #34;D ata 选择和 #34; 首页上的按钮来提出的。在这里, 用户可以选择跟踪来搜索输入文件。某些曲目在默认情况下已被选中. #160; 请单击此处查看此图的较大版本.

  1. 单击数据选择按钮后, 选择要搜索的曲目类型 ( (即 ), 以添加到查询中)。跟踪收集包括来自世界各地实验室的许多不同的数据集.
    1. 由于曲目列表很长, 用户可能需要使用 "滤镜" 按钮 (在顶部) 以方便跟踪选择。轨道可以通过实验、组织、细胞系和/或实验室进行过滤.
    2. 底部有五按钮可帮助执行跟踪选择: 全选、无选择、添加、筛选、排除.
    3. 选择所有和 #34; 和 #34; 选择 "无" 和 #34; 不言自明.
    4. #34; 添加和 #34; 按钮将当前选定的曲目添加到查询中。它充当逻辑门和 #34; 或 #34;。请注意, 选择上面的筛选器 ( 例如 、某些实验、组织、单元格线或实验室) 不会自动向搜索查询中添加相应的跟踪。用户必须首先选择曲目 (, 脑, 肝组织下), 然后单击 #34; 添加和 #34; 按钮将它们添加到查询中。选择曲目时, 请注意, 只有在 "筛选" 窗口的 "打开" 选项卡中指定的筛选器才会应用于搜索查询。其他选项卡上的选择将保存在 "筛选" 窗口中, 但不应用于搜索查询.
    5. "#34; 筛选器和 #34;" 按钮只保留查询中当前选定的轨道类型, 并删除所有其他类型的曲目。它充当逻辑门和 #34; 和 #34;。基本上, #34; 过滤器和 #34; 允许选择两个类别的轨道之间的交互 ( 例如 , 特定实验室的某些组织)。请注意, #34; 筛选器和 #34; 如果查询中尚未存在所选的曲目类型, 则不会将其添加到 query 中.
    6. "#34; 排除和 #34;" 按钮将从查询中删除当前在筛选器窗口中选定的所有类型的曲目。它充当逻辑门和 #34; 不 #34;, 反对和 #34; 过滤器和 #34; 功能。再次, #34; 排除和 #34; 不将当前未在筛选器窗口中选择的任何曲目添加到查询中.

Figure 3
图 3 : 筛选器窗口.这是通过点击和 #34, 过滤器和 #34, 在轨道选择窗口按钮。在这里, 用户可以同时选择多个曲目, 相对轻松. #160; 请单击此处查看此图的较大版本.

Figure 4
图 4 : 如何使用筛选器函数 。#160; 请单击此处查看此图的较大版本.

  1. 在将所需的曲目添加到查询后, 单击 "#34; 更新和 #34; 右下角的按钮。为了适应两种选择数据的方法: 选择单个数据跟踪或筛选/排除, 这是必需的。#34; 重置视图和 #34; 按钮将查询重置为与人类/小鼠胚胎干细胞基因表达调控相关的默认轨道.
    注意: 选择要通过和 #34;D ata 选择和 #34 进行搜索的曲目; 是可选的, 但建议使用因为默认的搜索曲目很可能不适合用户和 #39 的需求.

4。搜索和结果

  1. 在数据选择之后单击和 #34; 搜索和 #34; 按钮。搜索可能需要一些时间.
  2. 搜索完成后, 用户将在结果页中看到各种框。每个框代表一个部分的基因组, 其中一个用户和 #39; s 数据文件与一个或多个用户查询的轨道有一个紧密匹配的模式.
    1. 如果没有可见的框, 请尝试搜索更多类型的曲目, 或使用相同的输入文件使搜索范围更大。一个简单的方法来做到这一点, 没有重做的一切是点击 #34; #9776 #34; 按钮旁边的标志。这将打开一个允许用户修改搜索的边栏.
    2. 结果可以通过单击 #34;D ownload 床文件和 #34, 然后在结果页底部的按钮上导出为床文件.
  3. 单击每个框右上的 "可视化" 按钮以直观显示结果.
    1. 在右侧的可视化面板中, 将显示多个内容, 包括数据 (包含用户输入文件)、输入的显示文件、匹配的曲目和某些默认轨道。从结果中, 用户可以将已知的编码数据集与所提供的数据集进行比较, 以进行进一步的调查。用户也可以参考 UCSC 基因来查看查询结果的上下文。如果选择来自多个细胞系/组织的轨道, 用户可以使用这样的结果来了解给定数据集和编码数据集之间的相似性的组织特异性.
    2. 在结果页上, 用户可以在任何轨道上拖动以移动基因组的上游或下游; 当鼠标光标位于坐标上时, 用户可以使用鼠标滚轮和/或放大和缩小.

Figure 5
图 5 : 结果页 。此特定搜索返回363匹配区域。显示第一个匹配区域可以通过单击 "#34"、"显示和 #34"、"每个结果区域" 框左下角的按钮来完成。在显示窗口的左侧部分可以看到, 两个数据文件 (输入和选择的轨道) 在信号强度模式上是相似的. #160; 请单击此处查看此图的更大版本.

Representative Results

图 5中显示的是模拟搜索。选择了人类物种, 并将相应的样本文件用作输入数据文件。此外, 还选择了图 3中所示的默认磁道。共有363个匹配的区域, 第一个区域显示在展示页中。可以看出, 从17036000到17038000的强度模式, 在1号染色体上的输入文件和其中一个选择的轨道是非常相似的。

Discussion

对基因的透彻了解需要达到人类基因组测序的全部潜能, 从而提供新的生物学见解8。目前, 只有通过其数据描述和标题 (、元数据)1来搜索联机表数据集的方法。这就严重限制了表数据的搜索类型。模式表数据的搜索工具对于探索不同表标记之间的关系至关重要, 这可能导致新的生物学见解。根据数据的内容而不是元数据进行搜索的 GeNemo 是同类的第一个服务, 它将表数据中的模式与已发布的托管库 (如编码数据库) 与用户生成或下载的数据集5进行比较。这标志着表搜索工具的可用性的开始, 这是世界各地的研究人员广泛访问的, 就像基于文本的序列搜索工具在二十世纪九十年代得到广泛应用一样。目前, 除了 GeNemo 以外, 没有其他模式在线搜索工具可供表数据使用。

使用 GeNemo 的一个潜在的例子是搜索 co-appearing 组蛋白修饰和其他表观遗传标记与转录因子 E2F6 在人类胚胎干细胞 (一个例子 E2F6 绑定信号文件是在编码数据门户可用或在https://sysbio.ucsd.edu/public/xcao3/ENCODESample/ENCFF001UBC.bed)。通过使用此文件作为查询对 H1-hESC 中的所有编码数据集进行搜索, GeNemo 将显示 E2F6 绑定信号与 H3K4me1、H3K4me2、H3K4me3 和 H3K27me3 一起大量丰富, 这与现有的研究表明, E2F6 通过H3K27 的甲基化9。另一方面, 似乎有定位的 E2F6 和 CtBP2 绑定网站, 这是已知的互动与一个因素在同一家庭, E2F710。这些结果为整个基因组反对大量的表观遗传标记, 转录因子结合信号, 和其他信号在编码中可以相当容易地获得与 GeNemo, 这可以提供所有潜在的目标, 进一步分析。

由于第一次发布5 GeNemo 作为基于 web 的表数据搜索工具, 因此 GeNemo 的结果部分已更新为与 GeNemo 的前页具有匹配的外观。旧的结果部分紧密地镜像了 UCSC 的基因组浏览器结果部分, 并且很大程度上依赖于远程 UCSC 服务器的显示。随着新的接口, GeNemo 是更 user-friendly, 不再依赖于 UCSC 基因组服务器 (即使数据仍然是获取远程)。这使得 GeNemo 更健壮, 而且由于 UCSC 服务器上的代码更改而不易受到问题的影响。此外, GeNemo 的新的、更快的聚合物界面为用户提供了更多的工具来可视化和分析数据中的模式。

关键步骤包括提供适当的输入文件和选择要搜索的数据磁道。强烈鼓励用户尝试各种跟踪选择功能, 以熟悉选择过程以及如何将不同的命令组合在一起以实现预期的结果。特别要注意的是, "add" 函数需要添加所选的查询曲目, 而 "过滤器" 或 "排除" 可以分别用作逻辑门命令 "and" 和 "or"。在实现搜索之前, 需要使用 "Update" 函数来影响所有选择。当没有返回结果时, 用户可以检查输入数据文件, 搜索更多的曲目或增加搜索范围。每当出现错误时, 都会弹出一个窗口, 定义错误的确切内容。但也有一些含糊不清的错误。例如, 当窗口表示 "没有上传任何文件" 时, 或者没有上传文件, 或者上载的文件不是可接受的格式, 因此程序无法正确读取。文件上传可接受的文件格式包括床和波峰格式文件的两个上传方法, 和要人的在线链接只上传。这些文件格式的 zip 版本也可以接受。

此方法的当前局限性包括尚未优化算法和在 GeNemo 中使用的函数。GeNemo 还不能就任何返回的数据集的解释提供任何指导。这项任务是由用户, 这需要在生物基因组和基因的重要知识和专长。另外, 当前的另一个限制是用户不能更改搜索的灵敏度和噪音级别。我们希望在未来的模式搜索功能和数据集收集方面继续改进和扩展 GeNemo。

Disclosures

作者没有竞争的财务利益透露。

Acknowledgments

这项工作得到了 NIH 的资助, 包括来自研究院、R01HG008135 和 NHGRI 的 DP1HD087990。我们感谢中实验室的成员有价值的反馈。

作者投稿:
X.C. 和 A.T.Z. 更新 GeNemo 通过编码新的接口和特点;A.T.Z. 制作了 in-house 样品视频;A.T.Z., 十° C 和深圳写了这篇论文。

Materials

Name Company Catalog Number Comments
GENEMO https://www.genemo.org Comparative Epigenome Browser

DOWNLOAD MATERIALS LIST

References

  1. The ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature. 489, 57-74 (2012).
  2. Barski, A., et al. High-Resolution Profiling of Histone Methylations in the Human Genome. Cell. 129 (4), 823-837 (2007).
  3. Meaney, M. J., Ferguson-Smith, A. C. Epigenetic regulation of the neural transcriptome: the meaning of the marks. Nature Neuroscience. 13, 1313-1318 (2010).
  4. Roh, T. -Y., Cuddapah, S., Cui, K., Zhao, K. The genomic landscape of histone modifications in human T cells. PNAS. 103 (43), 15782-15787 (2006).
  5. Zhang, Y., Cao, X., Zhong, S. GeNemo: a search engine for web-based functional genomic data. Nucleic Acids Res. 44, W122-W127 (2016).
  6. Fujita, P. A., Rhead, B., Zweig, A. S., Hinrichs, A. S., Karolchik, D., Cline, M. S., Goldman, M., Barber, G. P., Clawson, H., Coelho, A., et al. The UCSC Genome Browser database: update 2011. Nucleic Acids Res. 39, 876-882 (2011).
  7. Neph, S., Vierstra, J., Stergachis, A. B., Reynolds, A. P., Haugen, E., Vernot, B., Thurman, R. E., John, S., Sandstrom, R., Johnson, A. K., et al. An expansive human regulatory lexicon encoded in transcription factor footprints. Nature. 489, 83-90 (2012).
  8. Sarda, S., Hannenhalli, S. Next-generation sequencing and epigenomics research: a hammer in search of nails. Genomics Inform. 12 (1), 2-11 (2014).
  9. Storre, J., et al. Silencing of the Meiotic Genes SMC1β and STAG3 in Somatic Cells by E2F6. J Biol Chem. 280, 41380-41386 (2005).
  10. Liu, B., Shats, I., Angus, S. P., Gatza, M. L., Nevins, J. R. Interaction of E2F7 Transcription Factor with E2F1 and C-terminal-binding Protein (CtBP) Provides a Mechanism for E2F7-dependent Transcription Repression. J Biol Chem. 288, 24581-24589 (2013).

Tags

生物工程学 问题 128 生物信息学 GeNemo 编码 模式匹配 功能基因组数据 基因 基因组
利用 GeNemo 模式搜索表数据
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Zheng, A., Cao, X., Zhong, S.More

Zheng, A., Cao, X., Zhong, S. Pattern-based Search of Epigenomic Data Using GeNemo. J. Vis. Exp. (128), e56136, doi:10.3791/56136 (2017).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter