Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

一种新型的全基因组分析的贝叶斯变点算法的多元ChIPseq数据类型

Published: December 10, 2012 doi: 10.3791/4273

Summary

我们的贝叶斯变点(BCP)算法的基础上通过隐马尔可夫模型的造型变化点的国家的最先进的进步和应用染色质免疫沉淀测序(ChIPseq)数据分析。 BCP执行在广泛和点状数据类型,但擅长准确地识别健壮的,可重复的岛屿弥漫组蛋白富集。

Abstract

ChIPseq是一种广泛使用的技术,用于调查蛋白质-DNA相互作用。读密度分布所产生的使用下一个 - 蛋白结合的DNA测序和对准读取到参考基因组的短。富集的区域显示峰,这往往显着不同的形状,这取决于对目标蛋白1。例如,转录因子通常在现场和序列特异性方式结合,往往会产生点状的山峰,而组蛋白修饰更普遍的特点是广泛的,弥漫性的岛屿富集2。可靠地识别这些地区是我们的工作重点。

算法分析ChIPseq数据采用各种方法,启发式3-5进行更加严格的统计模型, 例如隐马尔可夫模型(HMM模型)6-8。我们试图最小化的必要性难以界定,专案参数,通常的解决方案,妥协的分辨率和减轻直观的工具的可用性。基于HMM的方法,我们的目的是限制参数估计的程序和简单的,有限状态分类,往往利用。

此外,传统ChIPseq的数据分析包括分类的读取密度分布为点状或弥漫性的后续应用适当的工具。我们还旨在取代这两个不同的模型需要一个单一的,更灵活的模型,它可以足够能力解决整个频谱的数据类型。

为了实现这些目标,我们首先构建了一个统计框架,自然为蓝本ChIPseq数据结构尖端提前HMM模型9,利用唯一明确的公式,其性能优势的关键创新。更复杂的启发式模型,通过我们的的HMM可容纳无限的隐藏状态贝叶斯模型。我们把它应用在读取密度,进一步定义丰富的段,确定合理的变化点。我们的分析表明,我们的贝叶斯变点(BCP)算法具有降低计算复杂度,证明了一个简化的运行时间和内存占用。 BCP算法已成功地应用于斑点状的峰值和漫岛的识别与强​​大的精度和有限的用户定义的参数。这所示,它的多功能性和易用性。因此,我们认为它可以容易地实现在广泛的范围内的数据类型和最终用户的方式,很容易比较和对比,使其成为一个伟大的工具ChIPseq数据的分析,可以帮助研究团体之间的协作和佐证。在这里,我们演示了应用程序的BCP现有的转录因子10,11和表观数据来说明它的用处。

Protocol

1。准备输入文件BCP分析

  1. 对齐短期运行(芯片和输入库)使用首选短读校准软件到相应的参考基因组测序读。映射的位置应该被转换为6列浏览器的可扩展的数据格式(BED)13(UCSC基因组浏览器, http://genome.ucsc.edu/ ),制表符分隔的每行对应的读表示映射的染色体,起始位置(从0开始),结束位置(半开),读的名字,得分(可选)和链。

2A。弥漫读取配置文件:预处理芯片的读为检测弥漫数据丰富的群岛密度

  1. 扩展到预定的片段长度, 芯片和输入对应的位置。针对在酶消化或超声处理的DNA的片段大小,通常为约200 bp的。片段数aggrega特德在相邻位置。 bin大小设置为默认情况下,估计片段长度为200 bp的。
  2. 任何可能的变化点中的一组的箱具有相同的读取计数将最有可能下降在最的外边界。因此,这是不可能的,将发生在两个时间窗相同的读计数的内部边界之间的变化点。因此,组相邻位置,以相同的读取每个回收箱,成一个单一的块, 。 bedGraph格式13。

2B。点状读取配置文件:预处理芯片和输入BED检测的峰点状数据文件

  1. 总重叠读取,读取分别为正,负链芯片。链特定的读的密度应形成一个加号和减号峰双峰档案。选择加/减对最丰富的山峰和使用首脑会议库片段长度的估计值之间的距离。
  2. 按住Shift键的芯片和输入读取的片段文件ngth的中心,并重新计算的转移和合并的加号和减号链读取读取密度。这种推定 ​​片段长度的方法是采用从章, 。3。应分组具有相同的合并计数的位置,成块,类似于步骤2A.2。

3。估算后,平均密度每块使用我们的BCMIX逼近

  1. 读取每个块的密度建模为泊松分布,泊松(θt)的,与平均参数Gamma分布的混合物后,Γ(α,β),和先验概率的变化点发生在任何数据块边界空调泊松(θ )G(α,β)。有效的渲染无限的状态HMM模型。估价超参数,α,β, p,使用最大后验似然。
  2. 显式计算的贝叶斯估计每个块,θ 为E(θ 吨|γZ)。更换更传统,但耗费时间向前和向后的过滤器经常使用的HMM模型,更有效地计算界的复杂混合近似估计后验手段,θC。后的手段,将“平滑”成一个近似分段恒定的个人资料,以便块相同,θC,应进一步封锁一起更新的边界坐标。

4A。成段弥漫性增高,弥漫读取配置文件:后处理后的手段

  1. 使用数字输入读取每一个新的θC座为背景率,泊松(λ )每使用一个简单的假设检验的基础上的芯片是否后平均,θC,超过某个阈值δ确定富集。 90 日</ SUP>位数是的默认d和在大多数情况下是合适的。
  2. 合并相邻的θC块,超过了浓缩成一个单一的地区和报表合并简单的床格式的坐标。或者,用户可以为每个块在bedGraph格式保持高分辨率的细节的读出的密度估计θc报告。

4B。点状到山顶考生的阅读概况:后处理后的手段

  1. 定义背景率,泊松(λ ),作为平均的所有读出的计数(γ2)和拣选超过阈值,D的所有块。由于点状峰预期更基本上富集,默认δ被设置为99 泊松(λ ) -分位数。
  2. 设置块最大的θc为候选峰值首脑会议的毗邻的侧翼块共享一个类似的读巢穴SITY(±1读取数允许有轻微的变化)。此邻接的候选结合位点的区域被定义为。
  3. 计算λ2作为沉淀的候选结合位点与假设检验的平均读取计数,这与输入的背景是零假设H 0,λ1≥λ2拒绝 H 0的基础上的p-值的阈值。输出候选人峰在床上格式。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

BCP擅长识别组蛋白修饰数据的广泛富集的地区。作为一个参照点,我们以前相比,我们的研究结果的SICER 3,现有的工具,已显示出强大的性能。为了更好地说明BCP的优势,我们研究了组蛋白的修饰,得到了很好的研究,建立评估成功率的基础。然后考虑到这一点,我们分析H3K36me3,因为它已经显示出强烈的积极转录基因体( 图1)关联。相反,H3K36me3也被证明是互斥H3K27me3压制性马克。我们进一步杠杆这些已知的关系,以说明的BCP的性能优势,通过确定的馏分用已知协会和disassociations的重叠,在效果的相关性和反相关的岛屿调用中的准确性。在这里,我们使用额外的例子进一步证实的优势BCP高性能。

我们前面的工作中表现出的趋势,在BCP更大的岛屿面积23.9至25.8 KB,比SICER,2.7至10.7 KB较大的岛屿更广泛弥漫性H3K36me3丰富的岛屿与传统的期望 提交的生物科学公共图书馆比较 )。当然,较大的岛屿不单独显示的准确性。因此,我们决定与已知基因和间隔空间的重叠程度,显示的假阳性率(FPR),这种情况与这些地区多少重叠。在BCP基因覆盖范围从0.492到0.497,较不严重影响的FPR;间隔的重叠范围从0.89〜0.90和0.85〜0.98在BCP和SICER的,分别为0.276至0.437 SICER。在这里,我们提出了一个额外的代表性的区域,显示机构明确区分主动和抑制之间的密切关系的界限,丰富和基因编的转录( 图1)。这进一步支持了我们的要求,BCP保持高活性基因的重叠的H3K36me3岛屿紧密结合的基因体的边界不化程度越来越高的假阳性重叠的间隔空间,抑制转录的基因,或H3K27me3镇压标记。

虽然评估BCP岛的再现性,要求在两个复制的数据集,我们注意到,BCP没有遭受一个严重依赖于读取覆盖深度竞争的算法,SICER;。我们提供了额外的证据,BCP的鲁棒性和再现性通过检查附加的不同的区域,尽管减少覆盖深度(通过抽样模拟读取完整的数据集)( 图2)表明一致的岛屿边界。

为了充分展示BCP的多功能性,我们得到了广泛的组蛋白修饰数据,包括点状标记s H3K27ac,H3K9ac和H3K4me3的,而漫反射的标记,H3K9me3,除了H3K27me3和H3K36me3。我们分析了这些数据集使用默认的参数设置为BCP和SICER的( 图3)。这些标记代表了广泛的读取密度分布,使我们能够集中区域通常与他们的特点,说明了许多。在中心处的H3K36me3富集在活跃转录的PXDN基因标记。下降沿预计在转录起始位点的额外的点状,活性标记,H3K27ac,H3K9ac,并H3K4me3的。下游PXDN压抑H3K27me3富集标记的间隔空间。在对侧存在的H3K27me3压抑的基因。移动走出沉默染色质,表示存在的H3K9me3富集出现的SNTG2和位于myt1l表示沉默,也许在一个较短暂的意识H3K27me3压制。这个区域包含了大部分连接的现象反击ChIPseq的组蛋白修饰,并说明如何动态性质的BCP都可以识别点状的乙酰化和H3K4me3的痕迹,而在同一时间区分大的连续岛屿的H3K27me3和H3K9me3压制的和H3K36me3转录。要重申,BCP可以做,所有这些分析只是在默认设置下,作为证明,仍然会产生高质量的结果,无论数据类型。该算法也快速和高效的存储器,因此,实际上提供了一个引人注目的用处。

图1
图1。,弥漫读密度分布的组蛋白修饰。 H3K27me3(上)和H3K36me3(底部)体现了广泛的,弥漫性密切相关的丰富的岛屿与的基因机构(绿框)。 H3K27me3相关性与抑制基因和基因间空间和anticorrelates,积极TRanscribed基因体。与此相反的是真实的H3K36me3。数据是在UCSC基因组浏览器( http://genome.ucsc.edu )的可视化的。

图2
图2。BCP是强大的和可重复性。岛要求H3K36me3在两个重复,并在取样深度中的30,50和70%的完整复制1数据集进行分析的BCP。具有基本上较低的读出覆盖,产生所述第二复制,类似岛屿呼叫和程度的重叠高度保留无论取样的百分比。此外,保持精度的紧密结合RefSeq的基因体注解的界限。

图3
图3。BCP是一个反之亦然瓷砖的算法,该算法可以应用到所有的组蛋白修饰的数据类型。 ,BCP和SICER被用来分析的数据类型的域,扩散H3K36me3,H3K27me3和H3K9me3的商标一样,从点状标记,像H3K27ac,H3K9ac,和H3K4me3的。这两种算法使用的默认参数,BCP岛屿捕捉到丰富的密度,无论其广度,而SICER经常片段区域划分为许多子岛。即使在非常广泛,弥漫的情况下H3K9me3,BCP有合理的性能。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

我们的目标是建立一个模型分析ChIPseq数据同样可以识别点状和弥漫性两种数据结构。到现在为止,富集的地区,尤其是弥漫性的地区,这反映了先决条件预期的大岛,大小,已经难以辨认。为了解决这些问题,我们利用最新进展在HMM的技术,具有许多优点,现有的的的启发式模型和缺乏创新的HMM模型。

我们的模型使用明确的公式与贝叶斯框架。从其他HMM模型,这是一个关键的区别,因为它使我们能够计算后的手段,读取密度的各段,简单的计算,而不是依靠耗费时间和计算复杂性的模拟,如马尔可夫链蒙特卡罗方法。因此,我们的计算时间和内存的要求大大降低。采用高性能的计算集群无线个双核,2.0 GHz的64位内存2 GB的分析节点23000000 H3K27me3〜21万H3K36me3读取,BCP了不到一个小时的全基因组分析相比,几个小时到数天所需的其他方法。这些节省时间,可以实现只用温和的2 GB的内存。

此外,我们的模型的条件, 各分部的各种手段。泊松(θ),在一个连续的Gamma分布。从本质上讲,这允许无限可能的状态,为每个段。 BCP可以提供更多的不是简单的二元分类的丰富与背景,并保留密度读通过后的输出装置的每一个部分的大小。

我们还使使用的BCMIX算法的计算效率。这使得近穷举搜索所有可能的基因组位置的浓缩和背景之间的变更点。这提供了一个提高分辨率而不是confined的任意窗口定义,运行时间或内存需求的影响不大。

这是所有没有干扰的准确性,无论在理论上完成,由于该模型是统计学严谨,结果收敛的贝叶斯估计,以及在实践中,我们已经证明在这里。基因的覆盖率的H3K36me3结果表明岛屿调用是非常准确地侵入相互排除间隔空间或H3K27me3富集。结果是显着的重现性和鲁棒性不大依赖于覆盖深度,高的的基因覆盖面和低FPR调用相似的岛屿,尽管采样深度低至30%。 BCP被广泛使用,不作任何调整默认参数,广泛的组蛋白修饰,转录因子ChIPseq数据进行分析,并在所有情况下表现良好。我们希望,由于其具有精度高,鲁棒性和可重复性,BCP作为一种有效的在未来的数据分析,协作和佐证的工具。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

没有利益冲突的声明。

Acknowledgments

斯塔尔基金会奖(MQZ),美国国立卫生研究院授予ES017166(MQZ),美国国家科学基金会:授予DMS0906593(HX)。

Materials

Name Company Catalog Number Comments
Linux-based workstation

DOWNLOAD MATERIALS LIST

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Tags

第70期,遗传学,生物信息学,基因组学,分子生物学,细胞生物学,免疫学,染色质免疫共沉淀,ChIP-seq的,组蛋白修饰,分割,贝叶斯,隐马尔可夫模型,表观遗传学
一种新型的全基因组分析的贝叶斯变点算法的多元ChIPseq数据类型
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Xing, H., Liao, W., Mo, Y., Zhang,More

Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter