我们的贝叶斯变点(BCP)算法的基础上通过隐马尔可夫模型的造型变化点的国家的最先进的进步和应用染色质免疫沉淀测序(ChIPseq)数据分析。 BCP执行在广泛和点状数据类型,但擅长准确地识别健壮的,可重复的岛屿弥漫组蛋白富集。
ChIPseq是一种广泛使用的技术,用于调查蛋白质-DNA相互作用。读密度分布所产生的使用下一个 – 蛋白结合的DNA测序和对准读取到参考基因组的短。富集的区域显示峰,这往往显着不同的形状,这取决于对目标蛋白1。例如,转录因子通常在现场和序列特异性方式结合,往往会产生点状的山峰,而组蛋白修饰更普遍的特点是广泛的,弥漫性的岛屿富集2。可靠地识别这些地区是我们的工作重点。
算法分析ChIPseq数据采用各种方法,启发式3-5进行更加严格的统计模型, 例如隐马尔可夫模型(HMM模型)6-8。我们试图最小化的必要性难以界定,专案参数,通常的解决方案,妥协的分辨率和减轻直观的工具的可用性。基于HMM的方法,我们的目的是限制参数估计的程序和简单的,有限状态分类,往往利用。
此外,传统ChIPseq的数据分析包括分类的读取密度分布为点状或弥漫性的后续应用适当的工具。我们还旨在取代这两个不同的模型需要一个单一的,更灵活的模型,它可以足够能力解决整个频谱的数据类型。
为了实现这些目标,我们首先构建了一个统计框架,自然为蓝本ChIPseq数据结构尖端提前HMM模型9,利用唯一明确的公式,其性能优势的关键创新。更复杂的启发式模型,通过我们的的HMM可容纳无限的隐藏状态贝叶斯模型。我们把它应用在读取密度,进一步定义丰富的段,确定合理的变化点。我们的分析表明,我们的贝叶斯变点(BCP)算法具有降低计算复杂度,证明了一个简化的运行时间和内存占用。 BCP算法已成功地应用于斑点状的峰值和漫岛的识别与强大的精度和有限的用户定义的参数。这所示,它的多功能性和易用性。因此,我们认为它可以容易地实现在广泛的范围内的数据类型和最终用户的方式,很容易比较和对比,使其成为一个伟大的工具ChIPseq数据的分析,可以帮助研究团体之间的协作和佐证。在这里,我们演示了应用程序的BCP现有的转录因子10,11和表观数据来说明它的用处。
我们的目标是建立一个模型分析ChIPseq数据同样可以识别点状和弥漫性两种数据结构。到现在为止,富集的地区,尤其是弥漫性的地区,这反映了先决条件预期的大岛,大小,已经难以辨认。为了解决这些问题,我们利用最新进展在HMM的技术,具有许多优点,现有的的的启发式模型和缺乏创新的HMM模型。
我们的模型使用明确的公式与贝叶斯框架。从其他HMM模型,这是一个关键?…
The authors have nothing to disclose.
斯塔尔基金会奖(MQZ),美国国立卫生研究院授予ES017166(MQZ),美国国家科学基金会:授予DMS0906593(HX)。