$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
ChIPseq — это широко используемый метод исследования белково-ДНК-взаимодействий. Профили плотности чтения генерируются с помощью последующего секвенирования связанной с белком ДНК и выравнивания коротких прочтений с референсным геномом. Обогащенные области проявляются в виде пиков, которые часто резко различаются по форме, в зависимости от целевого белка1. Например, факторы транскрипции часто связываются сайт- и секвенс-специфичным образом и имеют тенденцию к образованию точечных пиков, в то время как модификации гистонов более распространены и характеризуются широкими, диффузными островками обогащения. Надежная идентификация этих регионов была в центре нашей работы.
Алгоритмы для анализа данных ChIPseq используют различные методологии, от эвристики3-5 до более строгих статистических моделей, например, скрытых марковских моделей (HMM)6-8. Мы искали решение, которое сводило бы к минимуму необходимость в сложных для определения, специальных параметрах, которые часто ставят под угрозу разрешение и снижают интуитивное удобство использования инструмента. Что касается методов, основанных на HMM, мы стремились сократить процедуры оценки параметров и простые классификации конечных состояний, которые часто используются.
Кроме того, обычный анализ данных ChIPseq включает в себя категоризацию ожидаемых профилей плотности чтения как точечные или диффузные с последующим применением соответствующего инструмента. Кроме того, мы стремились заменить потребность в этих двух отдельных моделях единой, более универсальной моделью, которая может эффективно работать со всем спектром типов данных.
Чтобы достичь этих целей, мы сначала построили статистическую структуру, которая естественно моделирует структуры данных ChIPseq с использованием передового усовершенствования в HMM9, который использует только явные формулы - инновация, имеющая решающее значение для ее преимуществ в производительности. Более сложные, чем эвристические модели, наша HMM вмещает бесконечное количество скрытых состояний с помощью байесовской модели. Мы применили его для определения разумных точек изменения плотности чтения, которые в дальнейшем определяют сегменты обогащения. Наш анализ показал, что наш алгоритм байесовской точки изменения (BCP) имеет меньшую вычислительную сложность, о чем свидетельствует сокращение времени выполнения и занимаемого объема памяти. Алгоритм BCP был успешно применен для идентификации как точечных пиков, так и диффузных островков с высокой точностью и ограниченными параметрами, определяемыми пользователем. Это иллюстрирует как его универсальность, так и простоту использования. Следовательно, мы считаем, что его можно легко внедрить для широкого спектра типов данных и конечных пользователей таким образом, чтобы его можно было легко сравнивать и сопоставлять, что делает его отличным инструментом для анализа данных ChIPseq, который может помочь в сотрудничестве и подтверждении между исследовательскими группами. Здесь мы демонстрируем применение БКП к существующему фактору транскрипции10,11 и эпигенетическим данным12, чтобы проиллюстрировать его полезность.