Роман байесовского Изменение точки Алгоритм всему геному анализ различных типов данных ChIPseq

Haipeng Xing; Willey Liao; Yifan Mo; Michael Q. Zhang

doi:10.3791/4273

Method Article

Роман байесовского Изменение точки Алгоритм всему геному анализ различных типов данных ChIPseq

DOI:

10.3791/4273

⸱

December 10th, 2012

Haipeng Xing¹ , Willey Liao¹^,² , Yifan Mo¹^,² , Michael Q. Zhang²^,³

¹Department of Applied Mathematics & Statistics, Stony Brook University, ²Computational Biology and Bioinformatics, Cold Spring Harbor Laboratory, ³Department of Molecular and Cell Biology, University of Texas at Dallas

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Наши байесовского Точка изменения (BCP) алгоритм основывается на состоянии самой современной прогресс в области моделирования изменения точки через скрытых Марковских моделей и применяет их к иммунопреципитации хроматина секвенирования (ChIPseq) анализ данных. BCP хорошо работает как в широком и точечные типов данных, но превосходит точно идентифицировать надежные, воспроизводимые острова диффузного гистонов обогащения.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

ChIPseq — это широко используемый метод исследования белково-ДНК-взаимодействий. Профили плотности чтения генерируются с помощью последующего секвенирования связанной с белком ДНК и выравнивания коротких прочтений с референсным геномом. Обогащенные области проявляются в виде пиков, которые часто резко различаются по форме, в зависимости от целевого белка¹. Например, факторы транскрипции часто связываются сайт- и секвенс-специфичным образом и имеют тенденцию к образованию точечных пиков, в то время как модификации гистонов более распространены и характеризуются широкими, диффузными островками обогащения^. Надежная идентификация этих регионов была в центре нашей работы.

Алгоритмы для анализа данных ChIPseq используют различные методологии, от эвристики^3-5 до более строгих статистических моделей, например, скрытых марковских моделей (HMM)^6-8. Мы искали решение, которое сводило бы к минимуму необходимость в сложных для определения, специальных параметрах, которые часто ставят под угрозу разрешение и снижают интуитивное удобство использования инструмента. Что касается методов, основанных на HMM, мы стремились сократить процедуры оценки параметров и простые классификации конечных состояний, которые часто используются.

Кроме того, обычный анализ данных ChIPseq включает в себя категоризацию ожидаемых профилей плотности чтения как точечные или диффузные с последующим применением соответствующего инструмента. Кроме того, мы стремились заменить потребность в этих двух отдельных моделях единой, более универсальной моделью, которая может эффективно работать со всем спектром типов данных.

Чтобы достичь этих целей, мы сначала построили статистическую структуру, которая естественно моделирует структуры данных ChIPseq с использованием передового усовершенствования в HMM⁹, который использует только явные формулы - инновация, имеющая решающее значение для ее преимуществ в производительности. Более сложные, чем эвристические модели, наша HMM вмещает бесконечное количество скрытых состояний с помощью байесовской модели. Мы применили его для определения разумных точек изменения плотности чтения, которые в дальнейшем определяют сегменты обогащения. Наш анализ показал, что наш алгоритм байесовской точки изменения (BCP) имеет меньшую вычислительную сложность, о чем свидетельствует сокращение времени выполнения и занимаемого объема памяти. Алгоритм BCP был успешно применен для идентификации как точечных пиков, так и диффузных островков с высокой точностью и ограниченными параметрами, определяемыми пользователем. Это иллюстрирует как его универсальность, так и простоту использования. Следовательно, мы считаем, что его можно легко внедрить для широкого спектра типов данных и конечных пользователей таким образом, чтобы его можно было легко сравнивать и сопоставлять, что делает его отличным инструментом для анализа данных ChIPseq, который может помочь в сотрудничестве и подтверждении между исследовательскими группами. Здесь мы демонстрируем применение БКП к существующему фактору транскрипции^10,11 и эпигенетическим данным¹², чтобы проиллюстрировать его полезность.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. Подготовка входных файлов для анализа BCP

Совместите короткий читает производится из последовательности серий (чип и ввод библиотеки) к соответствующим геном ссылки с использованием предпочтительного короткие программного обеспечения выравнивания чтения. Отображаемых мест должны быть преобразованы в 6 колонке обозревателя расширяемых данных (BED) формата ¹³ (УСК геноме браузера, http://genome.ucsc.edu/ ), табуляции линии на отображенные читать с указанием отображенных хромосомы, исходное положение (0-основе), конечное положение (полуоткрытые), прочитать название, оценка (опционально), и пряди.

2а. Диффузный Читайте профили: Предварительная обработка ChIP Читать плотности для обнаружения Обогащенный островов в диффузных данных

Расширение Чип и ввод отображаемых мест до заданной длины фрагмента, то есть. размер фрагмента мишенью в ферментативного расщепления или ультразвуком ДНК, как правило, около 200 пар. Фрагмент подсчеты, то агрегацииТед в соседних ячеек. По умолчанию бен установлен размер расчетная длина фрагмента 200 п.н..
Любое возможное изменение точки в набор контейнеров с одинаковым читать рассчитывает, скорее всего, падение на внешнем самых границ. Таким образом, маловероятно, что изменение точки будет происходить на внутренней границе двух бункеров с тем же рассчитывает чтения. Таким образом, группа соседних бункерах, с одинаковыми говорится в мусорное ведро, в единый блок, то есть. bedGraph формате ^13.

2b. Точечные Читайте профили: Chip предварительной обработки и входных файлов кровать для обнаружения пиков в мелкоточечный данных

Совокупный перекрытия говорится в плюс и минус нити ChIP читает отдельно. Нить конкретные читать плотность должна стать бимодального профиля плюс и минус пиков. Выберите плюс / минус пар из наиболее обогащенных пики и использовать расстояние между их встречами на высшем уровне, как оценка длины фрагмента библиотеки.
Сдвиг Чип и ввод читает половина фрагмент леngth к центру и пересчитать читать плотность смещается и объединены плюс и минус нить читает. Эта методология для оценки длины фрагмента была принята от Zhang, и др.. ^3. Позиции с одинаковым счетом слияния должны быть сгруппированы в блоки, похожие на шаг 2а.2.

3. Оцените Задний средний Читать плотность каждого блока с помощью нашего приближения BCMIX

Читать плотность каждого блока моделируется как распределение Пуассона, объекты POI (θ _т), со средним параметром следующие смеси гамма-распределений, Γ (α, β), и перед вероятность изменения, происходящие точки в любой границы блока р. принадлежности POI (θ _т) на G (α, β) эффективно делает модель бесконечной HMM государства. Оцените гипер-параметров, α, β, р, максимально используя задние правдоподобия.
Явно вычислить байесовской оценкикаждого блока, θ _т, а E (θ _T | γ _Z). Заменить более традиционный, но много времени вперед и назад, фильтры часто используются в ПММ, с более вычислительно эффективно Ограниченные приближении Смесь Сложность оценить задние средств, θ _с. В результате задние средства будут "размазанной" в приближенных кусочно-постоянной профиль, чтобы блоки с одинаковыми, θ _с, следует продолжить их вместе с обновленной границы координаты.

4а. Диффузный Читайте профили: Post-процессов Задний средств в сегменты Диффузный обогащению

Используйте количество входных говорится в каждый новый блок _с θ в качестве фона ставки, объекты POI (λ) и определить обогащения с помощью простого теста гипотеза, основанная на чипе ли задний средний, θ _с, превышает некоторый порог δ. ^{90-й <}/ SUP>-квантиль по умолчанию D и подходит в большинстве случаев.
Слияние соседних θ _с блоками, которые превышают обогащения в одном регионе и доклад слияния координаты в простом формате BED. Кроме того, можно сообщить о θ _с для каждого блока в формате bedGraph сохранить высокое разрешение деталей для чтения оценках плотности.

4б. Точечные Читайте профили: Post-процессов Задний средства в пик кандидатов

Определить фоне ставки, объекты POI (λ), а в среднем по всем прочитать отсчетов (γ ₂₎ и выявления всех блоков, которые превышают порог, г. Так как точечные пики ожидается, будет более существенно обогатили по умолчанию δ установлен в ^{99-е-квантиль} POI (λ).
Установите блок с максимальным θ _с, как саммит пик кандидата и примыкающие фланговые блоки, которые имеют аналогичные ден чтенияплотности (± 1 прочитаны, чтобы обеспечить небольшие изменения). Это присоединенных регион определен как кандидат сайт связывания.
Рассчитать λ _2, средняя читать рассчитывает в чип кандидата сайта связывания и проверки гипотезы этом фоне в зависимости от входного была нулевой гипотезы, H _0, является то, что λ ₁ ≥ λ ₂ и отклонить H ₀ на основе р-порогового значения. Выходные кандидата пика в постели формате.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

BCP выделяется на выявление регионов широком обогащения гистонов модификации данных. В качестве точки отсчета, ранее мы сравнивали наши результаты с результатами SICER ^3, существующий инструмент, который продемонстрировал высокие показатели. Чтобы лучше проиллюстрировать преимущества BCP, мы рассмотрели модификация гистонов, которые были хорошо изучены, чтобы создать основу для оценки успеха ставок. Имея это в виду, мы затем анализируются H3K36me3, так как она была показана, чтобы связать сильно с активно тра...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Мы задались целью разработать модель для анализа ChIPseq данных, которые могут идентифицировать как точечные и диффузные структуры данных, одинаково хорошо. До сих пор регионы обогащения, в частности, диффузные регионов, которые отражают предполагает ожидание больших размеров остров, было трудно идентифицировать. Для решения этих проблем, мы использовали самые последние достижения в области технологии HMM, которые обладают многими преимуществами по сравнению с существующими эвристическими моделями и менее инновационные ...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Нет конфликта интересов объявлены.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

STARR основу премии (MQZ), NIH грант ES017166 (MQZ), NSF гранта DMS0906593 (HX).

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
Название реагента	Компания	Номер в каталоге	Комментарии (по желанию)
Linux рабочих станций на базе

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137(2008).
Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369(2010).
Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299(2009).
Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Роман байесовского Изменение точки Алгоритм всему геному анализ различных типов данных ChIPseq

In This Article

Summary

Abstract

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles