Method Article

Роман байесовского Изменение точки Алгоритм всему геному анализ различных типов данных ChIPseq

DOI:

10.3791/4273

December 10th, 2012

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Наши байесовского Точка изменения (BCP) алгоритм основывается на состоянии самой современной прогресс в области моделирования изменения точки через скрытых Марковских моделей и применяет их к иммунопреципитации хроматина секвенирования (ChIPseq) анализ данных. BCP хорошо работает как в широком и точечные типов данных, но превосходит точно идентифицировать надежные, воспроизводимые острова диффузного гистонов обогащения.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

ChIPseq — это широко используемый метод исследования белково-ДНК-взаимодействий. Профили плотности чтения генерируются с помощью последующего секвенирования связанной с белком ДНК и выравнивания коротких прочтений с референсным геномом. Обогащенные области проявляются в виде пиков, которые часто резко различаются по форме, в зависимости от целевого белка1. Например, факторы транскрипции часто связываются сайт- и секвенс-специфичным образом и имеют тенденцию к образованию точечных пиков, в то время как модификации гистонов более распространены и характеризуются широкими, диффузными островками обогащения. Надежная идентификация этих регионов была в центре нашей работы.

Алгоритмы для анализа данных ChIPseq используют различные методологии, от эвристики3-5 до более строгих статистических моделей, например, скрытых марковских моделей (HMM)6-8. Мы искали решение, которое сводило бы к минимуму необходимость в сложных для определения, специальных параметрах, которые часто ставят под угрозу разрешение и снижают интуитивное удобство использования инструмента. Что касается методов, основанных на HMM, мы стремились сократить процедуры оценки параметров и простые классификации конечных состояний, которые часто используются.

Кроме того, обычный анализ данных ChIPseq включает в себя категоризацию ожидаемых профилей плотности чтения как точечные или диффузные с последующим применением соответствующего инструмента. Кроме того, мы стремились заменить потребность в этих двух отдельных моделях единой, более универсальной моделью, которая может эффективно работать со всем спектром типов данных.

Чтобы достичь этих целей, мы сначала построили статистическую структуру, которая естественно моделирует структуры данных ChIPseq с использованием передового усовершенствования в HMM9, который использует только явные формулы - инновация, имеющая решающее значение для ее преимуществ в производительности. Более сложные, чем эвристические модели, наша HMM вмещает бесконечное количество скрытых состояний с помощью байесовской модели. Мы применили его для определения разумных точек изменения плотности чтения, которые в дальнейшем определяют сегменты обогащения. Наш анализ показал, что наш алгоритм байесовской точки изменения (BCP) имеет меньшую вычислительную сложность, о чем свидетельствует сокращение времени выполнения и занимаемого объема памяти. Алгоритм BCP был успешно применен для идентификации как точечных пиков, так и диффузных островков с высокой точностью и ограниченными параметрами, определяемыми пользователем. Это иллюстрирует как его универсальность, так и простоту использования. Следовательно, мы считаем, что его можно легко внедрить для широкого спектра типов данных и конечных пользователей таким образом, чтобы его можно было легко сравнивать и сопоставлять, что делает его отличным инструментом для анализа данных ChIPseq, который может помочь в сотрудничестве и подтверждении между исследовательскими группами. Здесь мы демонстрируем применение БКП к существующему фактору транскрипции10,11 и эпигенетическим данным12, чтобы проиллюстрировать его полезность.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. Подготовка входных файлов для анализа BCP

  1. Совместите короткий читает производится из последовательности серий (чип и ввод библиотеки) к соответствующим геном ссылки с использованием предпочтительного короткие программного обеспечения выравнивания чтения. Отображаемых мест должны быть преобразованы в 6 колонке обозревателя расширяемых данных (BED) формата 13 (УСК геноме браузера, http://genome.ucsc.edu/ ), табуляции линии на отображенные читать с указанием отображенных хромосомы, исходное положение (0-основе), конечное положение (полуоткрытые), прочитать название, оценка (опционально), и пр....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

BCP выделяется на выявление регионов широком обогащения гистонов модификации данных. В качестве точки отсчета, ранее мы сравнивали наши результаты с результатами SICER 3, существующий инструмент, который продемонстрировал высокие показатели. Чтобы лучше проиллюстрировать преимущества BCP, мы рассмотрели модификация гистонов, которые были хорошо изучены, чтобы создать основу для оценки успеха ставок. Имея это в виду, мы затем анализируются H3K36me3, так как она была показана, чтобы связать сильно с активно тра.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Мы задались целью разработать модель для анализа ChIPseq данных, которые могут идентифицировать как точечные и диффузные структуры данных, одинаково хорошо. До сих пор регионы обогащения, в частности, диффузные регионов, которые отражают предполагает ожидание больших размеров остров, было трудно идентифицировать. Для решения этих проблем, мы использовали самые последние достижения в области технологии HMM, которые обладают многими преимуществами по сравнению с существующими эвристическими моделями и менее инновационные .......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Нет конфликта интересов объявлены.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

STARR основу премии (MQZ), NIH грант ES017166 (MQZ), NSF гранта DMS0906593 (HX).

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
Название реагента Компания Номер в каталоге Комментарии (по желанию)
Linux рабочих станций на базе

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., ....

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Bayesian Change Point AlgorithmChIPseq Data AnalysisHidden Markov ModelsGenome wide EnrichmentHistone Modification IdentificationTranscription Factor BindingPoisson Distribution ModelingPosterior Mean DensityEnriched Region DetectionNext Generation Sequencing

Related Articles