Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

Роман байесовского Изменение точки Алгоритм всему геному анализ различных типов данных ChIPseq

Published: December 10, 2012 doi: 10.3791/4273

Summary

Наши байесовского Точка изменения (BCP) алгоритм основывается на состоянии самой современной прогресс в области моделирования изменения точки через скрытых Марковских моделей и применяет их к иммунопреципитации хроматина секвенирования (ChIPseq) анализ данных. BCP хорошо работает как в широком и точечные типов данных, но превосходит точно идентифицировать надежные, воспроизводимые острова диффузного гистонов обогащения.

Protocol

1. Подготовка входных файлов для анализа BCP

  1. Совместите короткий читает производится из последовательности серий (чип и ввод библиотеки) к соответствующим геном ссылки с использованием предпочтительного короткие программного обеспечения выравнивания чтения. Отображаемых мест должны быть преобразованы в 6 колонке обозревателя расширяемых данных (BED) формата 13 (УСК геноме браузера, http://genome.ucsc.edu/ ), табуляции линии на отображенные читать с указанием отображенных хромосомы, исходное положение (0-основе), конечное положение (полуоткрытые), прочитать название, оценка (опционально), и пряди.

2а. Диффузный Читайте профили: Предварительная обработка ChIP Читать плотности для обнаружения Обогащенный островов в диффузных данных

  1. Расширение Чип и ввод отображаемых мест до заданной длины фрагмента, то есть. размер фрагмента мишенью в ферментативного расщепления или ультразвуком ДНК, как правило, около 200 пар. Фрагмент подсчеты, то агрегацииТед в соседних ячеек. По умолчанию бен установлен размер расчетная длина фрагмента 200 п.н..
  2. Любое возможное изменение точки в набор контейнеров с одинаковым читать рассчитывает, скорее всего, падение на внешнем самых границ. Таким образом, маловероятно, что изменение точки будет происходить на внутренней границе двух бункеров с тем же рассчитывает чтения. Таким образом, группа соседних бункерах, с одинаковыми говорится в мусорное ведро, в единый блок, то есть. bedGraph формате 13.

2b. Точечные Читайте профили: Chip предварительной обработки и входных файлов кровать для обнаружения пиков в мелкоточечный данных

  1. Совокупный перекрытия говорится в плюс и минус нити ChIP читает отдельно. Нить конкретные читать плотность должна стать бимодального профиля плюс и минус пиков. Выберите плюс / минус пар из наиболее обогащенных пики и использовать расстояние между их встречами на высшем уровне, как оценка длины фрагмента библиотеки.
  2. Сдвиг Чип и ввод читает половина фрагмент леngth к центру и пересчитать читать плотность смещается и объединены плюс и минус нить читает. Эта методология для оценки длины фрагмента была принята от Zhang, и др.. 3. Позиции с одинаковым счетом слияния должны быть сгруппированы в блоки, похожие на шаг 2а.2.

3. Оцените Задний средний Читать плотность каждого блока с помощью нашего приближения BCMIX

  1. Читать плотность каждого блока моделируется как распределение Пуассона, объекты POI т), со средним параметром следующие смеси гамма-распределений, Γ (α, β), и перед вероятность изменения, происходящие точки в любой границы блока р. принадлежности POI т) на G (α, β) эффективно делает модель бесконечной HMM государства. Оцените гипер-параметров, α, β, р, максимально используя задние правдоподобия.
  2. Явно вычислить байесовской оценкикаждого блока, θ т, а E (θ T | γ Z). Заменить более традиционный, но много времени вперед и назад, фильтры часто используются в ПММ, с более вычислительно эффективно Ограниченные приближении Смесь Сложность оценить задние средств, θ с. В результате задние средства будут "размазанной" в приближенных кусочно-постоянной профиль, чтобы блоки с одинаковыми, θ с, следует продолжить их вместе с обновленной границы координаты.

4а. Диффузный Читайте профили: Post-процессов Задний средств в сегменты Диффузный обогащению

  1. Используйте количество входных говорится в каждый новый блок с θ в качестве фона ставки, объекты POI (λ) и определить обогащения с помощью простого теста гипотеза, основанная на чипе ли задний средний, θ с, превышает некоторый порог δ. 90-й </ SUP>-квантиль по умолчанию D и подходит в большинстве случаев.
  2. Слияние соседних θ с блоками, которые превышают обогащения в одном регионе и доклад слияния координаты в простом формате BED. Кроме того, можно сообщить о θ с для каждого блока в формате bedGraph сохранить высокое разрешение деталей для чтения оценках плотности.

4б. Точечные Читайте профили: Post-процессов Задний средства в пик кандидатов

  1. Определить фоне ставки, объекты POI (λ), а в среднем по всем прочитать отсчетов (γ 2) и выявления всех блоков, которые превышают порог, г. Так как точечные пики ожидается, будет более существенно обогатили по умолчанию δ установлен в 99-е-квантиль POI (λ).
  2. Установите блок с максимальным θ с, как саммит пик кандидата и примыкающие фланговые блоки, которые имеют аналогичные ден чтенияплотности (± 1 прочитаны, чтобы обеспечить небольшие изменения). Это присоединенных регион определен как кандидат сайт связывания.
  3. Рассчитать λ 2, средняя читать рассчитывает в чип кандидата сайта связывания и проверки гипотезы этом фоне в зависимости от входного была нулевой гипотезы, H 0, является то, что λ 1λ 2 и отклонить H 0 на основе р-порогового значения. Выходные кандидата пика в постели формате.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

BCP выделяется на выявление регионов широком обогащения гистонов модификации данных. В качестве точки отсчета, ранее мы сравнивали наши результаты с результатами SICER 3, существующий инструмент, который продемонстрировал высокие показатели. Чтобы лучше проиллюстрировать преимущества BCP, мы рассмотрели модификация гистонов, которые были хорошо изучены, чтобы создать основу для оценки успеха ставок. Имея это в виду, мы затем анализируются H3K36me3, так как она была показана, чтобы связать сильно с активно транскрипции генов тел (рис. 1). В отличие от H3K36me3 также было показано, что взаимное исключительно репрессивными H3K27me3 знаков. Мы также заемных средств этих известных отношениях, чтобы проиллюстрировать преимущества производительности BCP в точности острова вызовов путем определения доли совпадают с известными ассоциациями и disassociations, в корреляционный эффект и анти-корреляции. Здесь мы также обосновать преимущества использования BCP дополнительные примерывысокой производительности.

Наши предыдущие работы показали тенденцию к гораздо большей острове размером в BCP, 23,9 до 25,8 кб, чем SICER, 2,7 до 10,7 кб; крупных островов будучи более в соответствии с обычными ожидания широких диффузных острова H3K36me3 обогащения (PLoS Comp Bio, представленных). Конечно, крупные острова не только указывают на точность. Итак, мы определили, сколько перекрывать эти регионы были с известными генами и противопоставил этому со степенью перекрытия с межгенные пространства, указание ложных срабатываний (FPR). Гена освещение в BCP колебалась от 0,492 до 0,497 по сравнению с 0,276 до 0,437 в SICER без сильного влияния на РСП; межгенные диапазон перекрытия с 0,89 до 0,90 и от 0,85 до 0,98 в BCP и SICER, соответственно. Здесь мы представляем дополнительные регионе представитель отображения тесную связь между границами обогащение и генов органов, четко различая активное и подавлятьред транскрипции (рис. 1). Это еще раз подтверждает наше утверждение, что BCP поддерживает высокую перекрытия активных генов H3K36me3 острова с границами тесно связаны с геном органов без увеличения степени ложных срабатываний перекрытия с межгенные пространства, гены с репрессированными транскрипции, или H3K27me3 репрессивных знак.

При оценке воспроизводимости BCP-остров звонки в двух одинаковых наборов данных, мы заметили, BCP не страдают от сильной зависимостью от чтения всестороннее освещение в конкурирующих алгоритм, SICER. Мы предоставляем дополнительные доказательства надежности BCP и воспроизводимость, изучив дополнительные различных регионов демонстрирует последовательную границы острова, несмотря на уменьшение глубины охвата (моделируются выборки считывает из полного набора данных) (Рисунок 2).

Чтобы в полной мере продемонстрировать универсальность BCP, мы получили широкого спектра гистонов модификации данных, в том числе точечные знакс H3K27ac, H3K9ac, и H3K4me3 и диффузный знак, H3K9me3, в дополнение к H3K27me3 и H3K36me3. Мы проанализировали данные наборы данных, используя настройки параметров по умолчанию для обоих BCP и SICER (рис. 3). Эти знаки представляют собой широкий спектр читать профили плотности и позволяет нам сосредоточиться на регион, который иллюстрирует многие из функций, обычно связанных с ними. В центре лежит H3K36me3 обогащения на генном PXDN маркировки активной транскрипции. Падение ожидалось, на месте старта транскрипции дополнительные точечные, активные знаки, H3K27ac, H3K9ac, и H3K4me3. Просто вниз по течению от PXDN подавляется межгенные пространстве отмечены H3K27me3 обогащения. На противоположном фланге лежит H3K27me3 репрессированных генов. Перемещение еще один шаг из замолчать хроматина, о чем свидетельствует наличие H3K9me3 обогащения, который появляется, чтобы указать молчание SNTG2 и MYT1L, возможно, в меньшей переходных смысл тогда H3K27me3 репрессий. Этот регион охватывает большинство явлений анвстречается в ChIPseq модификаций гистонов и показывает, как динамичный характер BCP можно определить как точечные ацетилирования и H3K4me3 знаков и в то же время различия большие смежные острова H3K27me3 и H3K9me3 репрессий и H3K36me3 активной транскрипции. Чтобы подтвердить, BCP может сделать такое все эти анализы просто с настройками по умолчанию и, как было показано, все еще производят качественный результат, вне зависимости от типа данных. Этот алгоритм является также быстрое и эффективное памяти и, таким образом, обеспечивает практически убедительные полезности.

Рисунок 1
Рисунок 1. Диффузный читать плотность профилей модификации гистонов. H3K27me3 (вверху) и H3K36me3 (внизу) иллюстрируют широкие, диффузные острова обогащению тесно связан с геном органов (зеленые ящики). H3K27me3 коррелирует с репрессированных генов и межгенные пространства и антикоррелирует с активно TRanscribed органов ген. Обратное верно для H3K36me3. Данные визуализированы в браузере UCSC генома ( http://genome.ucsc.edu ).

Рисунок 2
Рисунок 2. BCP является надежным и воспроизводимым. Остров призывает к H3K36me3 в два повтора и на отбор проб с глубины 30, 50 и 70% от полной повторных 1 набор данных были проанализированы с BCP. Второй повторных, с существенно более низкой чтения охвата, дало аналогичные звонки острова и степень перекрытия была высоко сохранил независимо от выборки процент. Кроме того, на островах оставалась точности, как показано в тесной увязке границы с аннотациями RefSeq генов организма.

Рисунок 3
Рисунок 3. BCP это наоборотПлитка алгоритм, который может быть применен ко всем модификации гистонов типов данных. BCP и SICER были использованы для анализа гамма типов данных, с точечными знаками, как H3K27ac, H3K9ac, и H3K4me3, чтобы рассеять знаки, как H3K36me3, H3K27me3, и H3K9me3. Использование параметров по умолчанию для обоих алгоритмов, BCP острова захватить обогащенный плотности независимо от их широты в то время как SICER часто фрагменты регионов во многих югу от острова. Даже в очень широкой и диффузной случае H3K9me3, BCP имеет приемлемую производительность.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Мы задались целью разработать модель для анализа ChIPseq данных, которые могут идентифицировать как точечные и диффузные структуры данных, одинаково хорошо. До сих пор регионы обогащения, в частности, диффузные регионов, которые отражают предполагает ожидание больших размеров остров, было трудно идентифицировать. Для решения этих проблем, мы использовали самые последние достижения в области технологии HMM, которые обладают многими преимуществами по сравнению с существующими эвристическими моделями и менее инновационные ПММ.

Наша модель позволяет использовать байесовский рамки с явным формулам. Это очень важное отличие от других ПММ, в том, что она позволяет вычислить задним средств, ожидаемых читать плотность каждого сегмента, с простыми расчетами, а не полагаться на трудоемким и дорогостоящим вычислительных симуляций, таких как цепи Маркова методов Монте-Карло. Следовательно, наше время вычислений и памяти значительно снижаются. Использование высокопроизводительных вычислительных кластеров Wiго двухъядерный, 2,0 ГГц узлов с 2 ГБ 64-разрядная шина памяти для анализа ~ 23 млн H3K27me3 читает или ~ 21 млн H3K36me3 читает, BCP заняла менее часа за весь анализ генома по сравнению с нескольких часов до нескольких дней требуется для других методов. Эти timesavings может быть достигнуто только скромные 2 ГБ оперативной памяти.

Кроме того, наша модель условиях различных средств каждого сегмента, то есть. POI (θ), на постоянной гамма-распределение. По существу, это позволяет бесконечных возможных состояний для каждого сегмента. BCP может дать больше, чем простой классификации двоичных обогащенного по сравнению с фоном и сохраняется чтения величины плотности для каждого сегмента через выход задних средств.

Мы также воспользоваться BCMIX алгоритм вычислительной эффективности. Это позволяет почти исчерпывающий поиск для изменения точки между обогащением и фон из всех возможных позиций генома. Это обеспечивает повышенное разрешение не сonfined произвольные определения окна, с минимальным воздействием на время работы или требования к памяти.

Все это достигнуто без возмущающих точности, как в теории, так как модель является статистически строгими и его результаты сходятся к байесовской оценки, а также на практике, как мы показали здесь. Ген охват нашей H3K36me3 результаты свидетельствуют острова звонки высокоточные, не посягая на известные взаимно исключены межгенные пространстве или H3K27me3 обогащения. Результаты удивительно воспроизводимые и надежные и показали мало зависит от глубины охвата, называя подобный островов с высоким уровнем охвата генов и низкой FPR, несмотря на глубине отбора проб столь же низко как 30%. BCP был использован широко, без корректировки параметров по умолчанию, анализировать широкий спектр модификация гистонов и транскрипционных факторов ChIPseq данных и показали хорошие результаты во всех случаях. Мы надеемся, что благодаря своей высокой точности, надежности и воспроизводимости, BCP будет служить эффективныминструмент для анализа данных, совместной работы и подтверждение в будущем.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Нет конфликта интересов объявлены.

Acknowledgments

STARR основу премии (MQZ), NIH грант ES017166 (MQZ), NSF гранта DMS0906593 (HX).

Materials

Name Company Catalog Number Comments
Linux-based workstation

DOWNLOAD MATERIALS LIST

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Tags

Генетика выпуск 70 биоинформатики геномики молекулярной биологии клеточной биологии иммунологии иммунопреципитации хроматина чип-Seq модификации гистонов сегментация байесовский скрытых Марковских моделей эпигенетика
Роман байесовского Изменение точки Алгоритм всему геному анализ различных типов данных ChIPseq
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Xing, H., Liao, W., Mo, Y., Zhang,More

Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter