Summary

Çeşitli ChIPseq Veri Türleri Genom çapında Analizi İçin Yeni Bir Bayesian değiştir nokta Algoritması

Published: December 10, 2012
doi:

Summary

Bizim Bayesian Değişim Noktası (BCP) algoritması Saklı Markov Modelleri ile modelleme değişim noktaları state-of-the-art gelişmeler üzerine inşa ve kromatin immünopresipitasyon sekans (ChIPseq) veri analizi uygular. BCP geniş ve noktasal hem de veri türleri iyi performans sergilediğini, ancak doğru diffüz histon zenginleştirme sağlam, tekrarlanabilir adalar belirlenmesinde öne çıkmaktadır.

Abstract

ChIPseq protein-DNA etkileşmeleri araştırmak için yaygın olarak kullanılan bir tekniktir. Oku yoğunluğu profilleri proteine ​​bağlı DNA sonraki sıralama kullanarak ve bir referans genomuna okur kısa hizalayarak tarafından oluşturulur. Zenginleştirilmiş bölgeler genellikle hedef protein 1 bağlı olarak, şekil olarak büyük ölçüde farklılık dorukları, olarak ortaya çıkar. Örneğin, transkripsiyon faktörleri genellikle site ve sekans-spesifik bir şekilde bağlamak ve histon modifikasyonları daha yaygındır ve zenginleştirme 2 geniş, diffüz adalar ile karakterize edilirken, punktat zirveleri üretme eğilimindedir. Güvenilir bu bölgelerin belirlenmesi Çalışmalarımızın odak noktası oldu.

ChIPseq verilerin analiz edilmesi için algoritmalar buluşsal 3-5 den daha titiz istatistiksel modeller için çeşitli yöntemler, örneğin Hidden Markov Modellerinin (HMM'ler) 6-8 istihdam var. Biz zor olan tanımlamak, geçici parametrelerin sık sık gerekliliğini minimize çözüm aranmasıçözünürlük uzlaşma ve aracı sezgisel kullanılabilirlik azaltmak. HMM tabanlı yöntemler ile ilgili olarak, biz parametre kestirimi usul ve sıklıkla kullanılmaktadır basit, sonlu durumlu sınıflandırmalar kısaltmak amaçlanmıştır.

Ayrıca, geleneksel ChIPseq veri analizi kategorizasyonu içermektedir uygun aracı müteakip uygulaması takip noktasal veya diffüz ya olarak yoğunluk profilleri okumak bekleniyor. Biz daha capably veri türleri tüm spektrumu hitap edebilecek bir tek, daha çok yönlü bir model, bu iki farklı modelleri için ihtiyaç yerini amaçladık.

Bu hedeflere ulaşmak için, öncelikle istatistiksel bir çerçeve inşa sadece açık kullanır HMM'ler 9 bir kesme kenarı peşin, formüller-bir performans avantajları için önemli yeniliği kullanarak doğal modellenmiş ChIPseq veri yapıları. Daha sofistike sonra sezgisel modelleri, bizim SMM Bir aracılığıyla sonsuz gizli durumlar barındırmaktadırBayes modeli. Biz daha zenginleştirme kesimleri tanımlamak okumak yoğunluğu, makul değişim noktaları tanımlamak için uygulanır. Bizim analizimiz bizim Bayesian Değişim Noktası (BCP) algoritması azaltılmış bir hesaplama karmaşıklığı-kanıtladığı kısaltılmış çalışma süresi ve bellek izi tarafından vardı gözler önüne serdi. BCP algoritma başarıyla sağlam doğruluğu ve sınırlı kullanıcı tanımlı parametreler ile noktasal tepe ve diffüz ada tanımlama hem de uygulandı. Bu resimli, çok yönlülüğü ve kullanım kolaylığı hem de. Sonuç olarak, biz onu araştırma grupları arasındaki işbirliği ve corroboration yardımcı olabilir ChIPseq veri analizi için harika bir araç yapma, kolaylıkla karşılaştırılmış ve bir şekilde veri tipleri ve son kullanıcılara geniş aralıkları boyunca kolaylıkla uygulanabilir inanıyorum. Burada, yararlılığını göstermek için mevcut transkripsiyon faktörü 10,11 ve epigenetik verileri 12 BCP uygulamasını göstermek.

Protocol

1. BCP Analiz için giriş Dosyalarının Hazırlanması Tercih edilen kısa okuma hizalama yazılımı kullanılarak uygun referans genomu ile çalışır (ChIP ve giriş kütüphaneleri) dizilim elde okur kısa hizalayın. Eşlenen yerle 6 sütun tarayıcı genişletilebilir veri (BED) biçiminde 13 (UCSC genom tarayıcı, dönüştürülmesi gerekir http://genome.ucsc.edu/ pozisyonu başlatmak), eşlenen başına bir sekme ile sınırlandır?…

Representative Results

BCP histon modifikasyonu veri geniş zenginleştirme bölgelerinin saptanması üstünlük sağladı. Bir referans noktası olarak, daha önce SICER 3, güçlü bir performans göstermiştir varolan aracı olanlara sonuçlarını karşılaştırdık. Iyi BCP avantajları göstermek için, biz de başarı oranları değerlendirmek için bir vakıf kurmak için çalışılmış bir histon modifikasyonu incelenmiştir. Aktif olarak kopyalanamaz gen organları (Şekil 1) ile güçlü ilişkilendi…

Discussion

Biz eşit derecede iyi hem noktasal ve yaygın veri yapılarını tanımlayabilir ChIPseq verilerin analiz edilmesi için bir model geliştirmek için yola çıktı. Şimdiye kadar, zenginleştirme bölgelerinde, büyük ada boyutu önvarsayıyordu beklentilerini yansıtan, özellikle diffüz bölgeleri, tespit etmek zor olmuştur. Bu sorunları çözmek için, varolan sezgisel model ve daha az yenilikçi HMM'ler üzerinde birçok avantajı sahip SMM teknolojisindeki en son gelişmeler, kullandı.

<p class="jove…

Disclosures

The authors have nothing to disclose.

Acknowledgements

STARR vakıf ödülü (MQZ), NIH hibe ES017166 (MQZ), NSF hibe DMS0906593 (HX).

Materials

Name of the reagent Company Catalogue number Comments (optional)
Linux-based workstation

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Play Video

Cite This Article
Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

View Video