Summary

A Novel Bayesian Change-point Algoritme for genom-dækkende analyse af Diverse ChIPseq Datatyper

Published: December 10, 2012
doi:

Summary

Vores Bayesian Change Point (BCP) algoritme bygger på state-of-the-art fremskridt i modellering skift-point via Hidden Markov Models og anvender dem til chromatin immunoprecipitation sekventering (ChIPseq) dataanalyse. BCP klarer sig godt i både brede og punktformig datatyper, men excellerer i præcist at identificere robuste, reproducerbare øer af diffus histon berigelse.

Abstract

ChIPseq er en almindeligt anvendt teknik til at undersøge protein-DNA-interaktioner. Læs massefylde profiler genereres ved anvendelse ud-sekventering af proteinbundet DNA og tilpasse den korte læser til en reference genom. Berigede regioner er vist som toppe, der ofte afviger dramatisk i form, afhængigt af målproteinet 1. For eksempel, ofte transkriptionsfaktorer binder i et site-og sekvens-specifik måde, og har tendens til at producere punktformig toppe, mens histon modifikationer er mere omsiggribende og er kendetegnet ved brede, diffuse øer af berigelse 2. Pålidelig identifikation af disse regioner var i fokus for vores arbejde.

Algoritmer til at analysere ChIPseq data har ansat forskellige metoder, fra heuristik 3-5 for at strengere statistiske modeller, f.eks skjulte Markov modeller (HMM'er) 6-8. Vi søgt en løsning, minimeres behovet for vanskelige at definere, ad hoc-parametre, som oftekompromisbeslutning og mindske intuitiv anvendelighed af værktøjet. Med hensyn til HMM-baserede metoder, der sigter vi at indskrænke estimeringsmetoder procedurer og enkle, tilstandsmaskiner klassifikationer, der ofte anvendes.

Derudover konventionel ChIPseq dataanalyse involverer kategorisering af den forventede læse tæthed profiler som enten punktformig eller diffuse efterfulgt af efterfølgende anvendelse af et egnet værktøj. Vi desuden til formål at erstatte behovet for disse to særskilte modeller med en enkelt, mere alsidig model, som kan dygtigt dække hele spektret af datatyper.

For at opfylde disse målsætninger, vi først konstrueret en statistisk ramme, der naturligt modelleret ChIPseq datastrukturer ved hjælp af en forkant fremgang i HMM'er 9, som udnytter kun eksplicitte formler-en innovation afgørende for dens ydeevne fordele. Mere avancerede derefter heuristiske modeller, vores HMM plads uendelige skjulte stater gennem etBayesian model. Vi har anvendt den til at identificere rimelig ændring point i læse tæthed, hvilket yderligere definere segmenter af berigelse. Vores analyse viste, hvordan vores Bayesian Change Point (BCP) algoritme havde en reduceret beregningsmæssige kompleksitet-dokumenteret ved en forkortet driftstid og hukommelse fodaftryk. BCP algoritme blev anvendt med succes til både punktformet spids og diffus ø identifikation med robust nøjagtighed og begrænsede bruger-definerede parametre. Dette illustrerede både sin alsidighed og brugervenlighed. Derfor mener vi, det kan gennemføres hurtigt på tværs af et bredt sortiment af datatyper og slutbrugere på en måde, der er let at sammenligne og kontrast, hvilket gør det et fantastisk værktøj for ChIPseq dataanalyse, der kan støtte i samarbejde og bestyrkelse mellem forskergrupper. Her vil vi demonstrere anvendelsen af BCP til eksisterende transkriptionsfaktor 10,11 og epigenetiske data 12 for at illustrere sin nytte.

Protocol

1. Forberedelse inddatafiler for BCP Analysis Ret kort læser produceret fra sekventering kørsler (Chip og input biblioteker) til den relevante henvisning genomet ved hjælp af det foretrukne kort læsning justering software. De kortlagte lokaliteter bør konverteres til de 6 kolonne browser strækbare data (BED) format 13 (UCSC genom browser, http://genome.ucsc.edu/ ), en tabulatorsepareret linje pr kortlagt læse angivelse af tilknyttede krom…

Representative Results

BCP udmærker sig ved at identificere områder af bred berigelse i histon modifikation data. Som et referencepunkt, vi tidligere sammenlignet vores resultater til de af SICER 3, et eksisterende værktøj, der har vist gode resultater. For bedst at illustrere BCP har fordele, vi undersøgte en histon modifikation, der var blevet grundigt undersøgt for at etablere et grundlag for at vurdere succesrate. Med dette i tankerne, vil vi analyseret H3K36me3, da det er blevet vist at associere stærkt med aktivt trans…

Discussion

Vi satte os for at udvikle en model for analyse ChIPseq oplysninger, der kan identificere både punktformig og diffuse datastrukturer lige godt. Indtil nu har regioner af berigelse, især diffuse regioner, som afspejler den forudsatte forventning om store ø størrelse, været vanskeligt at identificere. For at løse disse problemer, vi udnyttet de seneste fremskridt inden HMM teknologi, som besidder mange fordele i forhold til eksisterende heuristiske modeller og mindre innovative HMM'er.

<p class="jove_content…

Disclosures

The authors have nothing to disclose.

Acknowledgements

STARR fundament Award (MQZ), NIH tilskud ES017166 (MQZ), NSF tilskud DMS0906593 (HX).

Materials

Name of the reagent Company Catalogue number Comments (optional)
Linux-based workstation

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Play Video

Cite This Article
Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

View Video