A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types

Haipeng Xing; Willey Liao; Yifan Mo; Michael Q. Zhang

doi:10.3791/4273

JoVE Journal > Biology

Biology

A Novel Bayesian Change-point Algoritme for genom-dækkende analyse af Diverse ChIPseq Datatyper

Published: December 10, 2012

doi:

10.3791/4273

Haipeng Xing, Willey Liao², Yifan Mo², Michael Q. Zhang³

¹Department of Applied Mathematics & Statistics,Stony Brook University, ²Computational Biology and Bioinformatics,Cold Spring Harbor Laboratory, ³Department of Molecular and Cell Biology,University of Texas at Dallas

Summary

Vores Bayesian Change Point (BCP) algoritme bygger på state-of-the-art fremskridt i modellering skift-point via Hidden Markov Models og anvender dem til chromatin immunoprecipitation sekventering (ChIPseq) dataanalyse. BCP klarer sig godt i både brede og punktformig datatyper, men excellerer i præcist at identificere robuste, reproducerbare øer af diffus histon berigelse.

Abstract

ChIPseq er en almindeligt anvendt teknik til at undersøge protein-DNA-interaktioner. Læs massefylde profiler genereres ved anvendelse ud-sekventering af proteinbundet DNA og tilpasse den korte læser til en reference genom. Berigede regioner er vist som toppe, der ofte afviger dramatisk i form, afhængigt af målproteinet ^1. For eksempel, ofte transkriptionsfaktorer binder i et site-og sekvens-specifik måde, og har tendens til at producere punktformig toppe, mens histon modifikationer er mere omsiggribende og er kendetegnet ved brede, diffuse øer af berigelse ^2. Pålidelig identifikation af disse regioner var i fokus for vores arbejde.

Algoritmer til at analysere ChIPseq data har ansat forskellige metoder, fra heuristik ^3-5 for at strengere statistiske modeller, f.eks skjulte Markov modeller (HMM'er) ^6-8. Vi søgt en løsning, minimeres behovet for vanskelige at definere, ad hoc-parametre, som oftekompromisbeslutning og mindske intuitiv anvendelighed af værktøjet. Med hensyn til HMM-baserede metoder, der sigter vi at indskrænke estimeringsmetoder procedurer og enkle, tilstandsmaskiner klassifikationer, der ofte anvendes.

Derudover konventionel ChIPseq dataanalyse involverer kategorisering af den forventede læse tæthed profiler som enten punktformig eller diffuse efterfulgt af efterfølgende anvendelse af et egnet værktøj. Vi desuden til formål at erstatte behovet for disse to særskilte modeller med en enkelt, mere alsidig model, som kan dygtigt dække hele spektret af datatyper.

For at opfylde disse målsætninger, vi først konstrueret en statistisk ramme, der naturligt modelleret ChIPseq datastrukturer ved hjælp af en forkant fremgang i HMM'er ^9, som udnytter kun eksplicitte formler-en innovation afgørende for dens ydeevne fordele. Mere avancerede derefter heuristiske modeller, vores HMM plads uendelige skjulte stater gennem etBayesian model. Vi har anvendt den til at identificere rimelig ændring point i læse tæthed, hvilket yderligere definere segmenter af berigelse. Vores analyse viste, hvordan vores Bayesian Change Point (BCP) algoritme havde en reduceret beregningsmæssige kompleksitet-dokumenteret ved en forkortet driftstid og hukommelse fodaftryk. BCP algoritme blev anvendt med succes til både punktformet spids og diffus ø identifikation med robust nøjagtighed og begrænsede bruger-definerede parametre. Dette illustrerede både sin alsidighed og brugervenlighed. Derfor mener vi, det kan gennemføres hurtigt på tværs af et bredt sortiment af datatyper og slutbrugere på en måde, der er let at sammenligne og kontrast, hvilket gør det et fantastisk værktøj for ChIPseq dataanalyse, der kan støtte i samarbejde og bestyrkelse mellem forskergrupper. Her vil vi demonstrere anvendelsen af BCP til eksisterende transkriptionsfaktor ^10,11 og epigenetiske data ¹² for at illustrere sin nytte.

Protocol

1. Forberedelse inddatafiler for BCP Analysis Ret kort læser produceret fra sekventering kørsler (Chip og input biblioteker) til den relevante henvisning genomet ved hjælp af det foretrukne kort læsning justering software. De kortlagte lokaliteter bør konverteres til de 6 kolonne browser strækbare data (BED) format 13 (UCSC genom browser, http://genome.ucsc.edu/ ), en tabulatorsepareret linje pr kortlagt læse angivelse af tilknyttede krom…

Representative Results

BCP udmærker sig ved at identificere områder af bred berigelse i histon modifikation data. Som et referencepunkt, vi tidligere sammenlignet vores resultater til de af SICER 3, et eksisterende værktøj, der har vist gode resultater. For bedst at illustrere BCP har fordele, vi undersøgte en histon modifikation, der var blevet grundigt undersøgt for at etablere et grundlag for at vurdere succesrate. Med dette i tankerne, vil vi analyseret H3K36me3, da det er blevet vist at associere stærkt med aktivt trans…

Discussion

Vi satte os for at udvikle en model for analyse ChIPseq oplysninger, der kan identificere både punktformig og diffuse datastrukturer lige godt. Indtil nu har regioner af berigelse, især diffuse regioner, som afspejler den forudsatte forventning om store ø størrelse, været vanskeligt at identificere. For at løse disse problemer, vi udnyttet de seneste fremskridt inden HMM teknologi, som besidder mange fordele i forhold til eksisterende heuristiske modeller og mindre innovative HMM'er.

<p class="jove_content…

Disclosures

The authors have nothing to disclose.

Acknowledgements

STARR fundament Award (MQZ), NIH tilskud ES017166 (MQZ), NSF tilskud DMS0906593 (HX).

Materials

Name of the reagent	Company	Catalogue number	Comments (optional)
Linux-based workstation

References

Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

A Novel Bayesian Change-point Algoritme for genom-dækkende analyse af Diverse ChIPseq Datatyper

Summary

Abstract

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

A Novel Bayesian Change-point Algoritme for genom-dækkende analyse af Diverse ChIPseq Datatyper

Summary

Abstract

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below