Summary

A Novel bayesiano Cambia punto di Algoritmo per Genome-wide analisi di diversi tipi di dati ChIPseq

Published: December 10, 2012
doi:

Summary

Il nostro punto di cambio Bayesiano (BCP) algoritmo si basa su state-of-the-art progressi nella modellizzazione del cambiamento-point tramite Hidden Markov Models e li applica alla cromatina immunoprecipitazione sequenziamento (ChIPseq) analisi dei dati. BCP si comporta bene in entrambi i tipi di dati ampi e puntata, ma si distingue per identificare con precisione robusti, isole riproducibili diffusa di arricchimento degli istoni.

Abstract

ChIPseq è una tecnica largamente usata per studiare interazioni proteina-DNA. Leggere i profili di densità vengono generati mediante sequenziamento di prossima legame proteico DNA e allineando il corto legge di un genoma di riferimento. Regioni arricchite sono rivelati come picchi, che spesso differiscono notevolmente per forma, a seconda della proteina bersaglio 1. Per esempio, fattori di trascrizione spesso legano in un sito di e-maniera sequenza-specifica e tendono a produrre picchi puntiformi, mentre modificazioni istoniche sono più diffusi e sono caratterizzati da grandi, isole diffuse di arricchimento 2. Affidabile individuare queste regioni è stato al centro del nostro lavoro.

Algoritmi per l'analisi dei dati ChIPseq hanno utilizzato diverse metodologie euristiche, da 3-5 a modelli più rigorosi statistici, ad esempio, modelli nascosti di Markov (HMM) 6-8. Abbiamo cercato una soluzione che ridurre al minimo la necessità di difficile da definire, parametri ad hoc che spessocompromettere la risoluzione e ridurre l'usabilità intuitiva dello strumento. Per quanto riguarda i metodi basati su HMM, abbiamo voluto limitare le procedure di stima dei parametri e semplici classificazioni a stati finiti, che sono spesso utilizzati.

Inoltre, convenzionale ChIPseq analisi dei dati comporta categorizzazione del previsto leggere i profili di densità sia come puntiforme o diffusa seguita da successiva applicazione dello strumento appropriato. Abbiamo inoltre diretta a sostituire la necessità di questi due modelli distinti con un unico modello più versatile, che può abilmente affrontare l'intero spettro di tipi di dati.

Per raggiungere questi obiettivi, abbiamo prima costruito un quadro statistico che naturalmente modellate ChIPseq strutture di dati utilizzando un progresso all'avanguardia in HMM 9, che utilizza solo le formule esplicite, un'innovazione fondamentale per i suoi vantaggi prestazionali. Modelli poi euristiche più sofisticate, il nostro HMM ospita infiniti stati nascosti attraverso unModello bayesiano. Abbiamo applicato per individuare i punti di cambio ragionevoli di densità leggere, che ha ulteriormente definire segmenti di arricchimento. La nostra analisi ha rivelato come il nostro Cambia bayesiano Point (BCP) algoritmo ha una complessità computazionale ridotto, evidenziato da un tempo di funzionamento e ridotta occupazione di memoria. L'algoritmo di BCP è stata applicata con successo a entrambi di punta puntata e identificazione isola diffusa con precisione robusto e limitati parametri definiti dall'utente. Questo illustrata sia la sua versatilità e facilità di utilizzo. Di conseguenza, riteniamo che possa essere implementato facilmente in un raggio di massima per i tipi di dati e degli utenti finali, in modo che può essere facilmente confrontati e contrapposti, che lo rende un ottimo strumento per l'analisi dei dati ChIPseq che possono aiutare nella collaborazione e conferma tra i gruppi di ricerca. Qui, dimostriamo l'applicazione di BCP per fattore di trascrizione esistente 10,11 e dati epigenetiche 12 a illustrare la sua utilità.

Protocol

1. Preparazione dei file di input per l'analisi BCP Allineare il breve legge prodotta da sequenziamento piste (ChIP e le librerie di ingresso) al genoma di riferimento appropriato utilizzando il software di allineamento preferito breve lettura. Le posizioni mappate devono essere convertiti ai 6 i dati del browser colonna estendibili (BED) in formato 13 (UCSC Genome Browser, http://genome.ucsc.edu/ ), delimitato da tabulazioni linea mappata p…

Representative Results

BCP eccelle ad identificare regioni di arricchimento ampio dati di modifica degli istoni. Come punto di riferimento, precedentemente abbiamo confrontato i nostri risultati a quelli di Sicer 3, uno strumento esistente che ha dimostrato ottime prestazioni. Per illustrare al meglio i vantaggi BCP, abbiamo esaminato una modificazione degli istoni che era stato ben studiato per creare una base per valutare i tassi di successo. Con questo in mente, abbiamo poi analizzato H3K36me3, poiché è stato dimostrato di ass…

Discussion

Abbiamo deciso di sviluppare un modello per l'analisi dei dati ChIPseq che potrebbe identificare sia le strutture puntiformi e diffuse di dati altrettanto bene. Fino ad ora, le regioni di arricchimento, regioni particolarmente diffuse, che riflettono l'aspettativa presupposto di dimensioni grande isola, sono stati difficili da identificare. Per risolvere questi problemi, abbiamo utilizzato i più recenti progressi nella tecnologia HMM, che possiedono molti vantaggi rispetto ai modelli euristici esistenti e HMM m…

Disclosures

The authors have nothing to disclose.

Acknowledgements

STARR fondazione premio (MQZ), sovvenzione del NIH ES017166 (MQZ), NSF concedere DMS0906593 (HX).

Materials

Name of the reagent Company Catalogue number Comments (optional)
Linux-based workstation

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Play Video

Cite This Article
Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

View Video