Summary

Un bayesiano novela Cambio de punto Algoritmo para el Genoma en todo el análisis de diversos tipos de datos ChIPseq

Published: December 10, 2012
doi:

Summary

Nuestro punto de cambio bayesiano (BCP) algoritmo se basa en los avances del estado de la técnica de modelado en los puntos de cambio a través de modelos ocultos de Markov y los aplica a la cromatina immunoprecipitation secuenciación (ChIPseq) el análisis de datos. BCP funciona bien en ambos tipos de datos amplios y punteada, pero sobresale en la identificación precisa de las islas robustas, reproducibles de enriquecimiento histona difusa.

Abstract

ChIPseq es una técnica ampliamente utilizada para investigar las interacciones proteína-DNA. Leer los perfiles de densidad se han generado mediante el uso de la siguiente secuencia de ADN unido a proteína y la alineación de la corto lee a un genoma de referencia. Zonas enriquecidas se revelan como los picos, que a menudo difieren dramáticamente en forma, dependiendo de la proteína diana 1. Por ejemplo, los factores de transcripción a menudo se unen en un sitio-específico y secuencia-manera y tienden a producir picos puntiformes, mientras que las modificaciones de histonas son más penetrante y se caracterizan por islas grandes difusas de enriquecimiento 2. Forma fiable la identificación de estas regiones fue el tema central de nuestro trabajo.

Los algoritmos para el análisis de datos ChIPseq han empleado diversos métodos heurísticos, de 3-5 para más modelos estadísticos rigurosos, por ejemplo, Modelos Ocultos de Markov (HMMs) 6-8. Se buscó una solución que minimiza la necesidad de la difícil de definir, ad hoc parámetros que a menudocomprometer resolución y disminuir la utilización intuitiva de la herramienta. Con respecto a los métodos basados ​​en HMM, se intentó limitar los procedimientos de estimación de parámetros y clasificaciones simples de estados finitos que se utilizan con frecuencia.

Además, convencional ChIPseq análisis de datos implica la clasificación de la espera leer perfiles de densidad, ya sea como puntiforme o difusa seguido de la posterior aplicación de la herramienta adecuada. Tenemos además el objetivo de sustituir la necesidad de estos dos modelos distintos con un solo modelo, más versátil, que hábilmente puede abordar todo el espectro de tipos de datos.

Para cumplir con estos objetivos, primero construyó un marco estadístico que, naturalmente, modelados ChIPseq estructuras de datos utilizando un avance de vanguardia en HMMs 9, que utiliza solamente fórmulas explícitas-una innovación crucial para las ventajas de rendimiento. A continuación, los modelos heurísticos más sofisticados, nuestro HMM acomoda infinitos estados ocultos a través de unModelo bayesiano. Lo aplicamos a la identificación de los puntos razonables cambio en la densidad de leer, que además definir los segmentos de enriquecimiento. Nuestro análisis reveló cómo nuestra Cambio Bayesiano Point (BCP) algoritmo tenía una complejidad computacional reducido evidenciado por un tiempo de ejecución abreviada y consumo de memoria. El algoritmo de BCP se aplicó con éxito tanto pico puntiforme y la identificación de islas difusa con precisión robusta y limitados parámetros definidos por el usuario. Esto se ilustra tanto su versatilidad y facilidad de uso. Por lo tanto, creemos que se puede implementar fácilmente a través de amplias gamas de tipos de datos y los usuarios finales de una manera que es fácil de comparar y contrastar, por lo que es una gran herramienta para ChIPseq análisis de datos que pueden ayudar en la colaboración y la corroboración entre grupos de investigación. Aquí, se demuestra la aplicación de BCP a factor de transcripción existente 10,11 y datos epigenéticos 12 para ilustrar su utilidad.

Protocol

1. Preparación de los ficheros de entrada para el análisis de BCP Alinee el corto producido a partir de lecturas de secuenciación carreras (ChIP y bibliotecas de entrada) al genoma de referencia apropiado utilizar el software preferido corto alineación de lectura. Las ubicaciones mapeadas deben ser convertidos en los datos de la columna 6 extensibles navegador (BED) Formato 13 (UCSC genoma navegador, http://genome.ucsc.edu/ ), una línea del…

Representative Results

BCP supera a la identificación de las regiones del enriquecimiento general en los datos de modificación de histonas. Como punto de referencia, que previamente han comparado nuestros resultados con los de SICER 3, una herramienta existente que ha demostrado buenos resultados. Para ilustrar mejor las ventajas del BCP, se analizó una modificación de las histonas que había sido bien estudiada para establecer una base para la evaluación de las tasas de éxito. Con esto en mente, a continuación, analizar H3K…

Discussion

Nos propusimos desarrollar un modelo para el análisis de datos ChIPseq que pudieran identificar tanto las estructuras de datos y puntiforme difusa igual de bien. Hasta ahora, las regiones de enriquecimiento, en particular las regiones difusas, que reflejan la expectativa de presuponía tamaño de la isla grande, han sido difíciles de identificar. Para hacer frente a estos problemas, hemos utilizado los avances más recientes en la tecnología HMM, que poseen muchas ventajas sobre los modelos heurísticos existentes y …

Disclosures

The authors have nothing to disclose.

Acknowledgements

STARR Premio de la Fundación (MQZ), NIH subvención ES017166 (MQZ), NSF subvención DMS0906593 (HX).

Materials

Name of the reagent Company Catalogue number Comments (optional)
Linux-based workstation

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Play Video

Cite This Article
Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

View Video