Method Article

Un bayesiano novela Cambio de punto Algoritmo para el Genoma en todo el análisis de diversos tipos de datos ChIPseq

DOI:

10.3791/4273

December 10th, 2012

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nuestro punto de cambio bayesiano (BCP) algoritmo se basa en los avances del estado de la técnica de modelado en los puntos de cambio a través de modelos ocultos de Markov y los aplica a la cromatina immunoprecipitation secuenciación (ChIPseq) el análisis de datos. BCP funciona bien en ambos tipos de datos amplios y punteada, pero sobresale en la identificación precisa de las islas robustas, reproducibles de enriquecimiento histona difusa.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

ChIPseq es una técnica ampliamente utilizada para investigar las interacciones proteína-DNA. Leer los perfiles de densidad se han generado mediante el uso de la siguiente secuencia de ADN unido a proteína y la alineación de la corto lee a un genoma de referencia. Zonas enriquecidas se revelan como los picos, que a menudo difieren dramáticamente en forma, dependiendo de la proteína diana 1. Por ejemplo, los factores de transcripción a menudo se unen en un sitio-específico y secuencia-manera y tienden a producir picos puntiformes, mientras que las modificaciones de histonas son más penetrante y se caracterizan por islas grandes difusas de enriquecimiento 2. Forma fiable la identificación de estas regiones fue el tema central de nuestro trabajo.

Los algoritmos para el análisis de datos ChIPseq han empleado diversos métodos heurísticos, de 3-5 para más modelos estadísticos rigurosos, por ejemplo, Modelos Ocultos de Markov (HMMs) 6-8. Se buscó una solución que minimiza la necesidad de la difícil de definir, ad hoc parámetros que a menudocomprometer resolución y disminuir la utilización intuitiva de la herramienta. Con respecto a los métodos basados ​​en HMM, se intentó limitar los procedimientos de estimación de parámetros y clasificaciones simples de estados finitos que se utilizan con frecuencia.

Además, convencional ChIPseq análisis de datos implica la clasificación de la espera leer perfiles de densidad, ya sea como puntiforme o difusa seguido de la posterior aplicación de la herramienta adecuada. Tenemos además el objetivo de sustituir la necesidad de estos dos modelos distintos con un solo modelo, más versátil, que hábilmente puede abordar todo el espectro de tipos de datos.

Para cumplir con estos objetivos, primero construyó un marco estadístico que, naturalmente, modelados ChIPseq estructuras de datos utilizando un avance de vanguardia en HMMs 9, que utiliza solamente fórmulas explícitas-una innovación crucial para las ventajas de rendimiento. A continuación, los modelos heurísticos más sofisticados, nuestro HMM acomoda infinitos estados ocultos a través de unModelo bayesiano. Lo aplicamos a la identificación de los puntos razonables cambio en la densidad de leer, que además definir los segmentos de enriquecimiento. Nuestro análisis reveló cómo nuestra Cambio Bayesiano Point (BCP) algoritmo tenía una complejidad computacional reducido evidenciado por un tiempo de ejecución abreviada y consumo de memoria. El algoritmo de BCP se aplicó con éxito tanto pico puntiforme y la identificación de islas difusa con precisión robusta y limitados parámetros definidos por el usuario. Esto se ilustra tanto su versatilidad y facilidad de uso. Por lo tanto, creemos que se puede implementar fácilmente a través de amplias gamas de tipos de datos y los usuarios finales de una manera que es fácil de comparar y contrastar, por lo que es una gran herramienta para ChIPseq análisis de datos que pueden ayudar en la colaboración y la corroboración entre grupos de investigación. Aquí, se demuestra la aplicación de BCP a factor de transcripción existente 10,11 y datos epigenéticos 12 para ilustrar su utilidad.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. Preparación de los ficheros de entrada para el análisis de BCP

  1. Alinee el corto producido a partir de lecturas de secuenciación carreras (ChIP y bibliotecas de entrada) al genoma de referencia apropiado utilizar el software preferido corto alineación de lectura. Las ubicaciones mapeadas deben ser convertidos en los datos de la columna 6 extensibles navegador (BED) Formato 13 (UCSC genoma navegador, http://genome.ucsc.edu/ ), una línea delimitada por tabuladores asignada por leer lo que indica el cromosoma asignada, la posición inicial (0-based), posición final (semiabierta), leer el nombre,....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

BCP supera a la identificación de las regiones del enriquecimiento general en los datos de modificación de histonas. Como punto de referencia, que previamente han comparado nuestros resultados con los de SICER 3, una herramienta existente que ha demostrado buenos resultados. Para ilustrar mejor las ventajas del BCP, se analizó una modificación de las histonas que había sido bien estudiada para establecer una base para la evaluación de las tasas de éxito. Con esto en mente, a continuación, analizar H3K36me3, y.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nos propusimos desarrollar un modelo para el análisis de datos ChIPseq que pudieran identificar tanto las estructuras de datos y puntiforme difusa igual de bien. Hasta ahora, las regiones de enriquecimiento, en particular las regiones difusas, que reflejan la expectativa de presuponía tamaño de la isla grande, han sido difíciles de identificar. Para hacer frente a estos problemas, hemos utilizado los avances más recientes en la tecnología HMM, que poseen muchas ventajas sobre los modelos heurísticos existentes y HMM men.......

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

No hay conflictos de interés declarado.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

STARR Premio de la Fundación (MQZ), NIH subvención ES017166 (MQZ), NSF subvención DMS0906593 (HX).

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
Nombre del reactivo Empresa Número de catálogo Comentarios (opcional)
Linux estación de trabajo basada

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., ....

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Bayesian Change Point AlgorithmChIPseq Data AnalysisHidden Markov ModelsGenome wide EnrichmentHistone Modification IdentificationTranscription Factor BindingPoisson Distribution ModelingPosterior Mean DensityEnriched Region DetectionNext Generation Sequencing

Related Articles