Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

Un bayesiano novela Cambio de punto Algoritmo para el Genoma en todo el análisis de diversos tipos de datos ChIPseq

Published: December 10, 2012 doi: 10.3791/4273

Summary

Nuestro punto de cambio bayesiano (BCP) algoritmo se basa en los avances del estado de la técnica de modelado en los puntos de cambio a través de modelos ocultos de Markov y los aplica a la cromatina immunoprecipitation secuenciación (ChIPseq) el análisis de datos. BCP funciona bien en ambos tipos de datos amplios y punteada, pero sobresale en la identificación precisa de las islas robustas, reproducibles de enriquecimiento histona difusa.

Abstract

ChIPseq es una técnica ampliamente utilizada para investigar las interacciones proteína-DNA. Leer los perfiles de densidad se han generado mediante el uso de la siguiente secuencia de ADN unido a proteína y la alineación de la corto lee a un genoma de referencia. Zonas enriquecidas se revelan como los picos, que a menudo difieren dramáticamente en forma, dependiendo de la proteína diana 1. Por ejemplo, los factores de transcripción a menudo se unen en un sitio-específico y secuencia-manera y tienden a producir picos puntiformes, mientras que las modificaciones de histonas son más penetrante y se caracterizan por islas grandes difusas de enriquecimiento 2. Forma fiable la identificación de estas regiones fue el tema central de nuestro trabajo.

Los algoritmos para el análisis de datos ChIPseq han empleado diversos métodos heurísticos, de 3-5 para más modelos estadísticos rigurosos, por ejemplo, Modelos Ocultos de Markov (HMMs) 6-8. Se buscó una solución que minimiza la necesidad de la difícil de definir, ad hoc parámetros que a menudocomprometer resolución y disminuir la utilización intuitiva de la herramienta. Con respecto a los métodos basados ​​en HMM, se intentó limitar los procedimientos de estimación de parámetros y clasificaciones simples de estados finitos que se utilizan con frecuencia.

Además, convencional ChIPseq análisis de datos implica la clasificación de la espera leer perfiles de densidad, ya sea como puntiforme o difusa seguido de la posterior aplicación de la herramienta adecuada. Tenemos además el objetivo de sustituir la necesidad de estos dos modelos distintos con un solo modelo, más versátil, que hábilmente puede abordar todo el espectro de tipos de datos.

Para cumplir con estos objetivos, primero construyó un marco estadístico que, naturalmente, modelados ChIPseq estructuras de datos utilizando un avance de vanguardia en HMMs 9, que utiliza solamente fórmulas explícitas-una innovación crucial para las ventajas de rendimiento. A continuación, los modelos heurísticos más sofisticados, nuestro HMM acomoda infinitos estados ocultos a través de unModelo bayesiano. Lo aplicamos a la identificación de los puntos razonables cambio en la densidad de leer, que además definir los segmentos de enriquecimiento. Nuestro análisis reveló cómo nuestra Cambio Bayesiano Point (BCP) algoritmo tenía una complejidad computacional reducido evidenciado por un tiempo de ejecución abreviada y consumo de memoria. El algoritmo de BCP se aplicó con éxito tanto pico puntiforme y la identificación de islas difusa con precisión robusta y limitados parámetros definidos por el usuario. Esto se ilustra tanto su versatilidad y facilidad de uso. Por lo tanto, creemos que se puede implementar fácilmente a través de amplias gamas de tipos de datos y los usuarios finales de una manera que es fácil de comparar y contrastar, por lo que es una gran herramienta para ChIPseq análisis de datos que pueden ayudar en la colaboración y la corroboración entre grupos de investigación. Aquí, se demuestra la aplicación de BCP a factor de transcripción existente 10,11 y datos epigenéticos 12 para ilustrar su utilidad.

Protocol

1. Preparación de los ficheros de entrada para el análisis de BCP

  1. Alinee el corto producido a partir de lecturas de secuenciación carreras (ChIP y bibliotecas de entrada) al genoma de referencia apropiado utilizar el software preferido corto alineación de lectura. Las ubicaciones mapeadas deben ser convertidos en los datos de la columna 6 extensibles navegador (BED) Formato 13 (UCSC genoma navegador, http://genome.ucsc.edu/ ), una línea delimitada por tabuladores asignada por leer lo que indica el cromosoma asignada, la posición inicial (0-based), posición final (semiabierta), leer el nombre, la puntuación (opcional), y el capítulo.

2a. Difundir Leer perfiles: Chip Preprocesamiento Leer densidades para la detección de las Islas enriquecido en datos difusos

  1. Extender el chip y lugares de entrada asignada a una longitud de fragmento predeterminado, es decir. el tamaño de los fragmentos dirigidos durante la digestión enzimática o la sonicación de la ADN, generalmente de alrededor de 200 pb. Recuentos fragmento son entonces agregaciónTed en los contenedores adyacentes. De forma predeterminada, el tamaño de bin está en la longitud de los fragmentos de aproximadamente 200 pb.
  2. Cualquier cambio de puntos posible en un conjunto de bandejas con idénticas recuentos de leer lo más probable caída en los límites más exteriores. Por consiguiente, es improbable que un punto de cambio se producirá a un límite interno entre dos compartimientos con los recuentos de leer los mismos. Así, bins grupo adyacente, con idéntico lecturas por bin, en un solo bloque, es decir. bedGraph formato 13.

2b. Leer puntiformes perfiles: Chip Preprocesamiento y archivos de entrada CAMA para la detección de picos en los datos puntiformes

  1. Aggregate superposición lee por ChIP hebra más y menos se lee por separado. La hebra específicos densidades de lectura debe formar un perfil bimodal de los picos de más y menos. Elija pares más / menos de los picos más enriquecidos y utilizar la distancia entre sus cumbres como una estimación de la longitud de los fragmentos de la biblioteca.
  2. Cambie el chip y la entrada se lee la mitad del fragmento length al centro y volver a calcular la densidad de leer el signo más se movió y se fusionaron y se lee menos hebra. Este método para calcular la longitud de los fragmentos fue adoptado de Zhang, et al. 3. Posiciones con idénticos cargos de fusión deben agruparse en bloques, de forma similar al paso 2a.2.

3. Calcule el promedio de lectura de densidad posterior de cada bloque utilizando nuestro Aproximación BCMIX

  1. La densidad de lectura de cada bloque se modela como una distribución de Poisson, Pois t), con un parámetro de seguimiento medio de una mezcla de distribuciones gamma, Γ (α, β), y una probabilidad previa de un punto de cambio que se produzca en cualquier límite de bloque de p. Acondicionamiento Pois t) en G (α, β) efectivamente hace que el modelo HMM un estado infinito. Estimar la hiper-parámetros, α, β, y p, probabilidad posterior uso máximo.
  2. Explícitamente calcular las estimaciones de Bayes paracada bloque, θ t, como E (θ t | γ Z). Vuelva a colocar el consumir más tradicional, pero el tiempo hacia adelante y hacia atrás filtros usados ​​a menudo en HMMs, con la aproximación Complejidad mezcla más eficiente computacionalmente Limita al estimar medias posteriores, θ c. Los medios resultantes posteriores será "suavizada" en un perfil aproximado constante a trozos para bloques con el mismo, θ c, debe seguir bloqueado junto con límite actualizado coordina.

4a. Difundir Leer perfiles: Proceso de Post-Medios posteriores en segmentos de Enriquecimiento difusa

  1. Usar el número de entrada de lecturas por cada nuevo bloque θ c como la tasa de fondo, Pois (λ a) y determinar el enriquecimiento usando una prueba de hipótesis simple en función de si la media posterior ChIP, θ c, supera cierto umbral δ. La 90 ª </ Sup>-cuantil es la d por defecto y es apropiado en la mayoría de los casos.
  2. Combinar adyacente θ c bloques que superen el enriquecimiento en una sola región y el informe de fusionar las coordenadas en formato cama simple. Alternativamente, se puede informar de la c θ para cada bloque en formato bedGraph para preservar los detalles de alta resolución de las estimaciones de la densidad de lectura.

4b. Punteada Leer perfiles: Proceso Post-Medios posteriores a los candidatos Peak

  1. Definir la tasa de fondo, Pois (λ a), como el promedio de todos los recuentos de lectura (γ 2) e identifique todos los bloques que superen el umbral, d. Desde los picos puntiformes se espera que sea más enriquecido sustancialmente, la δ predeterminado se establece en el 99 th-cuantil de Pois (λ a).
  2. Ajuste el bloque con la máxima c θ como la cumbre de pico candidato y bloques contiguos de acompañamiento que comparten una similar den lecturadensidad (± 1 leer contar para permitir la variación leve). Esta región contiguo se define como un sitio de unión candidato.
  3. Calcular λ 2 como los recuentos promedio de lectura en el sitio de unión candidato chip y prueba de hipótesis frente a esta situación de entrada fueron la hipótesis nula H 0, es que λλ 1 2 y rechazar H 0 Basado en un umbral de p-valor. Picos de salida candidatos en formato cama.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

BCP supera a la identificación de las regiones del enriquecimiento general en los datos de modificación de histonas. Como punto de referencia, que previamente han comparado nuestros resultados con los de SICER 3, una herramienta existente que ha demostrado buenos resultados. Para ilustrar mejor las ventajas del BCP, se analizó una modificación de las histonas que había sido bien estudiada para establecer una base para la evaluación de las tasas de éxito. Con esto en mente, a continuación, analizar H3K36me3, ya que se ha demostrado asociarse fuertemente con los órganos de genes activamente transcrito (Figura 1). En contraste, H3K36me3 había sido también demostrado ser exclusivo mutuo a H3K27me3 marcas represivas. Hemos aprovechado estas relaciones más conocidos para ilustrar las ventajas de rendimiento de BCP en la exactitud de las llamadas islas mediante la determinación de la fracción de solapamiento con las asociaciones conocidas y disociaciones, en correlación efecto y anti-correlación. En este sentido, justificó las ventajas de BCP con ejemplos adicionalesde alto rendimiento.

Nuestro trabajo anterior ha demostrado una tendencia mucho mayor tamaño de la isla en el BCP, 23,9 a 25,8 kb, que SICER, 2,7 a 10,7 kb, las islas más grandes están más en línea con la expectativa convencional de grandes islas difusas de H3K36me3 enriquecimiento (PLoS Comp Bio, enviado). Por supuesto, las grandes islas no solo indican la precisión. Así, se determinó cuánto se superponen estas regiones tenían con los genes conocidos y contrastó con el grado de superposición con el espacio intergénico, una indicación de la tasa de falsos positivos (FPR). Gene cobertura en el BCP varió desde 0,492 hasta 0,497 en comparación con 0,276 a 0,437 en SICER sin afectar severamente el FPR, rango de solapamiento intergénica 0,89 a 0,90 y de 0,85 a 0,98 en el BCP y SICER, respectivamente. A continuación, presentamos una región representativa adicional que muestra la estrecha relación entre los límites de enriquecimiento de genes y organismos-distinguiendo claramente activa y reprimired transcripción (Figura 1). Esto apoya nuestra reivindicación de que los BCP mantiene alta superposición de genes activos por H3K36me3 islas con límites estrechamente alineados con los órganos de genes sin aumentar el grado de falsos positivos con solapamiento espacio intergénico, los genes con transcripción reprimido, o la marca represivo H3K27me3.

Al evaluar la reproducibilidad de los BCP-isla llama en dos conjuntos de datos replicados, nos dimos cuenta BCP no sufrió una fuerte dependencia de la profundidad de la cobertura de lectura en el algoritmo de la competencia, SICER. Proporcionamos evidencia adicional de robustez de BCP y reproducibilidad mediante el examen adicionales de regiones distintas que demuestra límites coherentes isla a pesar de la profundidad de cobertura reducida (simulado por muestreo lee desde el conjunto de datos completo) (Figura 2).

Para demostrar completamente la versatilidad de BCP, se obtuvo un amplio espectro de datos de modificación de histonas, incluyendo la marca punteadas H3K27ac, H3K9ac, y H3K4me3, y la marca difusa, H3K9me3, además de H3K27me3 y H3K36me3. Analizamos estos conjuntos de datos utilizando la configuración por defecto de parámetros tanto para BCP y SICER (Figura 3). Estas marcas representan una amplia gama de perfiles de densidad de leer y nos permiten concentrarse en una región que muestra muchas de las características comúnmente asociadas con ellos. En el centro se encuentra H3K36me3 enriquecimiento en el gen PXDN marcado transcripción activa. La caída era de esperar en el sitio de inicio de transcripción son las otras marcas puntiformes, activo, H3K27ac, H3K9ac y H3K4me3. Justo aguas abajo de PXDN se reprime espacio intergénico marcado por H3K27me3 enriquecimiento. En el flanco opuesto se encuentra un gen reprimido H3K27me3. Mover un paso más hacia fuera son silenciados cromatina, como se indica por la presencia de H3K9me3 enriquecimiento que parece indicar el silenciamiento de SNTG2 y MYT1L, tal vez en un sentido menos transitoria entonces H3K27me3 represión. Esta región abarca la mayoría de los fenómenos encontrarrestada en ChIPseq de modificaciones de las histonas, y muestra cómo la naturaleza dinámica de BCP puede identificar tanto acetilación puntiforme y marcas H3K4me3 mientras que al mismo tiempo distinguir grandes islas contiguas de H3K27me3 y H3K9me3 represión y H3K36me3 transcripción activa. Para reiterar, el BCP puede hacer tal todos estos análisis simplemente con la configuración predeterminada y, como se ha demostrado, aún producir resultados de calidad, independientemente del tipo de datos. El algoritmo también es rápido y eficiente de la memoria y, por lo tanto, proporciona una utilidad prácticamente convincente.

Figura 1
Figura 1. Difundir leer los perfiles de densidad de las modificaciones de histonas. H3K27me3 (arriba) y H3K36me3 (abajo) ejemplifican las islas grandes, enriquecimiento difusas fuertemente asociados con los organismos de genes (recuadros verdes). H3K27me3 se correlaciona con los genes reprimidos y el espacio intergénico y anticorrelates activamente con trcuerpos anscribed genes. Lo contrario es cierto para H3K36me3. Los datos se visualiza en la UCSC genoma navegador ( http://genome.ucsc.edu ).

Figura 2
Figura 2. BCP es robusto y reproducible. Isla obliga H3K36me3 en dos repeticiones y en el muestreo profundidades de 30%, 50 y 70 de la repetición completa 1 conjunto de datos se analizaron con BCP. La segunda réplica, con una cobertura de lectura sustancialmente menor, producido llamadas similares isla y el grado de solapamiento se mantuvo altamente independientemente de muestreo porcentaje. Además, las islas permanecieron precisión como se ve en la estrecha alineación de límites con anotaciones RefSeq cuerpo de genes.

Figura 3
Figura 3. BCP es una inversaalgoritmo de azulejo que se puede aplicar a todos los tipos de datos de histonas modificaciones. BCP y SICER se utilizaron para analizar la gama de tipos de datos de marcas puntiformes como H3K27ac, H3K9ac y H3K4me3, difundir marcas como H3K36me3, H3K27me3 y H3K9me3. Uso de los parámetros predeterminados para ambos algoritmos, las islas BCP captar la densidad enriquecido, independientemente de su amplitud, mientras que SICER menudo fragmenta regiones en muchos sub-islas. Incluso en el caso muy amplio y difuso de H3K9me3, BCP tiene un rendimiento razonable.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Nos propusimos desarrollar un modelo para el análisis de datos ChIPseq que pudieran identificar tanto las estructuras de datos y puntiforme difusa igual de bien. Hasta ahora, las regiones de enriquecimiento, en particular las regiones difusas, que reflejan la expectativa de presuponía tamaño de la isla grande, han sido difíciles de identificar. Para hacer frente a estos problemas, hemos utilizado los avances más recientes en la tecnología HMM, que poseen muchas ventajas sobre los modelos heurísticos existentes y HMM menos innovadoras.

Nuestro modelo hace uso de un marco Bayesiano con fórmulas explícitas. Esta es una distinción crucial de HMMs otros, ya que nos permite calcular las medias posteriores, el archivo. Espera leer la densidad de cada segmento, con cálculos simples, en lugar de basarse en simulaciones que requieren mucho tiempo y costoso computacionalmente, tales como métodos de Markov Chain Monte Carlo En consecuencia, nuestros tiempos de cálculo y los requisitos de memoria se reduce drásticamente. Con alto desempeño de cómputo grupos wiª núcleo dual, 2,0 nodos GHz con 2 GB de memoria de 64 bits para analizar ~ 23 millones H3K27me3 lee o lee ~ 21 millones H3K36me3, BCP tomó menos de una hora para el análisis de todo el genoma en comparación con varias horas o días requeridos para otros métodos. Estos ahorros de tiempo se puede lograr con sólo el modesto 2 GB de memoria.

Además, nuestras condiciones modelan los distintos medios de cada segmento, es decir. Pois (θ), en una distribución Gamma continua. Esencialmente, esto permite infinitos estados posibles para cada segmento. BCP tiene más que clasificaciones binarias simples enriquecido frente a fondo y conserva las magnitudes de densidad de lectura para todos los segmentos a través de los medios de salida posterior.

También hacemos uso del algoritmo BCMIX para la eficiencia computacional. Esto permite una búsqueda exhaustiva para cambiar cerca de los puntos entre el enriquecimiento y el fondo de todas las posiciones posibles genómicas. Esto proporciona una mayor resolución no confined en definiciones de ventana arbitrarias, con poco impacto en el tiempo de ejecución o demanda de memoria.

Todo esto se consigue sin perturbar precisión, tanto en la teoría, puesto que el modelo es estadísticamente rigurosa y sus resultados convergen para el estimador Bayesiano, así, en la práctica, como hemos demostrado aquí. La cobertura de genes de nuestros resultados sugieren H3K36me3 las llamadas islas son muy precisos sin inmiscuirse en el espacio conocido mutuamente excluyentes intergénica o enriquecimiento H3K27me3. Los resultados son muy reproducible y robusto y mostró poca dependencia de la profundidad de la cobertura, llamando islas similares con cobertura de genes de alta y baja a pesar FPR profundidades de muestreo de sólo 30%. BCP se utiliza en sentido amplio, sin ningún ajuste a los parámetros por defecto, para analizar una amplia gama de modificación de las histonas y los datos del factor de transcripción ChIPseq y realizado bien en todos los casos. Esperamos que, debido a su alta precisión, robustez y reproducibilidad, BCP servirá como un efectivoherramienta para el análisis de datos, la colaboración y la corroboración en el futuro.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

No hay conflictos de interés declarado.

Acknowledgments

STARR Premio de la Fundación (MQZ), NIH subvención ES017166 (MQZ), NSF subvención DMS0906593 (HX).

Materials

Name Company Catalog Number Comments
Linux-based workstation

DOWNLOAD MATERIALS LIST

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Tags

Genética Número 70 Bioinformática Biología Genómica Molecular Biología Celular Inmunología inmunoprecipitación de cromatina ChIP-Seq modificaciones de las histonas segmentación bayesianos Modelos Ocultos de Markov la epigenética
Un bayesiano novela Cambio de punto Algoritmo para el Genoma en todo el análisis de diversos tipos de datos ChIPseq
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Xing, H., Liao, W., Mo, Y., Zhang,More

Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter