Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

A Novel Bayesiana Algoritmo de Mudança-ponto para Genome-wide Análise de tipos de dados ChIPseq Diversos

Published: December 10, 2012 doi: 10.3791/4273

Summary

Nosso ponto de mudança Bayesiana (BCP) algoritmo baseia-se no estado-da-arte avanços em modelagem de mudanças de pontos através de modelos ocultos de Markov e os aplica a cromatina imunoprecipitação seqüenciamento (ChIPseq) análise de dados. BCP executa bem em tipos de dados ampla e pontuada, mas supera em identificar com precisão robustos, ilhas reproduzíveis de enriquecimento histona difusa.

Abstract

ChIPseq é uma técnica amplamente utilizada para investigar interacções DNA-proteína. Ler a densidade perfis são gerados usando a próxima sequência de ADN ligado à proteína e alinhando a curto leituras para um genoma de referência. Regiões enriquecidas são revelados como picos, o que muitas vezes diferem dramaticamente de forma, dependendo da proteína alvo 1. Por exemplo, factores de transcrição ligam frequentemente em um local e modo específico da sequência e tendem a produzir picos puntiformes, enquanto que modificações de histonas são mais difusas e caracterizam-se por grandes difusas, ilhas de enriquecimento 2. Confiável identificação dessas regiões foi o foco do nosso trabalho.

Algoritmos de análise de dados ChIPseq empregaram várias metodologias, de heurísticas 3-5 aos mais rigorosos modelos estatísticos, por exemplo, modelos ocultos de Markov (HMM) 6-8. Nós procuramos uma solução que minimizasse a necessidade de difíceis de definir, parâmetros ad hoc, que muitas vezescomprometer resolução e diminuir a possibilidade de utilização intuitiva da ferramenta. Com relação aos métodos baseados em HMM, buscamos reduzir os procedimentos de estimação e de parâmetros simples, classificações de estado finito que são frequentemente utilizados.

Além disso, a análise de dados convencional ChIPseq envolve categorização do esperado ler perfis de densidade como quer punctata ou difusa seguido de posterior aplicação da ferramenta apropriada. Nós ainda como objetivo substituir a necessidade de estes dois modelos distintos com um único modelo mais versátil, que pode competentemente abordar todo o espectro de tipos de dados.

Para atingir estes objectivos, o primeiro construído um quadro estatístico que naturalmente modelados estruturas ChIPseq de dados usando um avanço de ponta em HMMs 9, que utiliza apenas fórmulas explícitas-uma inovação crucial para suas vantagens de desempenho. Modelos mais sofisticados, em seguida, heurísticas, nossa HMM acomoda infinitos estados ocultos através de umModelo Bayesian. Nós aplicamos a identificação de pontos de mudança razoável na densidade de ler, que ainda definir segmentos de enriquecimento. Nossa análise revelou como nosso Bayesiana mudar o ponto algoritmo (BCP) teve uma complexidade computacional reduzido evidenciado por um tempo de execução abreviada e consumo de memória. O algoritmo BCP foi aplicado com sucesso tanto o pico punctata e identificação ilha difusa com precisão robusto e limitados parâmetros definidos pelo usuário. Isto ilustrado tanto a sua versatilidade e facilidade de uso. Conseqüentemente, acreditamos que pode ser implementada facilmente em intervalos amplos de tipos de dados e usuários finais de uma forma que pode ser facilmente comparados e contrastados, tornando-se uma grande ferramenta para ChIPseq análise de dados que pode ajudar na colaboração e corroboração entre grupos de pesquisa. Aqui, demonstramos a aplicação do factor de transcrição de BCP existente 10,11 e 12 epigenéticas dados para ilustrar a sua utilidade.

Protocol

1. Preparando os arquivos de entrada para o BCP Análise

  1. Alinhe o curta lê produzido a partir de seqüenciamento corridas (Chip e bibliotecas de entrada) para o genoma de referência apropriado, usando o software de alinhamento preferencial curto de leitura. Os locais mapeados devem ser convertidos para as 6 colunas de dados do navegador extensíveis (TCAP) formato 13 (UCSC navegador genoma, http://genome.ucsc.edu/ ), uma linha guia delimitada por mapeada ler indicando o cromossomo mapeada, a posição inicial (baseado em 0), posição final (semi-aberto), leia pontuação, nome (opcional), e vertente.

2a. Difundir Leia Perfis: Chip pré-processamento Leia Densidades para Detecção de Enriquecido Ilhas em Dados Difusos

  1. Estenda o chip e locais de entrada mapeado para um comprimento de fragmentos pré-determinado, ou seja. o tamanho do fragmento alvo durante a digestão enzimática ou sonicação do ADN, normalmente cerca de 200 pb. Contagens de fragmentos são, em seguida, a agregaçãoted em caixas adjacentes. Por padrão, o tamanho da caixa é definido como o comprimento do fragmento estimado de 200 pb.
  2. Qualquer mudança de pontos possíveis em um conjunto de bandejas com idêntica contagem leitura irá mais provável queda nos limites mais exteriores. Consequentemente, é improvável que um ponto de mudança irá ocorrer a um limite interno entre duas caixas com as contagens de leitura mesmos. Então, escaninhos grupo adjacente, com idêntico leituras por bin, em um único bloco, ou seja. bedGraph formato 13.

2b. Puntiformes Perfis Leia: Chip pré-processamento e arquivos CAMA entrada para detecção de picos de Dados puntiformes

  1. Agregado sobreposição lê para Chip vertente mais e menos lê separadamente. As densidades vertente específica de leitura devem formar um perfil bimodal de picos de mais e de menos. Escolha pares mais / menos dos picos mais enriquecidos e usar a distância entre as suas cimeiras como uma estimativa do comprimento do fragmento de biblioteca.
  2. Mudar o chip e entrada lê metade do fragmento length para o centro e recalcular a densidade de leitura do mais mudou e se fundiram e menos vertente lê. Esta metodologia para estimar o tamanho do fragmento foi adotada a partir de Zhang, et al. 3. Posições com contagens idênticas mesclagem deve ser agrupadas em blocos, semelhante ao passo 2A.2.

3. Estimar a média posterior Leia densidade de cada bloco usando nosso aproximação BCMIX

  1. A densidade de cada um dos blocos de leitura é modelado como uma distribuição de Poisson, Pois t), com um parâmetro significativo na sequência de uma mistura de distribuições gama, Γ (α, β), e uma probabilidade anterior de um ponto de mudança ocorre a qualquer limite de bloco de p. Pois condicionado t) em G (α, β) efectivamente torna o modelo de um HMM estado infinito. Estimar o hiper-parâmetros, α, β, e p, usando probabilidade posterior máxima.
  2. Explicitamente calcular as estimativas de Bayes paracada bloco, t θ, como E (θ t | γ Z). Substituir o consumo mais tradicional, mas o tempo para a frente e para trás filtros usados ​​frequentemente em HMMs, com a aproximação mais eficiente computacionalmente Limitado Complexidade Mistura para estimar médias a posteriori, θ c. Os meios resultantes posteriores será "suavizada" em um perfil aproximado piecewise constante para blocos com idêntico, c θ, deve ser mais bloqueado juntamente com limite atualizados coordena.

4a. Difundir Leia Perfis: pós-processo médias a posteriori em segmentos de Enriquecimento difusa

  1. Utilizar o número de entrada de leituras por cada novo bloco c θ como a taxa de fundo, Pois (λ a) e determinar o enriquecimento com um teste de hipótese simples com base em se a média ChIP posterior, θ c, excede algum limiar δ. O 90 º </ Sup> quantil é o padrão d e é apropriado na maioria dos casos.
  2. Mesclar adjacente θ c blocos que excedem o enriquecimento em uma única região e relatório intercalar coordenadas em formato CAMA simples. Alternativamente, pode-se reportar o c θ para cada bloco em formato bedGraph para preservar os detalhes de alta-resolução das estimativas de densidade de leitura.

4b. Punctata Leia Perfis: pós-processo médias a posteriori para candidatos de pico

  1. Definir a taxa de fundo, Pois (λ a), como sendo a média de todos os pontos de leitura (γ 2) e identificar todos os blocos que ultrapassam o limiar, d. Desde picos puntiformes devem ser mais substancialmente enriquecido, o δ padrão é definido como o 99 º quantil de POIs (λ a).
  2. Definir o bloco com o c máxima θ como a cimeira pico candidato e contíguo blocos de acompanhamento que compartilham um antro de leitura semelhantesidade (± 1 leia contar para permitir a pequena variação). Esta região adjacente é definido como um sítio de ligação candidato.
  3. Calcular λ 2 como média das contagens de leitura no local candidato ChIP de ligação e de testes de hipóteses este fundo de entrada versus estavam a hipótese nula, H 0, que é uma λλ 2 e rejeitar H 0 com base num limiar p-valor. Saída picos candidatos em formato CAMA.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

BCP destaca em identificação de regiões de enriquecimento amplo em dados de modificação de histonas. Como ponto de referência, que anteriormente comparação dos nossos resultados aos de SICER 3, uma ferramenta já existente que tem demonstrado forte desempenho. Para ilustrar melhor as vantagens do BCP, examinamos uma modificação de histonas que tinha sido bem estudado para estabelecer uma base para avaliar as taxas de sucesso. Com isto em mente, é então analisada H3K36me3, uma vez que tem sido demonstrado que associam fortemente com os órgãos de genes activamente transcritos (Figura 1). Em contraste, H3K36me3 tinha também sido mostrado para ser exclusiva mútuo para H3K27me3 marcas repressoras. Nós ainda alavancada essas relações conhecidas para ilustrar as vantagens de desempenho do BCP na precisão das chamadas ilhas por determinação da fração de sobreposição com as associações conhecidas e dissociações, em correlação efeito e anti-correlação. Aqui, posteriormente comprovar as vantagens do BCP através de exemplos adicionaisde alta performance.

O nosso trabalho anterior mostrou uma tendência para o tamanho ilha muito maior em BCP, 23,9-25,8 kb, que SICER, 2,7-10,7 kb; ilhas maiores que são mais em conformidade com a expectativa convencional de grandes ilhas difusas de enriquecimento H3K36me3 (PLoS Comp Bio, submitted). Claro, ilhas maiores não só indicam precisão. Assim, determinou-se o quanto se sobrepor estas regiões tiveram com genes conhecidos e contrastou isso com o grau de sobreposição com espaço intergênica, uma indicação da taxa de falsos positivos (FPR). Cobertura gene no BCP variou ,492-0,497 comparação com 0,276-0,437 em SICER sem que prejudica gravemente a FPR, faixa sobreposição intergênica ,89-,90 e ,85-0,98 no BCP e SICER, respectivamente. Aqui, apresentamos uma região representante adicional mostrando a estreita relação entre os limites de enriquecimento e gene-corpos distinguindo claramente ativa e reprimired transcrição (Figura 1). Este apoia a nossa afirmação de que o BCP mantém a sobreposição elevados de genes ativos por H3K36me3 ilhas com limites estreitamente alinhados aos órgãos de genes sem aumentar o grau de sobreposição falsos positivos com espaço intergênica, genes com transcrição reprimida, ou a marca H3K27me3 repressivo.

Ao avaliar a reprodutibilidade da ilha chama-BCP em dois conjuntos de replicar os dados, percebemos BCP não sofria de uma forte dependência cobertura detalhada leitura no algoritmo de competir, SICER. Nós fornecer evidência adicional de robustez e reprodutibilidade do BCP examinando adicionais regiões distintas demonstrando limites insulares consistentes apesar da profundidade reduzida cobertura (simulado por amostragem lê a partir do conjunto de dados completo) (Figura 2).

Para demonstrar a versatilidade totalmente de BCP, obteve-se um largo espectro de dados de modificação de histona, incluindo a marca punctatas H3K27ac, H3K9ac e H3K4me3, e a marca de difuso, H3K9me3, além H3K27me3 e H3K36me3. Analisamos esses conjuntos de dados usando os parâmetros predefinidos para o BCP e SICER (Figura 3). Essas marcas representam uma ampla gama de ler perfis de densidade e nos permite focar em uma região que ilustra muitas das características comumente associadas a eles. No centro encontra-se H3K36me3 enriquecimento no gene PXDN marcação transcrição activa. Caindo expectedly no local de início da transcrição são os adicionais puntiformes, marcas ativas, H3K27ac, H3K9ac e H3K4me3. Apenas a jusante de PXDN é reprimida espaço intergênico marcado por H3K27me3 enriquecimento. No flanco oposto encontra-se um gene H3K27me3 reprimida. Movendo mais um passo para fora são silenciados cromatina, tal como indicado pela presença de H3K9me3 enriquecimento que parece indicar o silenciamento de SNTG2 MYT1L e, talvez em um sentido menos transiente, em seguida, a repressão H3K27me3. Esta região abrange a maior parte dos fenómenos encombater em ChIPseq de modificações de histonas e ilustra como a natureza dinâmica do BCP pode identificar tanto acetilação punctata e H3K4me3 marcas enquanto ao mesmo tempo, distinguindo grandes ilhas contíguas de H3K27me3 e H3K9me3 repressão e H3K36me3 transcrição activa. Para reiterar, o BCP pode fazer tal todas essas análises simplesmente em configurações padrão e, como demonstrado, ainda produzir resultados de qualidade, independentemente do tipo de dados. O algoritmo também é rápido e eficiente de memória e, por conseguinte, proporciona uma utilidade praticamente convincente.

Figura 1
Figura 1. Diffuse ler os perfis de densidade de modificações de histonas. H3K27me3 (topo) e H3K36me3 (parte inferior) exemplificam as grandes, ilhas de enriquecimento difusas fortemente associadas com os órgãos de genes (caixas verdes). H3K27me3 correlaciona com genes reprimidos e espaço intergênica e com anticorrelates ativamente transcribed corpos de genes. O oposto é verdadeiro para H3K36me3. Os dados são visualizados no navegador genoma UCSC ( http://genome.ucsc.edu ).

Figura 2
Figura 2. BCP é robusto e reprodutível. Ilha exige H3K36me3 em duas repetições e em profundidades de amostragem 30, 50 e 70% da totalidade do conjunto de dados de repetição 1 foram analisadas com BCP. A segunda repetição, com uma cobertura de leitura substancialmente inferior, produzido chamadas ilhas semelhantes e o grau de sobreposição foi altamente conservados, independentemente da percentagem da amostragem. Além disso, manteve-se a ilhas precisão como visto no alinhamento próximo das fronteiras com anotações corpo RefSeq genes.

Figura 3
Figura 3. BCP é uma versaalgoritmo de azulejo, que pode ser aplicado a todos os tipos de dados de histona modificações. BCP e SICER foram utilizados para analisar a gama de tipos de dados, a partir de marcas puntiformes como H3K27ac, H3K9ac, e H3K4me3, para difundir marcas como H3K36me3, H3K27me3, e H3K9me3. Usando os parâmetros padrão para ambos os algoritmos, BCP ilhas capturar a densidade enriquecido independentemente da sua amplitude enquanto SICER muitas vezes fragmenta regiões em muitos sub-ilhas. Mesmo no caso altamente amplo e difuso de H3K9me3, o BCP tem um desempenho razoável.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Nós nos propusemos a desenvolver um modelo de análise de dados que possam identificar ChIPseq ambas as estruturas puntiformes e difusos dados igualmente bem. Até agora, as regiões de enriquecimento, as regiões particularmente difusas, que refletem a expectativa pressuposto de tamanho grande ilha, têm sido difíceis de identificar. Para resolver esses problemas, foram utilizados os mais recentes avanços na tecnologia de HMM, que possuem muitas vantagens sobre os modelos heurísticos existentes e HMMs menos inovadoras.

Nosso modelo faz uso de uma estrutura bayesiana com fórmulas explícitas. Esta é uma distinção crucial de HMMs outros, na medida em que nos permite calcular médias a posteriori, do esperado. Ler a densidade de cada segmento, com cálculos simples, em vez de confiar em simulações consomem tempo e computacionalmente caro, como cadeia de Markov métodos de Monte Carlo Consequentemente, nossos tempos de computação e requisitos de memória são drasticamente reduzidos. Usando alto desempenho computacional aglomerados wiª núcleo duplo, nós 2.0 GHz com 2 GB de memória de 64 bits para analisar ~ 23 milhões H3K27me3 lê ou ~ 21 milhões H3K36me3 lê, BCP levou menos de uma hora para a análise do genoma inteiro em comparação com várias horas ou dias necessários para outros métodos. Estes timesavings pode ser conseguido apenas com o modesto 2 GB de memória.

Além disso, as nossas condições de modelo dos diversos meios de cada segmento, ou seja. Pois (θ), quando da distribuição Gamma contínua. Essencialmente, isso permite infinitos estados possíveis para cada segmento. BCP pode fornecer mais de classificações binárias simples de enriquecimento contra fundo e preserva as magnitudes de densidade de leitura para cada segmento através dos meios de saída posterior.

Nós também fazemos uso do algoritmo BCMIX para a eficiência computacional. Isto permite uma busca exaustiva perto para mudar-pontos entre o enriquecimento eo fundo de todas as posições genômicas possíveis. Isso proporciona uma resolução elevada não confined por definições arbitrárias janela, com pouco impacto sobre o tempo de execução ou exigências de memória.

Tudo isto é conseguido sem perturbar a precisão, tanto na teoria, uma vez que o modelo é estatisticamente rigorosa e seus resultados convergem para o estimador Bayesiano, assim, na prática, como já se demonstrou aqui. A cobertura de genes de nossos resultados sugerem H3K36me3 as chamadas ilhas são altamente precisos, sem prejudicar em espaço conhecido mutuamente excluídos intergênica ou H3K27me3 enriquecimento. Os resultados são notavelmente reprodutível e robusto e mostrou pouca dependência cobertura aprofundada, chamando ilhas semelhantes com cobertura gene alta e baixa, apesar de FPR profundidades tão baixas quanto 30%. BCP foi utilizado amplamente, sem qualquer ajuste para parâmetros padrão, para analisar uma grande variedade de modificações de histonas e os dados do factor de transcrição ChIPseq e um bom desempenho em todos os casos. Esperamos que, devido à sua alta precisão, robustez e reprodutibilidade, o BCP vai servir como um eficazferramenta de análise de dados, colaboração e corroboração no futuro.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Não há conflitos de interesse declarados.

Acknowledgments

STARR prêmio fundação (MQZ), NIH concessão ES017166 (MQZ), NSF concessão DMS0906593 (HX).

Materials

Name Company Catalog Number Comments
Linux-based workstation

DOWNLOAD MATERIALS LIST

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Tags

Genética Edição 70 Bioinformática Biologia Genômica Molecular Biologia Celular Imunologia Cromatina imunoprecipitação Chip-Seq modificações de histonas segmentação Bayesianas modelos ocultos de Markov a epigenética
A Novel Bayesiana Algoritmo de Mudança-ponto para Genome-wide Análise de tipos de dados ChIPseq Diversos
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Xing, H., Liao, W., Mo, Y., Zhang,More

Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter