Summary

다양한 ChIPseq 데이터 유형의 게놈 차원의 분석을위한 소설 베이지안 변경 - 포인트 알고리즘

Published: December 10, 2012
doi:

Summary

우리 베이지안 변경 포인트 (BCP)이 알고리즘은 숨겨진 마르코프 모델을 통해 모델링 변화 포인트의 최신 발전을 토대로와 염색질 immunoprecipitation 시퀀싱 (ChIPseq) 데이터 분석에 적용됩니다. BCP는 광범위하고 작은 반점이있는 두 데이터 유형에서 잘 수행하지만, 정확하게 확산 히스톤 농축의 강력한 재현 섬을 식별하는 탁월한.

Abstract

ChIPseq은 단백질 DNA의 상호 작용을 조사에 널리 사용되는 기술이다. 읽기 밀도 프로파일은 단백질 바인딩 된 DNA의 차세대 시퀀싱을 사용하고 참조 게놈을 읽어 짧은 정렬에 의해 생성됩니다. 강화 지역은 종종 대상 단백질 하나에 따라, 모양에 크게 차이가 봉우리로 공개되어 있습니다. 예를 들어, 전사 인자는 종종 사이트 및 시퀀스 특정 방식으로 바인딩하고 히스톤 수정이 더 퍼질 수 있으며 농축 2 확장, 확산 섬을 특징으로하는 동안, 작은 반점이있는 봉우리를 생산하는 경향이 있습니다. 안정적으로이 지역을 식별하는 것은 우리의 일의 초점이었다.

ChIPseq 데이터를 분석 알고리즘은 휴리스틱 3-5에서 더 엄격한 통계 모델에 대한 다양한 방법론, 예를 들어 숨겨진 마르코프 모델 (HMMs) 6-8을 고용하고 있습니다. 우리는 어려운 – 투 – 정의, 특별 매개 변수 그렇게 자주의 필요성을 최소화 솔루션을 추구해상도를 손상시키고 도구의 직관적 인 사용성을 줄일. HMM 기반의 방법과 관련하여, 우리는 매개 변수 추정 절차 및 자주 이용되는 단순한, 유한 상태 분류를 절감 할 목적으로.

또한, 기존의 ChIPseq 데이터 분석의 범주를 포함하여 해당 도구의 후속 응용 프로그램에 의해 다음에 작은 반점이있는 또는 확산 중 하나로 밀도 프로파일을 읽어 예상. 우리는 더 유능하게 데이터 유형의 전체 스펙트럼을 해결 할 수있는 하나의 더 다양한 모델과 함께 두 개의 모델에 대한 필요성을 대체 할 목적으로.

이러한 목표를 달성하기 위해, 우리는 먼저 통계 프레임 워크를 구축 만 명시 적으로 활용 HMMs 9 최첨단 사전, 수식을 성능의 이점에 중요한 혁신을 사용하여 자연스럽게 모델 ChIPseq 데이터 구조. 보다 정교한 그리고 경험적 모델, 우리 HMM는 무한을 통해 숨겨진 상태를 수용베이스 모델입니다. 우리는 더 농축의 세그먼트를 정의 읽어 밀도에 적절한 변경 사항을 식별에 적용. 우리의 분석은 우리의 베이지안 변경 포인트 (BCP) 알고리즘은 감소 계산 복잡성-입증 요약 실행 시간과 메모리 사용량에 의해를 가지고 방법을 공개했다. BCP 알고리즘이 성공적으로 강력한 정확성과 제한된 사용자 정의 매개 변수 작은 반점이있는 산봉우리와 확산 섬 식별에 모두 적용되었습니다. 이 도시의 다양한 기능과 사용의 용이성 모두. 따라서, 우리는이 그것을 연구 그룹 간의 협력과 확증에 도움이 수 ChIPseq 데이터 분석을위한 훌륭한 도구 만들기, 쉽게 비교하고 대조하는 방법으로 데이터 유형 및 최종 사용자의 광범위한 범위에 걸쳐 쉽게 구현 될 수있다 생각합니다. 여기, 우리는 유용성을 설명하기 위해 기존의 전사 인자 10,11 및 epigenetic 데이터를 12 BCP의 응용 프로그램을 보여줍니다.

Protocol

1. BCP 분석을위한 입력 파일 준비 선호하는 짧은 읽기 정렬 소프트웨어를 사용하여 적절한 참조 게놈에 점을 (칩 및 입력 라이브러리) 시퀀스에서 생산 읽고 짧은 맞 춥니 다. 매핑 된 위치는 6 열 브라우저 확장 데이터 (침대) 형식 13 (UCSC 게놈 브라우저로 변환해야 http://genome.ucsc.edu/ 위치를 시작), 매핑 당 탭으로 구분 된 라인 읽기 매핑 된 ?…

Representative Results

BCP는 히스톤 수정 데이터에 광범위 농축의 영역을 식별에 탁월한. 참조 점으로서, 우리는 이전에 SICER 3, 강력한 성능을 입증 기존 도구의 사람들에게 우리의 결과를 비교했다. 가장 BCP의 장점을 설명하기 위해, 우리는 잘 성공 속도를 평가하기위한 기반을 구축하기 위해 연구 된 히스톤 수정을 살펴 보았다. 이 적극적으로 베꼈 유전자기구 (그림 1)과 강력하게 연관 게재 된 이…

Discussion

우리는 동일하게 모두 작은 반점이있는 및 확산 데이터 구조를 식별 할 수 ChIPseq 데이터를 분석하기위한 모델을 개발하기 시작했다. 지금까지 농축의 지역, 대형 섬 크기의 presupposed 기대를 반영 특히 확산 지역, 식별하기 어려운되었습니다. 이러한 문제를 해결하기 위해, 우리는 기존의 경험적 모델과 적은 혁신적인 HMMs 이상의 많은 장점을 가지고 HMM 기술의 가장 최근의 진보를 활용.

<p class="j…

Disclosures

The authors have nothing to disclose.

Acknowledgements

스타 기초 상 (MQZ), NIH 보조금 ES017166 (MQZ), NSF 부여 DMS0906593 (HX).

Materials

Name of the reagent Company Catalogue number Comments (optional)
Linux-based workstation

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Play Video

Cite This Article
Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

View Video