Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

다양한 ChIPseq 데이터 유형의 게놈 차원의 분석을위한 소설 베이지안 변경 - 포인트 알고리즘

Published: December 10, 2012 doi: 10.3791/4273

Summary

우리 베이지안 변경 포인트 (BCP)이 알고리즘은 숨겨진 마르코프 모델을 통해 모델링 변화 포인트의 최신 발전을 토대로와 염색질 immunoprecipitation 시퀀싱 (ChIPseq) 데이터 분석에 적용됩니다. BCP는 광범위하고 작은 반점이있는 두 데이터 유형에서 잘 수행하지만, 정확하게 확산 히스톤 농축의 강력한 재현 섬을 식별하는 탁월한.

Abstract

ChIPseq은 단백질 DNA의 상호 작용을 조사에 널리 사용되는 기술이다. 읽기 밀도 프로파일은 단백질 바인딩 된 DNA의 차세대 시퀀싱을 사용하고 참조 게놈을 읽어 짧은 정렬에 의해 생성됩니다. 강화 지역은 종종 대상 단백질 하나에 따라, 모양에 크게 차이가 봉우리로 공개되어 있습니다. 예를 들어, 전사 인자는 종종 사이트 및 시퀀스 특정 방식으로 바인딩하고 히스톤 수정이 더 퍼질 수 있으며 농축 2 확장, 확산 섬을 특징으로하는 동안, 작은 반점이있는 봉우리를 생산하는 경향이 있습니다. 안정적으로이 지역을 식별하는 것은 우리의 일의 초점이었다.

ChIPseq 데이터를 분석 알고리즘은 휴리스틱 3-5에서 더 엄격한 통계 모델에 대한 다양한 방법론, 예를 들어 숨겨진 마르코프 모델 (HMMs) 6-8을 고용하고 있습니다. 우리는 어려운 - 투 - 정의, 특별 매개 변수 그렇게 자주의 필요성을 최소화 솔루션을 추구해상도를 손상시키고 도구의 직관적 인 사용성을 줄일. HMM 기반의 방법과 관련하여, 우리는 매개 변수 추정 절차 및 자주 이용되는 단순한, 유한 상태 분류를 절감 할 목적으로.

또한, 기존의 ChIPseq 데이터 분석의 범주를 포함하여 해당 도구의 후속 응용 프로그램에 의해 다음에 작은 반점이있는 또는 확산 중 하나로 밀도 프로파일을 읽어 예상. 우리는 더 유능하게 데이터 유형의 전체 스펙트럼을 해결 할 수있는 하나의 더 다양한 모델과 함께 두 개의 모델에 대한 필요성을 대체 할 목적으로.

이러한 목표를 달성하기 위해, 우리는 먼저 통계 프레임 워크를 구축 만 명시 적으로 활용 HMMs 9 최첨단 사전, 수식을 성능의 이점에 중요한 혁신을 사용하여 자연스럽게 모델 ChIPseq 데이터 구조. 보다 정교한 그리고 경험적 모델, 우리 HMM는 무한을 통해 숨겨진 상태를 수용베이스 모델입니다. 우리는 더 농축의 세그먼트를 정의 읽어 밀도에 적절한 변경 사항을 식별에 적용. 우리의 분석은 우리의 베이지안 변경 포인트 (BCP) 알고리즘은 감소 계산 복잡성-입증 요약 실행 시간과 메모리 사용량에 의해를 가지고 방법을 공개했다. BCP 알고리즘이 성공적으로 강력한 정확성과 제한된 사용자 정의 매개 변수 작은 반점이있는 산봉우리와 확산 섬 식별에 모두 적용되었습니다. 이 도시의 다양한 기능과 사용의 용이성 모두. 따라서, 우리는이 그것을 연구 그룹 간의 협력과 확증에 도움이 수 ChIPseq 데이터 분석을위한 훌륭한 도구 만들기, 쉽게 비교하고 대조하는 방법으로 데이터 유형 및 최종 사용자의 광범위한 범위에 걸쳐 쉽게 구현 될 수있다 생각합니다. 여기, 우리는 유용성을 설명하기 위해 기존의 전사 인자 10,11 및 epigenetic 데이터를 12 BCP의 응용 프로그램을 보여줍니다.

Protocol

1. BCP 분석을위한 입력 파일 준비

  1. 선호하는 짧은 읽기 정렬 소프트웨어를 사용하여 적절한 참조 게놈에 점을 (칩 및 입력 라이브러리) 시퀀스에서 생산 읽고 짧은 맞 춥니 다. 매핑 된 위치는 6 열 브라우저 확장 데이터 (침대) 형식 13 (UCSC 게놈 브라우저로 변환해야 http://genome.ucsc.edu/ 위치를 시작), 매핑 당 탭으로 구분 된 라인 읽기 매핑 된 염색체를 나타내는 (0 기반), 최종 위치 (반 개방)는, 이름, 점수 (선택 사항) 및 가닥을 읽어보십시오.

2A. 프로필을 읽어 무마 : 전처리 칩은 무마 데이터의 풍부한 섬의 검색에 대한 밀도를 읽고

  1. 소정의 조각의 길이, 즉,에 칩과 입력 매핑 된 위치를 확장합니다. 조각의 크기는 일반적으로 200 BP 주위에, DNA의 효소 분해 또는 sonication 동안 대상. 조각 카운트는 aggrega 아르인접 용기에 테드. 기본적으로 빈의 크기는 200 BP의 예상 조각의 길이로 설정됩니다.
  2. 모든 변경 가능성 포인트 동일한 읽을 수가있는 용기의 집합에 의지 바깥 쪽 가장 경계에서 가능성이 가장 높은 가을. 따라서, 그 변화 지점이 동일한 읽기 카운트 두 개의 용기 사이의 내부 경계에서 발생하는 것으로 황당한입니다. 따라서 동일한있는 그룹 옆에 쓰레기통이 하나의 블록, 즉에, 빈 당 읽습니다. bedGraph 형식 13.

2B. 작은 반점이있는 읽기 프로필 : 작은 반점이있는 데이터의 봉우리의 탐지를위한 전처리 칩 및 입력 침대 파일

  1. 중복 집계가 플러스 (+) 및 마이너스 스트랜드 칩을 개별적으로 읽기에 대한 읽습니다. 스트랜드 특정 읽기 밀도가 플러스 (+) 및 마이너스 봉우리의 bimodal 프로파일을 구성해야합니다. 가장 풍부한 봉우리 플러스 / 마이너스 쌍을 선택하고 라이브러리 조각의 길이에 대한 견적 그들의 정상 사이의 거리를 사용합니다.
  2. 칩을 이동하고 입력은 반 조각 르를 읽고이동 및 통합 플러스 (+) 및 마이너스 가닥은 읽기의 읽기 밀도 센터와 계산에 ngth. 조각 길이를 계산하는이 방법론은 장, 외. 3에서 채택되었습니다. 동일한 병합 카운트가있는 위치는 2a.2 단계와 유사한 블록으로 그룹화해야합니다.

3. 추정 뒤 우리 BCMIX의 근사값을 사용하여 각 블록의 밀도를 읽고 의미

  1. 각 블록의 읽기 밀도는 감마 분포의 혼합에 따라 평균 매개 변수, Γ (α, β)와 t) 관심, 푸 아송 분포로 모델링하고, 변화 포인트의 사전 확률은 블록 경계에서 발생 P의. G에 관심 컨디셔닝 t) (α, β)는 효과적으로 모델에게 무한 상태 HMM을 렌더링합니다. 최대 뒤쪽 가능성을 사용하여 하이퍼 매개 변수 α, β, 및 P를 추정합니다.
  2. 명시 적으로에 대한 Bayes 견적을 계산각 블록, θ tE (θ t | γ Z). 앞으로 더 많은 전통적인하지만 시간이 소요되는 교체 및 뒤로 더 계산 효율적으로 경계 복잡성 혼합 근사치로 자주 HMMs에 사용되는 필터는, 뒤쪽 수단을 추정하기 위해, θ 다. 그 결과 후부 수단 동일, θ C와 블록 추가 업데이트 경계 조정과 함께 차단해야하므로 대략 piecewise 상수의 프로필에 "부드럽게"입니다.

4A. 확산 농축의 세그먼트로 포스트 프로세스 뒤쪽 방식 : 프로필을 읽어 확산

  1. 입력의 수 (λ) 관심, 배경 속도로 각각의 새로운 θ C 블록 당 읽고를 사용하여 칩 뒤쪽 뜻은, θ C, 일부 임계 값 δ를 초과하는지 여부에 따라 간단한 가설 테스트를 사용하여 농축을 결정합니다. 90 일 </> - quantile 기본 D이며, 대부분의 경우에 적합합니다 논의하게 될 것입니다.
  2. 병합 인접 θ C 단일 지역과 보고서는 간단한 침대 형식의 좌표를 병합로 농축을 초과 블록 떨어져 있습니다. 또한, 하나는 읽기 밀도 추정의 고해상도 정보를 보존 bedGraph 형식의 각 블록에 대한 θ C를 신고 할 수 있습니다.

지하 4 층. 피크 후보로 포스트 프로세스 뒤쪽 방식 : 작은 반점이있는이 프로필을 읽어

  1. 모두 읽은 횟수의 평균 (γ 2)로 (λ) 관심, 배경 속도를 정의하고 임계 값, D를 초과하는 모든 블록을 식별합니다. 작은 반점이있는 봉우리가 더 실질적으로 풍부 할 것으로 예상되기 때문에, 기본 δ는 관심의 99 - quantile (λ)로 설정되어 있습니다.
  2. 후보 피크 정상 회담으로 최대 θ C로 블록을 설정하고 비슷한 읽기 서재를 공유 측면을 노릴 블록을 인접sity (± 1 작은 변화 할 수 있도록하기 위해 계산 읽어). 이 adjoined 지역은 후보 구속력 사이트로 정의됩니다.
  3. 칩 후보 구속력 사이트 및 가설 테스트의 평균 읽기 횟수로 λ 2 계산이 대 입력 배경 null이 가설이었다, H 0, 그건 λ P-값이 임계 값에 따라 ≥ λ 2, H 0을 거부합니다. 침대 형식으로 출력 후보 봉우리.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

BCP는 히스톤 수정 데이터에 광범위 농축의 영역을 식별에 탁월한. 참조 점으로서, 우리는 이전에 SICER 3, 강력한 성능을 입증 기존 도구의 사람들에게 우리의 결과를 비교했다. 가장 BCP의 장점을 설명하기 위해, 우리는 잘 성공 속도를 평가하기위한 기반을 구축하기 위해 연구 된 히스톤 수정을 살펴 보았다. 이 적극적으로 베꼈 유전자기구 (그림 1)과 강력하게 연관 게재 된 이후이를 염두에두고, 우리는 다음 H3K36me3를 분석했다. 반면, H3K36me3도 H3K27me3 억압 마르크를 상호 배타적으로 표시 하였다. 우리는 더 효과 상관 관계 및 안티 상관 관계에 알려진 협회와 disassociations과 중복의 비율을 결정하여 섬의 통화의 정확성에 BCP의 성능 이점을 설명하기 위해이 알려진 관계를 활용. 여기, 우리는 더 추가 예제를 사용하여 BCP의 장점을 입증 할높은 성능.

H3K36me3 농축의 광범위한 확산 섬의 종래의 기대와 라인에 더 많은 것 더 큰 섬, 우리 앞의 작업은 BCP에 훨씬 더 큰 섬의 크기, 23.9-25.8 킬로바이트, SICER보다 2.7-10.7 킬로바이트에 대한 경향을 보여 (PLoS 보정 바이오 제출). 물론, 큰 섬 혼자 정확성을 표시하지 않습니다. 그래서, 우리는 우리가이 지역은 알려진 유전자했고 intergenic 공간 오버랩의 정도, 허위 긍정적 인 속도 (FPR)의 표시로 이것을 대조 중복 얼마나 결정. BCP의 유전자 범위는 심각 FPR에 영향을주지 않고 SICER에서 0.276-0.437에 비해 0.492에서 0.497로 원거리, 0.89에서 0.90와 0.85에서 BCP와 SICER에서 0.98로 intergenic 오버랩 범위, 각각. 여기, 우리는 몸 - 명확 적극적이고 억누르다을 구별 농축 및 유전자의 경계 사이의 밀접한 관계를 표시하는 추가 대표 지역을 제시에드 스크립트 (그림 1). 이 더는 BCP가 intergenic 공간, 억압 된 전사와 유전자, 또는 H3K27me3 억압 마르크와 거짓 긍정적 인 오버랩의 정도를 증가하지 않고 밀접하게 유전자 기관으로 정렬 경계로 H3K36me3 섬들로 활성 유전자의 높은 중복을 유지하고 있다는 우리의 주장을 지원합니다.

BCP-섬의 재현성을 평가하는 것은이 복제 데이터 세트에서 호출하는 동안, 우리는 BCP가 경쟁 알고리즘 SICER의 읽기 범위의 깊이에 무거운 의존도에서 고통받지 않았 나타났습니다. 우리는 감소 범위 깊이 (샘플링하여 시뮬레이션 전체 데이터 세트에서 읽습니다) (그림 2)에도 불구하고 일관성있는 섬 경계를 보여주는 추가 뚜렷한 영역을 검사하여 BCP의 견고성과 재현성의 추가 증거를 제공합니다.

완전히 BCP의 다양성을 설명하기 위해, 우리는 작은 반점이있는 마르크 포함 히스톤 수정 데이터의 폭 넓은 스펙트럼을 획득H3K27me3 및 H3K36me3뿐만 아니라 S H3K27ac, H3K9ac, 그리고 H3K4me3 및 확산 마크, H3K9me3. 우리는이 데이터를 BCP와 SICER (그림 3) 모두에 대한 기본 매개 변수 설정을 사용하여 설정 분석했다. 이 마크는 밀도 프로파일을 읽고 우리가 일반적으로 그들과 관련된 많은 기능을 보여줍니다 영역에 초점을 할 수 있도록 광범위한를 나타냅니다. 중앙에 활성화 된 스크립트를 표시 PXDN 유전자의 H3K36me3 강화가 자리 잡고 있습니다. 전사 시작 사이트에서 expectedly 빠지는 것은 추가 작은 반점이있는, 활동 마크, H3K27ac, H3K9ac, 그리고 H3K4me3 있습니다. 그냥 하류 PXDN의이 H3K27me3 강화로 표시 intergenic 공간을 억압하고 있습니다. 반대의 측면에서 H3K27me3 억압 유전자가 자리 잡고 있습니다. 아웃 한 걸음 만 더 이동하면 같은 덜 과도 의미 한 후 H3K27me3 억압에 아마도 SNTG2 및 MYT1L의 입을을 나타내는 표시 H3K9me3 농축의 존재로 표시, 염색질을 침묵하고 있습니다. 이 지역은 실내 현상의 대부분을 포함히스톤 수정 ChIPseq에 반박 함과 동시에 H3K27me3과 H3K9me3 억압과 H3K36me3중인 스크립트의 큰 연속 된 섬을 구별하는 동안 BCP의 동적 특성은 작은 반점이있는 아세틸와 H3K4me3 마르크를 모두 확인할 수 방법을 보여줍니다. 반복하지만, BCP는 증명으로,에 관계없이 데이터 형식의, 품질 결과를 단순히 기본 설정에서 이러한 분석의 이러한 모든 작업을 수행 할 수 있습니다. 이 알고리즘은 빠르고 메모리 효율적이며, 따라서 실질적으로 뛰어난 유용성을 제공합니다.

그림 1
그림 1. 히스톤 수정의 밀도 프로파일을 읽어 확산. H3K27me3 (위)와 H3K36me3 (아래)는 강력하게 유전자 단체 (녹색 박스)와 관련된 광범위하고 확산 농축 섬을 예시. 억압 된 유전자와 intergenic 공간과 적극적으로 TR과 anticorrelates과 H3K27me3 상관 관계anscribed 유전자 기관. 반대 H3K36me3에 적용됩니다. 데이터는 UCSC 게놈 브라우저 (의 시각화입니다 http://genome.ucsc.edu ).

그림 2
그림 2. BCP는 강력하고 재현 할 수 있습니다. 섬은 두 H3K36me3는 복제에 대한 호출과 전체 복제 한 데이터 세트 30, 50 및 70 % 깊이를 샘플링에서 BCP를 분석 하였다. 두 번째 복제는 실질적으로 낮은 읽기 범위와 비슷한 섬 호출을 생산 오버랩의 정도가 높은 상관없이 비율 샘플링의 유지되었다. RefSeq 유전자 바디 주석과 경계의 가까운 정렬에 보는 또한, 섬 정확성 남아 있었다.

그림 3
그림 3. BCP는 마찬가지입니다모든 히스톤 수정 데이터 형식에 적용 할 수있는 타일 알고리즘입니다. BCP 및 SICER는 H3K36me3, H3K27me3 및 H3K9me3 같은 표시를 확산하기 위해 H3K27ac, H3K9ac 및 H3K4me3 같은 작은 반점이있는 자국, 데이터 유형의 범위를 분석하는 데 사용되었습니다. SICER은 종종 하위 섬 많은으로 영역을 조각하는 동안 두 알고리즘에 대한 기본 매개 변수를 사용하여 BCP 섬에 관계없이 폭 넓은의 풍부한 밀도를 캡처합니다. 도 H3K9me3의 매우 광범위하고 확산 경우, BCP는 합리적인 성능을 갖추고 있습니다.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

우리는 동일하게 모두 작은 반점이있는 및 확산 데이터 구조를 식별 할 수 ChIPseq 데이터를 분석하기위한 모델을 개발하기 시작했다. 지금까지 농축의 지역, 대형 섬 크기의 presupposed 기대를 반영 특히 확산 지역, 식별하기 어려운되었습니다. 이러한 문제를 해결하기 위해, 우리는 기존의 경험적 모델과 적은 혁신적인 HMMs 이상의 많은 장점을 가지고 HMM 기술의 가장 최근의 진보를 활용.

우리 모델은 명시 적으로 수식 베이지안 프레임 워크를 사용합니다. 이가 우리가 뒤쪽 수단을 계산 할 수 있다는 점에서 다른 HMMs에서 중요한 구별이며, 오히려 이러한 마르코프 체인 몬테 카를로 방법으로 많은 시간과 계산 비용이 많이 드는 시뮬레이션에 의존하지 않고 간단한 계산으로, 각 세그먼트의 밀도를 읽을 예정. 따라서, 우리의 계산 시간 및 메모리 요구 사항은 크게 감소된다. 고성능 컴퓨팅 클러스터 무선을 사용하여일 듀얼 코어, 분석하는 64 비트 메모리 2GB의와 2.0 GHz의 노드 ~ 23000000 H3K27me3이 읽거나 ~ 21000000 H3K36me3는 읽기, BCP는 다른 방법이 필요 일 몇 시간에 비해 적은 전체 게놈 분석을위한 시간도했습니다. 이 timesavings는 메모리 만 겸손한 2기가바이트으로 달성 될 수있다.

또한, 우리의 모델 조건 각 세그먼트, 즉의 다양한 의미합니다. 연속 감마 배포 (θ) 관심. 기본적으로,이 각 세그먼트에 대한 무한한 수 주 할 수 있습니다. BCP는 강화 대 배경의 간단한 이진 분류보다 더 많은을 제공하고 출력 뒤쪽 수단을 통해 모든 세그먼트에 대한 읽기 밀도 magnitudes을 보존 할 수 있습니다.

우리는 또한 계산 효율을위한 BCMIX 알고리즘을 사용합니다. 이 농축하고 가능한 모든 게놈 위치의 배경 사이의 변경 - 포인트 근처 철저한 검색을 할 수 있습니다. 이 상승 해상도되지 C를 제공합니다실행 시간이나 메모리 요구에 거의 영향을 임의의 창 정의에 의해 onfined.

모델이 통계적으로 엄격한이며 우리가 증명 한대로의 결과가 실제로뿐만 아니라, 베이지안 추정을 수렴 때문에이 모든 이론의 두 perturbing 정확성,없이 수행됩니다. 우리 H3K36me3 결과의 유전자 범위는 섬 통화 알려진 상호 제외 intergenic 공간이나 H3K27me3 강화에 잠식없이 매우 정확 좋습니다. 결과는 매우 재현하고 강력한이며 30 %로 낮은 샘플링 깊이에도 불구하고 높은 유전자 범위 및 낮은 FPR과 유사한 섬을 호출 범위의 깊이에 거의 의존을 보여 주었다. BCP는 히스톤 수정 및 전사 인자의 ChIPseq 데이터의 다양한 배열을 분석, 기본 매개 변수에 대한 어떠한 조정없이 광범위하게 사용하고 모든 경우에 잘 수행되었습니다. 우리는 높은 정확성, 견고성, 그리고 재현성으로 인해, BCP는 효과적인 역할을 수 있기를 바랍니다미래의 데이터 분석, 협업 및 확증을위한 도구입니다.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

관심 없음 충돌이 선언 없습니다.

Acknowledgments

스타 기초 상 (MQZ), NIH 보조금 ES017166 (MQZ), NSF 부여 DMS0906593 (HX).

Materials

Name Company Catalog Number Comments
Linux-based workstation

DOWNLOAD MATERIALS LIST

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Tags

유전학 문제 70 생물 정보학 유전체학 분자 생물학 세포 생물학 면역학 염색질 immunoprecipitation 칩 Seq 히스톤 수정 세분화,베이스 숨겨진 마르코프 모델 epigenetics
다양한 ChIPseq 데이터 유형의 게놈 차원의 분석을위한 소설 베이지안 변경 - 포인트 알고리즘
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Xing, H., Liao, W., Mo, Y., Zhang,More

Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter