Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

多様ChIPseqデータ型のゲノムワイドな解析のための新規ベイジアン変化点アルゴリズム

Published: December 10, 2012 doi: 10.3791/4273

Summary

当社ベイジアン変化点(BCP)のアルゴリズムは変化点隠れマルコフモデルを経由してモデリングの最先端の進歩に基づいて構築され、クロマチン免疫沈降シーケンス(ChIPseq)データ解析に適用します。 BCPは、広範かつ点状の両方のデータ·タイプではうまく実行されますが、正確にびまん性ヒストン濃縮の堅牢で再現性の島々を識別するのに優れています。

Abstract

ChIPseqは、タンパク質-DNA相互作用を調査するために広く使われているテクニックです。読む密度プロファイルは、タンパク質に結合したDNAの次世代シーケンシングを使用しており、リファレンスゲノムに読む短いを整列させることによって生成されます。濃縮された領域は、多くの場合、標的タンパク質1に応じて、形状が大幅に異なるピークとして明らかにされています。例えば、転写因子は、多くの場合、サイトと配列特異的に結合し、ヒストン修飾がより普及していると濃縮2の広い、びまん性の島々によって特徴付けられる一方で、点状のピークを生成する傾向があります。確実にこれらの地域を特定することが我々の仕事の中心だった。

ChIPseqデータを解析するためのアルゴリズムはヒューリスティクス3月5日から、より厳密な統計モデルに様々な方法、 例えば 、隠れマルコフモデル(HMM)6-8を採用してきた。我々は困難な定義、アドホックパラメータそれほど頻繁にする必要性を最小限に抑えるソリューションを求めて解像度を妥協し、ツールの直感的な使いやすさを軽減。 HMMベースの方法につきましては、パラメータ推定の手順としばしば利用されているシンプルな、有限状態分類を抑制することを目的とした。

さらに、従来のChIPseqデータ分析はの分類を含む適切なツールのその後のアプリケーションに続いて点状またはびまん性のいずれかとして密度プロファイルを読んで期待した。我々は、さらに上手にデータ型のスペクトル全体を扱うことができ、単一の、より汎用性の高いモデルで、これら二つの異なるモデルの必要性を置き換えることを目的とした。

これらの目的を満たすために、我々は最初だけ明示的な式-その性能の優位性に不可欠な技術革新を利用したHMM 9における最先端の進歩を使用して、統計的枠組み自然にモデル化したChIPseqデータ構造を構築した。ヒューリスティックモデルより洗練された、私たちのHMMはを通して無限隠れ状態に対応しベイズモデル。我々は、さらに濃縮のセグメントを定義読ん密度で合理的な変更点を識別に適用した。我々の分析では、私たちのベイジアン変化点(BCP)のアルゴリズムは演算量の増加を抑え、証明抄訳実行時間とメモリフットプリントを持っていた方法で明らかにした。 BCPのアルゴリズムが正常に堅牢な正確さと限られたユーザー定義のパラメータを使用して点状のピークおよびびまん島の識別の両方に適用した。これは、その汎用性と使いやすさの両方を示す。従って、我々はそれがそれの研究グループ間の連携と確証するのを助けることができるChIPseqデータ解析のための偉大なツールとなって、簡単に比較し、対比された方法でのデータ型およびエンドユーザの幅広い範囲にわたって容易に実現できると信じています。ここでは、その有用性を説明するために、既存の転写因子10,11およびエピジェネティックなデータ12にBCPのアプリケーションを示しています。

Protocol

1。 BCPの解析用の入力ファイルを準備する

  1. 優先短い読み取りアラインメントソフトウェアを使用して、適切なリファレンスゲノムに実行(ChIPと入力ライブラリ)シークエンシングから生産読み取るショートの位置を合わせます。マップされた場所は、拡張可能なデータ(BED)形式13(UCSCゲノムブラウザ、6カラムブラウザに変換する必要がありますhttp://genome.ucsc.edu/開始位置は、マップされたあたり)、タブ区切り線は、マップされた染色体を示す読み出し(0ベース)、終了位置(ハーフオープン)、名前、スコア(オプション)、およびストランドをお読みください。

2A。プロファイルを読む拡散:前処理チップは、びまん性に富むデータ諸島の検出のための密度を読む

  1. 所定の断片の長さ、 すなわちにチップと入力マップ場所を拡張します。フラグメントサイズは​​、通常200 bpの周りには、DNAの酵素消化または超音波処理時にターゲットに。フラグメント計数し、その後凝集アール隣接したビンでテッド。デフォルトでは、ビンのサイズは200 bpの推定断片長に設定されています。
  2. 同一の読み取りカウントを持つビンのセット内の任意の可能な変化点は、最も外側の境界において、最も可能性の高い分類されます。従って、変化点が同じ読み取りカウントを持つ2つのビンの間の内部境界で発生することはありそうにない。だから、同じグループと隣接したビンは、単一のブロック、 すなわちに、ビンごとに読み取ります。 bedGraph形式13。

図2b。点状読むプロフィール:点状のデータのピークの検出のための前処理チップと入力BEDファイル

  1. プラスとマイナス鎖チップが別々に読み取るために重複集計を読み取ります。ストランド特定の読み取り密度はプラスとマイナスのピークの二峰性のプロファイルを形成すべきである。最も濃縮されたピークのプラス/マイナスのペアを選択し、ライブラリの断片の長さのための推定値としてそれらの首脳間の距離を使用します。
  2. ChIPをシフトして、入力は半分フラグメントルを読み取りシフトと合併し、プラスとマイナス鎖の読み取りの読み取り密度と中心を再計算するngth。断片の長さを推定するためのこの方法論は、チャン 3から採用されました。同じマージカウントの位置が2a.2をステップと同様のブロックにグループ化する必要があります。

3。当社BCMIX近似法を用いた各ブロックの事後平均読む密度を推定

  1. 各ブロックの読み出し密度はガンマ分布の混合後の平均パラメータ、Γ(α、β)と(θt)はPOIを、ポアソン分布としてモデル化され、変化点の事前確率は、任意のブロック境界で発生しているp。GのコンディショニングPOIS(θt)が(α、β)を効果的にモデルに無期限の状態のHMMをレンダリングします。最大事後確率を用いて、ハイパーパラメータα、β、 および p 推定する
  2. 明示のためのベイズ推定値を計算する各ブロック、θT、としてE(θT |γZ)です 。後部手段を推定するより計算効率有界複雑混合近似で、しばしばHMMのに使用される、より伝統的な前進が、時間がかかり、後方にフィルターを交換して、θC。結果として事後手段は同じで、θcを持つブロックのでおおよその区分的に一定のプロファイルに"平滑化"になり、さらに更新された境界の座標と一緒にブロックする必要があります。

図4a。拡散濃縮のセグメントにポストプロセス臼歯手段:プロファイルを読む拡散

  1. 入力数(λA)POIS、背景率としてそれぞれの新しいθCブロックごとに読み込みを使用し、ChIP事後平均は、θC、いくつかの閾値δを超えているかどうかに基づいて、単純な仮説検定を用いて濃縮を決定します。 90 回</ SUP>-クオンタイルはデフォルトdである、ほとんどの場合に適しています。
  2. シンプルな床形式の単一の領域およびレポートマージ座標に濃縮を超える隣接θCブロックをマージします。あるいは、1は読み取り密度推定の高解像度の詳細を保持するbedGraph形式で、各ブロックのθcを報告することができます。

図4b。点状読むプロフィール:ピーク候補にポストプロセス臼歯手段

  1. すべての読み取り回数の平均値(γ2)のように、(λA)POIS、背景率を定義し、しきい値は、dを超えてすべてのブロックを識別します。点状のピークがそれ以上の実質的富化されると予想されるので、デフォルトのδはPOIの99 番目 -変位値(λA)に設定されます。
  2. 候補ピークの頂上として最大のθCでブロックを設定し、同様の読み取りdenを共有ブロックに隣接する隣接sity(±1は若干のばらつきを考慮するためにカウントを読み取る)。この隣り合う領域は候補結合部位として定義されています。
  3. ChIPの候補結合部位と仮説検定の平均読み取りカウントとしてλ2を計算 、この対の入力背景は帰無仮説があったが、H 0は 、つまり、λ1 p値のしきい値に基づい≥λ2H 0を棄却。ベッドの形式で出力候補ピーク。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

BCPは、ヒストン修飾データに幅広い濃縮の領域を同定するに優れています。基準点として、我々は以前SICER 3、強力な性能を実証した既存のツールの方々に結果を比較した。最高のBCPの利点を説明するために、我々はよく成功率を評価するための基盤を確立するために検討されていたヒストン修飾を検討した。それは積極的に転写された遺伝子の本体( 図1)と強く結合することが示されているので、このことを念頭に、私たちはその後、H3K36me3を分析した。これとは対照的に、H3K36me3もH3K27me3抑圧マークに相互排他的であることが示されていた。効果の相関と反相関の既知のアソシエーション、アソシエーション解除、との重複の割合を決定することによって、島コールの精度のBCPのパフォーマンス上の利点を説明するために、これらの既知の関係私たちは、さらにレバレッジ。ここでは、さらに追加の例を用いてBCPの利点を実証する高性能。

H3K36me3濃縮の広い拡散の島々の従来の期待に沿って、より大きな島である、我々の前の仕事では、BCPにおけるはるかに大きい島サイズ、23.9〜25.8キロバイト、SICERより、2.7〜10.7キロバイトの傾向を示した (PLoSのコンプバイオ、投稿中 )。もちろん、大きな島は単独の精度を示すものではありません。そこで、我々は、これらの領域は既知の遺伝子としていたし、遺伝子間領域を持つ重複度、偽陽性率(FPR)の指示でこれを対比重なるいくら決定。それぞれ、BCPとSICERで0.89から0.90への遺伝子間のオーバーラップ範囲、0.85〜0.98; BCPにおける遺伝子の報道は厳しくFPRに影響を与えることなくSICERで0.276から0.437に比べて0.492から0.497の範囲であった。ここでは、濃縮や遺伝子遺体 - はっきり区別アクティブとこらえるの境界の間の密接な関係を表示する追加の代表的な領域を提示ED転写( 図1)。これは、さらに、BCPは遺伝子間領域、転写抑制を持つ遺伝子、またはH3K27me3抑圧的なマークで偽陽性の重なりの程度を増加させることなく、密接に遺伝子の体にアライメントされた境界を持つH3K36me3島々による活発な遺伝子の高重なりを維持していることが我々の主張をサポートしています。

BCP-島の再現性を評価する2つのレプリカのデータセットで呼び出している間、我々は、BCPが競合アルゴリズム、SICERで読み取るカバレッジの深さに大きく依存に悩まされることはありませんでした気づいた。我々は減少カバレッジの深さ(サンプリングによってシミュレー完全なデータセットからの読み取り)( 図2)にもかかわらず、一貫性のある島の境界を示す追加の別個の領域を調べることにより、BCPの堅牢性と再現性のさらなる証拠を提供しています。

完全にBCPの汎用性を実証するために、我々は、点状のマークを含むヒストン修飾データの広いスペクトルを得H3K27me3やH3K36me3に加えてのH3K27ac、H3K9ac、およびH3K4me3、びまんマーク、H3K9me3、。我々は、BCPとSICER( 図3)の両方にデフォルトのパラメータ設定を使用して設定し、これらのデータを分析した。これらのマークは、密度プロファイルを読んで、私たちは一般的にそれらに関連付けられている機能の多くを示して地域に集中できるように、広い範囲を表す。中心に積極的な転写をマーキングPXDN遺伝子におけるH3K36me3濃縮がある。転写開始部位で予想通り落下すると、追加の点状、アクティブマーク、H3K27ac、H3K9ac、およびH3K4me3です。 PXDNのすぐ下流はH3K27me3濃縮によってマークされた遺伝子間のスペースを抑制される。反対側の脇腹にH3K27me3抑圧遺伝子が位置しています。うち1つのステップを移動すると、のように、おそらく小さい過渡的な意味でSNTG2とMYT1Lのサイレンシングを示すために表示さH3K9me3濃縮、H3K27me3抑圧の存在によって示されたクロマチンを、沈黙しています。この領域には、専用の現象の大部分を包含ヒストン修飾のChIPseqに反論しH3K27me3やH3K9me3弾圧とH3K36me3活性転写の大きな連続した島々を区別すると同時に、BCPの動的な性質は、点状のアセチル化とH3K4me3マークの両方を識別する方法を示しています。繰り返しになりますが、BCPはデフォルト設定で、単にこれらの分析のようなすべてを行うことができますし、実証されるように、まだデータ型にかかわらず、質の高い結果を生成します。また、アルゴリズムは高速でメモリ効率的であると、このように、実質的に説得力のある実用性を提供します。

図1
図1:ヒストン修飾の密度プロファイルを読んで拡散する。 H3K27me3(上)とH3K36me3(下)強く遺伝子の本体(緑のボックス)に関連付けられている広い、拡散濃縮島を例示している。抑圧された遺伝子や遺伝子間のスペースと積極的にTRとanticorrelatesとH3K27me3相関anscribed遺伝子ボディ。反対はH3K36me3にも当てはまります。データは、UCSCゲノムブラウザ(で可視化されるhttp://genome.ucsc.edu )。

図2
図2:BCPは、堅牢で再現性がある。島には2つでH3K36me3が複製のために呼び出し、複写1フルセットの30、50、70%の深さをサンプリングでBCPを用いて分析した。実質的に低く、読み取り範囲を有する第2の複製は、同じような島コールを製造し、重なりの程度は非常に割合をサンプリングに関係なく保持されていた。さらに、島はRefSeqの遺伝子本体の注釈との境界の近くに位置合わせに見られるような精度であった。

図3
図3:BCPはその逆であるすべてのヒストン修飾のデータ·タイプに適用することができるタイルアルゴリズム。 BCPとSICERはH3K36me3、H3K27me3、及びH3K9me3ようなマークを拡散させるために、H3K27ac、H3K9ac、およびH3K4me3のような点状のマークから、データ型の域を分析するために使用されていました。 SICERはしばしばサブ島に多くの領域を断片化しながら、両方のアルゴリズムのデフォルトのパラメータを使用して、BCPの島々は関係なく、幅の濃縮された密度をキャプチャします。さえH3K9me3の高い広範かつびまん場合に、BCPは妥当な性能を持っています。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

我々は、同様にうまく斑点およびびまん性両方のデータ構造を識別することができるChIPseqデータを分析するためのモデルを開発するために着手した。今までは、濃縮の地域では、大きな島の大きさの前提期待を反映して、特に拡散領域は、特定することは困難であった。これらの問題に対処するために、我々は既存のヒューリスティック·モデルと少ない革新的なHMMを比べて多くの利点を持っているHMMの技術の最新の進歩を利用した。

我々のモデルは、明示的な式を持つベイジアン枠組みを利用しています。これは、むしろそのようなマルコフ連鎖モンテカルロ法のような、時間のかかる計算コストのかかるシミュレーションに頼るのではなく、単純な計算と事後手段は、各セグメントの予想される読み密度を計算することを可能にするという点で他のHMMを、より致命的な違いです。その結果、私たちの計算時間およびメモリ要件は劇的に削減されます。ハイパフォーマンスコンピューティングクラスタwiを用いてH3K27me3〜23万人を分析するための64ビットのメモリが2 GBの番目のデュアルコア、2.0 GHzのノードが2100万H3K36me3読み込みを読み取るか、または〜、BCPは、他の方法に必要な日に数時間に比べて全ゲノム解析のための時間未満を取った。これらの時間を節約、メモリのわずかな2ギガバイトを達成することができます。

さらに、我々のモデルの条件各セグメントの様々な手段、 すなわち 。連続ガンマ分布で、(θ)はPOIを。これは、本質的には、各セグメントの無限の可能性のある状態を可能にします。 BCPは、濃縮された対背景の単純なバイナリ分類以上のものを提供し、出力後の手段を介してすべてのセグメントの読み取り密度の大きさを保持することができます。

我々はまた、計算効率のBCMIXアルゴリズムを使用しています。これは、すべての可能なゲノム位置の濃縮と背景との間の変化点に対して、ほぼ網羅的な検索を可能にします。これは、解像度の高まりはなく、Cを提供しています実行時間やメモリの需要にほとんど影響を与えずに、任意のウィンドウ定義によってonfined。

これは、モデルが統計的に厳密であるため、すべての、両方の理論では、精度を乱すことなく達成し、その結果は私たちがここで示されているように、同様に実際には、ベイズ推定に収束されています。当社H3K36me3結果の遺伝子のカバレッジは、島の呼び出しが知られている遺伝子間の相互排除のスペースまたはH3K27me3濃縮に侵入せずに非常に正確であるが示唆された。結果は驚くほど再現性があり、堅牢であり、30%という低いサンプリング深さにもかかわらず、高い遺伝子のカバレッジと低いFPRと同様の島々を呼び出して、カバレッジの深さにほとんど依存性を示した。 BCPは、ヒストン修飾と転写因子ChIPseqデータの広い配列を分析するために、デフォルトのパラメータの調整はいっさいせずに、広く使用され、すべてのケースでうまく行った。我々は、その高精度、堅牢性、および再現性のためには、BCPが有効となることを願っていますデータ分析、コラボレーション、および将来的に確証するためのツール。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

特別な利害関係は宣言されません。

Acknowledgments

STARR財団賞(MQZ)、NIHの助成金ES017166(MQZ)、NSFの助成DMS0906593(HX)。

Materials

Name Company Catalog Number Comments
Linux-based workstation

DOWNLOAD MATERIALS LIST

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Tags

遺伝学、70号、バイオインフォマティクス、ゲノミクス、分子生物学、細胞生物学、免疫学、クロマチン免疫沈降は、ChIP-seqなどヒストン修飾、セグメンテーション、ベイジアン、隠れマルコフモデル、エピジェネティクス
多様ChIPseqデータ型のゲノムワイドな解析のための新規ベイジアン変化点アルゴリズム
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Xing, H., Liao, W., Mo, Y., Zhang,More

Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter