December 10th, 2012
当社ベイジアン変化点(BCP)のアルゴリズムは変化点隠れマルコフモデルを経由してモデリングの最先端の進歩に基づいて構築され、クロマチン免疫沈降シーケンス(ChIPseq)データ解析に適用します。 BCPは、広範かつ点状の両方のデータ·タイプではうまく実行されますが、正確にびまん性ヒストン濃縮の堅牢で再現性の島々を識別するのに優れています。
次の実験の全体的な目標は、クロマチン免疫沈降シーケンシングデータからマッピングされたリード位置の密度を利用して、ゲノム全体の後平均リード密度を推定することです。これは、前処理によって実現されます。マッピングされたChIP-seqは、同じ数の読み取りが200塩基対の非オーバーラップビンに収まるブロック密度プロファイルに読み取られます。
同じ密度の隣接するビンは、2 番目のステップとして大きなブロックにマージされ、各ブロックの事後平均密度は、前方フィルターと後方フィルターを備えたベイジアン モデルを使用して、周囲のすべてのブロックのコンテキスト内で再帰的に計算されます。ブロックの読み取りカウントは、アルファ パラメーターとベータ パラメーターを持つガンマ事前分布を取るシータ パラメーターを持つポアソン分布でモデル化されます。次に、各ブロックの事後平均密度推定値は、入力制御バックグラウンド密度に関して90分位数を超えているかどうかに基づいて有意性について評価され、最終的な濃縮ゲノムセグメントを生成するために、生の配列決定されたリードから事後平均リード密度推定への進行を示す結果が得られ、 そして最後に、BCP解析中のChIP-seqデータで島
々を濃縮しました。さらに、BCPは競合他社のツールサーよりも優れていることが結果として示されています。CERのような既存の手法と比較した場合、この手法の主な利点は、BCPが隠れマーカーモデルの最新のAアドバンスを使用したため、従来のヒューリスティック手法よりもchipsyデータ分析のニュアンスをより適切に特徴付けることができることです。この方法は、ゲノム全体の濃縮パターンを特徴付ける方法による組織修飾の役割など、エピゲノミクス分野の重要な問題に役立ちます。
この患者法はChIP-seqデータ解析に関する洞察を提供しますが、基本的なフレームワークは、bis Sufiシーケンシングデータの異なるメチル化領域の同定、RNA-Seqの新規転写遺伝子座、コピー数多型、または任意の数のマイクロアレイタイリングデータなど、他の次世代シーケンシングデータ解析にも適用できます。この方法を視覚的に示すことは、方法論を明確に理解するために重要であり、それは物事に利点をもたらします。理論的な利点はソフトウェア内に隠されています。
ここで示すすべての手順手順は、BCP ソフトウェア パッケージの 1 つの実行可能ファイルにパッケージ化されており、このビデオでダウンロードできます。ソフトウェアを実行するためにプログラムによって実行される手順が説明されています。3つのパラメータが必要です。
チップサンプルからのユニークにマッピングされたリードと入力制御リード用の類似ファイル、およびBCP解析用の入力ファイルを準備するための出力ファイル名を含むファイル。まず、シーケンシングランから生成されたショートリードを、推奨されるショートリードアライメントソフトウェアを使用して適切なリファレンスゲノムにアラインメントします。マッピングされた位置は、6列のブラウザ拡張データまたはBED形式に変換する必要があり、マッピングされた読み取りごとにタブ区切りの行で、マッピングされた染色体の開始位置、終了位置、読み取り名、スコア、およびストランドを示す必要があります。
チップと入力マップの位置を所定のフラグメント長に拡張します。例えば、DNAの酵素消化または超音波処理中に標的とされるフラグメントサイズ、通常は約200塩基対です。その後、フラグメントカウントは隣接するビンに集約されます。
デフォルトでは、ビン・サイズはフラグメント長の推定値である 200 塩基対に設定されています。再カウントが同一のビンのセット内の可能な変更ポイントは、最も外側の境界に配置される可能性が高くなります。したがって、同じ読み取りカウントを持つ 2 つのビン間の内部境界で変更ポイントが発生する
可能性は低いです。したがって、ビンごとに読み取りが同一である隣接するビンを 1 つのブロックにグループ化します。入力ファイルを準備したら、画面下部に表示されているコマンドを入力するだけで、BCP 見積もりを呼び出します。各ブロックの読み取り密度は、アルファ パラメーターとベータ パラメーターを持つガンマ分布の混合、および任意のブロックで変化点が発生する事前確率に続く平均パラメーター θ を持つポアソン分布としてモデル化されます。
この方法で各ブロックを P 条件付けの境界は、無限状態の隠れマルコフ モデル (HMM) を効果的にレンダリングします。ハイパー パラメーター alpha、beta、および P は、最大事後尤法を使用して推定されます。ベイの推定値は、HMSでよく使用される従来の、しかし時間のかかる前方および後方フィルタであるサブTが、事後平均を推定するためのより計算効率の高い有界複雑性混合近似に置き換えられる理由を考えると、各ブロックシータサブTの期待値としてシータサブTに対して明示的に計算されます。 したがって、同一のシータハットサブTを持つブロックは、更新された境界座標とともにさらにブロックする必要があります。
BCP は、ブロックあたりの入力読み取り数をバックグラウンド レートとして使用し、エンリッチメントを決定します。ブロックのチップ位置平均密度が有意性のしきい値を超えているかどうかに基づく単純な仮説検定を使用します。90 番目の分位数はデフォルトのしきい値であり、ほとんどの場合に適しています。
次に、BCP は、濃縮度を超える隣接する事後平均密度ブロックを 1 つの領域にマージし、マージされた座標をブラウザーに報告します。拡張可能なデータフォーマットBCPは、ヒストン修飾データにおける広範な濃縮領域の特定に優れています。ここは。BCPの結果は、H 3 K 36トリメチル化を研究するこの研究室の先行研究で強力なパフォーマンスを示した既存のツールであるcserの結果と比較されます。
より大きな島は、H 3 K 36トリメチル化濃縮の広範な拡散島に対する従来の期待とより一致しています。大きな島だけが精度を示しているわけではありません。したがって、H 3 K 36 Trimethylation Islands と活発に転写された遺伝子体との既知の関連、および H 3 K 27 Trimethylation Islands との相互排他性は、H 3 K 27 との重複の増加を犠牲にすることなく遺伝子体をよりよく捕捉するより大きな連続島と呼ばれる CER BCP と比較した BCP と CER の性能を評価するために使用され、 トリメチル化島。
BCPは、転写が抑制された遺伝子間空間遺伝子との偽陽性のオーバーラップの程度を増加させることなく、遺伝子体に密接に整列した境界を持つH three K 36 Trimethylation Islandsによる活性遺伝子の高いオーバーラップを維持しながら、2つの反復データセットにおけるBCP Island callsの再現性を評価しながら、 競合するアルゴリズムでは、BCPはリードカバレッジの深さに大きく依存していないことが観察されました。BCPSの堅牢性と再現性の追加の証拠は、追加の異なる領域を調べることによって提供され、カバレッジの深さが減少しているにもかかわらず、一貫した島の境界を示しています。BCPの汎用性を十分に実証するために、点状マークH 3 K 27アセチル化、H 3 K 9アセチル化、H 3 K 4トリメチル化、およびH3 K 27トリメチル化およびH 3 K 36トリメチル化に加えて、拡散マークH 3 K 9トリメチル化を含む広範囲のヒストン修飾データが得られました。これらのデータセットは、BCP と cser の両方のデフォルトのパラメータ設定を使用して分析されました。
中央には、PX DN遺伝子でのH 3 K 36トリメチル化濃縮があり、転写開始部位で予想される活性転写マークは、追加の点状活性マークH 3 K 27アセチル化、H 3 K 9アセチル化、およびH 3 K 4トリメチル化です。PXDNのすぐ下流には、H 3 K 27トリメチル化濃縮によってマークされた抑制された遺伝子間空間があり、反対側の側面にはH 3 K 27トリメチル化抑制遺伝子があります。もう一歩踏み出します。
H 3 K 9トリメチル化濃縮の存在によって示されるサイレンシングクロマチンは、SN TG 2およびMYT 1 Lのサイレンシングを示しているように思われ、おそらくH 3 K 27トリメチル化抑制よりも一過性ではない。この領域は、ヒストン修飾のChIPseekで遭遇する現象の大部分を網羅しています。これは、BCPの動的な性質が、点状アセチル化とH 3 K 4トリメチル化マークの両方を識別すると同時に、H 3 K 27トリメチル化とH 3 K 9トリメチル化抑制、およびH 3 K 36トリメチル化活性転写の大きな連続した島を区別する方法を示しています。
このアルゴリズムは、リード数とゲノムサインの結果にもよりますが、約30分で実行できます。この手順に続いて、他の方法でしばしば必要とされる大幅な最適化。BBCPを使用して、エピゲノムメカニズムや遺伝子調節に関する追加の疑問に答えるために、他のさまざまなヒソン修飾やDNA結合転写因子など、クロマチン免疫沈降の多くの異なる標的タンパク質を研究することができます。
このビデオを見れば、BCPを使用してchipsyデータ分析で拡散ヒソンマークの到達領域を特定する方法について十分に理解できるはずです。
View the full transcript and gain access to thousands of scientific videos
この研究では、クロマチン免疫沈降シーケンシング(ChIP-seq)データの分析を強化するベイジアン変化点(BCP)アルゴリズムを提示します。隠れマルコフモデルを活用することで、BCPは広範囲および点状のデータタイプの両方で、ヒストン濃縮領域を効果的に特定します。