A Novel Bayesian Change-Punkt Algorithmus für genomweite Analyse Diverse ChIPseq Datentypen

Haipeng Xing; Willey Liao; Yifan Mo; Michael Q. Zhang

doi:10.3791/4273

Method Article

A Novel Bayesian Change-Punkt Algorithmus für genomweite Analyse Diverse ChIPseq Datentypen

DOI:

10.3791/4273

⸱

December 10th, 2012

Haipeng Xing¹ , Willey Liao¹^,² , Yifan Mo¹^,² , Michael Q. Zhang²^,³

¹Department of Applied Mathematics & Statistics, Stony Brook University, ²Computational Biology and Bioinformatics, Cold Spring Harbor Laboratory, ³Department of Molecular and Cell Biology, University of Texas at Dallas

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Unsere Bayesian ändern Point (BCP)-Algorithmus baut auf state-of-the-art Fortschritte in der Modellierung change-Punkten über Hidden-Markov-Modelle und wendet sie auf Chromatinimmunpräzipitation Sequenzierung (ChIPseq) Datenanalyse. BCP funktioniert gut sowohl breit und punktförmige Datentypen, sondern zeichnet sich durch genaue Identifizierung robust, reproduzierbar Inseln diffuse Histon Bereicherung.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

ChIPseq ist eine weit verbreitete Technik zur Untersuchung von Protein-DNA-Wechselwirkungen. Lesedichte Profile werden unter Verwendung der nächsten Sequenzierung von Protein-gebundener DNA und Ausrichten des kurzen liest einem Bezugsgenom erzeugt. Angereicherte Regionen als Peaks, die oft drastisch unterscheiden in der Form, in Abhängigkeit von dem Zielprotein ¹ offenbart. Zum Beispiel Transkriptionsfaktoren binden oft in einem Standort-und sequenzspezifische Weise und neigen kann punktförmige Spitzen zu produzieren, während Histonmodifikationen weiter verbreitet sind und durch breite, diffuse Inseln Anreicherung ² gekennzeichnet. Zuverlässig Abgrenzung dieser Regionen lag der Schwerpunkt unserer Arbeit.

Algorithmen zur Analyse ChIPseq Daten wurden verschiedene Methoden, von Heuristiken ^3-5 bis strengeren statistischen Modelle, wie zB Hidden Markov Modellen (HMMs) ^6-8 eingesetzt. Wir suchten eine Lösung, die die Notwendigkeit für schwierig zu definieren, Ad-hoc-Parameter, die oft minimiertKompromisse Auflösung und verringern die intuitive Bedienbarkeit des Werkzeugs. Mit Bezug auf HMM-basierten Methoden, wollten wir Parameterschätzung Verfahren und einfache, endlichen Klassifikationen, die oft verwendet werden beschneiden.

Darüber hinaus beinhaltet konventionelle ChIPseq Datenanalyse Kategorisierung der erwarteten Lesedichte Profile entweder als punktförmige oder diffuse durch nachfolgende Anwendung des geeigneten Werkzeug gefolgt. Wir weiter das Ziel, die Notwendigkeit für diese zwei unterschiedlichen Modelle mit einem einzigen, vielseitiger Modell, das kompetent adressieren kann das gesamte Spektrum von Datentypen zu ersetzen.

Um diese Ziele zu erreichen, haben wir zunächst eine statistische Rahmen konstruiert, dass natürlich modelliert ChIPseq Datenstrukturen mit einer Schneidkante Fortschritt in HMMs ^9, die nur explizite nutzt Formeln-eine Innovation entscheidend für die Performance-Vorteile. Komplexere dann heuristische Modelle beherbergt unsere HMM unendliche versteckten Zustände durch eineBayes-Modell. Wir wandten sie identifizieren vernünftigen Änderung Punkte zu lesen Dichte, die weiter zu definieren Segmente Bereicherung. Unsere Analyse ergab, wie unsere Bayesian ändern Point (BCP)-Algorithmus eine reduzierte Komplexität-nachgewiesen durch eine verkürzte Laufzeit und Speicherbedarf hatte. Die BCP-Algorithmus wurde erfolgreich sowohl punktförmige Spitze und diffuse Insel Identifikation mit robusten Genauigkeit und begrenzte benutzerdefinierten Parametern aufgebracht. Diese illustrierte sowohl ihre Vielseitigkeit und einfache Handhabung. Daher glauben wir, dass es leicht in weiten Bereichen von Datentypen und Endanwender in einer Weise, die einfach verglichen und gegenübergestellt umgesetzt werden, so dass es ein großes Werkzeug für ChIPseq Datenanalyse, die in Zusammenarbeit und Bestätigung zwischen Forschergruppen unterstützen können. Hier zeigen wir die Anwendung der BCP bestehende Transkriptionsfaktor ^10,11 und epigenetische Daten ¹² seiner Nützlichkeit zu illustrieren.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Ein. Vorbereiten Input Files für BCP Analysis

Richten Sie den kurzen liest aus Sequenzierung läuft (ChIP und Input-Bibliotheken) der entsprechenden Referenz-Genoms unter Verwendung der bevorzugten kurzen read Alignment-Software produziert. Die abgebildeten Orte sollten an die 6-Säule Browser erweiterbare Daten (BED) Format ¹³ (UCSC Genom-Browser, umgewandelt werden http://genome.ucsc.edu/ ), eine Tab-getrennte Zeile pro mapped lesen, die den abgebildeten Chromosom, Startposition (0-basiert), Endlage (half-open), lesen Sie Name, Punktzahl (optional) und Strang.

2a. Diffuse Lesen Profile: Vorverarbeitung ChIP Lesen Dichten für die Erkennung von Enriched Inseln im Diffuse Daten

Erweitern ChIP und Eingang zugeordneten Standorten zu einer vorbestimmten Fragment Länge, dh. das Fragment Größe während Enzymverdau oder Beschallung der DNA gezielt, in der Regel rund 200 bp. Fragment zählt, sind dann Aggregationted in benachbarten Fächern. Standardmäßig ist bin Größe der geschätzten Fragment Länge von 200 bp eingestellt.
Jede mögliche Änderung-Punkten in einem Satz von Behältern mit gleichen gelesen wird höchstwahrscheinlich Zählungen fallen an den äußersten Grenzen. Dementsprechend ist es unwahrscheinlich, dass eine Änderung Punkt wird bei einer internen Grenze zwischen zwei Behältern mit gleichem Lese Zählungen auftreten. So liest Gruppe benachbarten Behältern, mit identischen pro Bin, in einem einzigen Block, dh. bedGraph Format ^13.

2b. Punctata Lesen Profile: Vorverarbeitung ChIP und Input BED Dateien zur Erkennung von Peaks in punctata Daten

Aggregate überlappenden liest für Plus-und Minus-Strang ChIP separat liest. Der Strang spezifischen lesen Dichten sollten bilden eine bimodale Profil von plus und minus Gipfel. Wählen plus / minus Paare der meisten bereichert Gipfeln und verwenden Sie den Abstand zwischen ihren Gipfeln als Schätzung für die Bibliothek-Fragment-Längen.
Verschieben Sie den Chip und Eingabe liest die Hälfte des Fragments lenge zum Zentrum und Neuberechnung der Lesedichte der verschobenen und fusionierte Plus-und Minus-Strang liest. Diese Methodik zur Schätzung der Fragmentlänge wurde von Zhang, et al. ³ angenommen. Positionen mit identischen merge Counts sollten in Blöcken, ähnlich 2a.2 Schritt zusammengefasst werden.

3. Schätzen Sie die Posterior Mittelwert Lesen Dichte von jedem Block mit unseren BCMIX Approximation

Der gelesene Dichte jeder Block als eine Poisson-Verteilung modelliert, Pois (θ _t), mit einer mittleren Parameter nach einer Mischung von Gamma-Verteilungen, Γ (α, β), und eine frühere Wahrscheinlichkeit einer Änderung in jedem beliebigen Punkt Blockgrenze von p. Conditioning Pois (θ _t) auf G (α, β) effektiv macht das Modell eine unendliche Zustand HMM. Schätzen Sie die hyper-Parameter α, β und p, mit maximalen posterior Wahrscheinlichkeit.
Explizit berechnen die Bayes Schätzungen fürjeder Block, θ _t, wie E (θ _t | γ _Z). Ersetzen Sie das traditionelle, aber zeitaufwendig vorwärts und rückwärts Filter oft in HMMs verwendet, mit der rechnerisch effizient Bounded Complexity Mischung Annäherung an hinteren Mittel abzuschätzen, θ _c. Die daraus resultierenden hinteren Mittel wird "geglättet" in eine ungefähre stückweise konstanten Profil, so Blöcken mit identischen, θ _c, weitere sollten blockiert werden zusammen mit aktualisierte Begrenzung koordiniert sein.

4a. Diffuse Lesen Profile: Post-Prozess Posterior Mittel in Segmente Diffuse Enrichment

Verwenden Sie die Anzahl der Eingangs-Lesevorgänge pro jeder neuen θ _c Block als Hintergrund Rate, Pois (λ _a) und bestimmen die Anreicherung mit Hilfe eines einfachen Hypothesentest, ob die ChIP posterior Mittelwert, θ _c, überschreitet bestimmte Schwelle δ basiert. Die 90 ^{th <}/ Sup>-Quantil ist die Standardeinstellung d und ist in den meisten Fällen angemessen.
Merge angrenzenden θ _c Blöcke, die die Anreicherung überschreiten in einer einzigen Region und Bericht zusammenführen Koordinaten in einfachen BED Format. Alternativ kann man die berichten θ _c für jeden Block in bedGraph Format, um die hochauflösenden Daten der gelesenen Dichte Schätzungen bewahren.

4b. Punctata Lesen Profile: Post-Prozess Posterior Mittel in Peak-Kandidaten

Definieren Sie die Basalrate, Pois (λ _a), wie der Durchschnitt aller Lese zählt (γ ₂₎ und identifizieren Sie alle Blöcke, die die Schwelle, d überschreiten. Da punktförmige Gipfel erwartet werden mehr deutlich angereichert ist, wird die Standard-δ der 99 ^th-Quantil der Pois (λ _a) gesetzt.
Setzen Sie den Block mit der maximalen θ _c als Kandidat pike und grenzen an flankierenden Blöcke, die eine ähnliche read Den Aktiensity (± 1 gelesen zählen für leichte Variation zu ermöglichen). Diese angrenzendem Region wird als ein Kandidat Bindungsstelle definiert.
Berechnen λ ₂ als die durchschnittliche Lese zählt in der ChIP Kandidaten Bindungsstelle und Hypothesentest dies gegenüber der Eingangsleistung Hintergrund waren die Nullhypothese, H _0, ist, dass λ ₁ ≥ λ ₂ und lehnen H ₀ auf einem p-Wert Schwellenwert. Output Kandidaten Gipfel BED Format.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

BCP zeichnet zu identifizieren Regionen breite Anreicherung in Histonmodifikation Daten. Als Bezugspunkt, wir vorher unsere Ergebnisse mit denen von SICER ^3, ein vorhandenes Werkzeug, das starke Leistung gezeigt hat verglichen. Um am besten veranschaulichen BCP die Vorteile, untersuchten wir eine Histon-Modifikation, die gut studiert hatte, um eine Grundlage für die Beurteilung der Erfolgsquoten zu etablieren. In diesem Sinne haben wir dann analysiert H3K36me3, da es sich gezeigt hat, stark assoziieren mit ak...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Wir wollten ein Modell zur Analyse ChIPseq Daten, die sowohl punktförmige und diffuse Datenstrukturen identifizieren konnte ebenso gut entwickeln. Bis jetzt haben Regionen der Bereicherung, vor allem diffuse Regionen, die die vorausgesetzte Erwartung große Insel groß nachzudenken, war schwer zu identifizieren. Um diese Probleme anzugehen, nutzten wir die jüngsten Fortschritte in der HMM-Technologie, die viele Vorteile gegenüber bestehenden heuristische Modelle und weniger innovative HMMs besitzen.

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Keine Interessenskonflikte erklärt.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Starr Foundation Award (MQZ), NIH ES017166 (MQZ), NSF DMS0906593 (HX).

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
Name des Reagenzes	Firma	Katalog-Nummer	Kommentare (optional)
Linux-basierte Workstation

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137(2008).
Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369(2010).
Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299(2009).
Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

A Novel Bayesian Change-Punkt Algorithmus für genomweite Analyse Diverse ChIPseq Datentypen

In This Article

Summary

Abstract

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles