Nowatorski algorytm bayesowskiego punktu zmiany do analizy całego genomu różnych typów danych ChIPseq

Haipeng Xing; Willey Liao; Yifan Mo; Michael Q. Zhang

doi:10.3791/4273

Method Article

Nowatorski algorytm bayesowskiego punktu zmiany do analizy całego genomu różnych typów danych ChIPseq

DOI:

10.3791/4273

⸱

December 10th, 2012

Haipeng Xing¹ , Willey Liao¹^,² , Yifan Mo¹^,² , Michael Q. Zhang²^,³

¹Department of Applied Mathematics & Statistics, Stony Brook University, ²Computational Biology and Bioinformatics, Cold Spring Harbor Laboratory, ³Department of Molecular and Cell Biology, University of Texas at Dallas

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nasz algorytm Bayesowskiego Punktu Zmiany (BCP) opiera się na najnowszych osiągnięciach w modelowaniu punktów zmian za pomocą Ukrytych Modeli Markowa i stosuje je do analizy danych sekwencjonowania immunoprecypitacji chromatyny (ChIPseq). BCP dobrze radzi sobie zarówno z ogólnymi, jak i interpunkcyjnymi typami danych, ale przoduje w dokładnym identyfikowaniu solidnych, powtarzalnych wysp rozproszonego wzbogacania histonów.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

ChIPseq jest powszechnie stosowaną techniką do badania interakcji białko-DNA. Profile gęstości odczytu są generowane przy użyciu sekwencjonowania DNA związanego z białkiem i dopasowywania krótkich odczytów do genomu referencyjnego. Wzbogacone regiony ujawniają się jako piki, które często różnią się znacznie kształtem, w zależności od białka docelowego¹. Na przykład czynniki transkrypcyjne często wiążą się w sposób specyficzny dla miejsca i sekwencji i mają tendencję do wytwarzania punktowych pików, podczas gdy modyfikacje histonów są bardziej wszechobecne i charakteryzują się szerokimi, rozproszonymi wyspami wzbogacenia². Rzetelna identyfikacja tych regionów była głównym celem naszych prac.

Algorytmy do analizy danych ChIPseq wykorzystują różne metodologie, od heurystyk^3-5 do bardziej rygorystycznych modeli statystycznych, np. Ukryte Modele Markowa (HMM)^6-8. Szukaliśmy rozwiązania, które zminimalizowałoby konieczność stosowania trudnych do zdefiniowania, doraźnych parametrów, które często pogarszają rozdzielczość i zmniejszają intuicyjną użyteczność narzędzia. Jeśli chodzi o metody oparte na HMM, naszym celem było ograniczenie procedur estymacji parametrów i prostych, często stosowanych klasyfikacji stanów skończonych.

Dodatkowo, konwencjonalna analiza danych ChIPseq obejmuje kategoryzację oczekiwanych profili gęstości odczytu jako punktowych lub rozproszonych, a następnie zastosowanie odpowiedniego narzędzia. Naszym celem było również zastąpienie tych dwóch odrębnych modeli jednym, bardziej wszechstronnym modelem, który może obsługiwać całe spektrum typów danych.

Aby spełnić te cele, najpierw skonstruowaliśmy strukturę statystyczną, która w naturalny sposób modelowała struktury danych ChIPseq za pomocą najnowocześniejszego postępu w HMM⁹, który wykorzystuje tylko wyraźne formuły - innowacja kluczowa dla jego przewagi wydajnościowej. Bardziej wyrafinowane niż modele heurystyczne, nasz HMM obejmuje nieskończoną liczbę ukrytych stanów za pomocą modelu bayesowskiego. Zastosowaliśmy go do identyfikacji rozsądnych punktów zmian w gęstości odczytu, które dodatkowo definiują segmenty wzbogacenia. Nasza analiza wykazała, że nasz algorytm Bayesowskiego Punktu Zmiany (BCP) zmniejszył złożoność obliczeniową, o czym świadczy skrócony czas działania i zużycie pamięci. Algorytm BCP został z powodzeniem zastosowany zarówno do identyfikacji pików punktowych, jak i wysp rozproszonych z dużą dokładnością i ograniczonymi parametrami zdefiniowanymi przez użytkownika. Świadczyło to zarówno o jego wszechstronności, jak i łatwości obsługi. W związku z tym uważamy, że można go łatwo wdrożyć w szerokim zakresie typów danych i użytkowników końcowych w sposób, który można łatwo porównywać i kontrastować, co czyni go doskonałym narzędziem do analizy danych ChIPseq, które może pomóc we współpracy i potwierdzeniu między grupami badawczymi. W tym miejscu pokazujemy zastosowanie BCP do istniejącego czynnika transkrypcyjnego^10,11 i danych epigenetycznych¹², aby zilustrować jego przydatność.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. Przygotowanie plików wejściowych do analizy BCP

Dopasuj krótkie odczyty utworzone z serii sekwencjonowania (ChIP i biblioteki wejściowe) do odpowiedniego genomu referencyjnego przy użyciu preferowanego oprogramowania do wyrównywania krótkich odczytów. Zmapowane lokalizacje powinny zostać przekonwertowane na 6-kolumnowy format rozszerzalnych danych przeglądarki (BED)¹³ (przeglądarka genomu UCSC, http://genome.ucsc.edu/), linia rozdzielana tabulatorami na zmapowany odczyt wskazująca zmapowany chromosom, pozycję początkową (na podstawie 0), pozycję końcową (półotwartą), nazwę odczytu, wynik (opcjonalnie) i pasmo.

2a. Profile odczytu dyfuzyjnego: Wstępne przetwarzanie gęstości odczytu ChIP w celu wykrywania wzbogaconych wysp w danych dyfuzyjnych

Rozszerz zmapowane lokalizacje ChIP i wejściowe do z góry określonej długości fragmentu, tj. rozmiaru fragmentu docelowego podczas trawienia enzymatycznego lub sonikacji DNA, zwykle około 200 pz. Liczba fragmentów jest następnie agregowana w sąsiednich pojemnikach. Domyślnie rozmiar pojemnika jest ustawiony na szacowaną długość fragmentu wynoszącą 200 pz.
Wszelkie możliwe punkty zmian w zestawie pojemników o identycznej liczbie odczytów najprawdopodobniej będą znajdować się w najbardziej zewnętrznych granicach. W związku z tym jest mało prawdopodobne, aby punkt zmiany wystąpił na wewnętrznej granicy między dwoma pojemnikami o tej samej liczbie odczytów. Tak więc pogrupuj sąsiednie pojemniki, z identycznymi odczytami na pojemnik, w jeden blok, tj. Format bedGraph¹³.

2b. Profile odczytu punktowego: Wstępne przetwarzanie plików ChIP i wejściowych plików BED do wykrywania pików w danych punktowych

Agregowane nakładające się odczyty dla pasma dodatniego i ujemnego ChIP odczytuje oddzielnie. Gęstości odczytu specyficzne dla pasma powinny tworzyć bimodalny profil pików dodatnich i ujemnych. Wybierz pary plus/minus najbardziej wzbogaconych szczytów i wykorzystaj odległość między ich szczytami jako oszacowanie długości fragmentu biblioteki.
Przesuń ChIP i odczyty wejściowe o połowę długości fragmentu do środka i ponownie oblicz gęstość odczytu przesuniętych i scalonych odczytów pasma plus i minus. Ta metodologia szacowania długości fragmentu została przyjęta od Zhanga i wsp.³. Pozycje o identycznej liczbie scaleń powinny zostać pogrupowane w bloki, podobnie jak w kroku 2a.2.

3. Oszacuj gęstość odczytu a posteriori każdego bloku za pomocą naszego przybliżenia BCMIX

Gęstość odczytu każdego bloku jest modelowana jako rozkład Poissona, Pois(θ_t), ze średnim parametrem wynikającym z mieszaniny rozkładów gamma, Γ(α,β) i prawdopodobieństwem wystąpienia punktu zmiany na dowolnej granicy bloku p. Warunkowanie Pois(θ_t) na G(α,β) skutecznie przekształca model w stan nieskończony HMM. Oszacuj hiperparametry, α, β i p, używając maksymalnego prawdopodobieństwa a posteriori.
Jawnie oblicz oszacowania Bayesa dla każdego bloku, θ_t, jako E(θ_t|γ_Z). Zastąp bardziej tradycyjne, ale czasochłonne filtry do przodu i do tyłu, często używane w HMM, bardziej wydajnym obliczeniowo przybliżeniem mieszaniny ograniczonej złożoności do oszacowania średnich a posteriori, θ_c. Wynikowe średnie a posteriori zostaną "wygładzone" do przybliżonego stałego profilu odcinkowego, więc bloki o identycznym θ_c powinny być dalej blokowane wraz ze zaktualizowanymi współrzędnymi granicznymi.

4a. Rozproszone profile odczytu: Końcowe przetwarzanie środków a posteriori na segmenty dyfuzyjnego wzbogacenia

Użyj liczby odczytów wejściowych na każdy nowy blokθ_c jako współczynnika tła, Pois(λ_a) i określ wzbogacenie za pomocą prostego testu hipotezy w oparciu o to, czy średnia a posteriori ChIP, θ_c, przekracza pewien próg δ. Kwantyl^90-ty jest domyślnym d i jest odpowiedni w większości przypadków.
Scal sąsiednie bloki θ_c, które przekraczają wzbogacenie, w jeden region i podaj współrzędne scalania w prostym formacie BED. Alternatywnie można podać θ_c dla każdego bloku w formacie bedGraph, aby zachować szczegóły o wysokiej rozdzielczości oszacowań gęstości odczytu.

4b. Punktowe profile odczytu: Metody końcowe przekształcane w kandydatów na szczyt

Zdefiniuj współczynnik tła, Pois(λ_a), jako średnią wszystkich liczb odczytu (γ₂) i zidentyfikuj wszystkie bloki, które przekraczają próg, d. Ponieważ oczekuje się, że piki punktowe zostaną znacznie wzbogacone, domyślny δ jest ustawiony na 99. kwantyl Pois(λ_a).
Ustaw blok o maksymalnej wartości θ_c jako potencjalny szczyt piku i przylegaj do bloków flankujących, które mają podobną gęstość odczytu (±1 liczba odczytów, aby umożliwić niewielką zmianę). Ten przylegający region jest zdefiniowany jako potencjalne miejsce wiązania.
Obliczλ₂ jako średnią liczbę odczytów w miejscu wiązania kandydata ChIP i przetestuj hipotezę w porównaniu z tłem wejściowym, w którym hipoteza zerowa, H₀, to λ₁ ≥λ₂ i odrzuć H₀ w oparciu o próg wartości p. Szczyt kandydata wyjściowego w formacie BED.

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

BCP przoduje w identyfikowaniu regionów o szerokim wzbogaceniu w danych modyfikacji histonów. Jako punkt odniesienia, wcześniej porównaliśmy nasze wyniki z wynikami SICER³, istniejącego narzędzia, które wykazało się wysoką wydajnością. Aby jak najlepiej zilustrować zalety BCP, przeanalizowaliśmy modyfikację histonów, która została dobrze zbadana, aby stworzyć podstawę do oceny wskaźników sukcesu. Mając to na uwadze, przeanalizowaliśmy następnie H3K36me3, ponieważ wykazano, że silnie wiąże się on z aktywnie tra...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Postanowiliśmy opracować model do analizy danych ChIPseq, który mógłby równie dobrze identyfikować zarówno punktowe, jak i rozproszone struktury danych. Do tej pory trudno było zidentyfikować regiony wzbogacenia, w szczególności regiony rozproszone, które odzwierciedlają zakładane oczekiwania dotyczące dużych rozmiarów wysp. Aby rozwiązać te problemy, wykorzystaliśmy najnowsze osiągnięcia w technologii HMM, które mają wiele zalet w porównaniu z istniejącymi modelami heurystycznymi i mniej innowacyjnymi HMM.

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nie stwierdzono konfliktu interesów.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

nagroda fundacji STARR (MQZ), ES017166 grantu NIH (MQZ), DMS0906593 grantu NSF (HX).

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
			robocza oparta na systemie Linux

Stacja

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137(2008).
Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369(2010).
Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299(2009).
Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Nowatorski algorytm bayesowskiego punktu zmiany do analizy całego genomu różnych typów danych ChIPseq

In This Article

Summary

Abstract

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles