Method Article

Nowatorski algorytm bayesowskiego punktu zmiany do analizy całego genomu różnych typów danych ChIPseq

DOI:

10.3791/4273

December 10th, 2012

In This Article

Summary

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nasz algorytm Bayesowskiego Punktu Zmiany (BCP) opiera się na najnowszych osiągnięciach w modelowaniu punktów zmian za pomocą Ukrytych Modeli Markowa i stosuje je do analizy danych sekwencjonowania immunoprecypitacji chromatyny (ChIPseq). BCP dobrze radzi sobie zarówno z ogólnymi, jak i interpunkcyjnymi typami danych, ale przoduje w dokładnym identyfikowaniu solidnych, powtarzalnych wysp rozproszonego wzbogacania histonów.

Abstract

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

ChIPseq jest powszechnie stosowaną techniką do badania interakcji białko-DNA. Profile gęstości odczytu są generowane przy użyciu sekwencjonowania DNA związanego z białkiem i dopasowywania krótkich odczytów do genomu referencyjnego. Wzbogacone regiony ujawniają się jako piki, które często różnią się znacznie kształtem, w zależności od białka docelowego1. Na przykład czynniki transkrypcyjne często wiążą się w sposób specyficzny dla miejsca i sekwencji i mają tendencję do wytwarzania punktowych pików, podczas gdy modyfikacje histonów są bardziej wszechobecne i charakteryzują się szerokimi, rozproszonymi wyspami wzbogacenia2. Rzetelna identyfikacja tych regionów była głównym celem naszych prac.

Algorytmy do analizy danych ChIPseq wykorzystują różne metodologie, od heurystyk3-5 do bardziej rygorystycznych modeli statystycznych, np. Ukryte Modele Markowa (HMM)6-8. Szukaliśmy rozwiązania, które zminimalizowałoby konieczność stosowania trudnych do zdefiniowania, doraźnych parametrów, które często pogarszają rozdzielczość i zmniejszają intuicyjną użyteczność narzędzia. Jeśli chodzi o metody oparte na HMM, naszym celem było ograniczenie procedur estymacji parametrów i prostych, często stosowanych klasyfikacji stanów skończonych.

Dodatkowo, konwencjonalna analiza danych ChIPseq obejmuje kategoryzację oczekiwanych profili gęstości odczytu jako punktowych lub rozproszonych, a następnie zastosowanie odpowiedniego narzędzia. Naszym celem było również zastąpienie tych dwóch odrębnych modeli jednym, bardziej wszechstronnym modelem, który może obsługiwać całe spektrum typów danych.

Aby spełnić te cele, najpierw skonstruowaliśmy strukturę statystyczną, która w naturalny sposób modelowała struktury danych ChIPseq za pomocą najnowocześniejszego postępu w HMM9, który wykorzystuje tylko wyraźne formuły - innowacja kluczowa dla jego przewagi wydajnościowej. Bardziej wyrafinowane niż modele heurystyczne, nasz HMM obejmuje nieskończoną liczbę ukrytych stanów za pomocą modelu bayesowskiego. Zastosowaliśmy go do identyfikacji rozsądnych punktów zmian w gęstości odczytu, które dodatkowo definiują segmenty wzbogacenia. Nasza analiza wykazała, że nasz algorytm Bayesowskiego Punktu Zmiany (BCP) zmniejszył złożoność obliczeniową, o czym świadczy skrócony czas działania i zużycie pamięci. Algorytm BCP został z powodzeniem zastosowany zarówno do identyfikacji pików punktowych, jak i wysp rozproszonych z dużą dokładnością i ograniczonymi parametrami zdefiniowanymi przez użytkownika. Świadczyło to zarówno o jego wszechstronności, jak i łatwości obsługi. W związku z tym uważamy, że można go łatwo wdrożyć w szerokim zakresie typów danych i użytkowników końcowych w sposób, który można łatwo porównywać i kontrastować, co czyni go doskonałym narzędziem do analizy danych ChIPseq, które może pomóc we współpracy i potwierdzeniu między grupami badawczymi. W tym miejscu pokazujemy zastosowanie BCP do istniejącego czynnika transkrypcyjnego10,11 i danych epigenetycznych12, aby zilustrować jego przydatność.

Protocol

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. Przygotowanie plików wejściowych do analizy BCP

  1. Dopasuj krótkie odczyty utworzone z serii sekwencjonowania (ChIP i biblioteki wejściowe) do odpowiedniego genomu referencyjnego przy użyciu preferowanego oprogramowania do wyrównywania krótkich odczytów. Zmapowane lokalizacje powinny zostać przekonwertowane na 6-kolumnowy format rozszerzalnych danych przeglądarki (BED)13 (przeglądarka genomu UCSC, http://genome.ucsc.edu/), linia rozdzielana tabulatorami na zmapowany odczyt wskazująca zmapowany chromosom, pozycję początkową (na podstawie 0), pozycję końcową (półotwartą), nazwę odczytu, wynik (....

Access restricted. Please log in or start a trial to view this content.

Results

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

BCP przoduje w identyfikowaniu regionów o szerokim wzbogaceniu w danych modyfikacji histonów. Jako punkt odniesienia, wcześniej porównaliśmy nasze wyniki z wynikami SICER3, istniejącego narzędzia, które wykazało się wysoką wydajnością. Aby jak najlepiej zilustrować zalety BCP, przeanalizowaliśmy modyfikację histonów, która została dobrze zbadana, aby stworzyć podstawę do oceny wskaźników sukcesu. Mając to na uwadze, przeanalizowaliśmy następnie H3K36me3, ponieważ wykazano, że silnie wiąże się on z aktywnie tra.......

Access restricted. Please log in or start a trial to view this content.

Discussion

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Postanowiliśmy opracować model do analizy danych ChIPseq, który mógłby równie dobrze identyfikować zarówno punktowe, jak i rozproszone struktury danych. Do tej pory trudno było zidentyfikować regiony wzbogacenia, w szczególności regiony rozproszone, które odzwierciedlają zakładane oczekiwania dotyczące dużych rozmiarów wysp. Aby rozwiązać te problemy, wykorzystaliśmy najnowsze osiągnięcia w technologii HMM, które mają wiele zalet w porównaniu z istniejącymi modelami heurystycznymi i mniej innowacyjnymi HMM.

Access restricted. Please log in or start a trial to view this content.

Disclosures

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Nie stwierdzono konfliktu interesów.

Acknowledgements

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

nagroda fundacji STARR (MQZ), ES017166 grantu NIH (MQZ), DMS0906593 grantu NSF (HX).

....

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
NameCompanyCatalog NumberComments
robocza oparta na systemie Linux
Stacja

References

Loading...
$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,
  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., ....

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Tags

Bayesian Change Point AlgorithmChIPseq Data AnalysisHidden Markov ModelsGenome wide EnrichmentHistone Modification IdentificationTranscription Factor BindingPoisson Distribution ModelingPosterior Mean DensityEnriched Region DetectionNext Generation Sequencing

Related Articles