December 10th, 2012
Nasz algorytm Bayesowskiego Punktu Zmiany (BCP) opiera się na najnowszych osiągnięciach w modelowaniu punktów zmian za pomocą Ukrytych Modeli Markowa i stosuje je do analizy danych sekwencjonowania immunoprecypitacji chromatyny (ChIPseq). BCP dobrze radzi sobie zarówno z ogólnymi, jak i interpunkcyjnymi typami danych, ale przoduje w dokładnym identyfikowaniu solidnych, powtarzalnych wysp rozproszonego wzbogacania histonów.
Ogólnym celem poniższego eksperymentu jest wykorzystanie gęstości zmapowanych pozycji odczytu na podstawie danych sekwencjonowania immunoprecypitacji chromatyny w celu oszacowania średniej gęstości odczytu a posteriori w całym genomie. Osiąga się to poprzez wstępne przetwarzanie. Zamapowany sekwencja ChIP-seq odczytuje do zablokowanych profilów gęstości z taką samą liczbą odczytów mieszczących się w 200 nienakładających się na siebie przedziałach par podstawowych.
Wszystkie sąsiednie przedziały o tej samej gęstości są łączone w większy blok w drugim kroku Późniejsze średnie gęstości każdego bloku są obliczane rekurencyjnie w kontekście wszystkich otaczających bloków przy użyciu modelu bayesowskiego z filtrami do przodu i do tyłu. Gdzie liczba odczytów dla bloku jest modelowana za pomocą rozkładu Poissona z parametrem theta, który przyjmuje rozkład gamma a priori z parametrami alfa i beta. Następnie oszacowania gęstości a posteriori średniej każdego bloku są oceniane pod kątem istotności w oparciu o to, czy przekracza on 90. kwantyl w odniesieniu do gęstości tła kontroli wejściowej, w celu wygenerowania ostatecznych wzbogaconych segmentów genomu uzyskuje się wyniki, które ilustrują postęp od surowych odczytów sekwencjonowanych do późniejszych oszacowań średniej gęstości odczytu, i wreszcie wzbogacone wyspy na danych ChIP-seq podczas analizy BCP.
Co więcej, wyniki pokazują, że BCP przewyższa konkurencyjne narzędzie. Główną przewagą tej techniki nad istniejącymi metodami, takimi jak CER, jest to, że BCP wykorzystuje najnowsze osiągnięcia A w modelach ukrytych markerów, dzięki czemu lepiej charakteryzuje niuanse analizy danych chipy niż poprzednie metody heurystyczne. Metoda ta może pomóc w zadawaniu kluczowych pytań w dziedzinie epigenomiki, takich jak rola modyfikacji histo poprzez scharakteryzowanie wzorców wzbogacania ich całego genomu.
Chociaż ta metoda dla pacjentów może zapewnić wgląd w analizę danych ChIP-seq, podstawowe ramy mogą być również stosowane do innych analiz danych sekwencjonowania nowej generacji, takich jak identyfikacja różnicowo metylowanych regionów w danych sekwencjonowania bis sufickiego, nowe loci transkrypcji w RNA-Seq, zmienność liczby kopii lub dowolna liczba danych kafelkowania mikromacierzy. Wizualna demonstracja tej metody ma kluczowe znaczenie dla jasnego zrozumienia metodologii i przynosi korzyści. Teoretyczne zalety są ukryte w oprogramowaniu.
Wszystkie przedstawione tutaj kroki proceduralne zostały spakowane w jeden plik wykonywalny w pakiecie oprogramowania BCP, który jest dostępny do pobrania w tym filmie. Kroki wykonywane przez program są opisane w celu uruchomienia oprogramowania. Wymagane są trzy parametry.
Plik zawierający unikatowo zmapowane odczyty z próbki chipa i podobny plik do odczytów kontrolnych danych wejściowych, a także nazwę pliku wyjściowego w celu przygotowania plików wejściowych do analizy BCP. Po pierwsze, dopasuj krótkie odczyty uzyskane w wyniku sekwencjonowania do odpowiedniego genomu referencyjnego za pomocą preferowanego oprogramowania do wyrównywania krótkich odczytów. Zmapowane lokalizacje powinny zostać przekonwertowane na sześciokolumnowe rozszerzalne dane przeglądarki lub format BED, linię rozdzielaną tabulatorami na zmapowany odczyt wskazującą zmapowaną pozycję początkową, pozycję końcową, nazwę odczytu, wynik i pasmo.
Rozszerz lokalizacje chipa i mapy wejściowej do wstępnie określonej długości fragmentu. Na przykład rozmiar fragmentu docelowego podczas trawienia enzymatycznego lub sonikacji DNA, zwykle około 200 par zasad. Liczba fragmentów jest następnie agregowana w sąsiednich pojemnikach.
Domyślnie rozmiar pojemnika jest ustawiony na szacowaną długość fragmentu wynoszącą 200 par podstaw. Wszelkie możliwe punkty zmian w zestawie pojemników z identyczną liczbą ponownych liczb najprawdopodobniej będą znajdować się na najbardziej zewnętrznych granicach. W związku z tym jest mało prawdopodobne, aby punkt zmiany wystąpił na wewnętrznej granicy między dwoma pojemnikami o tej samej liczbie odczytów.
W związku z tym należy pogrupować sąsiednie pojemniki z identycznymi odczytami na pojemnik w jeden blok. Po przygotowaniu plików wejściowych wywołaj estymację BCP, po prostu wpisując polecenie pokazane u dołu ekranu. Gęstość odczytu każdego bloku jest modelowana jako rozkład Poissona ze średnim parametrem theta, wynikającym z mieszaniny rozkładów gamma z parametrami alfa i beta oraz prawdopodobieństwem wystąpienia punktu zmiany w dowolnym bloku.
Granica P, warunkując każdy blok w ten sposób, skutecznie renderuje nieskończony stan ukryty model Markowa lub HMM. Hiperparametry alfa, beta i P są szacowane przy użyciu maksymalnego prawdopodobieństwa a posteriori. Oszacowania zatok są wyraźnie obliczane dla każdego bloku theta sub T jako oczekiwanie theta sub T, biorąc pod uwagę, dlaczego sub T bardziej tradycyjne, ale czasochłonne filtry do przodu i do tyłu, często używane w HMS, są zastępowane bardziej wydajnym obliczeniowo przybliżeniem mieszaniny o ograniczonej złożoności w celu oszacowania średnich a posteriori theta hat sub T. Wynikowe średnie a posteriori zostaną wygładzone do przybliżonego stałego profilu dla kawałków, więc bloki z identycznym theta hat sub T powinny być dalej blokowane wraz ze zaktualizowanymi współrzędnymi granicznymi.
BCP wykorzystuje liczbę odczytów wejściowych na blok jako szybkość tła i określa wzbogacenie. Za pomocą prostego testu hipotezy opartego na tym, czy średnia gęstość pozycji chipa dla bloku przekracza pewien próg istotności. 90. kwantyl jest progiem domyślnym i jest odpowiedni w większości przypadków.
Następnie BCP scala sąsiednie bloki średniej gęstości tylnej, które przekraczają wzbogacenie, w jeden region i zgłasza scalone współrzędne w przeglądarce. Rozszerzalny format danych BCP doskonale radzi sobie z identyfikowaniem regionów o szerokim wzbogaceniu w danych modyfikacji histonów. Tu. Wyniki BCP są porównywane z wynikami cser, istniejącego narzędzia, które wykazało wysoką wydajność przed pracami z tego laboratorium badającymi trimetylację H 3 K 36, które wykazały tendencję do znacznie większych rozmiarów wysp w BCP niż cer.
Większe wyspy są bardziej zgodne z konwencjonalnym oczekiwaniem szerokich wysp rozproszonych wzbogaconych w trimetylację H 3 K 36. Większe wyspy same w sobie nie wskazują na dokładność. W związku z tym, znany związek wysp trimetylacji H trzy K 36 z aktywnie transkrybowanymi ciałami genów, a także ich wzajemna wyłączność z wyspami trimetylacji H trzy K 27 został wykorzystany do oceny wydajności BCP i CER w porównaniu z CER BCP zwanych większymi sąsiadującymi wyspami, które lepiej wychwytują ciała genów bez poświęcania zwiększonego nakładania się z H trzy K 27, wyspy trimetylacji.
BCP utrzymuje wysokie nakładanie się aktywnych genów przez H trzy wyspy trimetylacji K 36 z granicami ściśle dopasowanymi do ciał genów bez zwiększania stopnia fałszywie dodatniego nakładania się z międzygenowymi genami kosmicznymi ze stłumioną transkrypcją lub znakiem represyjnym H 3 K 27 TRIMETYLACJI, oceniając odtwarzalność wywołań BCP Island w dwóch powtórzonych zestawach danych, zaobserwowano, że BCP nie cierpiał z powodu silnej zależności od głębokości pokrycia trzciną w konkurencyjnym algorytmie, a dodatkowe dowody na solidność i odtwarzalność BCPS można uzyskać, badając dodatkowe odrębne regiony, wykazując spójne granice wysp pomimo zmniejszonej głębokości pokrycia. Aby w pełni zademonstrować wszechstronność BCP, uzyskano szerokie spektrum danych dotyczących modyfikacji histonów, w tym znaki punktowe H trzy K 27 acetylacji, H trzy K dziewięć acetylacji i H trzy K cztery trimetylacja oraz dyfuzyjny znak H trzy K dziewięć trimetylacji oprócz trimetylacji H trzy K 27 i trimetylacji H trzy K 36. Te zestawy danych zostały przeanalizowane przy użyciu domyślnych ustawień parametrów zarówno dla BCP, jak i cser.
W centrum znajduje się wzbogacenie trimetylacji H trzy K 36 w genie PX DN oznaczającym aktywną transkrypcję przypadającą oczekiwanie w miejscu rozpoczęcia transkrypcji są dodatkowe punktowe znaczniki aktywne H trzy K 27 acetylacja, H trzy K dziewięć acetylacji i H trzy K cztery trimetylacja. Tuż za PXDN znajduje się stłumiona przestrzeń międzygenowa oznaczona wzbogaceniem trimetylacji H three K 27 na przeciwległym skrzydle, znajduje się gen stłumiony H three K 27 TRIMETYLACJI. Idąc o krok dalej.
Nasza wyciszona chromatyna, na co wskazuje obecność wzbogacenia trimetylacji H trzy K dziewięć, co wydaje się wskazywać na wyciszenie SN TG dwa i MYT jeden L, być może w mniej przejściowym sensie niż represja trimetylacji H trzy K 27. Obszar ten obejmuje większość zjawisk napotkanych w ChIPseek modyfikacji histonów. Ilustruje, w jaki sposób dynamiczna natura BCP może identyfikować zarówno punktową acetylację, jak i znaczniki trimetylacji H trzy K cztery, jednocześnie wyróżniając duże sąsiadujące wyspy trimetylacji H trzy K 27 i H trzy K 9 trimetylacji, a także aktywną transkrypcję trimetylacji H trzy K 36.
Algorytm ten można wykonać około 30 minut, w zależności od liczby odczytów i wyniku objawów genomu. Dowolna znacząca optymalizacja, która jest często wymagana w przypadku innych metod Postępuj zgodnie z tą procedurą. Za pomocą BBCP można badać wiele różnych białek docelowych immunoprecypitacji chromatyny, w tym różne inne modyfikacje hisonu, a także czynniki transkrypcyjne wiążące DNA, aby odpowiedzieć na dodatkowe pytania dotyczące mechanizmów epigenomicznych i regulacji genów.
Po obejrzeniu tego filmu powinieneś dobrze zrozumieć, w jaki sposób BCP jest używany do identyfikowania regionów w zasięgu rozproszonych znaczników w analizie danych chipy.
View the full transcript and gain access to thousands of scientific videos
To badanie przedstawia algorytm Bayesian Change Point (BCP), który poprawia analizę danych sekwencjonowania immunoprecypitacji chromatyny (ChIP-seq). Wykorzystując ukryte modele Markova, BCP skutecznie identyfikuje regiony wzbogacenia histonów zarówno w danych rozległych, jak i punktowych.