$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
ChIPseq jest powszechnie stosowaną techniką do badania interakcji białko-DNA. Profile gęstości odczytu są generowane przy użyciu sekwencjonowania DNA związanego z białkiem i dopasowywania krótkich odczytów do genomu referencyjnego. Wzbogacone regiony ujawniają się jako piki, które często różnią się znacznie kształtem, w zależności od białka docelowego1. Na przykład czynniki transkrypcyjne często wiążą się w sposób specyficzny dla miejsca i sekwencji i mają tendencję do wytwarzania punktowych pików, podczas gdy modyfikacje histonów są bardziej wszechobecne i charakteryzują się szerokimi, rozproszonymi wyspami wzbogacenia2. Rzetelna identyfikacja tych regionów była głównym celem naszych prac.
Algorytmy do analizy danych ChIPseq wykorzystują różne metodologie, od heurystyk3-5 do bardziej rygorystycznych modeli statystycznych, np. Ukryte Modele Markowa (HMM)6-8. Szukaliśmy rozwiązania, które zminimalizowałoby konieczność stosowania trudnych do zdefiniowania, doraźnych parametrów, które często pogarszają rozdzielczość i zmniejszają intuicyjną użyteczność narzędzia. Jeśli chodzi o metody oparte na HMM, naszym celem było ograniczenie procedur estymacji parametrów i prostych, często stosowanych klasyfikacji stanów skończonych.
Dodatkowo, konwencjonalna analiza danych ChIPseq obejmuje kategoryzację oczekiwanych profili gęstości odczytu jako punktowych lub rozproszonych, a następnie zastosowanie odpowiedniego narzędzia. Naszym celem było również zastąpienie tych dwóch odrębnych modeli jednym, bardziej wszechstronnym modelem, który może obsługiwać całe spektrum typów danych.
Aby spełnić te cele, najpierw skonstruowaliśmy strukturę statystyczną, która w naturalny sposób modelowała struktury danych ChIPseq za pomocą najnowocześniejszego postępu w HMM9, który wykorzystuje tylko wyraźne formuły - innowacja kluczowa dla jego przewagi wydajnościowej. Bardziej wyrafinowane niż modele heurystyczne, nasz HMM obejmuje nieskończoną liczbę ukrytych stanów za pomocą modelu bayesowskiego. Zastosowaliśmy go do identyfikacji rozsądnych punktów zmian w gęstości odczytu, które dodatkowo definiują segmenty wzbogacenia. Nasza analiza wykazała, że nasz algorytm Bayesowskiego Punktu Zmiany (BCP) zmniejszył złożoność obliczeniową, o czym świadczy skrócony czas działania i zużycie pamięci. Algorytm BCP został z powodzeniem zastosowany zarówno do identyfikacji pików punktowych, jak i wysp rozproszonych z dużą dokładnością i ograniczonymi parametrami zdefiniowanymi przez użytkownika. Świadczyło to zarówno o jego wszechstronności, jak i łatwości obsługi. W związku z tym uważamy, że można go łatwo wdrożyć w szerokim zakresie typów danych i użytkowników końcowych w sposób, który można łatwo porównywać i kontrastować, co czyni go doskonałym narzędziem do analizy danych ChIPseq, które może pomóc we współpracy i potwierdzeniu między grupami badawczymi. W tym miejscu pokazujemy zastosowanie BCP do istniejącego czynnika transkrypcyjnego10,11 i danych epigenetycznych12, aby zilustrować jego przydatność.