$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
ChIPseq ist eine weit verbreitete Technik zur Untersuchung von Protein-DNA-Wechselwirkungen. Lesedichte Profile werden unter Verwendung der nächsten Sequenzierung von Protein-gebundener DNA und Ausrichten des kurzen liest einem Bezugsgenom erzeugt. Angereicherte Regionen als Peaks, die oft drastisch unterscheiden in der Form, in Abhängigkeit von dem Zielprotein 1 offenbart. Zum Beispiel Transkriptionsfaktoren binden oft in einem Standort-und sequenzspezifische Weise und neigen kann punktförmige Spitzen zu produzieren, während Histonmodifikationen weiter verbreitet sind und durch breite, diffuse Inseln Anreicherung 2 gekennzeichnet. Zuverlässig Abgrenzung dieser Regionen lag der Schwerpunkt unserer Arbeit.
Algorithmen zur Analyse ChIPseq Daten wurden verschiedene Methoden, von Heuristiken 3-5 bis strengeren statistischen Modelle, wie zB Hidden Markov Modellen (HMMs) 6-8 eingesetzt. Wir suchten eine Lösung, die die Notwendigkeit für schwierig zu definieren, Ad-hoc-Parameter, die oft minimiertKompromisse Auflösung und verringern die intuitive Bedienbarkeit des Werkzeugs. Mit Bezug auf HMM-basierten Methoden, wollten wir Parameterschätzung Verfahren und einfache, endlichen Klassifikationen, die oft verwendet werden beschneiden.
Darüber hinaus beinhaltet konventionelle ChIPseq Datenanalyse Kategorisierung der erwarteten Lesedichte Profile entweder als punktförmige oder diffuse durch nachfolgende Anwendung des geeigneten Werkzeug gefolgt. Wir weiter das Ziel, die Notwendigkeit für diese zwei unterschiedlichen Modelle mit einem einzigen, vielseitiger Modell, das kompetent adressieren kann das gesamte Spektrum von Datentypen zu ersetzen.
Um diese Ziele zu erreichen, haben wir zunächst eine statistische Rahmen konstruiert, dass natürlich modelliert ChIPseq Datenstrukturen mit einer Schneidkante Fortschritt in HMMs 9, die nur explizite nutzt Formeln-eine Innovation entscheidend für die Performance-Vorteile. Komplexere dann heuristische Modelle beherbergt unsere HMM unendliche versteckten Zustände durch eineBayes-Modell. Wir wandten sie identifizieren vernünftigen Änderung Punkte zu lesen Dichte, die weiter zu definieren Segmente Bereicherung. Unsere Analyse ergab, wie unsere Bayesian ändern Point (BCP)-Algorithmus eine reduzierte Komplexität-nachgewiesen durch eine verkürzte Laufzeit und Speicherbedarf hatte. Die BCP-Algorithmus wurde erfolgreich sowohl punktförmige Spitze und diffuse Insel Identifikation mit robusten Genauigkeit und begrenzte benutzerdefinierten Parametern aufgebracht. Diese illustrierte sowohl ihre Vielseitigkeit und einfache Handhabung. Daher glauben wir, dass es leicht in weiten Bereichen von Datentypen und Endanwender in einer Weise, die einfach verglichen und gegenübergestellt umgesetzt werden, so dass es ein großes Werkzeug für ChIPseq Datenanalyse, die in Zusammenarbeit und Bestätigung zwischen Forschergruppen unterstützen können. Hier zeigen wir die Anwendung der BCP bestehende Transkriptionsfaktor 10,11 und epigenetische Daten 12 seiner Nützlichkeit zu illustrieren.