December 10th, 2012
Unsere Bayesian ändern Point (BCP)-Algorithmus baut auf state-of-the-art Fortschritte in der Modellierung change-Punkten über Hidden-Markov-Modelle und wendet sie auf Chromatinimmunpräzipitation Sequenzierung (ChIPseq) Datenanalyse. BCP funktioniert gut sowohl breit und punktförmige Datentypen, sondern zeichnet sich durch genaue Identifizierung robust, reproduzierbar Inseln diffuse Histon Bereicherung.
Das übergeordnete Ziel des folgenden Experiments besteht darin, die Dichte der kartierten Lesepositionen aus Chromatin-Immunpräzipitationssequenzierungsdaten zu nutzen, um die posteriore mittlere Lesedichte über das Genom zu schätzen. Dies wird durch Vorverarbeitung erreicht. Das zugeordnete ChIP-seq liest in blockierte Dichteprofile mit der gleichen Anzahl von Reads, die innerhalb von 200 nicht überlappenden Bins für Basenpaare liegen.
Alle benachbarten Bins mit der gleichen Dichte werden im zweiten Schritt zu einem größeren Block zusammengeführt. In einem zweiten Schritt werden die mittleren Dichten jedes Blocks rekursiv im Kontext aller umgebenden Blöcke berechnet, wobei ein Bayes'sches Modell mit Vorwärts- und Rückwärtsfiltern verwendet wird. Dabei wird die Leseanzahl für einen Block mit einer Poisson-Verteilung mit einem Theta-Parameter modelliert, der eine Gamma-A-priori-Verteilung mit Alpha- und Beta-Parametern annimmt. Als nächstes werden die Schätzungen der mittleren Dichte jedes Blocks auf ihre Signifikanz hin bewertet, basierend darauf, ob er das 90. Quantil in Bezug auf die Hintergrunddichte der Eingangskontrolle überschreitet oder nicht, um die Ergebnisse der endgültigen angereicherten Genomsegmente zu erzeugen, die den Fortschritt von sequenzierten Rohlesevorgängen zu Schätzungen der mittleren Lesedichte nach hinten veranschaulichen. und schließlich angereicherte Inseln in ChIP-seq-Daten während der BCP-Analyse.
Darüber hinaus zeigen die Ergebnisse, dass BCP besser abschneidet als ein Konkurrenztool. Der Hauptvorteil dieser Technik gegenüber bestehenden Methoden wie CER besteht darin, dass BCP die neuesten A-Fortschritte in versteckten Markermodellen verwendet, so dass es die Nuancen der chipsy Datenanalyse besser charakterisiert als frühere heuristische Methoden. Diese Methode kann Schlüsselfragen im Bereich der Epigenomik beantworten, wie z.B. die Rolle von Histomodifikationen bei der Charakterisierung ihrer genomweiten Anreicherungsmuster.
Obwohl diese Patientenmethode einen Einblick in die ChIP-seq-Datenanalyse geben kann, kann das Grundgerüst auch auf andere Next-Generation-Sequencing-Datenanalysen angewendet werden, wie z.B. die Identifizierung differentiell methylierter Regionen in Bis-Sufi-Sequenzierungsdaten, neuartige Transkriptionsloci in RNA-Seq, Kopienzahlvariation oder eine beliebige Anzahl von Microarray-Tiling-Daten. Die visuelle Demonstration dieser Methode ist entscheidend für ein klares Verständnis der Methodik und sie ist von Vorteil. Die theoretischen Vorteile verbergen sich in der Software.
Alle hier gezeigten Verfahrensschritte wurden in einer einzigen ausführbaren Datei im BCP-Softwarepaket verpackt, das in diesem Video zum Download zur Verfügung steht. Die Schritte, die das Programm ausführt, um die Software auszuführen, werden beschrieben. Drei Parameter sind erforderlich.
Eine Datei, die eindeutig zugeordnete Lesevorgänge aus einem Chipbeispiel und eine ähnliche Datei für Eingabesteuerungslesevorgänge enthält, sowie einen Ausgabedateinamen zum Vorbereiten von Eingabedateien für die BCP-Analyse. Richten Sie zunächst die Short-Reads, die bei Sequenzierungsläufen erzeugt wurden, mit dem entsprechenden Referenzgenom aus, indem Sie die bevorzugte Short-Read-Alignment-Software verwenden. Die kartierten Positionen sollten in das sechsspaltige Browser Extensible Data oder das BED-Format konvertiert werden, eine tabulatorgetrennte Zeile pro zugeordnetem Lesevorgang, die die Startposition, die Endposition, den Lesenamen, die Punktzahl und den Strang des kartierten Chromosoms angibt.
Verlängern Sie die Positionen des Chip- und Eingabe-Maps auf eine vorgegebene Fragmentlänge. Zum Beispiel die Fragmentgröße, die während des Enzymverdaus oder der Beschallung der DNA anvisiert wird, in der Regel etwa 200 Basenpaare. Die Anzahl der Fragmente wird dann in benachbarten Abschnitten aggregiert.
Standardmäßig ist die Bin-Größe auf die geschätzte Fragmentlänge von 200 Basenpaaren festgelegt. Alle möglichen Änderungspunkte in einer Gruppe von Klassen mit identischen Recounts liegen höchstwahrscheinlich an den äußersten Grenzen. Dementsprechend ist es unwahrscheinlich, dass ein Änderungspunkt an einer internen Begrenzung zwischen zwei Klassen mit der gleichen Leseanzahl auftritt.
Gruppieren Sie daher benachbarte Bins mit identischen Lesevorgängen pro Bin in einem einzigen Block. Rufen Sie nach dem Vorbereiten der Eingabedateien die BCP-Schätzung auf, indem Sie einfach den Befehl eingeben, der am unteren Rand des Bildschirms angezeigt wird. Die Lesedichte jedes Blocks wird als Poisson-Verteilung mit einem Mittelwert des Parameters Theta modelliert, der einer Mischung aus Gamma-Verteilungen mit Alpha- und Beta-Parametern und einer A-priori-Wahrscheinlichkeit für das Auftreten eines Änderungspunkts an einem beliebigen Block folgt.
Die Begrenzung von P, die jeden Block auf diese Weise konditioniert, rendert effektiv ein verstecktes Markov-Modell (HMM) im unendlichen Zustand. Die Hyperparameter alpha, beta und P werden unter Verwendung der maximalen posterioren Wahrscheinlichkeit geschätzt. Die Bays-Schätzungen werden explizit für jeden Block Theta sub T als Erwartung von Theta sub T berechnet, da sub T die traditionelleren, aber zeitaufwändigeren Vorwärts- und Rückwärtsfilter, die häufig in HMS verwendet werden, durch die recheneffizientere Approximation der begrenzten Komplexitätsmischung ersetzt werden, um die posterioren Mittelwerte Theta Hat Sub T zu schätzen. Die resultierenden posterioren Mittelwerte werden zu einem ungefähren stückweisen konstanten Profil geglättet. daher sollten Blöcke mit identischem Theta Hat sub T zusammen mit aktualisierten Grenzkoordinaten weiter blockiert werden.
BCP verwendet die Anzahl der Eingabelesevorgänge pro Block als Hintergrundrate und bestimmt die Anreicherung. Unter Verwendung eines einfachen Hypothesentests wird getestet, ob die mittlere Dichte der Chipposition für einen Block einen bestimmten Signifikanzschwellenwert überschreitet. Das 90. Quantil ist der Standardschwellenwert und in den meisten Fällen angemessen.
BCP führt dann benachbarte Blöcke mit mittlerer Dichte, die die Anreicherung überschreiten, in einem einzelnen Bereich zusammen und meldet die zusammengeführten Koordinaten im Browser. Das erweiterbare Datenformat BCP eignet sich hervorragend zur Identifizierung von Regionen mit breiter Anreicherung in Histonmodifikationsdaten. Hier. Die BCP-Ergebnisse werden mit denen von cser verglichen, einem bestehenden Werkzeug, das eine starke Leistung gezeigt hat. Frühere Arbeiten dieses Labors, in denen die H drei K 36-Trimethylierung untersucht wurde, zeigten eine Tendenz zu einer viel größeren Inselgröße in BCP als in cer.
Größere Inseln entsprechen eher der herkömmlichen Erwartung breiter diffuser Inseln mit H drei K 36-Trimethylierungsanreicherung. Größere Inseln allein bedeuten nicht die Genauigkeit. Daher wurde die bekannte Assoziation von H drei K 36 Trimethylierungsinseln mit aktiv transkribierten Genkörpern sowie ihre gegenseitige Exklusivität mit H drei K 27 Trimethylierungsinseln verwendet, um die Leistung von BCP und CER im Vergleich zu CER BCP zu bewerten, die als größere zusammenhängende Inseln bezeichnet werden, die Genkörper besser einfangen, ohne eine zunehmende Überlappung mit H drei K 27 zu opfern. Trimethylierungsinseln.
BCP behält die hohe Überlappung aktiver Gene durch H drei K 36 Trimethylierungsinseln mit eng an den Genkörpern ausgerichteten Grenzen bei, ohne den Grad der falsch positiven Überlappung mit intergenen Raumgenen mit unterdrückter Transkription oder der H drei K 27 TRIMETHYLATION repressiven Markierung zu erhöhen, während die Reproduzierbarkeit von BCP Island-Aufrufen in zwei replizierten Datensätzen bewertet wird, Es wurde beobachtet, dass BCP nicht unter einer starken Abhängigkeit von der Schilfabdeckungstiefe im konkurrierenden Algorithmus cer litt. Ein zusätzlicher Beweis für die Robustheit und Reproduzierbarkeit von BCPS wird durch die Untersuchung zusätzlicher unterschiedlicher Regionen erbracht, die trotz der reduzierten Abdeckungstiefe konsistente Inselgrenzen zeigen. Um die Vielseitigkeit von BCP vollständig zu demonstrieren, wurde ein breites Spektrum von Histonmodifikationsdaten erhalten, einschließlich der punktförmigen Markierungen H drei K 27 Acetylierung, H drei K neun Acetylierung und H drei K vier Trimethylierung sowie der diffusen Markierung H drei K neun Trimethylierung zusätzlich zu H drei K 27 Trimethylierung und H drei K 36 Trimethylierung. Diese Datensätze wurden mit den Standardparametereinstellungen für BCP und cser analysiert.
In der Mitte befindet sich die H drei K 36 Trimethylierungsanreicherung an der PX DN Genmarkierung der aktiven Transkription. Erwartungsgemäß fallen an der Transkriptionsstartstelle die zusätzlichen punktförmigen aktiven Markierungen H drei K 27 Acetylierung, H drei K neun Acetylierung und H drei K vier Trimethylierung. Direkt stromabwärts von PXDN befindet sich ein repressierter intergener Raum, der durch H drei K 27 Trimethylierungsanreicherung gekennzeichnet ist, auf der gegenüberliegenden Flanke liegt ein H drei K 27 TRIMETHYLATION unterdrücktes Gen. Noch einen Schritt nach draußen.
Unser stummgeschaltetes Chromatin, wie durch das Vorhandensein von H drei K neun Trimethylierungsanreicherung angezeigt, was auf eine Stilllegung von SN TG zwei und MYT ein L hinzudeuten scheint, möglicherweise in einem weniger vorübergehenden Sinne als H drei K 27 Trimethylierungsrepression. Dieser Bereich umfasst die Mehrzahl der Phänomene, die bei ChIPseek von Histonmodifikationen auftreten. Es wird veranschaulicht, wie die dynamische Natur von BCP sowohl die punktuelle Acetylierung als auch H drei K vier Trimethylierungsmarkierungen identifizieren kann, während gleichzeitig große zusammenhängende Inseln der H drei K 27 Trimethylierung und H drei K neun Trimethylierungsrepression sowie die H drei K 36 Trimethylierung aktive Transkription unterschieden werden können.
Dieser Algorithmus kann je nach Anzahl der Lesevorgänge und den Ergebnissen der Genomzeichen etwa 30 Minuten lang durchgeführt werden. Jede signifikante Optimierung, wie sie bei anderen Methoden häufig erforderlich ist, folgt diesem Verfahren. Viele verschiedene Zielproteine der Chromatin-Immunpräzipitation können mit BBCP untersucht werden, einschließlich verschiedener anderer Hisonmodifikationen sowie DNA-bindender Transkriptionsfaktoren, um zusätzliche Fragen zu epigenomischen Mechanismen und Genregulation zu beantworten.
Nachdem Sie sich dieses Video angesehen haben, sollten Sie ein gutes Verständnis dafür haben, wie BCP verwendet wird, um Regionen in Reichweite für diffuse Hisonmarkierungen in der Chipsy-Datenanalyse zu identifizieren.
View the full transcript and gain access to thousands of scientific videos
Diese Studie präsentiert einen Bayesian Change Point (BCP) Algorithmus, der die Analyse von Chromatin-Immunpräzipitationssequenzierdaten (ChIP-seq) verbessert. Durch die Nutzung von Hidden Markov Modellen identifiziert BCP effektiv Regionen der Histon-Anreicherung sowohl in breiten als auch in punktförmigen Datentypen.