Vores Bayesian Change Point (BCP) algoritme bygger på state-of-the-art fremskridt i modellering skift-point via Hidden Markov Models og anvender dem til chromatin immunoprecipitation sekventering (ChIPseq) dataanalyse. BCP klarer sig godt i både brede og punktformig datatyper, men excellerer i præcist at identificere robuste, reproducerbare øer af diffus histon berigelse.
ChIPseq er en almindeligt anvendt teknik til at undersøge protein-DNA-interaktioner. Læs massefylde profiler genereres ved anvendelse ud-sekventering af proteinbundet DNA og tilpasse den korte læser til en reference genom. Berigede regioner er vist som toppe, der ofte afviger dramatisk i form, afhængigt af målproteinet 1. For eksempel, ofte transkriptionsfaktorer binder i et site-og sekvens-specifik måde, og har tendens til at producere punktformig toppe, mens histon modifikationer er mere omsiggribende og er kendetegnet ved brede, diffuse øer af berigelse 2. Pålidelig identifikation af disse regioner var i fokus for vores arbejde.
Algoritmer til at analysere ChIPseq data har ansat forskellige metoder, fra heuristik 3-5 for at strengere statistiske modeller, f.eks skjulte Markov modeller (HMM'er) 6-8. Vi søgt en løsning, minimeres behovet for vanskelige at definere, ad hoc-parametre, som oftekompromisbeslutning og mindske intuitiv anvendelighed af værktøjet. Med hensyn til HMM-baserede metoder, der sigter vi at indskrænke estimeringsmetoder procedurer og enkle, tilstandsmaskiner klassifikationer, der ofte anvendes.
Derudover konventionel ChIPseq dataanalyse involverer kategorisering af den forventede læse tæthed profiler som enten punktformig eller diffuse efterfulgt af efterfølgende anvendelse af et egnet værktøj. Vi desuden til formål at erstatte behovet for disse to særskilte modeller med en enkelt, mere alsidig model, som kan dygtigt dække hele spektret af datatyper.
For at opfylde disse målsætninger, vi først konstrueret en statistisk ramme, der naturligt modelleret ChIPseq datastrukturer ved hjælp af en forkant fremgang i HMM'er 9, som udnytter kun eksplicitte formler-en innovation afgørende for dens ydeevne fordele. Mere avancerede derefter heuristiske modeller, vores HMM plads uendelige skjulte stater gennem etBayesian model. Vi har anvendt den til at identificere rimelig ændring point i læse tæthed, hvilket yderligere definere segmenter af berigelse. Vores analyse viste, hvordan vores Bayesian Change Point (BCP) algoritme havde en reduceret beregningsmæssige kompleksitet-dokumenteret ved en forkortet driftstid og hukommelse fodaftryk. BCP algoritme blev anvendt med succes til både punktformet spids og diffus ø identifikation med robust nøjagtighed og begrænsede bruger-definerede parametre. Dette illustrerede både sin alsidighed og brugervenlighed. Derfor mener vi, det kan gennemføres hurtigt på tværs af et bredt sortiment af datatyper og slutbrugere på en måde, der er let at sammenligne og kontrast, hvilket gør det et fantastisk værktøj for ChIPseq dataanalyse, der kan støtte i samarbejde og bestyrkelse mellem forskergrupper. Her vil vi demonstrere anvendelsen af BCP til eksisterende transkriptionsfaktor 10,11 og epigenetiske data 12 for at illustrere sin nytte.
Vi satte os for at udvikle en model for analyse ChIPseq oplysninger, der kan identificere både punktformig og diffuse datastrukturer lige godt. Indtil nu har regioner af berigelse, især diffuse regioner, som afspejler den forudsatte forventning om store ø størrelse, været vanskeligt at identificere. For at løse disse problemer, vi udnyttet de seneste fremskridt inden HMM teknologi, som besidder mange fordele i forhold til eksisterende heuristiske modeller og mindre innovative HMM'er.
<p class="jove_content…The authors have nothing to disclose.
STARR fundament Award (MQZ), NIH tilskud ES017166 (MQZ), NSF tilskud DMS0906593 (HX).
Name of the reagent | Company | Catalogue number | Comments (optional) |
Linux-based workstation |