Onze Bayesiaanse Change Point (BCP) algoritme is gebaseerd op state-of-the-art ontwikkelingen in het modelleren change-punten via Hidden Markov Models en past deze toe op chromatine immunoprecipitatie sequencing (ChIPseq) data-analyse. BCP presteert goed in zowel brede en punctata data types, maar blinkt uit in nauwkeurig identificeren van robuuste, reproduceerbare eilanden van diffuse histon verrijking.
ChIPseq is een veel gebruikte techniek voor het onderzoeken van eiwit-DNA interacties. Lees dichtheidsprofielen zijn gegenereerd met next-sequencing van eiwitgebonden DNA en uitlijnen korte leest een referentie genoom. Verrijkte gebieden worden geopenbaard als pieken die vaak sterk in vorm, afhankelijk van het doeleiwit 1. Bijvoorbeeld transcriptiefactoren binden vaak in een plaats-en sequentie-specifieke wijze en meestal punctata pieken produceren, terwijl histon-modificaties zijn alomtegenwoordig en worden gekenmerkt door brede diffuse eilanden verrijking 2. Betrouwbaar bepalen van deze regio was de focus van ons werk.
Algoritmen voor het analyseren van ChIPseq gegevens met behulp van uiteenlopende methodieken, van heuristiek 3-5 om strengere statistische modellen, zoals Hidden Markov Models (HMM's) 6-8. We zochten een oplossing die de noodzaak voor moeilijk te definiëren, ad hoc parameters die vaak geminimaliseerdcompromisresolutie en het verminderen van de intuïtieve bruikbaarheid van het gereedschap. Met betrekking tot HMM-gebaseerde methoden, hebben we geprobeerd om parameterschatting procedures en eenvoudige, finite state classificaties die vaak worden gebruikt beknotten.
Bovendien, conventionele ChIPseq data-analyse omvat categorisering van de verwachte gelezen dichtheid profielen als ofwel punctata of diffuse gevolgd door verdere toepassing van de juiste tool. Verder hebben we gericht op de noodzaak van deze twee verschillende modellen te vervangen door een enkele, veelzijdiger model, dat bekwaam kan de volledige spectrum van data types.
Om deze doelstellingen te bereiken, moeten we eerst construeerde een statistisch kader dat van nature gemodelleerde ChIPseq data structuren met behulp van een cutting edge vooruitgang in HMM's 9, die alleen expliciete maakt gebruik van formules-een innovatie van cruciaal belang om de prestaties voordelen. Meer geavanceerde dan heuristische modellen, onze HMM biedt oneindige verborgen staten door middel van eenBayesiaanse model. We pasten het aan het identificeren van een redelijke verandering punten in te lezen dichtheid, die verder definiëren segmenten van verrijking. Onze analyse toonde aan hoe onze Bayesiaanse Change Point (BCP) algoritme een verminderde computationele complexiteit-blijkt uit een verkorte looptijd en het geheugen footprint had. De BCP-algoritme werd met succes toegepast op zowel punctata piek en diffuse eiland identificatie met robuuste nauwkeurigheid en beperkte gebruiker gedefinieerde parameters. Deze geïllustreerde zowel de veelzijdigheid en het gebruiksgemak. Daarom geloven we dat het gemakkelijk kan worden geïmplementeerd in een breed bereik van data types en eindgebruikers op een manier die gemakkelijk wordt vergeleken en gecontrasteerd, waardoor het een geweldig hulpmiddel voor ChIPseq data-analyse die kunnen helpen bij samenwerking en bevestiging tussen onderzoeksgroepen. Hier laten we zien op de toepassing van BCP bestaande transcriptiefactor 10,11 en epigenetische gegevens 12 het nut ervan illustreren.
Wij hebben de ambitie om een model voor het analyseren van ChIPseq gegevens die zouden kunnen identificeren zowel punctata en diffuse datastructuren even goed te ontwikkelen. Tot nu toe regio verrijking name diffuse regio's, die de veronderstelde verwachting groot eiland grootte weerspiegelen moeilijk te identificeren. Om deze problemen aan te pakken, hebben we gebruik gemaakt van de meest recente ontwikkelingen in de HMM-technologie, die veel voordelen ten opzichte van bestaande heuristische modellen en minde…
The authors have nothing to disclose.
STARR Foundation Award (MQZ), NIH subsidie ES017166 (MQZ), NSF subsidie DMS0906593 (HX).
Name of the reagent | Company | Catalogue number | Comments (optional) |
Linux-based workstation |