Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

A Novel Bayesian Change-point Algoritme for genom-dækkende analyse af Diverse ChIPseq Datatyper

Published: December 10, 2012 doi: 10.3791/4273

Summary

Vores Bayesian Change Point (BCP) algoritme bygger på state-of-the-art fremskridt i modellering skift-point via Hidden Markov Models og anvender dem til chromatin immunoprecipitation sekventering (ChIPseq) dataanalyse. BCP klarer sig godt i både brede og punktformig datatyper, men excellerer i præcist at identificere robuste, reproducerbare øer af diffus histon berigelse.

Abstract

ChIPseq er en almindeligt anvendt teknik til at undersøge protein-DNA-interaktioner. Læs massefylde profiler genereres ved anvendelse ud-sekventering af proteinbundet DNA og tilpasse den korte læser til en reference genom. Berigede regioner er vist som toppe, der ofte afviger dramatisk i form, afhængigt af målproteinet 1. For eksempel, ofte transkriptionsfaktorer binder i et site-og sekvens-specifik måde, og har tendens til at producere punktformig toppe, mens histon modifikationer er mere omsiggribende og er kendetegnet ved brede, diffuse øer af berigelse 2. Pålidelig identifikation af disse regioner var i fokus for vores arbejde.

Algoritmer til at analysere ChIPseq data har ansat forskellige metoder, fra heuristik 3-5 for at strengere statistiske modeller, f.eks skjulte Markov modeller (HMM'er) 6-8. Vi søgt en løsning, minimeres behovet for vanskelige at definere, ad hoc-parametre, som oftekompromisbeslutning og mindske intuitiv anvendelighed af værktøjet. Med hensyn til HMM-baserede metoder, der sigter vi at indskrænke estimeringsmetoder procedurer og enkle, tilstandsmaskiner klassifikationer, der ofte anvendes.

Derudover konventionel ChIPseq dataanalyse involverer kategorisering af den forventede læse tæthed profiler som enten punktformig eller diffuse efterfulgt af efterfølgende anvendelse af et egnet værktøj. Vi desuden til formål at erstatte behovet for disse to særskilte modeller med en enkelt, mere alsidig model, som kan dygtigt dække hele spektret af datatyper.

For at opfylde disse målsætninger, vi først konstrueret en statistisk ramme, der naturligt modelleret ChIPseq datastrukturer ved hjælp af en forkant fremgang i HMM'er 9, som udnytter kun eksplicitte formler-en innovation afgørende for dens ydeevne fordele. Mere avancerede derefter heuristiske modeller, vores HMM plads uendelige skjulte stater gennem etBayesian model. Vi har anvendt den til at identificere rimelig ændring point i læse tæthed, hvilket yderligere definere segmenter af berigelse. Vores analyse viste, hvordan vores Bayesian Change Point (BCP) algoritme havde en reduceret beregningsmæssige kompleksitet-dokumenteret ved en forkortet driftstid og hukommelse fodaftryk. BCP algoritme blev anvendt med succes til både punktformet spids og diffus ø identifikation med robust nøjagtighed og begrænsede bruger-definerede parametre. Dette illustrerede både sin alsidighed og brugervenlighed. Derfor mener vi, det kan gennemføres hurtigt på tværs af et bredt sortiment af datatyper og slutbrugere på en måde, der er let at sammenligne og kontrast, hvilket gør det et fantastisk værktøj for ChIPseq dataanalyse, der kan støtte i samarbejde og bestyrkelse mellem forskergrupper. Her vil vi demonstrere anvendelsen af BCP til eksisterende transkriptionsfaktor 10,11 og epigenetiske data 12 for at illustrere sin nytte.

Protocol

1. Forberedelse inddatafiler for BCP Analysis

  1. Ret kort læser produceret fra sekventering kørsler (Chip og input biblioteker) til den relevante henvisning genomet ved hjælp af det foretrukne kort læsning justering software. De kortlagte lokaliteter bør konverteres til de 6 kolonne browser strækbare data (BED) format 13 (UCSC genom browser, http://genome.ucsc.edu/ ), en tabulatorsepareret linje pr kortlagt læse angivelse af tilknyttede kromosom, start position (0-baseret), slutposition (halvåben), læse navn, score (valgfrit), og streng.

2a. Diffus Læs Profiler: Forbehandling Chip Læs Densiteter til detektion af beriget Islands i Diffuse data

  1. Forlæng Chip og input mappede steder til en forudbestemt fragment længde, dvs. den fragmentstørrelse opmærksomhed under enzymfordøjelse eller sonikering af DNA, sædvanligvis omkring 200 bp. Fragment tæller er derefter tilslagted i tilstødende bakker. Som standard er bin indstillet til den anslåede fragment længde på 200 bp.
  2. Enhver eventuel ændring-point i et sæt bakker med identiske læse tællinger vil højst sandsynligt falde på de yderste grænser. Derfor er det usandsynligt, at en ændring punkt vil forekomme ved en indre adskillelse mellem to siloer med samme læse tæller. Så gruppe tilstødende siloer, med identiske læser pr bin, i en enkelt blok, dvs. bedGraph format 13.

2b. Punktformig Læs Profiler: Forbehandling Chip og Input BED filer til påvisning af Peaks i punktformig data

  1. Akkumuleret overlappende læser for plus og minus streng chip læser separat. The Strand specifikke læse tætheder bør udgøre en bimodal profil af plus og minus toppe. Vælg plus / minus par af de mest beriget toppe og bruge afstanden mellem deres topmøder som et estimat for biblioteket fragment længde.
  2. Skift Chip og input læser halvdelen af ​​fragment length til centrum og genberegne læste densitet flyttet og fusioneret plus og minus strengen læser. Denne metode til at anslå fragment længde blev vedtaget fra Zhang et al. 3. Positioner med identiske fusionere tællinger skal samles i blokke, svarende til trin 2A.2.

3. Estimer Posterior Mean Læs Density af hver blok ved hjælp af vores BCMIX Tilnærmelse

  1. Den læste densitet af hver blok er modelleret som en Poisson-fordeling, Pois t) med en gennemsnitlig parameter efter en blanding af Gamma fordelinger, Γ (α, β), og en forudgående sandsynlighed for en ændring punkt forekommer ved en blokgrænse af p. Konditionering Pois t) på G (α, β) effektivt gør modellen en uendelig tilstand HMM. Estimer hyper-parametre, α, β, og p, ved hjælp af maksimal posterior sandsynlighed.
  2. Eksplicit beregne Bayes estimater forhver blok, θ t, som E (θ t | γ Z). Udskift den mere traditionelle, men tidskrævende frem og tilbage filtre ofte bruges i HMM'er, med mere beregningsmæssigt effektiv Bounded Complexity Blanding tilnærmelse at estimere posteriore midler, θ c. De resulterende posteriore midler vil være "udglattet" til en omtrentlig stykkevis konstant profil, så blokke med identiske, θ c, bør yderligere blokeres sammen med opdaterede grænse koordinater.

4a. Diffus Læs Profiler: Post-proces Posterior metoder, til Segmenter af Diffus Enrichment

  1. Brug det antal input lyder for hver ny θ c blok som baggrund rate, Pois (λ a) og bestemme berigelse ved hjælp af en simpel hypotesetest baseret på, om chippen posterior middelvej, θ c, overskrider nogle tærskel δ. Den 90 th </ Sup>-fraktil er standard d og er i de fleste tilfælde.
  2. Flet tilstødende θ c blokke, der overstiger den berigelse i en enkelt region og rapport flette koordinater i simple BED format. Alternativt kan man indberette det θ c for hver blok i bedGraph format for at bevare de højopløselige detaljer de læste tæthed skøn.

4b. Punktformig Læs Profiler: Post-proces Posterior metoder, til Peak kandidater

  1. Definer baggrunden sats, Pois (λ a), som gennemsnittet af alle læste tællinger (γ 2) og identificere alle blokke, som overstiger tærsklen, d. Da punktformig toppe forventes at være mere væsentligt beriget, er standard δ indstillet til 99 th-fraktil af Pois (λ a).
  2. Sæt blokken med den maksimale θ c som kandidat peak topmøde og støder flankerende blokke, der har samme read theversitet (± 1 læse tælle at tillade lille variation). Denne støder op region er defineret som en kandidat bindingssted.
  3. Beregn λ 2 som den gennemsnitlige læser tæller i chippen kandidat bindingssted og hypotesetest denne versus input baggrund var nulhypotesen, H 0, er, at λ 1λ 2 og afvise H 0 baseret på en p-værdi tærskel. Output kandidat topper i BED format.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

BCP udmærker sig ved at identificere områder af bred berigelse i histon modifikation data. Som et referencepunkt, vi tidligere sammenlignet vores resultater til de af SICER 3, et eksisterende værktøj, der har vist gode resultater. For bedst at illustrere BCP har fordele, vi undersøgte en histon modifikation, der var blevet grundigt undersøgt for at etablere et grundlag for at vurdere succesrate. Med dette i tankerne, vil vi analyseret H3K36me3, da det er blevet vist at associere stærkt med aktivt transkriberede gen organer (figur 1). I modsætning hertil havde H3K36me3 også vist sig at være gensidig eksklusiv til H3K27me3 repressive varemærker. Vi yderligere gearede disse kendte relationer for at illustrere ydeevne fordele BCP i nøjagtigheden af ​​ø opkald ved at bestemme den brøkdel af overlapning med kendte foreninger og disassociations i realiteten korrelation og anti-korrelation. Her vi yderligere underbygge fordelene ved BCP bruger yderligere eksempleraf høj ydeevne.

Vores tidligere arbejde viste en tendens til meget større ø størrelse i BCP, fra 23,9 til 25,8 kb, end SICER, 2,7 til 10,7 kb; større øer er mere på linje med den konventionelle forventning om brede diffuse øer i H3K36me3 berigelse (PLoS Comp Bio, indsendt). Selvfølgelig gør større øer ikke alene indikerer nøjagtighed. Så vi fast besluttet hvor meget overlapper disse regioner havde med kendte gener og kontrast dette med graden af ​​overlapning med intergenisk rum, en indikation af falsk positive rate (FPR). Gene dækning i BCP varierede fra 0,492 til 0,497 sammenlignet med 0,276 til 0,437 i SICER uden alvorligt at påvirke FPR, intergeniske overlap interval fra 0,89 til 0,90 og 0,85 til 0,98 i BCP og SICER hhv. Her præsenterer vi en ekstra repræsentant region viser det tætte forhold mellem grænserne for berigelse og gen organer-klart skelne aktiv og undertrykkeed transkription (figur 1). Dette understøtter yderligere vores påstand om, at BCP fastholder de høje overlap af aktive gener ved H3K36me3 øer med grænser tæt op ad gen organer uden at øge graden af ​​falske positive overlap med intergenisk plads, gener med undertrykte transkription, eller den H3K27me3 repressive karakter.

Mens vurderingen af ​​reproducerbarheden af ​​BCP-ø kalder i to gentagne datasæt, bemærkede vi BCP ikke lider af en stor afhængighed af read dækning dybde i det konkurrerende algoritme, SICER. Vi giver yderligere beviser for BCP robusthed og reproducerbarhed ved at undersøge yderligere forskellige regioner viser konsistente ø grænser på trods af den reducerede dækning dybde (simuleret ved stikprøver læser fra det fulde datasæt) (Figur 2).

For fuldt ud at demonstrere alsidighed BCP fik vi et bredt spektrum af histon modifikation data, herunder punktformet mærkes H3K27ac, H3K9ac, og H3K4me3, og den diffuse varemærke, H3K9me3 foruden H3K27me3 og H3K36me3. Vi analyserede disse datasæt ved hjælp af standard parameterindstillinger for både BCP og SICER (figur 3). Disse mærker repræsenterer en bred vifte af læse tæthed profiler og give os mulighed for at fokusere på en region, der illustrerer mange af de elementer, der sædvanligvis er forbundet med dem. I centrum ligger H3K36me3 berigelse på PXDN genmærknings aktiv transkription. Falder forventeligt på transkriptionsstartstedet er de supplerende punktformig, aktive mærker, H3K27ac, H3K9ac og H3K4me3. Lige neden for PXDN er undertrykt intergenisk rum præget af H3K27me3 berigelse. På den modsatte flanke ligger en H3K27me3 undertrykt gen. Flytning endnu et skridt ud, er tavs kromatin, som indikeret ved tilstedeværelsen af ​​H3K9me3 berigelse, som synes at fremgå tavshed af SNTG2 og MYT1L, måske i en mindre forbigående følelse så H3K27me3 undertrykkelse. Denne region omfatter størstedelen af ​​fænomener enimødegås i ChIPseq af histon ændringer og illustrerer, hvordan den dynamiske karakter af BCP kan identificere både punktformig acetylering og H3K4me3 mærker, mens på samme tid skelne store sammenhængende øer H3K27me3 og H3K9me3 undertrykkelse og H3K36me3 aktiv transkription. At gentage, kan BCP gøre sådan alle disse analyser simpelthen ved standardindstillingerne og som påvist, stadig producere kvalitet resultater, uanset datatype. Algoritmen er ligeledes hurtig og hukommelse effektiv og tilvejebringer således en praktisk overbevisende anvendelighed.

Figur 1
Figur 1. Diffus læse tæthed profiler af histon ændringer. H3K27me3 (øverst) og H3K36me3 (nederst) eksemplificerer de brede, diffuse berigelse øer stærkt forbundet med gen-organer (grønne kasser). H3K27me3 korrelerer med undertrykte gener og intergeniske rum og anticorrelates med aktivt transcribed gen organer. Det modsatte er tilfældet for H3K36me3. Data er visualiseret i UCSC genomet browser ( http://genome.ucsc.edu ).

Figur 2
Figur 2. BCP er robust og reproducerbar. Ø kræver H3K36me3 i to gentagelser, og ved sampling dybde 30, 50 og 70% af den fulde replikat en datasæt blev analyseret med BCP. Den anden gentagelse, med et væsentligt lavere læst dækning, produceret lignende ø opkald og graden af ​​overlap blev stærkt bevaret uanset sampling procent. Desuden øerne forblev nøjagtighed som ses i tæt tilpasning af grænserne med RefSeq gen krop anmærkninger.

Figur 3
Figur 3. BCP er en versaflise algoritme, der kan anvendes på alle histon modifikationer datatyper. BCP og SICER blev brugt til at analysere spektret af datatyper, fra punktformig mærker som H3K27ac, H3K9ac, og H3K4me3, at diffundere mærker som H3K36me3, H3K27me3, og H3K9me3. Brug af standardparametre for begge algoritmer, BCP øer fange beriget tæthed uanset deres bredde, mens SICER ofte fragmenter regioner i mange sub-øer. Selv i den meget brede og diffus tilfælde af H3K9me3 har BCP rimelig ydelse.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Vi satte os for at udvikle en model for analyse ChIPseq oplysninger, der kan identificere både punktformig og diffuse datastrukturer lige godt. Indtil nu har regioner af berigelse, især diffuse regioner, som afspejler den forudsatte forventning om store ø størrelse, været vanskeligt at identificere. For at løse disse problemer, vi udnyttet de seneste fremskridt inden HMM teknologi, som besidder mange fordele i forhold til eksisterende heuristiske modeller og mindre innovative HMM'er.

Vores model gør brug af et Bayesian ramme med eksplicitte formler. Dette er en afgørende forskel fra andre HMM'er, idet den gør det muligt for os at beregne bageste midler, den forventede læse tæthed af hvert segment, med enkle beregninger, snarere end at lægge tidskrævende og beregningsmæssigt dyre simuleringer såsom Markov chain Monte Carlo metoder. Derfor er vores beregningsmetoder gange og krav til hukommelse drastisk reduceret. Brug af højtydende beregne klynger with dual core, 2,0 GHz noder med 2 GB 64-bit hukommelse til at analysere ~ 23 millioner H3K27me3 læser eller ~ 21 millioner H3K36me3 lyder BCP tog mindre end en time for hele genomanalyse sammenlignet med flere timer til dage, der kræves for andre metoder. Disse tidsbesparelse kan opnås med kun beskedne 2 GB hukommelse.

Derudover vores model betingelser de forskellige midler hvert segment, dvs. Pois (θ), på en kontinuerlig Gamma fordeling. Det væsentlige, det giver mulighed for uendelige mulige tilstande for hvert segment. BCP kan give mere end simple binære klassifikationer af beriget versus baggrund og bevarer de læste tæthed størrelser for hvert segment via output posteriore midler.

Gør også brug af det BCMIX algoritme til beregnet effektivitet. Dette muliggør en nær udtømmende søgning efter ændre-point mellem berigelse og baggrund af alle mulige genomiske positioner. Dette giver en øget resolution ikke confined af vilkårlige vindue definitioner, med lille indflydelse på køre tid eller hukommelse krav.

Alt dette er opnået uden at forskubbe nøjagtighed, både i teori, da modellen er statistisk streng og resultaterne konvergere til Bayesian estimator såvel i praksis, som vi har vist her. Genet dækning af vores H3K36me3 resultater tyder øen opkald er meget præcis uden at gribe ind i kendt hinanden udelukket intergenisk plads eller H3K27me3 berigelse. Resultaterne er bemærkelsesværdigt reproducerbare og robust og viste kun lidt afhængighed af dækning dybde, kaldte lignende øer med høj gen dækning og lav FPR trods prøveudtagning dybder helt ned til 30%. BCP blev brugt bredt, uden justering for standardparametre, at analysere en bred vifte af histon modifikation og transcriptionsfaktor ChIPseq data og klaret sig godt i alle tilfælde. Vi håber, at på grund af sin høje nøjagtighed, robusthed og reproducerbarhed, vil BCP tjene som et effektivtværktøj til dataanalyse, samarbejde og bekræftelse i fremtiden.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Ingen interessekonflikter erklæret.

Acknowledgments

STARR fundament Award (MQZ), NIH tilskud ES017166 (MQZ), NSF tilskud DMS0906593 (HX).

Materials

Name Company Catalog Number Comments
Linux-based workstation

DOWNLOAD MATERIALS LIST

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Tags

Genetik Bioinformatik Genomics Molekylærbiologi Cellular Biology Immunology Kromatin immunopræcipitation chip-Seq histon ændringer segmentering Bayesian skjulte Markov modeller epigenetik
A Novel Bayesian Change-point Algoritme for genom-dækkende analyse af Diverse ChIPseq Datatyper
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Xing, H., Liao, W., Mo, Y., Zhang,More

Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter