Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

A Novel Bayesiansk Change-point algoritme for Genome-wide analyse av Diverse ChIPseq Datatyper

Published: December 10, 2012 doi: 10.3791/4273

Summary

Vår Bayesiansk Endre Point (BCP) algoritme bygger på state-of-the-art fremskritt i modellering Change-poeng via Hidden Markov Models og bruker dem til kromatin immunoutfelling sekvensering (ChIPseq) dataanalyse. BCP fungerer godt i både brede og punctate datatyper, men utmerker seg i nøyaktig identifisere robuste, reproduserbare øyene diffuse histone berikelse.

Abstract

ChIPseq er en mye brukt teknikk for å undersøke protein-DNA interaksjoner. Les tetthet profiler genereres ved bruke neste-sekvensering av proteinbundet DNA og samkjøre korte leser til en referanse genom. Anrikede regionene blir avslørt som topper, som ofte avviker dramatisk i form, avhengig av målet protein 1. For eksempel transkripsjonsfaktorer ofte binde i et område-og sekvens-spesifikk måte, og har en tendens til å produsere punctate topper, mens histonmodifikasjonene er mer gjennomgripende og er preget av brede, diffuse øyene berikelse 2. Pålitelig identifisere disse regionene var fokus for vårt arbeid.

Algoritmer for å analysere ChIPseq data har ansatt ulike metoder, fra heuristikk 3-5 til strengere statistiske modeller, f.eks Hidden Markov Modeller (HMM) 6-8. Vi søkt en løsning som minimert nødvendigheten vanskelige å definere, ad hoc parametere som oftekompromiss oppløsning og minske den intuitive brukervennligheten av verktøyet. Med hensyn til HMM-baserte metoder, rettet vi å begrense parameterestimering prosedyrer og enkle, tilstandsautomater klassifikasjoner som ofte benyttes.

I tillegg innebærer konvensjonell ChIPseq dataanalyse kategorisering av forventet lese tetthet profiler som enten punctate eller diffuse etterfulgt av påfølgende bruk av riktig verktøy. Vi videre mål å erstatte behovet for disse to forskjellige modeller med et enkelt, mer allsidig modell som kan capably adressere hele spekteret av datatyper.

For å møte disse målene, må vi først konstruert en statistisk rammeverk som naturlig modelleres ChIPseq datastrukturer ved hjelp av en cutting edge forhånd i HMM 9, som utnytter bare eksplisitte formler-en nyvinning avgjørende for dens ytelse fordeler. Mer sofistikerte deretter heuristiske modeller, plass vår HMM uendelig skjulte stater gjennom enBayesiansk modell. Vi har brukt den til å identifisere rimelig endring poeng i lese tetthet, noe som ytterligere definerer deler av berikelse. Vår analyse viste hvordan vår Bayesiansk Endre Point (BCP) algoritmen hadde redusert beregningsorientert kompleksitet-dokumentert av en forkortet kjøretid og minne fotavtrykk. BCP algoritmen ble vellykket gjaldt både punctate topp og diffuse øya identifikasjon med robust nøyaktighet og begrensede brukerdefinerte parametere. Denne illustrerte både allsidighet og brukervennlighet. Derfor tror vi det kan gjennomføres lett over brede områder av datatyper og sluttbrukere på en måte som er lett sammenlignes og kontrastert, noe som gjør det til et flott verktøy for ChIPseq dataanalyse som kan hjelpe i samarbeid og bekreftelse mellom forskningsmiljøer. Her viser vi anvendelsen av BCP til eksisterende transkripsjonsfaktor 10,11 og epigenetiske data 12 for å illustrere sin nytte.

Protocol

1. Forbereder innfiler for BCP Analyse

  1. Juster den korte leser produsert fra sekvensering kjøringer (chip og inndata biblioteker) til riktig referanse genomet med foretrukne korte leste innretting programvare. De kartlagte steder skal omgjøres til de 6 kolonne nettleseren utvidbar data (BED) størrelse 13 (UCSC genom nettleser, http://genome.ucsc.edu/ ), en tabulatordelt linje per kartlagt lese indikerer kartlagte kromosom, startposisjon (0-basert), endeposisjon (halvåpen), lese navn, score (valgfritt), og strand.

2a. Diffuse Les Profiler: forhåndsbehandling ChIP Les Tettheten for deteksjon av Enriched Islands i Diffuse data

  1. Utvide chip og innspill kartlagte steder til en forhåndsbestemt fragment lengde, altså. fragmentet størrelsen målrettet under enzym fordøyelse eller sonikering av DNA, vanligvis rundt 200 bp. Fragment teller er så plateaggregasjonted i tilstøtende hyllene. Som standard er bin størrelse satt til estimert fragment lengde på 200 bp.
  2. Eventuell endring-poeng i et sett med hyller med identiske lese teller vil mest sannsynlig falle på de ytterste grenser. Følgelig, er det usannsynlig at en endring punktet vil oppstå ved en intern grense mellom to hyller med samme read teller. Så leser gruppe tilstøtende hyller, med identisk per bin, i en enkelt blokk, altså. bedGraph format 13.

2b. Punctate Les Profiler: forhåndsbehandling chip og Input SENG filer for deteksjon av Peaks i punctate data

  1. Samlet overlappende leser for pluss og minus tråd ChIP leser separat. Strand spesifikke lese tettheter bør danne en bimodal profilen pluss og minus topper. Velg pluss / minus par av de mest beriket toppene og bruke avstanden mellom deres topper som et anslag for biblioteket fragment lengde.
  2. Skifte chip og innspill leser halve fragment length til sentrum og beregne lese tetthet av forskjøvet og fusjonerte pluss og minus strand leser. Denne metodikk for estimere fragmentlengde ble adoptert fra Zhang, et al. 3. Posisjoner med identiske flettemodi teller bør grupperes i blokker, tilsvarende trinn 2a.2.

3. Anslå Posterior Mean Les Tetthet av hver blokk ved hjelp av vår BCMIX Tilnærming

  1. Lese tettheten av hver blokk er modellert som en Poisson fordeling, Pois t), med en midlere parameter etter en blanding av gamma-distribusjoner Γ (α, β), og en tidligere sannsynlighet for en endring punkt forekommende på noen blokk grensen av p. Conditioning Pois t) på G (α, β) gjengir effektivt modellen en uendelig tilstand HMM. Anslå hyper-parametre, α, β og p, ved hjelp av maksimal posterior sannsynlighet.
  2. Eksplisitt beregne Bayes anslag forhver blokk, θ t, som E (θ t | γ Z). Erstatte mer tradisjonelle, men tidkrevende forover og bakover filtre ofte brukes i HMM, med mer beregningsmessig effektivt Avgrenset Complexity Blanding tilnærming til å anslå bakre del, θ c. De resulterende posterior midler vil være "glattet" inn en omtrentlig stykkevis konstant profil slik blokker med identiske, θ c, bør ytterligere sperret sammen med oppdaterte grense koordinater.

4a. Diffuse Les Profiler: Post-prosess Posterior Midler til Segmenter av Diffuse Enrichment

  1. Bruk antall input leser for hver ny θ c blokk som bakgrunn rate, Pois (λ a) og bestemme berikelse ved hjelp av en enkel hypotesetest basert på om ChIP posterior mener, θ c, overstiger en viss terskel δ. Den 90 th </ Sup>-kvantil er standard d og passer i de fleste tilfeller.
  2. Flett tilstøtende θ c blokker som overstiger berikelse i en enkelt region og rapportere flette koordinater i enkel seng format. Alternativt kan en rapportere θ c for hver blokk i bedGraph format for å bevare de høyoppløselige detaljer av lese tetthetsestimater.

4b. Punctate Les Profiler: Post-prosess Posterior Midler til Peak Kandidater

  1. Definer bakgrunnen rente, Pois (λ a), som gjennomsnittet av alle leste teller (γ 2) og identifisere alle blokkene som overstiger terskelen, d. Siden punctate topper forventes å være mer vesentlig beriket, er standard δ satt til 99 th-kvantil av Pois (λ a).
  2. Still blokken med maksimal θ c som kandidat peak toppmøtet og arknummer flanking blokker som deler en lignende lese density (± 1 lese telle for å tillate liten variasjon). Dette adjoined region er definert som en kandidat bindingssetet.
  3. Beregn λ 2 som gjennomsnittlig leser teller i chip kandidat bindende nettstedet og hypotesetest denne versus inngang bakgrunnen var nullhypotesen, H 0, er at λ 1λ 2 og avviser H 0 basert på en p-verdi terskel. Utgang kandidat topper i BED format.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

BCP utmerker seg ved å identifisere områder av bred berikelse i histone modifisering data. Som et referansepunkt, vi tidligere sammenlignet våre resultater med de av tre SICER, en eksisterende verktøy som har vist sterke resultater. Til beste illustrere BCP fordeler, undersøkte vi en histone modifikasjon som hadde vært godt undersøkt for å etablere et grunnlag for å vurdere suksess priser. Med dette i tankene, vi deretter analysert H3K36me3, siden det har blitt vist å assosiere sterkt med aktivt transkriberte genet kropper (figur 1). I kontrast, hadde H3K36me3 også vist seg å være gjensidig eksklusivt til H3K27me3 undertrykkende merkene. Vi ytterligere leveraged disse kjente forhold for å illustrere ytelsen fordelene med BCP i nøyaktigheten av øya samtaler ved å bestemme brøkdel av overlapping med kjente foreninger og disassociations, i kraft korrelasjon og anti-korrelasjon. Her har vi ytterligere underbygge fordelene av BCP bruker flere eksemplerav høy ytelse.

Vår tidligere verk viste en tendens til mye større øy størrelse i BCP, 23,9 til 25,8 kb, enn SICER, 02.07 til 10.07 kb, større øyer blir mer i tråd med den konvensjonelle forventning brede diffuse øyene H3K36me3 berikelse (PLoS Comp Bio, innsendt). Selvfølgelig, større øyer ikke alene indikerer nøyaktighet. Så, har vi konkludert hvor mye overlapper disse regionene hadde med kjente gener og kontrastert dette med graden av overlapping med intergeniske plass, en indikasjon på falskt positive (FPR). Gene dekning i BCP varierte 0,492 til 0,497 sammenlignet med 0,276 til 0,437 i SICER uten alvorlig påvirker FPR, intergeniske overlapp utvalg 0,89 til 0,90 og 0,85 til 0,98 i BCP og SICER, henholdsvis. Her presenterer vi en ekstra representant regionen viser det nære forholdet mellom grensene for berikelse og genet organer-klart skille aktive og undertrykkeed transkripsjon (Figur 1). Dette ytterligere støtter vår påstand om at BCP opprettholder de høye overlapping av aktive gener ved H3K36me3 øyer med grenser tett justert til genet organer uten å øke graden av falske positive overlapping med intergeniske plass, gener med undertrykte transkripsjon, eller H3K27me3 undertrykkende mark.

Mens vurdere reproduserbarheten BCP-øya kaller i to gjentatte datasett, la vi merke til BCP ikke lider av en tung avhengighet lese dekning dybde i konkurrerende algoritmen, SICER. Vi gir ytterligere bevis på BCP robusthet og reproduserbarhet ved å undersøke ytterligere distinkte regioner demonstrere konsistente øya grenser til tross for redusert dekning dybden (simulert ved prøvetaking leser fra fullstendige datasettet) (Figur 2).

Å fullt demonstrere allsidighet av BCP, fikk vi et bredt spekter av histone modifisering data, inkludert punctate marks H3K27ac, H3K9ac og H3K4me3, og diffuse mark, H3K9me3, i tillegg til og H3K27me3 H3K36me3. Vi analyserte disse datasett bruker standardinnstillingene parameterinnstillinger for både BCP og SICER (figur 3). Disse merkene representerer et bredt spekter av lese tetthet profiler og tillate oss å fokusere på et område som illustrerer mange av funksjonene som vanligvis forbindes med dem. I sentrum ligger H3K36me3 berikelse på PXDN genet merking aktiv transkripsjon. Faller expectedly på transkripsjon start nettstedet, er ekstra punctate, aktive merker, H3K27ac, H3K9ac og H3K4me3. Rett nedstrøms PXDN er undertrykt intergeniske plass preget av H3K27me3 berikelse. På motsatt flanke ligger en H3K27me3 undertrykt genet. Flytte ett skritt ut er dempet kromatin, som indikert av tilstedeværelsen av H3K9me3 berikelse som synes å indikere stanse SNTG2 og MYT1L, kanskje i en mindre forbigående følelse da H3K27me3 undertrykkelse. Denne regionen omfatter hoveddelen av fenomener nomotvirkes i ChIPseq av histonmodifikasjonene og illustrerer hvordan den dynamiske natur BCP kan identifisere både punctate acetylering og H3K4me3 merker, mens på samme tid å skille store sammenhengende øyene H3K27me3 og H3K9me3 undertrykkelse og H3K36me3 aktiv transkripsjon. For å gjenta, kan BCP gjøre slik alle disse analysene bare på standardinnstillingene, og som viste fortsatt produsere bedre resultater, uavhengig av datatypen. Algoritmen er også rask og minne effektiv og således gir en nesten overbevisende nytten.

Figur 1
Figur 1. Diffus lese tetthet profiler av histonmodifikasjonene. H3K27me3 (øverst) og H3K36me3 (nederst) er eksempler på brede, diffuse berikelse øyer sterkt forbundet med genet organer (grønne bokser). H3K27me3 korrelerer med fortrengte gener og intergeniske plass og anticorrelates med aktivt stanscribed genet organer. Det motsatte er tilfelle for H3K36me3. Data er visualisert i UCSC genomet nettleser ( http://genome.ucsc.edu ).

Figur 2
Figur 2. BCP er robust og reproduserbar. Øy krever H3K36me3 i to replikater og på prøvetaking dybder med 30, 50 og 70% av den fulle replikat 1 datasett ble analysert med BCP. Den andre replikere, med et vesentlig lavere lese dekning, viste liknende øy samtaler og graden av overlapping var sterkt beholdt uansett prøvetaking prosentandel. Videre forble øyene nøyaktighet som sett i den nære justering av grenser med RefSeq genet kroppen merknader.

Figur 3
Figur 3. BCP er en versaflis algoritme som kan brukes på alle histonmodifikasjonene datatyper. BCP og SICER ble brukt til å analysere hele spekteret av datatyper, fra punctate merker som H3K27ac, H3K9ac, og H3K4me3, å spre merkene som H3K36me3, H3K27me3, og H3K9me3. Hjelp av standard parametere for begge algoritmer, BCP øyene fange beriket tetthet uavhengig av bredde sin mens SICER ofte fragmenter regioner i mange sub-øyene. Selv i svært bred og diffus tilfelle av H3K9me3 har BCP rimelig ytelse.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Vi dro ut for å utvikle en modell for å analysere ChIPseq data som kan identifisere både punctate og diffuse datastrukturer like godt. Inntil nå har deler av berikelse, særlig diffuse regioner, som reflekterer forutsatte forventning store øya størrelse, vært vanskelig å identifisere. Å løse disse problemene, benyttet vi de nyeste fremskritt innen HMM teknologi, som besitter mange fordeler fremfor eksisterende heuristiske modeller og mindre innovative HMM.

Vår modell gjør bruk av en bayesiansk rammeverk med klare formler. Dette er en viktig forskjell fra andre HMM, ved at det gjør oss i stand til å beregne bakre midler, forventes lese tetthet av hvert segment, med enkle beregninger, heller enn å stole på tidkrevende og beregningsmessig kostbart simuleringer som Markov kjede Monte Carlo metoder. Derfor er våre beregninger ganger og minne krav dramatisk redusert. Med høy ytelse dataklynger with dual core, 2,0 GHz noder med 2 GB 64-bits minne å analysere ~ 23 millioner H3K27me3 leser eller ~ 21 millioner H3K36me3 leser, BCP tok mindre enn en time for hele genomanalyse forhold til flere timer eller dager som kreves for andre metoder. Disse timesavings kan oppnås med kun beskjedne 2 GB minne.

I tillegg vår modell forholdene de ulike former for hvert segment, altså. Pois (θ), på en kontinuerlig Gamma distribusjon. I hovedsak kan dette for uendelig mulige tilstander for hvert segment. BCP kan gi mer enn enkle binære klassifiseringer av beriket versus bakgrunn og bevarer de leste tetthet magnitudes for hvert segment via utgang bakre midler.

Vi gjør også bruk av BCMIX algoritme for beregningsvitenskap effektivitet. Dette muliggjør en nær uttømmende søk etter Change-poeng mellom berikelse og bakgrunnen av alle mulige genomisk posisjoner. Dette gir en økt oppløsning ikke confined av vilkårlige vindu definisjoner, med liten innvirkning på kjøre tid eller minne krav.

Dette er alt oppnådd uten perturbing nøyaktighet, både i teori, siden modellen er statistisk strenge og dens resultater konvergerer mot Bayesiansk estimator, så vel i praksis, som vi har vist her. Genet dekning av våre H3K36me3 resultater tyder på øya samtaler svært nøyaktig uten encroaching inn kjente gjensidig utelukket intergeniske plass eller H3K27me3 berikelse. Resultatene er bemerkelsesverdig reproduserbar og robust og viste liten avhengighet dekning dybde, ringer lignende øyer med høy genet dekning og lav FPR tross prøvetaking dybder så lavt som 30%. BCP ble brukt bredt, uten justering for standard parametere, for å analysere et bredt spekter av histone modifisering og transkripsjon faktor ChIPseq data og resultater i alle tilfeller. Vi håper at grunnet sin høy nøyaktighet, robusthet og reproduserbarhet, vil BCP tjene som en effektivverktøy for dataanalyse, samarbeid og bekreftelse i fremtiden.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Ingen interessekonflikter erklært.

Acknowledgments

STARR Foundation Award (MQZ), NIH stipend ES017166 (MQZ), NSF stipend DMS0906593 (HX).

Materials

Name Company Catalog Number Comments
Linux-based workstation

DOWNLOAD MATERIALS LIST

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Tags

Genetikk bioinformatikk genomikk molekylær biologi cellebiologi immunologi Chromatin immunoutfelling chip-Seq histonmodifikasjonene segmentering Bayesianske Skjult Markov Modeller epigenetikk
A Novel Bayesiansk Change-point algoritme for Genome-wide analyse av Diverse ChIPseq Datatyper
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Xing, H., Liao, W., Mo, Y., Zhang,More

Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter