Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

A Novel Bayesian Change-punkt Algoritm för Genomvid analys av olika ChIPseq datatyper

Published: December 10, 2012 doi: 10.3791/4273

Summary

Vår Bayesiansk Ändra Point (BCP) algoritmen bygger på state-of-the-art framsteg inom modellering change-poäng genom Hidden Markov Models och överför dem till kromatin immunoprecipitation sekvensering (ChIPseq) dataanalys. BCP presterar bra i både breda och punktformig datatyper, men utmärker sig i exakt identifiera robusta, reproducerbara öarna diffus histon anrikning.

Abstract

ChIPseq är en allmänt använd teknik för att undersöka protein-DNA interaktioner. Läs densitet profiler genereras med hjälp nästa sekvensering av proteinbundet DNA och anpassa den korta läser till en referens genom. Anrikade regioner avslöjade som toppar, som ofta skiljer dramatiskt i form, beroende på målproteinet 1. Till exempel transkriptionsfaktorer binder ofta på en plats-och sekvensspecifikt sätt och tenderar att producera punktat toppar, medan histon ändringar är mer genomgripande och kännetecknas av breda, diffusa öar av anrikning 2. Tillförlitligt identifiera dessa regioner var i fokus för vårt arbete.

Algoritmer för analys ChIPseq uppgifter har använt olika metoder, från heuristik 3-5 till strängare statistiska modeller, t.ex. Hidden Markov Models (HMM) 6-8. Vi sökte en lösning som minimerat behovet av svåra att definiera, ad hoc parametrar som oftakompromissresolution och minska intuitiva användbarhet av verktyget. När det gäller HMM-baserade metoder, som syftar vi att begränsa förfaranden parameteruppskattning och enkla, ändliga klassificeringar statliga som ofta används.

Dessutom innebär konventionell ChIPseq dataanalys kategorisering av den förväntade läsa densitet profiler som antingen punktat eller diffusa följt av efterföljande applicering av ett lämpligt verktyg. Vi syftade vidare att ersätta behovet av dessa två olika modeller med en enda, mer mångsidig modell som skickligt kan hantera hela spektrumet av datatyper.

För att uppnå dessa mål, vi först konstruerade en statistisk ram som naturligt modellerade ChIPseq datastrukturer med hjälp av en banbrytande framsteg i HMMer 9, som använder endast explicita formler, en innovation avgörande för dess prestanda fördelar. Mer sofistikerade sedan heuristiska modeller rymmer vår HMM oändliga dolda staterna genom ettBayesiansk modell. Vi tillämpade den att identifiera rimlig förändring poäng läses densitet, vilket ytterligare definiera segment av anrikning. Vår analys visade hur vår Bayes Ändra Point (BCP) algoritm hade en reducerad beräkningskomplexitet-framgår av en förkortad körtid och minnesanvändning. BCP-algoritmen framgångsrikt tillämpats på både punktformig topp och diffus ö identifikation med robust noggrannhet och begränsade användardefinierade parametrar. Denna illustrerade både dess mångsidighet och användarvänlighet. Därför anser vi att det kan genomföras snabbt över breda områden av datatyper och slutanvändare på ett sätt som är lätt att jämfört och kontrasterade, vilket gör det till ett utmärkt verktyg för ChIPseq dataanalys som kan hjälpa samarbete och bekräftelse mellan forskargrupper. Här visar vi att tillämpa BCP till befintlig transkriptionsfaktor 10,11 och epigenetiska uppgifter 12 för att illustrera dess användbarhet.

Protocol

1. Förbereda indatafiler för BCP analys

  1. Rikta den korta läser produceras från sekvensering körningar (chip och bibliotek input) till lämplig referens genomet med hjälp av föredragna korta programmet läsning inriktning. De mappade platser bör omvandlas till 6 utdragbara kolumnen webbläsare data (BED) format 13 (UCSC genomet webbläsare, http://genome.ucsc.edu/ ), en tabbavgränsad linje per mappad läsa indikerar mappade kromosom, startläge (0-baserade), ändläge (halvöppen), läsa namn, poäng (valfritt) och Strand.

2a. Diffus Läs Profiler: Förbehandling chip Läs densiteter för detektering av anrikad öarna i Diffusa data

  1. Förläng chip och input mappade platser till en förutbestämd fragment längd, dvs. fragmentet storlek riktade under enzymdigerering eller sonikering av DNA, vanligtvis omkring 200 bp. Fragment räknas därefter aggregeradeTed i angränsande fack. Som standard är bin storlek inställd på den uppskattade fragmentet längd 200 bp.
  2. Eventuella förändringar-punkter i en uppsättning fack med identiska läsa räknas kommer sannolikt falla på de yttersta gränserna. Följaktligen är det osannolikt att en förändring punkt kommer att inträffa vid en inre gräns mellan två fack med samma läs räknas. Så lyder grupp angränsande lådor med identiska per bin, till ett enda block, dvs. bedGraph formatet 13.

2b. Punktuell Läs Profiler: Förbehandling Chip och indatafiler säng för detektering av toppar i punktat data

  1. Aggregate överlappande läser för plus och minus sträng chip läser separat. Strand specifika läs tätheter bör bilda en bimodal profil plus och minus toppar. Välj plus / minus par av de mest berikade topparna och använda avståndet mellan deras toppar som en uppskattning för biblioteket fragment length.
  2. Flytta chip och ingången läser halv fragmentet length till centrum och räkna om läs densitet skiftade och samman plus och minus sträng läser. Denna metod för att bedöma fragmentet längd antogs från Zhang et al. 3. Positioner med identiska kopplingsfält räknas skall grupperas i block, liknande steg 2A.2.

3. Uppskatta posteriora medelvärde Läs Densitet av varje block med hjälp av vår BCMIX Tillnärmning

  1. Den läs densiteten av varje block är modellerad som en Poisson-fördelning, Pois t), med en genomsnittlig parameter efter en blandning av Gamma distributioner, Γ (α, β), och en tidigare sannolikhet för en förändring punkt uppträder vid varje blockgräns p. Konditionering Pois t) på G (α, β) gör effektivt modell en oändlig tillstånd HMM. Uppskatta hyper-parametrar, α, β och p, med maximal bakre sannolikhet.
  2. Uttryckligen beräkna Bayes uppskattningar förvarje block, θ t som E (θ t | γ Z). Byt den mer traditionella men tidskrävande framåt och bakåt filter som ofta används i HMMer, med mera beräkningsmässigt effektivare Bounded Komplexitet Blandning approximation uppskatta bakre medel, θ c.. De resulterande bakre medel kommer att "utjämnade" till en ungefärlig styckvis konstant profil så block med identiska, θ C, ytterligare ska blockeras tillsammans med uppdaterade gräns koordinater.

4a. Diffus Läs Profiler: Post-process Posterior Medel till Segment av diffus Enrichment

  1. Använda antalet ingången läser per varje ny θ C-blocket som bakgrund takt, POI (λ a) och bestämma berikning med ett enkelt hypotestest baserat på huruvida chipet bakre medelvärdet, θ c överskrider en viss tröskel δ. Den 90: e </ Sup>-kvantil är standard d och är lämplig i de flesta fall.
  2. Sammanfoga intill θ c block som överstiger anrikning till en enda region och rapporten samman koordinater i enkel säng-format. Alternativt kan en rapportera θ c för varje block i bedGraph format att bevara högupplösta detaljer om lästa densitet uppskattningar.

4b. Punktuell Läs Profiler: Post-process Posterior Medel till Peak kandidater

  1. Definiera den bakgrundsinformation som ränta, POI (λ a), som genomsnittet av alla lästa räkningar (γ 2) och identifiera alla block som överskrider tröskelvärdet, d.. Eftersom punktuell toppar förväntas vara mer väsentligt berikad är standard δ inställd på 99: e-kvantil över intressepunkter (λ a).
  2. Ställ blocket med maximal θ C som kandidat topp toppmötet och gränsar kompletterande block som delar en liknande läsning Denmångfald (± 1 läser räkna för att möjliggöra liten variation). Denna adjoined område definieras som en kandidat bindningsställe.
  3. Beräkna λ 2 som de lästa genomsnittliga räknas i chippet kandidaten bindningsstället och hypotestest denna kontra ingång bakgrund var nollhypotesen, H 0, är att λ 1λ 2 och förkasta H 0 baserat på ett p-värde tröskelvärdet. Utgång kandidatländerna toppar i BED format.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

BCP överträffar att identifiera områden med bred anrikning i histonmodifiering data. Som en referenspunkt, jämförde vi tidigare våra resultat till de av SICER 3, en befintlig verktyg som har visat stark utveckling. För att bäst illustrera BCP: s fördelar, har vi granskat en histonmodifiering som hade studerats väl att skapa en grund för att bedöma framgångsrika. Med detta i åtanke, analyserade vi sedan H3K36me3, eftersom det har visat sig associera starkt med aktivt transkriberade gen organ (figur 1). Däremot hade H3K36me3 också visat sig vara ett ömsesidigt exklusivt för H3K27me3 repressiva märken. Vi belånade vidare dessa kända förhållanden för att illustrera prestanda fördelar BCP riktigheten i öns samtal genom att bestämma den fraktion av överlappning med kända föreningar och disassociations i praktiken korrelation och anti-korrelation. Här styrka vi ytterligare fördelarna med BCP med ytterligare exempelav hög prestanda.

Vår föregående arbete visat en tendens till mycket större ö storlek i BCP, från 23,9 till 25,8 kb, än SICER, från 2,7 till 10,7 kb, större öar är mer i linje med den konventionella förväntningar breda diffusa öar H3K36me3 anrikning (PLoS Comp Bio lämnade). Naturligtvis inte större öar inte ensam ange noggrannhet. Så bestämde vi hur mycket överlappar dessa regioner hade med kända gener och kontrast detta med den grad av överlappning med intergenisk utrymme, en indikation på falsk positiv rate (FPR). Gene täckning i BCP varierade från 0,492 till 0,497 jämfört med 0,276 till 0,437 i SICER utan att allvarligt påverka den FPR, intergena överlappning intervallet 0,89 till 0,90 och 0,85 till 0,98 i BCP och SICER, respektive. Här presenterar vi en extra företrädare område visar det nära sambandet mellan gränserna för anrikning och gen organ-klart skilja aktiva och undertryckaed transkription (Figur 1). Denna ytterligare stöder vår påstående att BCP håller den höga överlappning av aktiva gener genom H3K36me3 öar med gränser nära förbundna med gen organ utan att öka graden av falska positiva överlappning med intergeniska utrymme, gener med undertryckt transkription eller H3K27me3 repressiva märket.

Medan bedöma reproducerbarheten av BCP-ön samtal i två likadana datamängder, märkte vi BCP inte lider starkt beroende på read täckning djup i konkurrerande algoritmen, SICER. Vi ger ytterligare bevis för BCP robusthet och reproducerbarhet genom att undersöka ytterligare distinkta regioner visar konsekventa ö gränser, trots den minskade täckning djupet (simuleras genom provtagning läser från den fullständiga datauppsättning) (Figur 2).

För att till fullo visa mångsidigheten av BCP, erhöll vi ett brett spektrum av histonmodifiering uppgifter, inklusive punktformig varumärkets H3K27ac, H3K9ac och H3K4me3 och diffusa varumärket, H3K9me3, utöver H3K27me3 och H3K36me3. Vi analyserade dessa dataset med standardinställningarna parametrar för både BCP och SICER (Figur 3). Dessa märken representerar ett brett spektrum av läs densitet profiler och tillåta oss att fokusera på ett område som illustrerar många av de funktioner som vanligen förknippas med dem. I centrum ligger H3K36me3 anrikning på PXDN genen märkning aktiv transkription. Falling oväntat vid transkriptionsstartstället är ytterligare punktat, aktiva varumärken, H3K27ac, H3K9ac och H3K4me3. Bara nedströms PXDN förträngs intergena utrymme markeras med H3K27me3 anrikning. På motsatta flanken ligger en H3K27me3 undertryckta gen. Flytta ett steg ut tystas kromatin, vilket indikeras av närvaron av H3K9me3 anrikning som visas för att indikera tysta SNTG2 och MYT1L, kanske i en mindre övergående känsla då H3K27me3 förtryck. Denna region omfattar de flesta fenomen svmotverkas i ChIPseq av histon ändringar och illustrerar hur den dynamiska karaktären av BCP kan identifiera både punktformig acetylering och H3K4me3 mark medan samtidigt skilja stora sammanhängande öar H3K27me3 och H3K9me3 förtryck och H3K36me3 aktiv transkription. För att upprepa, kan BCP göra en sådan alla dessa analyser enbart på standardinställningarna och som visats, fortfarande producera kvalitet resultat, oavsett datatyp. Algoritmen är också snabb och effektiv minne och tillhandahåller sålunda en praktiskt taget övertygande användbarhet.

Figur 1
Figur 1. Sprid läsa densitet profiler histon ändringar. H3K27me3 (överst) och H3K36me3 (nederst) exemplifierar de breda, diffusa anrikning öar starkt förknippas med genen organ (gröna rutor). H3K27me3 korrelerar med bortträngda gener och intergena utrymme och anticorrelates med aktivt transcribed gen organ. Det motsatta gäller för H3K36me3. Data visualiseras i UCSC genomet webbläsare ( http://genome.ucsc.edu ).

Figur 2
Figur 2. BCP är robust och reproducerbar. Ö kräver H3K36me3 i två replikat och vid provtagning djup av 30, 50 och 70% av den fulla replikat 1 datamängd analyserades med BCP. Den andra replikat, med en väsentligt lägre läsa täckning, producerade liknande ö samtal och graden av överlappning var mycket kvar oavsett provtagning procentsats. Dessutom var öarna noggrannhet som ses i nära samordning av gränser med RefSeq anteckningar gen kropp.

Figur 3
Figur 3. BCP är en versakakel algoritm som kan tillämpas på alla histon modifikationer datatyper. BCP och SICER användes för att analysera spektrat av datatyper, från punktat märken som H3K27ac, H3K9ac och H3K4me3, att sprida märken som H3K36me3, H3K27me3 och H3K9me3. Använda standardparametrarna för båda algoritmerna, BCP öar fånga berikade densiteten oavsett bredd, medan SICER ofta fragment regioner i många sub-öarna. Även i den mycket breda och diffusa fall av H3K9me3 har BCP rimlig prestanda.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Vi bestämde oss för att utveckla en modell för att analysera ChIPseq uppgifter som skulle kunna identifiera både punktat och diffusa datastrukturer lika bra. Hittills har regioner av anrikning, särskilt diffusa regioner som återspeglar förutsatte förväntningar stor ö storlek, varit svårt att identifiera. För att lösa dessa problem, utnyttjade vi de senaste framstegen inom HMM teknik, som har många fördelar jämfört med befintliga heuristiska modeller och mindre innovativa HMMer.

Vår modell utnyttjar en Bayesiansk ram med explicita formler. Detta är en avgörande skillnad från andra HMMer, eftersom det ger oss möjlighet att beräkna bakre medel den förväntade läsa densitet varje segment, med enkla beräkningar i stället för att förlita sig på tidskrävande och beräkningsmässigt kostsamma simuleringar som Markov Chain Monte Carlo-metoder. Därför är våra beräknings tider och krav minne dramatiskt. Med hög prestanda beräkna kluster wie dual core, 2,0 GHz noder med 2 GB 64-bitars minne för att analysera ~ 23 miljoner H3K27me3 läser eller ~ 21 miljoner H3K36me3 läser, tog BCP mindre än en timme för hela genomanalys jämfört med flera timmar till dagar som krävs för andra metoder. Dessa timesavings kan uppnås med endast blygsamma 2 GB minne.

Dessutom vår modell förhållanden olika sätt att varje segment, dvs. POI (θ), på en kontinuerlig gammafördelning. I huvudsak gör detta för oändliga möjliga tillstånd för varje segment. BCP kan ge mer än enkla binära klassificeringar av anrikat kontra bakgrund och bevarar de lästa densitet magnituder för varje segment via utgången bakre medel.

Vi gör också använda BCMIX algoritmen för beräkningseffektivitet. Detta möjliggör en nära uttömmande sökning för change-punkter mellan anrikning och bakgrund av alla tänkbara genomiska lägen. Detta ger en ökad upplösning inte Confined av godtyckliga fönster definitioner, med liten påverkan på körning eller krav minne.

Detta är alla uppnås utan att störa noggrannhet, både i teorin, eftersom modellen är statistiskt noggrann och dess resultat konvergerar till den Bayesianska estimator, liksom i praktiken, eftersom vi har visat här. Genen täckning av våra H3K36me3 resultat tyder ön samtal är mycket exakt utan att inkräkta på känt varandra uteslutna intergena utrymme eller H3K27me3 anrikning. Resultaten är anmärkningsvärt reproducerbara och robust och visade lite beroende täckning djup, kräver liknande öar med hög gen täckning och låg FPR trots provtagning djup så låga som 30%. BCP användes brett utan justeringar standard parametrar, för att analysera ett brett spektrum av histon ändring och transkriptionsfaktor uppgifter ChIPseq och utförs väl i alla fall. Vi hoppas att på grund av dess höga noggrannhet, robusthet och reproducerbarhet kommer BCP fungera som ett effektivtverktyg för dataanalys, samarbete och bekräftelse i framtiden.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Inga intressekonflikter deklareras.

Acknowledgments

STARR Foundation Award (MQZ), NIH bidrag ES017166 (MQZ), NSF bevilja DMS0906593 (HX).

Materials

Name Company Catalog Number Comments
Linux-based workstation

DOWNLOAD MATERIALS LIST

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Tags

Genetik bioinformatik genomik molekylärbiologi Cellulär biologi immunologi Chromatin immunoutfällning chip-Seq histon ändringar segmentering Bayesian Hidden Markov Models epigenetik
A Novel Bayesian Change-punkt Algoritm för Genomvid analys av olika ChIPseq datatyper
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Xing, H., Liao, W., Mo, Y., Zhang,More

Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter