Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

A Novel Bayesiaanse Change-point algoritme voor Genoom-brede analyse van diverse ChIPseq Data Types

Published: December 10, 2012 doi: 10.3791/4273

Summary

Onze Bayesiaanse Change Point (BCP) algoritme is gebaseerd op state-of-the-art ontwikkelingen in het modelleren change-punten via Hidden Markov Models en past deze toe op chromatine immunoprecipitatie sequencing (ChIPseq) data-analyse. BCP presteert goed in zowel brede en punctata data types, maar blinkt uit in nauwkeurig identificeren van robuuste, reproduceerbare eilanden van diffuse histon verrijking.

Abstract

ChIPseq is een veel gebruikte techniek voor het onderzoeken van eiwit-DNA interacties. Lees dichtheidsprofielen zijn gegenereerd met next-sequencing van eiwitgebonden DNA en uitlijnen korte leest een referentie genoom. Verrijkte gebieden worden geopenbaard als pieken die vaak sterk in vorm, afhankelijk van het doeleiwit 1. Bijvoorbeeld transcriptiefactoren binden vaak in een plaats-en sequentie-specifieke wijze en meestal punctata pieken produceren, terwijl histon-modificaties zijn alomtegenwoordig en worden gekenmerkt door brede diffuse eilanden verrijking 2. Betrouwbaar bepalen van deze regio was de focus van ons werk.

Algoritmen voor het analyseren van ChIPseq gegevens met behulp van uiteenlopende methodieken, van heuristiek 3-5 om strengere statistische modellen, zoals Hidden Markov Models (HMM's) 6-8. We zochten een oplossing die de noodzaak voor moeilijk te definiëren, ad hoc parameters die vaak geminimaliseerdcompromisresolutie en het verminderen van de intuïtieve bruikbaarheid van het gereedschap. Met betrekking tot HMM-gebaseerde methoden, hebben we geprobeerd om parameterschatting procedures en eenvoudige, finite state classificaties die vaak worden gebruikt beknotten.

Bovendien, conventionele ChIPseq data-analyse omvat categorisering van de verwachte gelezen dichtheid profielen als ofwel punctata of diffuse gevolgd door verdere toepassing van de juiste tool. Verder hebben we gericht op de noodzaak van deze twee verschillende modellen te vervangen door een enkele, veelzijdiger model, dat bekwaam kan de volledige spectrum van data types.

Om deze doelstellingen te bereiken, moeten we eerst construeerde een statistisch kader dat van nature gemodelleerde ChIPseq data structuren met behulp van een cutting edge vooruitgang in HMM's 9, die alleen expliciete maakt gebruik van formules-een innovatie van cruciaal belang om de prestaties voordelen. Meer geavanceerde dan heuristische modellen, onze HMM biedt oneindige verborgen staten door middel van eenBayesiaanse model. We pasten het aan het identificeren van een redelijke verandering punten in te lezen dichtheid, die verder definiëren segmenten van verrijking. Onze analyse toonde aan hoe onze Bayesiaanse Change Point (BCP) algoritme een verminderde computationele complexiteit-blijkt uit een verkorte looptijd en het geheugen footprint had. De BCP-algoritme werd met succes toegepast op zowel punctata piek en diffuse eiland identificatie met robuuste nauwkeurigheid en beperkte gebruiker gedefinieerde parameters. Deze geïllustreerde zowel de veelzijdigheid en het gebruiksgemak. Daarom geloven we dat het gemakkelijk kan worden geïmplementeerd in een breed bereik van data types en eindgebruikers op een manier die gemakkelijk wordt vergeleken en gecontrasteerd, waardoor het een geweldig hulpmiddel voor ChIPseq data-analyse die kunnen helpen bij samenwerking en bevestiging tussen onderzoeksgroepen. Hier laten we zien op de toepassing van BCP bestaande transcriptiefactor 10,11 en epigenetische gegevens 12 het nut ervan illustreren.

Protocol

1. Voorbereiden invoerbestanden voor BCP Analyse

  1. Lijn de korte leest uit sequencing runs (chip en ingang bibliotheken) naar de juiste referentie-genoom met behulp van de gewenste korte lezen uitlijning software. De in kaart gebrachte locaties dienen te worden omgezet in de 6 kolom browser uitbreidbaar gegevens (BED) formaat 13 (UCSC genoom browser, http://genome.ucsc.edu/ ), een door tabs gescheiden regel per toegewezen lezen aanduiding van de in kaart gebrachte chromosoom, start positie (0-based), eindstand (half-open), lees de naam, score (optioneel) en streng.

2a. Diffuse Lees Profielen: Preprocessing ChIP Lees dichtheden voor de detectie van verrijkte Eilanden in Diffuus gegevens

  1. Verleng de chip en ingang toegewezen locaties om een vooraf bepaalde fragment lengte, dat wil zeggen. de fragmentgrootte gericht tijdens enzymdigestie of sonicatie van DNA, gewoonlijk ongeveer 200 bp. Fragment tellingen zijn dan aggregatieniveauted in aangrenzende bakken. Standaard is bin grootte ingesteld op de geschatte fragment lengte van 200 bp.
  2. Iedere wijziging-punten in een reeks bins met identieke lezen tellingen waarschijnlijk zullen dalen op de buitenste grenzen. Daarom is het onwaarschijnlijk dat een wisselpunt optreedt bij een inwendige grens tussen twee bakken met dezelfde lees telt. Dus, groep aangrenzende bakken, met identieke leest per bak, in een enkel blok, dat wil zeggen. bedGraph format 13.

2b. Punctata Lees Profielen: Preprocessing ChIP en Input BED bestanden voor de detectie van Pieken in punctata gegevens

  1. De totale overlappende leest voor plus en min-streng ChIP leest afzonderlijk. De streng specifieke gelezen dichtheden moeten vormen een bimodale profiel van plus en min pieken. Kies plus / min paar van de meest verrijkte pieken en gebruik maken van de afstand tussen hun toppen als een schatting voor de bibliotheek fragment lengte.
  2. Schuif de ChIP en input leest de helft van de fragment length naar het centrum en herberekent de las dichtheid van de verschoven en samengevoegd plus en min-streng leest. Deze methode voor het schatten van de lengte fragment werd overgenomen van Zhang, et al.. 3. Posities met identieke merge tellingen moeten worden gegroepeerd in blokken, vergelijkbaar met 2A.2 stap.

3. Schat de Posterior Mean Lees Dichtheid van elk blok met behulp van onze BCMIX aanpassing

  1. De lees dichtheid van elk blok wordt gemodelleerd als een Poisson-verdeling, Pois t), met een gemiddelde parameter na een mengsel van Gamma distributies Γ (α, β), en een voorafgaande waarschijnlijkheid van een verandering punt dat op elk blokgrens p. Conditioning Pois t) G (α, β) maakt effectief het model een oneindige staat HMM. Schat de hyper-parameters, α, β, en p, met behulp van maximaal posterior kans.
  2. Expliciet berekenen van de Bayes schattingen voorelk blok, θ t, als E (θ t | γ Z). Naar voren Vervang de meer traditionele, maar tijdrovend en achteruit filters vaak gebruikt in HMM's, met de meer computationeel efficiënt Begrensd Complexiteit Mengsel aanpassing van posterior middelen schatten, θ c. De resulterende posterior middelen zal "glad" in een bij benadering stuksgewijze constante profiel, zodat blokken met identieke, θ c, moet verder worden geblokkeerd samen met de bijgewerkte grens coördineert zijn.

4a. Diffuse Lees Profielen: Post-proces Posterior Middelen in segmenten van Diffuse Verrijking

  1. Gebruik de cijfertoetsen van de input leest per elk nieuw θ c blok als de achtergrond tarief, Pois (λ a) en bepalen verrijking met behulp van een eenvoudige hypothese test op basis van de vraag of de chip achterste gemiddelde, θ c, hoger is dan een bepaalde drempel δ. De 90 ste </ Sup>-kwantiel is de standaard d en is in de meeste gevallen.
  2. Samenvoegen aangrenzende θ c blokken die de verrijking dan in een enkele regio en rapport samen te voegen coördinaten in eenvoudige BED-formaat. Als alternatief kan men rapporteren θ c voor elk blok in bedGraph formaat naar de hoge resolutie data van de lees dichtheid schattingen behouden.

4b. Punctata Lees Profielen: Post-proces Posterior Middelen in Peak Kandidaten

  1. De background rate, Pois (λ a), als het gemiddelde van alle gelezen tellingen (γ 2) en identificeren alle blokken die de drempel overschrijdt d. Omdat punctata pieken zullen naar verwachting meer substantieel verrijkt, wordt de standaard δ ingesteld op de 99 e-kwantiel van Pois (λ a).
  2. Stel het blok met de maximale θ c als de kandidaat-piek top en grenzen aan flankerende blokken die een soortgelijke lezen den delensiteit (± 1 LEES AANTAL mogelijk te maken lichte variatie). Deze aangrenzende gebied wordt gedefinieerd als een kandidaat bindingsplaats.
  3. Bereken λ 2 als de gemiddelde gelezen tellingen in de chip kandidaat bindingsplaats en hypothesetest dit tegenover ingang achtergrond waren de nulhypothese, H 0, is dat λ 1λ 2 en verwerpen H 0 op basis van een p-waarde drempel. Output kandidaat pieken in BED-formaat.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

BCP blinkt uit in het identificeren van gebieden van brede verrijking in histonmodificatie gegevens. Als referentiepunt, wij eerder vergeleken onze resultaten met die van SICER 3, een bestaande tool die heeft aangetoond een sterke prestatie. Om zo goed mogelijk te illustreren BCP's voordelen, onderzochten we een histon-eiwitten die goed had bestudeerd om een ​​stichting voor de beoordeling van het succes tarieven vast te stellen. Daarom hebben we vervolgens geanalyseerd H3K36me3, aangezien het blijkt sterk associëren met actief getranscribeerd gen organen (figuur 1). Daarentegen hadden H3K36me3 ook aangetoond dat wederzijds exclusief H3K27me3 repressieve merken. We verdere toepassing deze bekende relaties prestatievoordelen van BCP illustreren de nauwkeurigheid van eiland oproepen door het bepalen van de fractie van overlap met bekende verenigingen en disassociations in feite correlatie en anti-correlatie. Hier hebben we verder onderbouwen de voordelen van het BCP met behulp van extra voorbeeldenvan hoge prestaties.

Onze vorige werk toonde een neiging tot veel grotere eiland formaat in BCP, 23,9 tot 25,8 kb, dan SICER, 2,7 tot 10,7 kb; grotere eilanden die meer in overeenstemming is met de conventionele verwachting van brede diffuse eilanden van H3K36me3 verrijking (PLoS Comp Bio, submitted). Natuurlijk, grotere eilanden niet alleen wijzen op nauwkeurigheid. Dus, we bepaald hoeveel overlap van deze regio's hadden met de gekende genen en contrast dit met de mate van overlap met intergenisch ruimte, een indicatie van valse meldingen (FPR). Gene dekking in BCP varieerde 0,492 tot 0,497 in vergelijking met 0,276 tot 0,437 in SICER zonder ernstig gevolgen hebben voor het FPR; intergenische overlap bereik 0,89 tot 0,90 en 0,85 tot 0,98 in BCP en SICER, respectievelijk. Hier presenteren we een extra vertegenwoordiger regio weergeven van de nauwe relatie tussen de grenzen van verrijking en gen lichamen-een duidelijk onderscheid actieve en onderdrukkened transcriptie (figuur 1). Dit ondersteunt onze bewering dat BCP de hoge overlap van actieve genen handhaaft door H3K36me3 eilanden met grenzen nauw aan bij gen lichamen zonder verhoging van de mate van vals-positieve overlap met intergenisch ruimte, genen met onderdrukte transcriptie, of de H3K27me3 repressieve merk.

Terwijl de beoordeling van de reproduceerbaarheid van BCP-eiland noemt in twee herhaalde datasets, merkten we BCP geen last van een grote afhankelijkheid op read dekking diepte in de concurrerende algoritme, SICER. We bijkomend bewijs van robuustheid BCP en reproduceerbaarheid door onderzoek aanvullende verschillende gebieden tonen overeenstemming eiland grenzen ondanks de verminderde dekking diepte (gesimuleerd door bemonstering leest uit het volledige data set) (Figuur 2).

Om volledig aan te tonen de veelzijdigheid van BCP, kregen we een breed spectrum van histonmodificatie gegevens, met inbegrip van de punctata merks H3K27ac, H3K9ac en H3K4me3 en de diffuse merk H3K9me3 naast H3K27me3 en H3K36me3. We hebben deze datasets met behulp van de standaard-parameterinstellingen voor zowel BCP en SICER (figuur 3). Deze merken vertegenwoordigen een breed scala aan lezen dichtheid profielen en kunnen wij ons richten op een regio die veel van de functies die geassocieerd worden met hen illustreert. In het centrum ligt H3K36me3 verrijking aan de PXDN gen markering actieve transcriptie. Vallen onverwacht op de transcriptie start site zijn de aanvullende punctata, actieve merken H3K27ac, H3K9ac en H3K4me3. Net stroomafwaarts van PXDN wordt onderdrukt intergenische ruimte gekenmerkt door H3K27me3 verrijking. Op de tegenoverliggende flank ligt een H3K27me3 onderdrukte gen. Verplaatsen van een stap worden onderdrukt chromatine, zoals aangegeven door de aanwezigheid van H3K9me3 verrijking die lijkt te zwijgen van SNTG2 en MYT1L, misschien dan in een minder vluchtig dan H3K27me3 sense onderdrukking. Deze regio omvat het merendeel van de verschijnselen entegengegaan in ChIPseq van histon-modificaties en illustreert hoe het dynamische karakter van BCP kan zowel punctata acetylering en H3K4me3 merken te identificeren, terwijl op hetzelfde moment het onderscheid groot aaneengesloten eilanden van H3K27me3 en H3K9me3 repressie en H3K36me3 actieve transcriptie. Nogmaals, kan BCP zulke al deze analyses gewoon op standaard instellingen en, zoals blijkt, nog steeds kwaliteit resultaten te produceren, ongeacht het gegevenstype. Het algoritme is ook snel en efficiënt geheugen en dus heeft een praktisch nut dwingend.

Figuur 1
Figuur 1. Diffuse lezen dichtheid profielen van histon modificaties. H3K27me3 (boven) en H3K36me3 (onder) illustreren het brede, diffuse verrijking eilanden sterk geassocieerd met gen-organen (groene vakjes). H3K27me3 correleert met onderdrukte genen en intergene ruimte en anticorrelates met actief transcribed gen lichamen. Het tegenovergestelde geldt voor H3K36me3. Data is gevisualiseerd in de UCSC genoom browser ( http://genome.ucsc.edu ).

Figuur 2
Figuur 2. BCP is robuust en reproduceerbaar. Island dringt H3K36me3 in twee replicaten en bemonstering diepte van 30, 50 en 70% van de volledige herhaalde een dataset geanalyseerd met BCP. Tweede duplo met een aanzienlijk lager read dekking voor vergelijkbare eiland oproepen en de mate van overlap was sterk ongeacht bemonstering percentage behouden. Bovendien is de eilanden bleven nauwkeurigheid zoals te zien in de nauwe afstemming van grenzen met Refseq gen lichaam annotaties.

Figuur 3
Figuur 3. BCP een versatile algoritme dat kan worden toegepast op alle histonmodificaties gegevenstypen. BCP en SICER werden gebruikt om het gamma van data types te analyseren, uit punctata merken zoals H3K27ac, H3K9ac, en H3K4me3, merkenrecht verspreiden zoals H3K36me3, H3K27me3, en H3K9me3. Met behulp van de standaard parameters voor beide algoritmen, BCP eilanden vastleggen van de verrijkte dichtheid, ongeacht hun omvang, terwijl SICER vaak fragmenten regio's in veel sub-eilanden. Zelfs in de zeer brede en diffuse geval van H3K9me3, BCP heeft redelijke prestaties.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Wij hebben de ambitie om een ​​model voor het analyseren van ChIPseq gegevens die zouden kunnen identificeren zowel punctata en diffuse datastructuren even goed te ontwikkelen. Tot nu toe regio verrijking name diffuse regio's, die de veronderstelde verwachting groot eiland grootte weerspiegelen moeilijk te identificeren. Om deze problemen aan te pakken, hebben we gebruik gemaakt van de meest recente ontwikkelingen in de HMM-technologie, die veel voordelen ten opzichte van bestaande heuristische modellen en minder innovatief HMMs bezitten.

Ons model maakt gebruik van een Bayesiaans kader met expliciete formules. Dit is een cruciaal onderscheid met andere HMM's, omdat het ons in staat stelt te berekenen posterior middelen, de verwachte lezen dichtheid van elk segment, met eenvoudige berekeningen, in plaats van te vertrouwen op tijdrovende en computationeel dure simulaties zoals Markov-keten Monte Carlo methoden. Daarom zijn onze rekentijden en geheugen vereisten drastisch verminderd. Met behulp van high performance compute clusters wie dual core, 2,0 Ghz knooppunten met 2 GB 64-bits geheugen te analyseren ~ 23 miljoen H3K27me3 leest of ~ 21 miljoen H3K36me3 leest, BCP duurde minder dan een uur voor het hele genoom analyse in vergelijking met enkele uren tot dagen die nodig zijn voor andere methoden. Deze tijdwinst kan worden bereikt met slechts een bescheiden 2 GB geheugen.

Bovendien, ons model voorwaarden van de verschillende middelen van elk segment, dat wil zeggen. Pois (θ), onafgebroken gammaverdeling. In wezen, dit zorgt voor oneindig veel mogelijke toestanden voor elk segment. BCP kan meer dan eenvoudige binaire indelingen van verrijkte versus achtergrond en behoudt de lees-dichtheid grootheden voor elk segment via de uitgang achterste middelen.

We maken ook gebruik van de BCMIX algoritme voor de computationele efficiëntie. Dit maakt een bijna uitputtende zoektocht naar verandering-punten tussen verrijking en de achtergrond van alle mogelijke genomische posities. Dit geeft een verhoogde resolutie niet confined door willekeurig venster definities, met weinig invloed op het uitvoeren, of het geheugen eisen.

Dit is allemaal bereikt zonder verstoren nauwkeurigheid, zowel in de theorie, want het model is statistisch streng en de resultaten convergeren naar de Bayes-schatter, maar ook in de praktijk, zoals we hier hebben aangetoond. Het gen dekking van onze H3K36me3 resultaten suggereren het eiland gesprekken zijn zeer nauwkeurig zonder inbreuk te maken in bekende wederzijds uitgesloten intergeen ruimte of H3K27me3 verrijking. De resultaten zijn opmerkelijk reproduceerbaar en robuust en toonde weinig afhankelijkheid van de dekking diepte, bellen soortgelijke eilanden met hoge gen dekking en lage FPR ondanks bemonsteren diepte zo laag als 30%. BCP werd algemeen gebruikt zonder aanpassing van standaardparameters, een breed scala van histonmodificatie en transcriptie factor ChIPseq analyseren en goed in alle gevallen. Wij hopen dat door zijn hoge nauwkeurigheid, robuustheid en reproduceerbaarheid, BCP zal dienen als een effectieftool voor data-analyse, samenwerking en bevestiging in de toekomst.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Geen belangenconflicten verklaard.

Acknowledgments

STARR Foundation Award (MQZ), NIH subsidie ​​ES017166 (MQZ), NSF subsidie ​​DMS0906593 (HX).

Materials

Name Company Catalog Number Comments
Linux-based workstation

DOWNLOAD MATERIALS LIST

References

  1. Park, P. J. ChIP-seq: advantages and challenges of a maturing technology. Nat. Rev. Genet. 10, 669-680 (2009).
  2. Barski, A., et al. High-resolution profiling of histone methylations in the human genome. Cell. 129, 823-837 (2007).
  3. Zhang, Y., et al. Model-based Analysis of ChIP-Seq (MACS). Genome Biol. 9, R137 (2008).
  4. Zang, C., et al. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data. Bioinformatics. 25, 1952-1958 (2009).
  5. Jothi, R., Cuddapah, S., Barski, A., Cui, K., Zhao, K. Genome-wide identification of in vivo protein-DNA binding sites from ChIP-Seq data. Nucleic Acids Res. 36, 5221-5231 (2008).
  6. Qin, Z. S., et al. HPeak: an HMM-based algorithm for defining read-enriched regions in ChIP-Seq data. BMC Bioinformatics. 11, 369 (2010).
  7. Song, Q., Smith, A. D. Identifying dispersed epigenomic domains from ChIP-Seq data. Bioinformatics. 27, 870-871 (2011).
  8. Spyrou, C., Stark, R., Lynch, A. G., Tavaré, S. BayesPeak: Bayesian analysis of ChIP-seq data. BMC Bioinformatics. 10, 299 (2009).
  9. Lai, T., Xing, H. A simple Bayesian approach to multiple change-points. Statistica Sinica. , (2011).
  10. Robertson, G., et al. Genome-wide profiles of STAT1 DNA association using chromatin immunoprecipitation and massively parallel sequencing. Nat. Methods. 4, 651-657 (2007).
  11. Stitzel, M. L., et al. Global epigenomic analysis of primary human pancreatic islets provides insights into type 2 diabetes susceptibility loci. Cell Metab. 12, 443-455 (2010).
  12. Bernstein, B. E., et al. The NIH Roadmap Epigenomics Mapping Consortium. Nat. Biotechnol. 28, 1045-1048 (2010).
  13. Karolchik, D., et al. The UCSC Table Browser data retrieval tool. Nucleic Acids Res. 32, 493-496 (2004).
  14. Matys, V., et al. TRANSFAC: transcriptional regulation, from patterns to profiles. Nucleic Acids Res. 31, 374-378 (2003).
  15. Portales-Casamar, E., et al. JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 38, D105-D110 (2010).

Tags

Genetica Bio-informatica Genomics Moleculaire Biologie Celbiologie Immunologie chromatine immunoprecipitatie chip-Seq histon modificaties segmentatie Bayesiaanse Hidden Markov Models epigenetica
A Novel Bayesiaanse Change-point algoritme voor Genoom-brede analyse van diverse ChIPseq Data Types
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Xing, H., Liao, W., Mo, Y., Zhang,More

Xing, H., Liao, W., Mo, Y., Zhang, M. Q. A Novel Bayesian Change-point Algorithm for Genome-wide Analysis of Diverse ChIPseq Data Types. J. Vis. Exp. (70), e4273, doi:10.3791/4273 (2012).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter